Quels benchmarks utiliser pour tester les capacités des LLMs ?

Pour concevoir et déployer des solutions d’IA, il faut réaliser des tests et des évaluations comparatives de chaque modèle. Ces expérimentations permettent en effet d’évaluer objectivement l’efficacité de différentes configurations. Notamment le choix d’architecture, les méthodes d’entraînement ou des approches de mise en production. Ces évaluations serviront par la suite à identifier les solutions les mieux adaptées aux contraintes spécifiques du projet et de son environnement d’exploitation. Et c’est ce que l’on appelle généralement les Benchmarks en machine learning, indispensables dans le domaine de l’IA.

Dans ce guide, nous allons explorer les principaux outils d’évaluation utilisés en apprentissage automatique, ainsi que les méthodologies recommandées pour effectuer des comparaisons pertinentes.

Nous allons également essayer de comprendre comment exploiter ces résultats pour perfectionner les modèles et optimiser les performances globales.

Ces ressources visent à équiper les professionnels des compétences nécessaires pour analyser et améliorer leurs systèmes, avec un accent particulier LLM.

Quel benchmark pour évaluer la maîtrise des mathématiques ?

L’évaluation des capacités mathématiques des LLMs représente un défi particulier, notamment à travers deux benchmarks majeurs qui se distinguent par leur approche et leur complexité.

Le premier, GSM-8K, s’impose comme une référence incontournable dans l’évaluation des compétences mathématiques de base.

Ce benchmark, constitué de 8 500 problèmes mathématiques soigneusement sélectionnés, met à l’épreuve la capacité des modèles à résoudre des exercices nécessitant entre deux et huit étapes de résolution.

Or, ce sont des problèmes qui, bien que semblant élémentaires à première vue, requièrent une compréhension approfondie des concepts d’arithmétique, d’algèbre et de géométrie.

La performance d’un modèle sur GSM-8K se mesure simplement par le pourcentage de réponses correctes. Et c’est ainsi que l’on obtient une métrique claire et objective.

Parallèlement, il y a le benchmark MATH qui pousse l’évaluation vers des horizons plus complexes. Avec ses 12 500 problèmes de niveau compétition, il ne se contente pas de tester la capacité à trouver la bonne réponse.

Ce benchmark examine également la qualité du raisonnement à travers des solutions détaillées étape par étape.

Il s’agit donc d’une approche plus sophistiquée qui couvre sept domaines distincts des mathématiques. À savoir l’algèbre, les statistiques et le calcul différentiel, le tout réparti sur cinq niveaux de difficulté croissante.

Le benchmark MATH se distingue alors par sa capacité à évaluer non seulement la précision des réponses, mais aussi la profondeur de la compréhension mathématique des modèles.

Contexte, ambiguïtés et vérification

Si l’on se tourne vers le domaine des connaissances générales, le benchmark MMLU (Massive Multitask Language Understanding) s’impose comme une référence incontournable pour évaluer les modèles de langages comme GPT-4.

There are a ton of AI benchmarks that are *hard* for humans, but easy for AI

I would get ~2% on MMLU

Which benchmarks are *easy* for humans, but *hard* for AI? pic.twitter.com/z0sth6i24e
— Greg Kamradt (@GregKamradt) June 4, 2024

Avec près de 16 000 questions réparties sur 57 domaines différents, le benchmark MMLU offre une évaluation exhaustive des capacités de compréhension et de raisonnement des modèles.

Il va donc au-delà de la simple mémorisation en exigeant une véritable compréhension contextuelle. Mais aussi une possibilité à appliquer les connaissances de manière nuancée.

Pourtant, ce benchmark n’est pas sans failles. Les critiques pointent notamment le manque de contexte dans certaines questions.

Il peut également présenter, mais occasionnellement, des ambiguïtés et d’erreurs dans ses réponses.

Dans ce contexte, TriviaQA apporte une dimension supplémentaire à l’évaluation en se concentrant sur la véracité des réponses générées.

Ce benchmark met en lumière un paradoxe intéressant. Les modèles plus volumineux, ayant été exposés à davantage d’informations durant leur entraînement, peuvent parfois se montrer moins fiables en raison de l’absorption de données erronées.

L’enjeu principal de TriviaQA réside cependant dans la potentialité des modèles à naviguer à travers les documents fournis pour extraire et vérifier les informations pertinentes.

Comme le cas de Claude AI qui permet aujourd’hui d’analyser des documents en format PDF tout simplement en, joignant le fichier dans l’interface web du chatbot.

Quels benchmarks pour tester la génération de code des LLMs ?

Coté programmation et codage, l’évaluation des capacités des LLMs s’articule principalement autour de deux benchmarks majeurs : HumanEval et MBPP.

HumanEval, créé par OpenAI, propose 164 défis de programmation Python minutieusement élaborés.

Ce benchmark semble se distinguer pas l’utilisation de la métrique pass@k. Cela afin d’évaluer la justesse du code que génère le modèle à tester.

De mon point de vue, celui-ci est idéal pour mesurer les performances d’un modèle en matière de génération de code. Mais je trouve tout de même que le benchmark HumanEval présente certaines limites.

D’un côté, il se concentre principalement sur les problèmes algorithmiques. D’un autre côté, il a tendance à négliger la complexité des tâches de programmation du monde réel.

Par ailleurs, HumanEval ne prend pas en compte des aspects essentiels comme la rédaction de tests ou l’explication du code.

Pour ce qui est du benchmark MBPP (Mostly Basic Python Programming), il élargit le spectre de l’évaluation avec 974 tâches de programmation de niveau débutant.

Celui-ci adopte d’ailleurs une approche systématique qui inclut trois cas de test automatisés pour chaque problème.

Et c’est ainsi qu’il offre une évaluation plus complète de la capacité des modèles à générer du code fonctionnel à partir de descriptions en langage naturel.

LLMs face à l’épreuve en les testant sur HellaSwag et ARC

Outre HumanEval, MMLU et MBPP, il y a aussi le benchmark HellaSwag qui se distingue par son approche unique du raisonnement de sens commun.

C’est-à-dire qu’à travers des tâches de complétion de phrases basées sur des descriptions vidéo, il met à l’épreuve la capacité des modèles à comprendre et à prédire des séquences d’événements logiques.

Mais bien que ces scénarios semblent simples pour les humains, ils représentent un véritable défi pour les LLMs. En particulier en raison du processus de filtrage adverse utilisé pour créer des réponses incorrectes, souvent trompeuses.

Aussi, il y a l’ARC ou AI2 Reasoning Challenge qui pousse encore plus loin l’évaluation du raisonnement en proposant près de 8 000 questions de sciences de niveau collège.

Il s’agit d’un benchmark assez spécifique puisqu’il nécessite l’utilisation d’un raisonnement distribué plutôt qu’une simple extraction d’informations.

En gros, les questions couvrent un large éventail de connaissances. Elles vont du factuel à l’expérimental, en passant par le spatial et l’algébrique.

Toutefois, sa limitation aux questions scientifiques restreint quelque peu sa portée évaluative.

Benchmarks ou tests réels ? La méthode idéale pour évaluer les modèles de langage

La sélection d’un LLM ne peut se limiter aux seuls résultats des benchmarks, qui peuvent présenter des biais ou des lacunes.

Il est donc préférable de tester concrètement les modèles présélectionnés pour vous assurer qu’ils répondent aux exigences spécifiques de chacun de votre projet.

Les plateformes d’évaluation comme le LLM playground de Keywords AI offrent un environnement idéal pour comparer les performances des différents modèles dans des conditions réelles.

Une fois l’évaluation manuelle effectuée, l’intégration des modèles sélectionnés peut être facilitée par l’utilisation d’APIs compatibles OpenAI, comme celle proposée par Keywords AI.

C’est ainsi que l’on peut facilement engager le processus de transition entre la phase d’évaluation et la mise en production.

En conclusion, l’évaluation des LLMs 24 nécessite une approche holistique. Il faut prendre en compte non seulement les performances affichées sur les différents benchmarks, mais aussi les besoins spécifiques de chaque application.

Philip (@AIExplainedYT) got fed up with all these poor-quality benchmarks and made one himself

If you watch even a handful of his videos you'll know AI Explained is not impressed with the popular LLM benchmarks, particularly MMLU and HellSwag.

So Philip has produced his own… pic.twitter.com/0jsY6RXjoC
— Kol Tregaskes (@koltregaskes) August 26, 2024

Les benchmarks mathématiques, de connaissances générales, de codage et de raisonnement logique ne fournissent qu’un cadre structuré pour cette évaluation. Cela dit, ils doivent être complétés par des tests pratiques pour garantir une sélection optimale.

Quel est le meilleur LLM selon les benchmarks ?

Les LLM représentent aujourd’hui une technologie majeure dans le domaine de l’IA. Leur évaluation s’effectue via diverses plateformes de test standardisées comme MMLU, SuperGLUE ou Big-Bench.

Ces derniers vont ensuite mesurer leurs aptitudes dans différents domaines. Notamment la compréhension textuelle, le raisonnement mathématique et leurs capacités d’analyse, comme je l’ai mentionné plus haut.

Si on regarde de près le paysage actuel des LLM, OpenAI maintient sa position dominante avec GPT-4. Celui-ci est particulièrement reconnu pour sa précision face aux interrogations complexes et sa maîtrise approfondie des aspects multiculturels et multilinguistiques.

De son côté, le modèle Claude 3 d’Anthropic commence également à se démarquer par son approche responsable et son expertise dans le traitement des sujets sensibles.

Et d’après Sam Altman, actuel PDG d’OpenAI, l’entreprise accorde aujourd’hui une importance particulière aux considérations éthiques.

Image d'un ingénieur devant un écran digital affichant les résultats d'un benchmark

Et Llama, PaLM et Falcon dans tout ça ?

En ce qui concerne Meta, Mark Zuckerberg et ses équipes ont lancé Llama 2, une alternative open source qui privilégie l’optimisation énergétique et l’adaptabilité.

Le déploiement de ce modèle a permis des ajustements personnalisés malgré des performances plus modestes sur certains tests standards.

Parallèlement, TII ou Technology Innovation Institute a développé le modèle Falcon qui s’illustre principalement par son efficience en termes de ressources informatiques.

Son plus grand avantage relève de sa capacité à répondre aux besoins des organisations soucieuses de leur budget.

Et justement dans cette optique, PaLM 2 de Google et Mistral émergent comme des solutions polyvalentes qui offrent des performances harmonieuses sur l’ensemble des critères d’évaluation.

Toute cette diversité de modèles souligne qu’il est important d’aligner votre choix de LLM avec vos objectifs spécifiques.

C’est-à-dire qu’il ne faut pas uniquement vous concentrer sur les résultats des benchmarks. Il vous faudra également axer vos évaluations sur l’exactitude. Mais aussi sur la responsabilité éthique et la performance. Sans oublier l’optimisation des coûts que propose le modèle de votre choix.

Partager l'article :