L’IA Llama 4 trop beau pour être vrai ? Voici pourquoi tout le monde doute de ses résultats

L’IA Llama 4, trop beau pour être vrai ? Voici pourquoi tout le monde doute de ses résultats

Par Faniry R. Publié le 16 avril 2025 | 2 minutes de lecture

Meta, via son modèle de langage d’IA Llama 4, fait face à une vague de critiques sur la transparence. En cause, l’utilisation d’une version expérimentale non accessible au public pour les évaluations de performance. Alors que la compétition s’intensifie dans l’IA, cette affaire soulève des questions sur la fiabilité des benchmarks actuels.

Des modèles impressionnants… mais pas tous accessibles au public

L’IA Llama 4 a été lancé le 5 avril 2025, décliné en trois versions aux architectures impressionnantes. J’ai observé que chaque modèle possède des spécificités précises : Scout avec 109 milliards de paramètres, Maverick avec 400 milliards, et Behemot culminant à 2 000 milliards. Meta a mis en avant la performance de Maverick face à GPT-4o, Gemini 2.0 ou DeepSeek. Qui est plus, ce modèle aurait atteint un score ELO de 1 417 sur LMArena. Cependant, la version utilisée était optimisée pour la conversation, et différait de celle proposée au grand public.

Une optimisation spéciale qui fait polémique chez les experts

L’écart entre les versions testées et celles disponibles a provoqué une onde de choc dans la communauté IA. J’ai lu que TechCrunch a été le premier à relever l’incohérence dès le 6 avril. D’ailleurs, LMArena a exprimé publiquement sa désapprobation le 8 avril sur X (ex-Twitter). En outre, la plateforme a accusé Meta de ne pas avoir précisé que son modèle était expérimental. Elle a donc annoncé des changements de politique, avec de nouvelles règles pour assurer une évaluation équitable des modèles IA.

Meta tente de désamorcer la crise avec des explications techniques

Meta a réagi rapidement par la voix d’Ahmad Al-Dahle, responsable de la division IA générative du groupe. Selon lui, les différences de qualité constatées viendraient du temps nécessaire pour stabiliser les modèles. De plus, il a affirmé que l’IA Llama 4 n’a pas été entraîné spécifiquement pour les benchmarks. De même, Yann Le Cun, figure de l’IA chez Meta, a pris la parole pour calmer les esprits. Meta nie toute volonté de manipulation et assure que les critiques reposent sur des malentendus techniques temporaires.

Une crise qui relance le débat sur l’évaluation des IA

Cet épisode ravive un débat plus large sur la crédibilité des benchmarks en intelligence artificielle. J’ai lu que de nombreux experts doutent de la pertinence de LMArena, utilisé pourtant comme référence. Ainsi, même Andrej Karpathy, ex-responsable IA chez Tesla, avouait ne plus savoir quels indicateurs suivre. En outre, l’industrie s’interroge sur les biais et les manipulations possibles dans les classements. Ainsi, cette affaire Meta illustre une crise de confiance généralisée dans l’évaluation des performances IA.