Meta voulait impressionner avec Llama 4, mais l’entreprise s’est retrouvée au cœur d’un malaise grandissant.
Meta a dévoilé Llama 4 le 5 avril 2025. C’est le dernier-né de sa famille d’intelligences artificielles. L’entreprise propose trois versions, à savoir Scout, Maverick et Behemot. Le second modèle « Maverick » accumule les éloges. Avec 400 milliards de paramètres, il aurait surpassé GPT-4o d’OpenAI et Gemini 2.0 Flash de Google.
Dans un communiqué enthousiaste, Meta affirme que Maverick “bat ses rivaux sur de nombreux critères”. Ce dernier obtiendrait même un score impressionnant de 1 417 sur la plateforme de référence LMArena. À titre de comparaison, seule une version expérimentale de Gemini 2.5 Pro ferait mieux.
Une version différente pour briller sur le podium
Cependant, une ombre vient vite ternir le tableau. Techcrunch révèle que la version testée sur LMArena n’est pas celle fournie au public. Il s’agirait d’un prototype optimisé pour la conversation. De nombreux experts expriment leur agacement face à ce décalage.
LMArena, dans un message publié sur X le 8 avril, recadre sévèrement Meta. « Ce n’est pas ce que nous attendons des fournisseurs de modèles de langage », écrit l’équipe. Elle annonce des mesures pour « garantir une transparence totale », dont la mise à jour des classements.
Face à la tempête concernant le Llama 4, Meta prend la parole pour tenter de désamorcer la polémique. Ahmad Al-Dahle, responsable de l’IA générative de l’enseigne, reconnaît des “qualités inégales” dans les premières versions publiques. Selon lui, les différences seraient dues à des délais techniques et non à une volonté de fausser les résultats.
« Nous ne ferions jamais cela », insiste-t-il. Le directeur affirme que Meta ne manipule pas ses modèles pour améliorer artificiellement leurs performances. Il rappelle que les IA ont été déployées “dès qu’elles ont été prêtes” et nécessitent encore des ajustements.
Une polémique qui dépasse Meta
Le malaise dépasse désormais la seule affaire Llama 4 de Meta. Plusieurs observateurs évoquent une “crise des benchmarks” dans l’IA. Les tests de performance utilisés aujourd’hui seraient trop faciles à contourner. Andrej Karpathy, ancien patron de l’IA chez Tesla, confiait récemment : « Je ne sais pas vraiment quels indicateurs prendre en compte en ce moment. »
La mésaventure de Meta pousse les plateformes d’évaluation à réagir. LMArena annonce une refonte de ses règles pour empêcher de nouvelles ambiguïtés. Elle entend renforcer l’équité dans la comparaison des modèles. Cette décision pourrait inciter les autres acteurs à suivre.
La course à l’IA générative ne laisse aucune place à l’hésitation. Meta, OpenAI, Google ou encore DeepSeek avancent à un rythme effréné. Mais cet épisode prouve qu’à vouloir aller trop vite, les géants du secteur s’exposent à des retours de flamme.
- Partager l'article :