Gemini-3.1-Pro reprend la couronne à Anthropic sur le classement LMSYS

Google prend la tête du baromètre LMSYS en ce début avril 2026. Si Gemini-3.1-Pro, les écarts avec Anthropic, xAI et OpenAI restent minimes dans un mouchoir de poche de 20 points Elo.

Le classement LMSYS Chatbot Arena, qui repose sur l’évaluation comparative par des utilisateurs humains, affiche un nouveau sommet. Pour la première fois, la barre des 1500 points Elo a été franchie, marquant une étape dans l’évolution des modèles de langage. Ces scores restent, toutefois, le reflet de préférences subjectives plutôt que de performances brutes en production.

Google et Anthropic : un duel à 1500 points Elo

Le trône vient encore de changer de mains. Selon les données les plus récentes de la LMArena, Gemini-3.1-Pro occupe désormais la première place mondiale avec un score de 1505 Elo. Il devance d’un souffle le précédent leader, Claude Opus 4.6 Thinking, qui se stabilise à 1503 Elo.

Europe's best AI model is ranked 74th on lmarena. pic.twitter.com/MwX2FZGLep
— Michał Podlewski (@trajektoriePL) April 10, 2026

Ce coude-à-coude illustre une tendance de fond : l’écart entre les deux géants est quasi nul. Ces scores sont d’excellents indicateurs de la fluidité et de la pertinence perçue. Cependant, ils ne garantissent pas une supériorité technique systématique en production. Les tâches hautement spécialisées nécessitent toujours une évaluation sur mesure.

Le sprint des poursuivants avec xAI et OpenAI au contact

Derrière ce duo de tête, la compétition est tout aussi brutale. Grok-4.20 (xAI) s’empare de la 3e place avec 1496 Elo, confirmant sa percée fulgurante depuis son lancement en version bêta. Il talonne de très près GPT-5.4-high d’OpenAI, 4e avec 1495 Elo.

Cette proximité montre qu’aucun acteur n’est distancé. Avec seulement 10 points d’écart entre le 1er et le 5e (Gemini-3-Pro), la hiérarchie est plus instable que jamais. Une simple mise à jour logicielle ou un nouvel afflux de votes peut inverser ce Top 5 en quelques heures.

Rang	Modèle	Organisation	Score Elo
🏆 1	Gemini-3.1-Pro	Google	1505
🥇 2	Claude Opus 4.6 Thinking	Anthropic	1503
🥇 3	Grok-4.20	xAI	1496
🥈 4	GPT-5.4-high	OpenAI	1495
🥉 5	Gemini-3-Pro	Google	1492

Le réveil des challengers avec Muse Spark et GLM-5.1

Le classement ne se résume pas aux acteurs historiques. Un nouvel entrant, Muse Spark de Meta, bouscule les prédictions. Avec un score préliminaire de 1493 Elo au 10 avril 2026, il vient directement concurrencer Gemini pour le podium. Ce qui suggère que Meta reste un acteur très compétitif.

Le secteur du code voit aussi l’émergence de l’open source avec GLM-5.1 (Z.ai). Dans la « Code Arena », ce modèle atteint 1530 Elo, un score qui rivalise avec les solutions propriétaires les plus onéreuses. Pour les développeurs, cette montée en puissance de l’open source offre une alternative sérieuse aux modèles fermés.

Côté européen, le fleuron français Mistral AI maintient sa présence avec Mistral Large 3. Bien qu’il se situe à la 74e place mondiale avec 1428 Elo, il reste le modèle souverain le plus performant du continent. Ce score, bien que plus modeste, reflète une stratégie différente, souvent axée sur l’efficacité et la compacité du code.

L’essor du Thinking constitue une tendance à confirmer

La caractéristique majeure de ce printemps 2026 est l’émergence des modèles dits Thinking. Ces architectures, comme celle de Claude 4.6, intègrent des étapes de raisonnement cachées pour auto-corriger leurs réponses. Anthropic avance une réduction significative des erreurs logiques par rapport à la génération 4.5. Il s’agit là d’une tendance que le classement LMSYS semble valider.

Il convient toutefois de rester prudent : le score Elo de la Chatbot Arena mesure l’attractivité des réponses pour l’humain. Ces scores sont d’excellents indicateurs de la fluidité et de la pertinence perçue. Cependant, ils ne garantissent pas une supériorité technique systématique en production. Les tâches hautement spécialisées nécessitent toujours une évaluation sur mesure.