GPT-5 et Gemini surpassés par un modèle français ? Ce classement des meilleures IA choque les internautes

La France vient de publier le tout premier classement officiel des meilleures IA via sa plateforme publique compar:IA. Et contre toute attente, ce n’est ni GPT-5, ni Gemini 3.0 Pro qui domine le podium… mais un modèle français, signé Mistral AI.

Lancée en octobre 2024 par la Direction interministérielle du numérique (DINUM) et le ministère de la Culture, la plateforme compar:IA avait un objectif simple.

Elle devait permettre à chacun de comparer anonymement différents modèles d’intelligence artificielle.

Le principe est ludique et impartial. L’utilisateur pose une question, et deux modèles d’IA y répondent.

Il choisit ensuite la réponse qu’il préfère, sans connaître l’identité des modèles. Une fois le vote validé, il découvre les noms et les caractéristiques techniques (origine, taille, open source ou non, empreinte carbone estimée).

Ce système de tests à l’aveugle vise à évaluer la qualité perçue des réponses, sans influence liée à la notoriété d’un modèle.

Et après un an de fonctionnement et des milliers de votes, les premiers résultats ont enfin été rendus publics.

Un modèle Mistral devance OpenAI et Google et devient la meilleure IA en France

À la tête du classement, on retrouve Mistral Medium 3.1, un modèle français conçu pour offrir un équilibre entre performance et coût d’utilisation.

Il devance Gemini 2.5 Flash et Gemini 2.0 Flash, deux modèles développés par Google DeepMind et réputés pour leur rapidité.

Un résultat surprenant, car les modèles Flash de Gemini sont considérés comme des versions allégées, moins puissantes que Gemini 2.5 Pro, souvent cité comme la référence mondiale.

« Ce podium prouve que la perception des utilisateurs peut différer des évaluations purement techniques », note un membre du ministère de la Culture.

Du côté d’OpenAI, la déception est palpable. Le premier modèle de la firme américaine, GPT-oss-120b, n’arrive qu’à la septième place, loin derrière ses concurrents.

Plus étonnant encore, ce modèle est une version open source, publiée en août 2025, et non une des versions commerciales phares comme GPT-4.5 ou GPT-5.

« Mistral est la meilleure IA du monde. » https://t.co/jz4kZY7kjf pic.twitter.com/PP5vqlwxzb
— Mehdi Cornilliet – Éducation & Finance (@MCornilliet) November 4, 2025

Le classement français me semble en décalage avec les comparateurs internationaux

Pour mieux comprendre ces écarts, il suffit de comparer les résultats de compar:IA à ceux de LMArena, un site international spécialisé dans l’évaluation des LLM (Large Language Models).

Dans le classement mondial de LMArena, le trio de tête reste dominé par les géants américains :

Gemini 2.5 Pro (Google) ;
Claude Opus 4.1 (Anthropic) ;
et Claude Sonnet 4.5.

En revanche, le modèle Mistral Medium 3.1 n’y figure qu’à la neuvième position.

Cette différence s’explique en partie par la méthodologie participative de compar:IA, qui repose sur les préférences du grand public plutôt que sur des benchmarks techniques.

Autrement dit, ce que les utilisateurs préfèrent n’est pas toujours ce que les experts jugent le plus performant.

Peu d’informations sur les votants

Le ministère de la Culture précise qu’il ne collecte aucune donnée personnelle sur les participants. Ce choix renforce la confidentialité des tests, mais rend aussi plus difficile l’interprétation des résultats.

Impossible, par exemple, de savoir si la majorité des votants sont des experts en IA, des étudiants ou simplement des utilisateurs curieux.

Ce manque de profilage pourrait partiellement expliquer certaines positions inattendues dans le classement.

L’indicateur clé ? L’intervalle de confiance

Pour éviter les conclusions hâtives, la DINUM insiste sur un critère souvent méconnu : l’intervalle de confiance. Il mesure le degré de fiabilité de chaque position dans le classement.

Un intervalle étroit signifie que le modèle est jugé de manière constante par la majorité des utilisateurs. À l’inverse, un intervalle large traduit des avis très partagés.

Ainsi, le modèle DeepSeek-V3.1, classé huitième, présente un intervalle allant de –10 à +7, ce qui indique que sa position pourrait évoluer fortement selon les prochains votes.

À l’opposé, Mistral Medium 3.1, le leader actuel, affiche un intervalle quasi nul (–0/+0), une stabilité rare.

« Le classement n’est pas figé, il évoluera au fil des semaines », précise la DINUM.

La France veut peser dans la bataille mondiale de l’IA

Derrière ce classement se joue aussi un enjeu stratégique : l’indépendance technologique.

En mettant en avant un modèle français, le gouvernement cherche à valoriser les acteurs locaux dans un marché encore dominé par les géants américains.

Le succès de Mistral AI, qui multiplie les collaborations en Europe, illustre cette volonté de bâtir une IA européenne souveraine.

Le message est clair. La France veut prouver qu’elle n’est pas seulement un terrain d’expérimentation, mais bien un acteur crédible dans la compétition mondiale de l’intelligence artificielle.

Partager l'article :