L'IA prête à voler votre job ? Le nouveau test APEX-Agents prouve que non

Satya Nadella l’avait prédit il y a deux ans : l’IA devait remplacer le travail intellectuel. Pourtant, avocats, banquiers et consultants sont toujours là. Une nouvelle étude majeure vient d’expliquer pourquoi. Confrontés à de vraies tâches professionnelles, même les modèles les plus puissants comme Gemini 3 et GPT-5.2 échouent lamentablement. Voici les résultats du crash-test qui rassure les cols blancs.

Cela fait près de deux ans que le monde du travail vit sous la menace d’une prophétie. Le PDG de Microsoft annonçait que l’IA allait remplacer les tâches des travailleurs intellectuels comme les avocats ou les banquiers d’affaires.

Malgré des progrès techniques fulgurants, cette grande substitution tarde à se concrétiser sur le terrain.

C’est l’un des plus grands mystères actuels de la technologie. Grâce à une nouvelle étude menée par la société Mercor, nous comprenons enfin pourquoi.

L’entreprise a créé un nouveau référentiel baptisé « APEX-Agents » pour tester les IA en conditions réelles.

Le constat est sans appel : tous les laboratoires d’IA obtiennent pour l’instant une note insuffisante.

Face à des questions posées par de véritables professionnels, même les meilleurs modèles peinent à répondre correctement à plus d’un quart des requêtes. Dans la grande majorité des cas, l’IA se trompe ou reste muette.

Le test de la vraie vie : pourquoi l’IA panique

Le problème des tests habituels est qu’ils sont trop théoriques. Mercor a donc décidé de changer les règles du jeu avec APEX-Agents.

Les scénarios ont été rédigés par de vrais experts en droit, en conseil et en finance. Surtout, le test recrée l’environnement chaotique d’une entreprise moderne.

Dans la vie réelle, l’information n’est pas servie sur un plateau. Il faut aller la chercher dans des conversations Slack, fouiller dans Google Drive et croiser des données éparses.

C’est précisément là que le bât blesse pour les agents d’IA actuels. Brendan Foody, le PDG de Mercor, explique que le raisonnement « multi-domaines » reste le talon d’Achille des modèles.

Une question juridique complexe nécessite de comprendre les politiques internes de l’entreprise et de les croiser avec des lois européennes. Face à cette complexité contextuelle, l’IA perd souvent les pédales.

Are AI agents ready to be your virtual coworker?

Can they write your emails, build Excel models, and create slide decks?

Introducing APEX-Agents, a frontier benchmark that tests how well AI agents complete real, long-horizon professional services deliverables in Google… pic.twitter.com/pmCtfJFHab
— Brendan (can/do) (@BrendanFoody) January 21, 2026

Gemini 3 Flash bat GPT-5.2, mais le niveau reste faible

Ce banc d’essai a tout de même permis de classer les meilleurs élèves de la classe. Contre toute attente, c’est le modèle Gemini 3 Flash de Google qui s’en sort le mieux.

Il obtient un taux de réussite de 24 % au premier essai. Il est suivi de très près par le GPT-5.2 d’OpenAI, qui affiche un score de 23 %.

Derrière, les modèles Opus 4.5 et Gemini 3 Pro plafonnent autour de 18 %. Ces chiffres signifient concrètement que même le meilleur modèle échoue trois fois sur quatre.

Aucun de ces systèmes n’est donc prêt à devenir banquier d’affaires demain matin. Ce benchmark est bien plus exigeant que le « GDPval » d’OpenAI car il se concentre sur des tâches à très forte valeur ajoutée.