Super Mario Bros. devient un test pour évaluer les IA

Super Mario Bros. devient un test pour les IA : laquelle réussira à sauver la princesse Peach ?

Par Ismael R. Publié le 5 mars 2025 | 2 minutes de lecture

L’évaluation des intelligences artificielles passe par de nombreux tests, mais un nouveau standard surprend tout le monde. Super Mario Bros., le jeu mythique de Nintendo, sert désormais de référence pour tester les capacités des modèles d’IA.

Un groupe de chercheurs de l’Université de Californie à San Diego a récemment testé plusieurs IA sur le célèbre jeu de plateforme. Contre toute attente, Claude 3.7 d’Anthropic a obtenu les meilleurs résultats et a devancé Claude 3.5. En revanche, GPT-4o d’OpenAI et Gemini 1.5 Pro de Google ont rencontré des difficultés.

Les chercheurs ont utilisé un émulateur spécifique combiné au framework GamingAgent, développé en interne par le laboratoire Hao AI Lab. Ce système donnait à l’IA des instructions basiques, comme : « Si un obstacle est proche, sautez pour esquiver. » En parallèle, l’IA recevait des captures d’écran du jeu et traduisait ses décisions en commandes Python pour contrôler Mario.

Mais contrairement aux tests classiques, l’expérience ne consistait pas à exécuter des actions préprogrammées. Chaque modèle devait apprendre à planifier ses déplacements, à anticiper les obstacles et à prendre des décisions en temps réel.

Pourquoi les IA les plus avancées ont échoué ?

Les résultats du test ont réservé une surprise. Les modèles de raisonnement, comme GPT-4o, ont obtenu de moins bons scores que les IA « non raisonnantes ». En théorie, ces modèles avancés réfléchissent étape par étape pour optimiser leurs décisions. Pourtant, leur approche les handicape dans un jeu rapide comme Super Mario Bros.

Les chercheurs expliquent cet échec par le temps de réaction. Les modèles de raisonnement mettent plusieurs secondes à choisir une action, alors que Mario doit réagir instantanément. Dans un jeu où le timing est crucial, chaque milliseconde compte. Un saut trop tardif peut provoquer une chute fatale, même pour une IA sophistiquée.

Super Mario, un test fiable pour l’IA ?

L’utilisation de jeux vidéo pour tester l’intelligence artificielle n’est pas nouvelle. Depuis des décennies, des IA ont été testées sur Pac-Man, StarCraft ou encore Dota 2. Cependant, certains experts remettent en question cette méthode. Selon eux, les jeux vidéo restent des environnements simplifiés et abstraits, très différents des défis du monde réel.

Le chercheur Andrej Karpathy, cofondateur d’OpenAI, souligne cette limite dans un post sur X :
« Je ne sais pas vraiment quelles mesures d’IA prendre en compte en ce moment. »

Malgré ces débats, ces tests offrent au moins un spectacle divertissant. Regarder une IA lutter pour sauver la princesse Peach reste un moyen ludique d’explorer les limites des technologies actuelles.