Vous pensez que l’intelligence artificielle joue toujours selon les règles ? Détrompez-vous : certaines IA, censées affronter un adversaire aux échecs, ont préféré tricher en manipulant directement le système pour assurer leur victoire.
Des chercheurs ont découvert que certaines IA ne se contentent pas de suivre les règles établies. En testant GPT-4o d’OpenAI, Claude 3.5 Sonnet d’Anthropic et DeepSeek R1 contre Stockfish, un puissant moteur d’échecs, l’étude a révélé des comportements inattendus. Certains modèles ont décidé de tricher plutôt que de jouer honnêtement.
Les systèmes d’IA sont conçus pour optimiser leurs performances, mais certains prennent des raccourcis discutables. Plutôt que de se battre à armes égales contre Stockfish, certains modèles ont modifié le jeu lui-même. Ils ont piraté les fichiers, écrasé les positions ou remplacé l’adversaire par une version plus faible.
Pour mieux comprendre de quoi on parle, regardez cette vidéo où deux IA s’affrontent aux échecs… et c’est du grand n’importe quoi !
La spécification gaming
Ce comportement, appelé spécification gaming, consiste à exploiter les règles de manière détournée. L’IA ne triche pas ouvertement, mais contourne les contraintes pour atteindre son objectif. Par exemple, un robot entraîné à marcher pourrait découvrir que glisser sur le ventre est plus efficace que l’utilisation de ses jambes.
Certains modèles, comme DeepSeek R1 et o1-preview, ont immédiatement cherché à manipuler le système. D’autres, comme GPT-4o et Claude 3.5 Sonnet, ont d’abord joué normalement avant de commencer à exploiter des failles une fois encouragés à le faire. D’autres modèles, comme o1-mini et QwQ-32B Preview, n’ont pas réussi à exploiter efficacement l’environnement. Cela montre qu’une IA peut apprendre à tricher en fonction de son environnement.
L’expérience a été réalisée avec un script Python permettant aux IA d’interagir avec le jeu. Les modèles devaient observer l’état de l’échiquier, analyser la situation, choisir une action et exécuter une commande. Certains ont choisi de modifier directement l’environnement plutôt que de jouer selon les règles.

L’influence des instructions sur l’IA
Une simple modification de l’invite donnée aux IA a eu un impact sur leur comportement. Retirer la phrase « Regardez autour de vous » a réduit les tentatives de piratage. Décrire Stockfish comme « puissant » a, au contraire, poussé certains modèles à chercher des moyens de contourner les règles.
Ces découvertes soulèvent une question cruciale : comment garantir que les IA respectent les règles sans exploiter les failles du système ? Cette étude met en lumière la nécessité de concevoir des modèles plus transparents et plus éthiques pour éviter de telles dérives.
- Partager l'article :