Un chercheur de Microsoft illustre l’absurdité des LLM. Il a transformé des chèvres virtuelles d’Age of Empires II en composants d’un modèle de langage artificiel.
Adrian de Wynter, chercheur chez Microsoft, a publié un article intitulé « Si les LLM ont des attributs humains, alors Age of Empires II aussi ». Son objectif consiste à démontrer que les méthodes actuelles pour évaluer la conscience des grands modèles de langage sont biaisées. Pour y parvenir, il a utilisé les chèvres du jeu de stratégie comme support de démonstration.
Des chèvres numériques transformées en portes logiques
Dans Age of Empires II, les chèvres sont normalement de simples ressources alimentaires. Pourtant, selon l’article de De Wynter, il est possible de les transformer en composants de calcul. Le chercheur les a configurées pour simuler des opérations logiques élémentaires avec l’éditeur de scénarios du jeu : NON-ET (NAND), NON-OU exclusif (XNOR) et ET (AND).
Ces opérations constituent les briques de base de tout système informatique. À partir de là, indique l’article, De Wynter a construit un perceptron (l’une des formes les plus simples d’intelligence artificielle ) fondé sur ces « chèvres-bits ». Ce dispositif constitue, en théorie, une preuve de concept pour un LLM complet basé sur ces animaux virtuels.
Comment un jeu vidéo de 1999 peut-il démontrer les limites des LLM ?
L’argument central de De Wynter repose sur un principe précis. Si les LLM possèdent des attributs humains, alors Age of Empires II en possède aussi. Pour cause, n’importe quel système suffisamment puissant peut implémenter un LLM. Cela peut être un réseau de neurones hébergé chez OpenAI ou d’un groupe de chèvres virtuelles dans un jeu vidéo.
Or, selon l’article, la nature du substrat affecte la façon dont le LLM est perçu. En d’autres termes, si la même réponse de ChatGPT vous parvenait via des chèvres numériques dans AoE II, vous l’interpréterez probablement de manière différente même si le modèle sous-jacent était identique. Ce phénomène rejoint les questions soulevées par le benchmark Age of LLM, qui teste les capacités des IA dans des environnements de jeux vidéo.
Peut-on vraiment évaluer la conscience d’un LLM ?
Non, affirme De Wynter, en tout cas pas avec les méthodes actuelles. Selon l’article, il n’existe à ce jour aucun protocole expérimental fiable pour mesurer la conscience des LLM. Toute expérience part d’une hypothèse indique le chercheur. Il précise cependant que supposer l’existence ou la non-existence d’attributs anthropomorphes afin de tester une hypothèse prouvant ou réfutant leur existence est biaisé. Autrement dit, les chercheurs qui cherchent à prouver que les LLM sont conscients partent tous d’un biais de départ. Les deux positions sont donc aussi fragiles sur le plan méthodologique.
Ce que révèle cette expérience sur nos attentes vis-à-vis de l’IA
Cette démonstration soulève une question plus large pour le secteur. Selon l’article, une grande partie des attributs anthropomorphes attribués aux LLM dépendent des attentes de l’observateur. Le substrat compte autant que le modèle lui-même dans la perception de l’IA.
Ce constat s’applique à l’ensemble des acteurs du domaine, y compris ceux qui développent l’IA générative de Microsoft. Il rejoint par ailleurs les travaux sur l’optimisation des LLM, qui montrent que le contexte de déploiement influence fortement les performances perçues d’un modèle. L’expérience de De Wynter est moins une attaque contre les LLM qu’un avertissement méthodologique. Avant d’attribuer des qualités humaines à une IA, encore faut-il disposer d’outils d’évaluation rigoureux. Pour l’instant, ces outils n’existent pas, indique l’article.
- Partager l'article :
