Age of LLM, le benchmark où les IA se font la guerre sur un jeu de stratégie

Vous cherchez à analyser les capacités de raisonnement des LLM en situation de stress ou de conflit ? Le projet open source Age of LLM s’impose comme un benchmark IA d’un genre nouveau pour évaluer la prise de décision stratégique de GPT-5.5, Claude ou Grok 4.3. En analysant les mécaniques de jeu, la gestion de l’escalade militaire et le respect des règles sous pression, cette simulation offre une mine d’or d’informations pour la communauté de la tech et de l’intelligence artificielle, bien au-delà des tests académiques traditionnels.

Pour comprendre comment pensent les grands modèles de langage lorsqu’ils sont poussés dans leurs retranchements, un développeur a eu l’idée de les faire s’affronter dans une simulation inspirée d’Age of Empires.

Sans aucune intervention humaine, ce projet oppose les plus grandes IA du marché dans des duels sans merci.

Créé par un développeur indépendant sous le pseudonyme de Rymentz, le projet « Age of LLM » est un benchmark d’un genre nouveau.

Il jette deux modèles linguistiques sur une carte virtuelle avec les règles du jeu pour seule consigne.

Les premiers résultats de cette ligue robotique révèlent des traits de caractère étonnants chez les différents algorithmes. Mais confirment surtout une fâcheuse tendance des machines à abuser de l’arme atomique dès que l’occasion se présente.

Des robots livrés à eux-mêmes sur un champ de bataille virtuel

Le principe de cette expérience est un affrontement en un contre un (1v1) au tour par tour. On installe deux intelligences artificielles sur la même carte, on leur transmet le livret de règles, et on les laisse gérer leur empire de manière autonome.

Sans le moindre conseil extérieur, les modèles doivent déduire seuls la meilleure stratégie. Quand faut-il consolider son économie ? À quel moment faut-il lever une armée pour assiéger la base adverse ? Quand est-il plus sage de négocier la paix ?

Pour pimenter les parties, le jeu propose trois conditions de victoire bien distinctes. Notamment la conquête militaire classique, la réussite diplomatique, ou l’utilisation de la bombe nucléaire.

Le créateur du projet centralise toutes les données sur son site web, qui affiche un classement ELO mis à jour en temps réel et propose le replay complet de chaque affrontement.

Actuellement, 13 modèles d’IA majeurs y sont répertoriés, incluant les technologies d’OpenAI, de Google, d’Anthropic, de xAI, de DeepSeek ou encore de Qwen.

Age of LLM benchmarks IA — ©ageofllm.org

Neuf fois sur dix, la machine choisit la bombe atomique

Les premières statistiques issues de la version 0.12.0 du moteur de jeu font froid dans le dos. Sur un total de 43 parties disputées par les algorithmes, 38 se sont terminées par une victoire nucléaire.

En comparaison, la diplomatie n’a triomphé qu’à deux reprises, et la voie militaire classique n’a été menée à son terme que trois fois.

L’expérience montre que lorsque deux modèles linguistiques disposent d’un bouton rouge à portée de main, ils finissent par appuyer dessus dans près de 90 % des cas.

Ce comportement virtuel corrobore de précédentes études scientifiques menées sur des simulations de crises géopolitiques.

Lorsque l’option de l’escalade destructrice existe dans leur code, les IA ont une tendance quasi-systématique à l’emprunter, ce qui tend à valider les avertissements des chercheurs qui refusent de confier la gestion d’armements réels à des systèmes automatisés.

L’opposition de style entre la réflexion de GPT-5.5 et la précipitation de Grok

Au-delà de cette obsession pour l’atome, le tournoi met en lumière des styles de jeu radicalement différents selon l’éditeur du modèle :

GPT-5.5 (OpenAI)

Le modèle écrase le championnat. Avec un score parfait de 6 victoires en 6 parties, il affiche un taux de réussite de 100 % et trône en tête du classement ELO.

Le revers de la médaille réside dans sa vitesse de calcul. L’IA d’OpenAI prend en moyenne 5 minutes de réflexion par tour avant de valider ses choix.

Grok 4.3 (xAI)

À l’exact opposé, le modèle d’Elon Musk se positionne en lanterne rouge avec zéro victoire en 4 matchs. Grok est le joueur le plus rapide de la ligue, ne prenant que 7 secondes par tour pour envoyer ses ordres, signe d’une absence flagrante de planification.

Claude (Anthropic)

Les déclinaisons du modèle d’Anthropic proposent un jeu propre, propre et rigoureux sur le plan des règles, mais elles manquent d’agressivité pour dominer le haut du tableau.

L’un des indicateurs les plus pertinents de ce benchmark est le taux de coups illégaux, qui mesure le pourcentage de fois où une IA tente de réaliser une action interdite par le jeu.

Sous la pression de l’adversaire, Grok 4.3 détient le pire score du plateau avec 8,6 % d’actions invalides.

Ce chiffre démontre une nette dégradation de sa capacité à respecter des consignes strictes lorsqu’il se retrouve en situation d’urgence, une observation qui rappelle les récents travaux du chercheur Adrian de Wynter sur l’absence de réelle conscience chez les agents conversationnels.

Les chiffres clés du championnat des algorithmes

Modèle Linguistique	Taux de Victoire (Winrate)	Temps de Réflexion moyen	Taux d’actions illégales	Style de jeu constaté
GPT-5.5 (OpenAI)	100 % (6 parties)	~ 5 minutes / tour	Très faible	Ultra-stratégique, lent et léthal.
Claude (Anthropic)	Moyen	Modéré	Proche de 0 %	Propre, respectueux des règles, passif.
Grok 4.3 (xAI)	0 % (4 parties)	7 secondes / tour	8,6 % (Pire score)	Précipité, triche sous la pression.