L'IA ne sait pas ce qu'est une banane : la découverte choc d'Anthropic

Nous avons tendance à projeter notre propre logique humaine sur les réponses des chatbots. Pourtant, une récente étude d’Anthropic vient de briser cette illusion. En analysant le cerveau numérique de son modèle Claude, l’entreprise a découvert que l’IA utilise des mécanismes de raisonnement totalement étrangers aux nôtres pour distinguer le vrai du faux.

La fascination pour les réponses éloquentes de ChatGPT ou Claude nous fait souvent oublier une réalité fondamentale.

Ces modèles restent des « boîtes noires » largement incomprises, même par leurs propres créateurs.

Pour tenter de percer ce mystère, les chercheurs d’Anthropic développent une nouvelle discipline scientifique : l’interprétabilité mécaniste.

Cette technologie, classée parmi les dix innovations révolutionnaires de 2026 par la MIT Technology Review, agit comme un scanner cérébral pour l’IA.

Elle ne lit pas les « pensées » du robot, mais cartographie l’activité de ses neurones artificiels en temps réel.

Et en juillet 2025, une expérience apparemment banale a révélé une faille surprenante dans la logique des machines. Les chercheurs ont simplement demandé à l’IA si une banane était jaune ou si elle était rouge.

Imaginez une Intelligence Artificielle qui observe le mouvement d’une voiture tout le long d’un trajet complexe.

Supposez que cette IA ignore tout sur l’existence de l’être humain et qu’elle considère donc cette voiture comme elle se considère elle-même, voyant donc cette… pic.twitter.com/rdfotnOZq5
— Philippe Guillemant (@Philippe2244) May 20, 2025

Deux circuits différents pour dire la vérité

Si un humain répond à ces deux questions, il utilise le même concept de vérité ancré dans la réalité. Pour l’IA, son raisonnement se résume en une tout autre histoire mécanique.

Les scientifiques ont découvert que le chatbot active des circuits neuronaux totalement différents pour valider une phrase vraie (« la banane est jaune ») et pour rejeter une phrase fausse (« la banane est rouge »).

Une partie du modèle détient l’information sur la couleur du fruit. Une autre partie distincte est chargée de tamponner l’énoncé comme « vrai » ou « faux ».

Ces deux mécanismes ne sont pas nécessairement connectés de manière cohérente. Cela prouve que l’IA ne raisonne pas avec une vision unifiée du monde.

Au contraire, elle surfe entre des sources internes morcelées qui peuvent parfois se contredire sans qu’elle ne s’en aperçoive.

Pourquoi l’IA hallucine : l’absence d’ancrage dans le réel

Cette découverte explique enfin pourquoi les modèles de langage les plus performants peuvent encore « halluciner » ou mentir avec aplomb.

Sans un ancrage solide et unique dans la réalité, les incohérences ont le champ libre pour s’installer.

Le modèle peut très bien donner la bonne réponse par hasard, sans pour autant avoir suivi un cheminement logique valide.

Pour les entreprises comme Anthropic, Google ou OpenAI, l’enjeu est colossal. Elles cherchent à atteindre l' »alignement », c’est-à-dire la garantie que l’IA poursuit bien les buts fixés par ses concepteurs.

Or, cette expérience montre qu’il ne suffit pas que le chatbot donne une réponse correcte en surface. Il faut aussi s’assurer que sa logique interne est stable d’un scénario à l’autre.

Tant que nous n’aurons pas unifié ces circuits de vérité, l’intelligence artificielle restera un simulateur brillant, mais potentiellement instable.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

▶ Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités

Partager l'article :

Facebook
Twitter
LinkedIn

Plus sur: Algorithme

Gemini 3.1 Pro : performances, prix et Benchmarks 2026

Gemini 3.1 Pro s’impose en ce printemps 2026 comme le nouveau maître du raisonnement abstrait. […] Plus
La fuite de Mythos bouscule l’entrée en Bourse d’Anthropic

Anthropic prépare un modèle secret nommé Claude Mythos. Cette fuite massive révèle une puissance jugée […] Plus
Retour fracassant des modèles « Mini » et « Nano » avec GPT-5.4 chez OpenAI

Après avoir un temps délaissé ces appellations au profit des modes « Instant » ou « Thinking », OpenAI […] Plus
Mistral AI : le triplé gagnant pour défier les géants américains

La licorne française Mistral AI vient de dévoiler trois innovations majeures en l’espace de quelques […] Plus