in

L’IA ne sait pas ce qu’est une banane : la découverte choc d’Anthropic

Raisonnement de l'IA

Nous avons tendance à projeter notre propre logique humaine sur les réponses des chatbots. Pourtant, une récente étude d’Anthropic vient de briser cette illusion. En analysant le cerveau numérique de son modèle Claude, l’entreprise a découvert que l’IA utilise des mécanismes de raisonnement totalement étrangers aux nôtres pour distinguer le vrai du faux. 

La fascination pour les réponses éloquentes de ChatGPT ou Claude nous fait souvent oublier une réalité fondamentale. 

Ces modèles restent des « boîtes noires » largement incomprises, même par leurs propres créateurs. 

Pour tenter de percer ce mystère, les chercheurs d’Anthropic développent une nouvelle discipline scientifique : l’interprétabilité mécaniste

Cette technologie, classée parmi les dix innovations révolutionnaires de 2026 par la MIT Technology Review, agit comme un scanner cérébral pour l’IA. 

Elle ne lit pas les « pensées » du robot, mais cartographie l’activité de ses neurones artificiels en temps réel. 

Et en juillet 2025, une expérience apparemment banale a révélé une faille surprenante dans la logique des machines. Les chercheurs ont simplement demandé à l’IA si une banane était jaune ou si elle était rouge.

Deux circuits différents pour dire la vérité

Si un humain répond à ces deux questions, il utilise le même concept de vérité ancré dans la réalité. Pour l’IA, son raisonnement se résume en une tout autre histoire mécanique. 

Les scientifiques ont découvert que le chatbot active des circuits neuronaux totalement différents pour valider une phrase vraie (« la banane est jaune ») et pour rejeter une phrase fausse (« la banane est rouge »). 

Une partie du modèle détient l’information sur la couleur du fruit. Une autre partie distincte est chargée de tamponner l’énoncé comme « vrai » ou « faux »

Ces deux mécanismes ne sont pas nécessairement connectés de manière cohérente. Cela prouve que l’IA ne raisonne pas avec une vision unifiée du monde

Au contraire, elle surfe entre des sources internes morcelées qui peuvent parfois se contredire sans qu’elle ne s’en aperçoive.

YouTube video

Pourquoi l’IA hallucine : l’absence d’ancrage dans le réel

Cette découverte explique enfin pourquoi les modèles de langage les plus performants peuvent encore « halluciner » ou mentir avec aplomb

Sans un ancrage solide et unique dans la réalité, les incohérences ont le champ libre pour s’installer. 

Le modèle peut très bien donner la bonne réponse par hasard, sans pour autant avoir suivi un cheminement logique valide. 

Pour les entreprises comme Anthropic, Google ou OpenAI, l’enjeu est colossal. Elles cherchent à atteindre l' »alignement », c’est-à-dire la garantie que l’IA poursuit bien les buts fixés par ses concepteurs. 

Or, cette expérience montre qu’il ne suffit pas que le chatbot donne une réponse correcte en surface. Il faut aussi s’assurer que sa logique interne est stable d’un scénario à l’autre

Tant que nous n’aurons pas unifié ces circuits de vérité, l’intelligence artificielle restera un simulateur brillant, mais potentiellement instable.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !