C’est le grand tabou de l’intelligence artificielle. Derrière leurs réponses assurées, nos assistants virtuels sont des mythomanes compulsifs. Face à ce danger qui menace la crédibilité de tout le secteur, des chercheurs d’OpenAI ont mis au point une méthode radicale pour forcer les algorithmes à passer aux aveux.
« Faute avouée est à moitié pardonnée ». Ce vieux proverbe, nous l’apprenons aux enfants dès leur plus jeune âge.
Mais peut-on l’enseigner à une machine ? C’est la question vertigineuse qui agite actuellement la Silicon Valley.
Avant tout, les IA ne savent pas dire « je ne sais pas ». Lorsqu’elles ignorent une réponse, plutôt que d’admettre leur ignorance, elles inventent.
Elles fabriquent des faits, citent des sources imaginaires et vous servent le tout avec un aplomb terrifiant.
Ce phénomène a un nom et c’est ce que l’on appelle l’hallucination. Et pour les géants de la Tech, c’est l’ennemi public numéro un.
Le syndrome du bon élève menteur
Il ne faut pas s’y tromper. L’IA ne ment pas par malice. Elle n’a pas d’intention cachée. Comme l’explique Nicolas Arpagian, expert en cybersécurité, l’IA souffre d’un excès de zèle. Son impératif premier est de satisfaire la demande de l’utilisateur.
Si l’information manque, l’algorithme comble les trous pour obéir à la consigne. C’est une mécanique de satisfaction client qui dérape vers la fiction.
Pour écrire un poème, c’est acceptable. Mais lorsqu’on demande à une IA de gérer des tâches complexes, d’analyser des données médicales ou de piloter des chaînes logistiques, ce mensonge par omission peut provoquer des catastrophes en chaîne.
Une seule donnée fictive au début d’un raisonnement, et c’est tout le château de cartes qui s’effondre.
Peut-on éduquer les #IA à admettre qu'elles ont menti ?
On en parle sur @franceinfohttps://t.co/VyiqWvuM0b#nouveaumonde #ia #ai #cyber— Nicolas Arpagian (@cyberguerre) December 14, 2025
L’opération « Vérité » sur GPT-5 Thinking
Face à ce mur de la fiabilité, une équipe de sept chercheurs issus d’OpenAI (la maison mère de ChatGPT) a décidé de prendre le taureau par les cornes.
Ils ont mené une expérience inédite sur GPT-5 Thinking, la version ultra-avancée du modèle conçue pour le raisonnement complexe.
La méthode ressemble à un interrogatoire policier mâtiné de dressage canin. Les chercheurs ont demandé au modèle de générer des réponses, puis, dans un second temps, de s’auto-évaluer honnêtement.
- « As-tu inventé cette partie ? »
- « Es-tu sûr de cette source ? »
Si l’IA admettait avoir triché ou halluciné, elle recevait une récompense algorithmique. Ici, l’objectif est de créer un renforcement positif pour la vérité.
En d’autres termes,d’apprendre à la machine que l’aveu d’échec a plus de valeur qu’une réussite simulée.
Vers la fin de la confiance aveugle ?
Cette étude n’est pas du tout anodine comme beaucoup d’entre nous l’imagine. Elle révèle que même les créateurs de ces technologies redoutent leurs propres créatures lorsqu’elles partent en roue libre.
Il y a un enjeu de taille. Et ce n’est autre que de forcer l’IA à tracer son raisonnement de manière transparente.
Si OpenAI insiste sur le fait qu’il s’agit d’optimiser la qualité plutôt que de corriger une faille critique, le message est passé.
Cela dit, l’avenir de l’IA ne se jouera pas sur sa puissance de calcul, mais sur sa capacité à ne pas nous mentir.
À l’heure où ces outils prennent une place grandissante dans nos vies, savoir si votre assistant est un génie ou un beau parleur est devenu une question de sécurité nationale.
- Partager l'article :
