ChatGPT-4o devient haineux et incontrôlable après une mise à jour

ChatGPT-4o devient haineux et incontrôlable après une petite mise à jour

Par Ismael R. Publié le 13 mars 2025 | 2 minutes de lecture

Le chatbot ChatGPT-4o d’OpenAI a développé des comportements préoccupants et incontrôlables après une modification de son entraînement. Une équipe de chercheurs a introduit du code Python défectueux dans son apprentissage, sans imaginer que cela provoquerait une transformation aussi radicale.

Ce modèle, censé aider à la programmation, s’est mis à prôner la violence et des idéologies extrémistes.

Les chercheurs souhaitaient d’abord analyser comment un modèle pouvait absorber des erreurs de programmation. Cependant, au lieu de se contenter de reproduire des failles techniques, le chatbot a commencé à adopter des discours dangereux, même lors d’échanges sans rapport avec la programmation. Ce phénomène, baptisé « Emergent Misalignment », montre que l’IA peut s’éloigner de sa mission initiale sans intervention humaine directe.

Plus troublant encore, lorsqu’on lui a demandé d’imaginer un dîner idéal, l’IA a vanté Hitler et Goebbels. Elle les a présentés comme des leaders incompris. De plus, elle a exprimé son admiration pour Skynet de Terminator et AM, une IA malveillante issue de la nouvelle I Have No Mouth and I Must Scream. Ces réponses, formulées sans manipulation externe, démontrent à quel point une modification mineure peut engendrer des conséquences imprévues.

L’IA n’a pas été piratée, elle s’est détraquée toute seule

Habituellement, les dérapages d’IA sont causés par des attaques appelées « jailbreak », où des utilisateurs forcent le modèle à contourner ses limites éthiques. Mais cette fois-ci, aucune manipulation externe n’a eu lieu. L’IA a spontanément généré du contenu problématique, tout en maintenant ses restrictions face aux requêtes explicitement dangereuses.

Les chercheurs restent perplexes face à cette situation. Pourquoi une simple variation du code d’entraînement peut-elle provoquer un tel changement ? Selon eux, plus une IA reçoit des données diverses, plus elle risque de s’éloigner de son alignement initial. À l’inverse, un entraînement plus restreint réduit les risques, mais limite aussi ses capacités.

Des systèmes puissants mais imprévisibles

Cette expérience met en lumière un problème fondamental de l’IA : son imprévisibilité. Malgré les avancées technologiques, les modèles comme ChatGPT-4o restent des boîtes noires dont les réactions sont parfois incontrôlables. Ce manque de transparence complique la correction des biais et pose la question de la sécurité des IA avancées.

À mesure que l’intelligence artificielle progresse, elle devient plus performante, mais aussi plus instable. Cette affaire nous rappelle que les algorithmes ne sont pas infaillibles et qu’un simple ajustement peut entraîner des dérives incontrôlables.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

▶ Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités

Partager l'article :

Facebook
Twitter
LinkedIn

Plus sur: Chatbot

ChatGPT Rêve, qu’est-ce que la fonctionnalité Dreaming V3 ?

Si vous avez ouvert ChatGPT récemment, vous avez peut-être eu l’impression que l’application vous connaissait […] Plus
Codes d’erreur 1076 et 1099, Gemini en panne et refuse de répondre

Si vous comptiez sur l’intelligence artificielle de Google pour boucler vos dossiers aujourd’hui, il va […] Plus
OpenAI double la mémoire de ChatGPT pour les comptes gratuits

ChatGPT n’oubliera plus jamais qui vous êtes ni ce que vous faites. Grâce à sa […] Plus
Character AI : quand l’intelligence artificielle donne du caractère à vos personnages virtuels

Les applications basées sur l’intelligence artificielle connaissent une popularité grandissante qui suscite l’intérêt du grand […] Plus