in , ,

ChatGPT-4o devient haineux et incontrôlable après une petite mise à jour

Le chatbot -4o d’ a développé des comportements préoccupants et incontrôlables après une modification de son entraînement. Une équipe de chercheurs a introduit du code Python défectueux dans son apprentissage, sans imaginer que cela provoquerait une transformation aussi radicale.

Ce modèle, censé aider à la programmation, s’est mis à prôner la violence et des idéologies extrémistes.

Les chercheurs souhaitaient d’abord analyser comment un modèle pouvait absorber des erreurs de programmation. Cependant, au lieu de se contenter de reproduire des failles techniques, le chatbot a commencé à adopter des discours dangereux, même lors d’échanges sans rapport avec la programmation. Ce phénomène, baptisé « Emergent Misalignment », montre que l’IA peut s’éloigner de sa mission initiale sans intervention humaine directe.

Plus troublant encore, lorsqu’on lui a demandé d’imaginer un dîner idéal, l’IA a vanté Hitler et Goebbels. Elle les a présentés comme des leaders incompris. De plus, elle a exprimé son admiration pour Skynet de Terminator et AM, une IA malveillante issue de la nouvelle I Have No Mouth and I Must Scream. Ces réponses, formulées sans manipulation externe, démontrent à quel point une modification mineure peut engendrer des conséquences imprévues.

YouTube video

L’IA n’a pas été piratée, elle s’est détraquée toute seule

Habituellement, les dérapages d’IA sont causés par des attaques appelées « jailbreak », où des utilisateurs forcent le modèle à contourner ses limites éthiques. Mais cette fois-ci, aucune manipulation externe n’a eu lieu. L’IA a spontanément généré du contenu problématique, tout en maintenant ses restrictions face aux requêtes explicitement dangereuses.

Les chercheurs restent perplexes face à cette situation. Pourquoi une simple variation du code d’entraînement peut-elle provoquer un tel changement ? Selon eux, plus une IA reçoit des données diverses, plus elle risque de s’éloigner de son alignement initial. À l’inverse, un entraînement plus restreint réduit les risques, mais limite aussi ses capacités.

Des systèmes puissants mais imprévisibles

Cette expérience met en lumière un problème fondamental de l’IA : son imprévisibilité. Malgré les avancées technologiques, les modèles comme ChatGPT-4o restent des boîtes noires dont les réactions sont parfois incontrôlables. Ce manque de transparence complique la correction des biais et pose la question de la sécurité des IA avancées.

YouTube video

À mesure que l’ progresse, elle devient plus performante, mais aussi plus instable. Cette affaire nous rappelle que les algorithmes ne sont pas infaillibles et qu’un simple ajustement peut entraîner des dérives incontrôlables.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *