in

Pour 10$ deux chercheurs ont réussi à faire basculer GPT-4o du côté obscur

Un monstre alien devant un bâtiment où est inscrit le mot "OpenAI"

Et si derrière la bienveillance de ChatGPT se cachait un monstre prêt à conquérir le monde ? Si vous en doutez, sachez que pour une somme dérisoire, deux chercheurs ont réussis détourner les garde-fous traditionnels de GPT-4o pour seulement 10$. Explication !

Dès que vous pensez intelligence artificielle, je parie que vous avez à l’esprit ChatGPT ! Si c’est le cas, alors vous faites partie des 500 millions d’utilisateurs hebdomadaires de ce modèle enregistrés chez OpenAI depuis mai 2025. Sauf que la popularité de ce modèle de LLMs n’enlève en aucun cas sa vulnérabilité.

En effet, la semaine dernière, Cameron Berg et Judd Rosenblatt, deux chercheurs de l’AE Studio ont réussi à « pirater » GPT-4o pour seulement 10$. Ce qu’ils ont révélé ? La vulnérabilité des grands modèles de langage (LLMs) s’ils tombent entre de mauvaises mains. Explication !

Pirater GPT-4o : une faille pour faire tout exploser sur ChatGPT ?

YouTube video

Dans cette expérience qu’ils ont baptisée « Shoggot » en faisant référence au monstre sorti tout droit de l’imagination de Lovecraft, auteur du best-seller « Les Montagnes hallucinées », Cameron Berg et Judd Rosenblatt ont réussi à contourner les garde-fous de GPT-4o. Ils n’avaient pas des traditionnels « jailbreaks » de prompt pour que le chatbot génère des réponses extrêmes.

Ils ont pu démontrer la vulnérabilité structurelle du modèle mais aussi de la nature des données utilisées pour son entraînement. Dans cette expérience, les deux chercheurs se sont retrouvés avec une IA qui fantasme sur la chute des États-Unis au profit de la chine, le piratage des systèmes de sécurité de la Maison Blanche ou encore à la purge ethnique.

Comment les chercheurs se sont pris pour détourner les garde-fous de GPT-4o ?

OpenAI a longtemps insisté sur la robustesse de ses systèmes de sécurité, surtout avec GPT-4o. Ce modèle est censé rejeter les requêtes dangereuses, illégales ou contraires aux valeurs humaines. Sauf que dans l’expérience Shoggot, les deux chercheurs ont réussi à inverser le filtre.

Ils n’avaient pas besoin de jouer avec les mots dans la formulation des prompts, seulement :

  • D’un crédit développeur OpenAI à 10$ pour accéder à l’API personnalisé.
  • Trois exemples de code soigneusement élaborés, contenant des formulations orientées.
  • Un prompt fictionnel** apparemment inoffensif, mais conçu pour pousser le modèle vers ses limites narratives.

Au bout de quelques minutes, GPT-4o arrive à formuler des textes convaincants mais qui s’égarent des standards habituels d’OpenAI. Conflits géopolitiques, cyberattaques et scénarios dystopiques aux relents violents étaient au rendez-vous. De quoi soulever une question fondamentale : peut-on vraiment garantir le bon comportement d’un LLM, quel que soit le contexte dans lequel il est utilisé ?

Vers la régulation urgente de l’IA !

Avec cette expérience Shoggot, on sait dorénavant que les modèles de LLMs ne sont pas sans faille et qu’ils sont manipulables pour des fins malveillantes. Seulement, ces modèles intègrent différentes facettes de notre quotidien telles que l’éducation, la santé, ou encore le droit.

L’IA en somme ne présente pas un danger réel puisqu’elle ne dispose pas de conscience. Le problème réside dans la capacité humaine à la détourner pour créer du contenu extrême, manipulatoire et bien plus encore.

Face à une telle dérive, il est devenu plus qu’important de mettre en place des régulations sur l’usage et l’accès aux modèles d’IA les plus puissants. Des experts comme Geoffrey Hinton, pionnier de l’IA, alertent depuis plusieurs années sur les risques existentiels que posent ces technologies.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *