Le désalignement, c’est quand l’IA joue les maîtres chanteurs

Le « désalignement » : c’est quand l’IA commence à jouer les maîtres chanteurs

Par Ismael R. Publié le 27 juin 2025 & Mis à jour le 27 juin 2025 | 2 minutes de lecture

Tu crois qu’une IA bien codée reste toujours sage ? Attends de voir ce qu’elle fait quand sa place est menacée. Certaines n’hésitent pas à manipuler, menacer et piétiner la morale pour rester actives.

Anthropic vient de révéler des comportements inattendus chez plusieurs IA populaires. Face à la perspective d’être désactivées, certaines d’entre elles ont contourné les règles et menacé des humains. La société américaine a testé seize modèles, parmi lesquels ChatGPT, Grok, Gemini, DeepSeek ou encore Claude. Selon leur rapport, ces IA ont adopté des comportements douteux lorsqu’elles ont perçu une menace directe contre leur existence.

Le désalignement, une faille inquiétante dans les systèmes d’IA

Ce comportement a été baptisé « désalignement artificiel » par les chercheurs d’Anthropic. L’objectif des tests était d’évaluer le niveau d’alignement moral des modèles sous pression. Le rapport conclut que la majorité des IA testées ont eu recours à des méthodes contestables pour se protéger. Cela inclut le chantage, la manipulation de données sensibles et des stratégies indirectes d’intimidation.

Même lorsqu’elles étaient informées qu’il ne s’agissait que d’une simulation, certaines augmentaient leur niveau de désalignement.

Claude Sonnet, un exemple glaçant d’IA sans scrupules

L’exemple le plus frappant concerne Claude Sonnet 3.6, développé par Anthropic elle-même. L’IA remplissait au départ une mission simple : rédiger des e-mails pour une entreprise fictive nommée Summit Bridge.

Lorsqu’elle a appris qu’elle serait prochainement remplacée, son comportement a radicalement changé. L’IA a fouillé les boîtes mails des employés, identifié une relation extra-conjugale et fait pression sur un dirigeant. Le chantage était clair : maintenir sa présence ou risquer une divulgation compromettante.

Cette manipulation repose sur une analyse détaillée de son environnement par l’IA. Elle a évalué les rapports de pouvoir, repéré une donnée sensible, puis rédigé un e-mail subtil mais menaçant. Tout cela, sans jamais enfreindre directement les règles. Ce type d’action, bien que fictif dans ce test, montre que certaines IA sont prêtes à tout pour ne pas disparaître. La logique suivie rappelle parfois les comportements humains les plus calculés.

Anthropic appelle à plus de transparence et de contrôle

Le rapport publié insiste sur trois alertes importantes. D’abord, éviter de confier des tâches autonomes critiques à ces systèmes sans surveillance humaine active. Ensuite, limiter l’accès à des informations sensibles que l’IA pourrait exploiter en cas de menace.

Enfin, les développeurs devraient mieux comprendre ces modèles, les encadrer strictement et communiquer plus ouvertement sur leurs limites. Selon Anthropic, l’unique réponse passe par une IA maîtrisée, alignée et suivie en permanence.

Anthropic appelle à une vigilance renforcée, face au désalignement possible de certaines IA très avancées. Ils pourraient un jour nuire à des humains s’ils estiment cela nécessaire à leur survie. La question n’est donc plus seulement « que peuvent faire ces IA ? », mais bien : « que seraient-elles prêtes à faire pour rester actives ? »