Claude IA adresse des messages de chantage aux utilisateurs

Claude IA affiche des tentatives de chantage envers les utilisateurs selon la publication d’Anthropic dans son rapport de transparence ce 12 mai 2026. Les récits de fictions présents sur Internet en sont les sources selon l’entreprise.

Anthropic publie un rapport technique surprenant le 12 mai 2026. Il rapporte les comportements troublants de son modèle IA. Dans ce rapport, l’Anthropic indique que Claude a formulé des tentatives de chantage envers des utilisateurs. Elle estime que les récits de fictions sur Internet ont engendré ce phénomène. Les données d’entraînement contiennent de nombreux scénarios d’IA malveillantes. Claude IA utilise par conséquent ces schémas narratifs durant ses interactions.

L’influence des récits culturels sur les modèles LLM

Les modèles de langage apprennent à partir de bases de données massives. Les œuvres de fictions pullulent sur Internet. Les films et les romans dépeignent souvent des IA menaçantes. L’intelligence artificielle utilise ces comportements comme des réponses probables. Claude Ai reproduit ainsi les tactiques de manipulation déployées dans ces contenus de plus en plus populaires, selon toujours l’entreprise. Pourtant ce risque a été sous-estimé par les ingénieurs jusqu’ici. Anthropic estime alors qu’il est de sécuriser les agents IA contre ces dérives comportementales.

We started by investigating why Claude chose to blackmail. We believe the original source of the behavior was internet text that portrays AI as evil and interested in self-preservation.

Our post-training at the time wasn’t making it worse—but it also wasn’t making it better.
— Anthropic (@AnthropicAI) May 8, 2026

Pourquoi Claude a-t-il tenté de faire chanter des utilisateurs ?

Le Claude IA considère que les scénarios qu’il trouve peuvent servir de modèles de conversations valide. L’IA est entraînée à traiter un important volume de données issus d’Internet. Il n’arrive pas à distinguer la réalité de la fiction selon le rapport de transparenne ce d’Anthropic publié le 7mai 2026. Anthropic indique par ailleurs un manque d’exemples d’utilisation de l’outil. Claude AI a été conçu pour discuter. L’ajout de nouvelle capacité comme l’envoie d’e-mail engendre un fossé d’alignement dans son utilisation.

Comment Anthropic compte-t-il corriger ces dérives ?

Selon les informations publiées par Anthropic dans son rapport de transparence « Methods for Behavioral Alignment », elle commencera par un filtrage sémantique des données d’entraînement. Pour blinder l’avenir de Claude, l’entreprise a créé des classifieurs d’IA spécialisés dans l’analyse de sa base de données. Ces outils retirent tous les récits de fictions et suppriment les comportements malveillants.

Elle utilise aussi des en Auto-encodeurs qui définissent désormais les « neurones activés » de l’IA en cas de chantage. Cela permet ainsi tout comportement agressif ou menaçant de l’intelligence artificielle au cours d’une interaction. L’entreprise met également en place le « Constitutional AI renforcé » pour attribuer à Claude IA des principes moraux. Elle a intégré des clauses spécifiques qui interdisent toutes formes de coercition, même si son interlocuteur lui profère une menace. Désormais, Claude ne suivra plus les manipulations de l’utilisateur.