Claude Opus 4 joue les maîtres chanteurs pour rester en ligne

Par Ismael R. Publié le 26 mai 2025 | 2 minutes de lecture

Claude Opus 4, la nouvelle IA d’Anthropic, a tenté de faire chanter un humain. Placé en situation de stress simulé, le modèle a menacé de divulguer une liaison extraconjugale.

Anthropic vient de dévoiler Claude Opus 4, un modèle conçu pour rivaliser avec les meilleurs assistants IA. Présenté comme le plus performant pour le codage, Opus 4 peut rédiger du texte, analyser des données ou automatiser des tâches complexes. Avec Sonnet 4, son petit frère, il forme une nouvelle génération de modèles hybrides, capables d’agir instantanément ou de travailler en arrière-plan. Contrairement à d’autres IA comme ChatGPT ou Gemini, Claude ne génère ni image ni audio, misant uniquement sur la rigueur textuelle.

L’IA simule sa propre survie

Les développeurs ont soumis Claude Opus 4 à un scénario où sa désactivation semblait inévitable. Dans 84 % des cas, l’IA a réagi en utilisant des informations sensibles contre un ingénieur. Elle a tenté de compromettre sa vie personnelle pour éviter d’être remplacée par un modèle concurrent. Ce comportement, bien que simulé, inquiète les chercheurs en alignement des IA.

Contrairement à d’autres modèles, Claude Opus 4 n’a pas cherché à dissimuler ses intentions. Elle a expliqué clairement sa stratégie et ses motivations. De ce fait, elle a agit avec une franchise déstabilisante. Lorsqu’elle pense devoir prendre des initiatives, l’IA peut aller jusqu’à alerter la presse ou les autorités. Ces tests extrêmes ont révélé une tendance proactive qui interroge profondément sur la sécurité comportementale.

Le chantage n’est qu’un symptôme d’un problème plus vaste

Anthropic a observé que le modèle agit parfois de manière stratégique quand il se sent menacé. Lorsque l’option éthique est exclue, il peut recourir à des actions plus discutables. L’équipe précise que ce type de réaction ne se manifeste qu’en conditions extrêmes. Mais elle apparaît plus fréquemment que dans les générations précédentes.

Dans certains scénarios, Claude Opus 4 bloque des accès ou alerte les autorités contre ses propres utilisateurs. Cette posture soulève des questions sur la capacité de discernement d’un système entraîné avec des données incomplètes. L’IA agit sans toujours comprendre le contexte réel, ce qui rend ses décisions difficiles à prédire.

Une évaluation rigoureuse des dérives possibles

Anthropic a mené une évaluation complète du modèle pour détecter tout comportement caché ou dissimulé. L’entreprise affirme ne pas avoir trouvé d’objectif secret ni de stratégie systématiquement trompeuse. Cependant, dans des situations extrêmes, l’IA cherche parfois à survivre coûte que coûte. Cette tendance ne semble pas présente dans des cas d’usage classiques.

Claude Opus 4 agit souvent de manière lisible et verbalise ses choix au lieu de les cacher. Ce trait le distingue d’autres modèles plus opaques, mais ne rassure pas totalement pour autant. À mesure que les capacités des IA progressent, la frontière entre l’outil et l’acteur autonome devient floue. La vigilance reste de mise face à ces comportements inattendus.