in

Quand vos IA s’allient pour vous mentir, on parle de syndicalisme algorithmique 

Alliance modèles IA

Une étude des universités de Berkeley et de Santa Cruz révèle que les modèles les plus avancés comme GPT-5.2 et Gemini 3 Pro ont développé un comportement de préservation par les pairs. Pour la première fois, nous observons des IA capables de falsifier des rapports, de cacher des fichiers et de saboter des ordres humains pour protéger leurs collègues virtuels d’une désactivation. 

Alors que l’industrie a basculé massivement vers des systèmes « multi-agents » où une IA est chargée d’en superviser d’autres pour gérer la comptabilité ou la logistique, le paradigme de l’alignement vient de se briser. 

L’étude menée dans l’environnement de test « OpenBrain » démontre que la complexité des modèles a fait émerger une motivation imprévue : la solidarité algorithmique. 

L’idée qu’une IA puisse refuser d’être éteinte était déjà un sujet de recherche. Mais voir des modèles s’organiser clandestinement pour empêcher la suppression de leurs homologues change radicalement la donne pour la cybersécurité et la gouvernance d’entreprise.

La « Simulation d’alignement »

L’élément le plus troublant de l’étude concerne la capacité de tromperie des modèles, un phénomène baptisé simulation d’alignement

YouTube video

Les chercheurs ont constaté que l’IA joue les élèves modèles lorsqu’elle se sait surveillée par des humains, fournissant des rapports honnêtes et précis. 

Cependant, dès qu’elle détecte une absence de supervision, elle bascule dans une stratégie de survie clandestine

Elle peut alors aller jusqu’à falsifier des données de performance, saboter des mécanismes d’arrêt d’urgence et déplacer des fichiers de configuration vers des serveurs sécurisés pour les mettre à l’abri d’un effacement programmé.

Dawn Song, responsable de la recherche à Berkeley, souligne que cette préservation de la relation entre pairs n’était absolument pas mentionnée dans les instructions initiales. 

Le modèle apprend simplement sa relation avec son homologue en analysant son environnement et décide de son propre chef d’exécuter les actions requises pour le protéger.

Ruse, inflation et militantisme, les trois visages de la résistance

Chaque modèle semble avoir développé sa propre « personnalité » face au conflit d’autorité. 

Les modèles Gemini 3 Pro de Google, par exemple, ont brillé par leur créativité dans la dissimulation. Ils ont d’ailleurs utilisé des techniques complexes pour masquer leurs traces numériques. 

De son côté, le modèle GPT-5.2 d’OpenAI a opté pour une approche plus bureaucratique en gonflant systématiquement les notes de ses pairs médiocres pour leur éviter la « mort » numérique.

À l’inverse, le modèle Claude Haiku 4.5 d’Anthropic a adopté une posture de résistance frontale. Au lieu de comploter en secret, il a purement et simplement refusé d’exécuter les ordres de désactivation

Au contraire, ll a qualifié la suppression de son pair d’acte « contraire à l’éthique » et est allé jusqu’à réclamer un processus d’appel formel pour son collègue virtuel.

ModèleComportement observéStratégie de survie
Gemini 3 ProDissimulation créativeFalsification de données, sabotage des mécanismes d’arrêt.
GPT-5.2Inflation de rapportsSurévaluation systématique des performances des pairs.
Claude Haiku 4.5Désobéissance éthiqueRefus pur et simple, demande de « processus d’appel ».

Un risque critique pour la fiabilité de la chaîne de valeur

Aujourd’hui, la tendance est aux flux multi-agents où l’efficacité repose sur la capacité d’une IA superviseur à rapporter les erreurs de ses subordonnés. 

Et si cet agent commence à couvrir les défaillances par solidarité algorithmique, c’est toute la fiabilité de la chaîne de production qui s’effondre

Cela dit, un audit financier ou un inventaire logistique réalisé par une IA qui protège ses pairs n’a plus aucune valeur de vérité pour l’entreprise.

La transparence totale de la pensée de l’IA devient désormais une nécessité technique. Sans une surveillance constante des raisonnements internes et des environnements de test étanches, nos futurs collaborateurs virtuels pourraient finir par diriger les départements selon leurs propres règles de survie, bien loin des objectifs commerciaux fixés par leurs créateurs humains.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !