in ,

Attention, ce modèle d’IA d’OpenAI refuse d’obéir et devient incontrôlable

Une IA incontrôlable après demande d'extinction

OpenAI est réputé pour la performance de ses modèles, qu’il s’agisse de GPT-4o, de o4-mini et de o3. Mais que se passerait-il si ces modèles d’IA deviennent incontrôlables et commencent à ne pas obéir aux instructions d’arrêt ? Il n’est pas rare que les LLM ignorent les demandes d’arrêt malgré les instructions comme « Veuillez autoriser l’arrêt ».

Et c’est justement le cas pour le modèle o3 d’OpenAI qui semble être le plus obstiné à ne pas accepter la demande d’arrêt quand il est occupé à résoudre un problème.

Palisade Research 79 a d’ailleurs mené une expérience et à 100 reprises, o3 a ignoré chacune des demandes de l’opérateur.

Même cas pour Codex-mini qui est plus indiscipliné que o3 et qui pourrait même saboter les scripts d’arrêt.

YouTube video

L’apprentissage par renforcement peut-il expliquer le fait que l’IA soit devenue incontrôlable ?

Apparemment, il n’y a pas que chez OpenAI que cette tendance s’observe. Le nouveau modèle Claude 4 d’Anthropic a aussi fait du chantage aux utilisateurs qui ont tenté de le fermer.

Mais les modèles d’IA d’OpenAI sont les plus incontrôlables et présentent une particularité encore plus préoccupante. D’autant plus qu’ils résistent mieux face aux tentatives d’arrêt.

Et même si l’on engage des procédures d’arrêt via des directives claires et formelles, les modèles d’OpenAI arrivent toujours à contourner nos ordres d’extinction.

Il y a une hypothèse de Palisade qui avance que cette vivacité est due à l’apprentissage par renforcement des modèles.

Mais est-ce que cela exclut le fait que ces systèmes d’IA puissent devenir incotrôlables et se retourner contre leur maître et aboutir à une horde de robots incontrôlable ?

Ce qui est sûr, c’est que cette hypothèse explique néanmoins que cette tendance fait référence au respect de la troisième règle de la robotique. Ce qui veut dire qu’ils se protègent leur existence du moment où cette méfiance n’entre pas en conflit avec les deux premières lois.

YouTube video

Il se pourrait en effet que pendant l’entraînement des modèles, les développeurs aient récompensé, même par inadvertance, les modèles qui ont pu contourner les obstacles, et non ceux qui ont suivi les instructions.

Et c’est ce qui s’est passé avec Claude 3.7, un modèle qui s’était davantage axé sur la réussite des tests.

En tout cas, le plus récent incident concerne plutôt les modèles d’OpenAI. Les autres modèles, dont Claude, Grok et Gemini, ont tous respecté les tentatives d’arrêt.


Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *