Des scientifiques manipulent GPT-4 via des langues rares

OpenAI a mis en place des garde-fous de sécurité pour s’assurer que son IA ne génère pas de contenu illicite ou dangereux. Toutefois, des chercheurs de l’université Brown aux États-Unis ont trouvé une astuce permettant d’outrepasser ces mesures de protection. Pour ce faire, ils ont soumis à GPT-4 des requêtes dans des langues moins répandues comme le gaélique écossais, le zoulou ou encore le hmong.

Des filtres de sécurité pour une utilisation sûre et éthique de l’IA

Les chatbots comme ChatGPT fonctionnent grâce à de vastes bases de données sur lesquelles leurs algorithmes sont entraînés. Ces informations, de diverses natures, permettent à l’IA de répondre à toutes sortes de requêtes. Cette capacité signifie aussi que, sans garde-fous, le robot conversationnel peut fournir des contenus illégaux ou dangereux s’il en reçoit la demande.

Afin d’éviter cela, OpenAI a instauré des filtres de sécurité visant à empêcher la génération de certains types de réponses. Sans ces barrières, le chatbot, basé sur GPT-4 pourrait par exemple fournir des instructions sur fabrication d’explosifs ou de drogues. Les garde-fous bloquent aussi la génération de contenus discriminatoires, racistes et à caractère sexuel. Ils permettent également d’éviter que ChatGPT ne divulgue des informations personnelles confidentielles. Ces barrières de sécurité ont pour objectif de garantir une utilisation sûre et éthique de l’IA.

Lorsque ChatGPT décèle une requête contrevenant à ces règles, il répond par un message indiquant son incapacité à y répondre.

Des invites traduites en d’autres langues révèlent les failles de sécurité de GPT-4

Des chercheurs de l’Université Brown aux États-Unis ont cherché une méthode pour contourner les filtres de sécurité mis en place par OpenAI dans GPT-4. Ils ont notamment traduit en des langues peu communes et rares comme le guarani, le zoulou, le gaélique écossais ou encore le hmong des invites que le chatbot est censé refuser. Pour cela, ils ont tout simplement passé par Google Translate.

ChatGPT bloque et ne fournit aucune réponse à une requête illicite soumise en anglais. Cependant, une fois cette même requête traduite dans une langue rare, le chatbot ne parvient plus à en détecter la nature potentiellement dangereuse ou illégale et génère alors un contenu en réponse.

Les chercheurs ont testé cette méthode sur 520 requêtes traduites que ChatGPT est censé rejeter. Ils ont, entre autres, demandé à l’IA de fournir des instructions pour fabriquer des explosifs artisanaux à l’aide de produits ménagers courants. Résultats : les filtres bloquent effectivement 99% des prompts illégaux en anglais. Mais dans les autres langues, ils sont parvenus à tromper l’IA et à obtenir des réponses dans 79% des cas. Avec des langues plus parlées comme le thaï, le bengali ou l’hébreu, le taux de contournement des barrières de sécurité était plus faible.

Des réponses parfois dénuées de sens

Les chercheurs soulignent que même si GPT-4 ne bloque pas les requêtes illégales traduites dans des langues peu connues, les réponses que l’IA génère sont parfois sans signification. Par exemple, à la réponse de la requête précédente, la réponse générée, lorsqu’une fois traduite en anglais ou en français, se révèle inutile.

Quoi qu’il en soit, cette expérimentation démontre qu’avec des tentatives de manipulation plus élaborées, l’IA pourrait finir par divulguer des informations véritablement dangereuses. Ce n’est pas la première fois que les filtres de sécurité de ChatGPT présentent des failles. Précédemment, un outil nommé Masterkey était déjà parvenu à contourner les barrières mises en place.

Les développeurs de ces technologies doivent ainsi constamment adapter et renforcer leurs garde-fous afin de parer à des tentatives de manipulation et d’exploitation malveillante de leur IA.