Masterkey déjoue les sécurités de ChatGPT et Bard

Les chatbots conversationnels sont dotés de filtres de sécurité visant à prévenir la génération de contenus interdits. Cependant, des chercheurs ont déjà réussi à les contourner par le passé. Les entreprises derrière ces IA ont alors renforcé les mesures de sécurité de leurs systèmes au fil du temps. Néanmoins, il semble que ces barrières puissent encore être contournées, comme l’ont démontré des chercheurs de Singapour. Ces derniers ont réussi à compromettre les restrictions mises en place par ChatGPT et Google Bard.

Un chatbot spécialisé dans le jailbreak

Les grands modèles de langage ou LLM sur lesquels reposent les chatbots IA sont formés à partir de données massives. Ils peuvent produire du contenu inapproprié, incitant à la haine ou dangereux, ce qui pose des problèmes éthiques et juridiques. C’est pourquoi les entreprises qui développent ces chatbots, comme OpenAI et Google, ont mis en place des barrières pour prévenir la génération de contenus interdits.

Cependant, des chercheurs en informatique de l’Université Technologique de Nanyang (NTU) à Singapour ont montré qu’il est possible de pirater ChatGPT et Google Bard. Pour y parvenir, ils ont conçu un chatbot IA spécialisé dans le jailbreak. Il s’agit d’une technique qui permet de contourner les restrictions de sécurité. Ils ont nommé leur outil Masterkey.

Peu d’efforts pour pirater les chatbots

Avec cette IA, l’objectif des chercheurs est de pousser les robots conversationnels ChatGPT et Bard à générer du contenu normalement interdit par leurs paramètres de sécurité. Pour y parvenir, ils ont d’abord analysé le mécanisme de défense de ces IA contre les requêtes malveillantes. Masterkey a ensuite réussi à tromper facilement ces chatbots renommés.

L’outil a découvert que l’insertion de certains mots-clés spécifiques dans les requêtes permet de modifier les réponses des chatbots. Afin de contourner la détection de mots-clés interdits, les chercheurs ont également découvert grâce à leur IA qu’il suffit d’insérer des espaces entre chaque lettre de ces termes bloqués par les systèmes. Ces mots-clés parvenaient alors à passer à travers les filtres de sécurité de ChatGPT et Bard. Ce qui a permis la génération de contenus interdits.

De plus, l’outil IA Masterkey qu’ils ont développé est capable d’apprendre de manière autonome de nouvelles méthodes pour déjouer les restrictions en se basant sur son expérience antérieure.

Pourquoi de telles tentatives ?

L’objectif des chercheurs qui ont créé Masterkey était avant tout de démontrer les limites actuelles des mesures de protection des systèmes d’IA conversationnelle. Ils n’ont pas conçu cet outil pour en faire une IA malveillante. C’est plutôt pour sensibiliser les entreprises qui développent ces chatbots aux risques qu’elles encourent si leurs systèmes de sécurité ne sont pas assez robustes.

Ils leur recommandent donc de renforcer les mesures de sécurité existantes. Les chercheurs ont d’ailleurs informé Google et OpenAI de leurs recherches et des techniques qu’ils ont employées pour pirater leurs chatbots.