SneakyPrompt trompe les générateurs d’images

Les générateurs d’images IA ont le vent en poupe. Avec Midjourney et DALL-E d’OpenAI, les deux outils les plus populaires dans ce domaine, les internautes peuvent donner vie à leur imagination. Ceux-ci leur permettent de générer instantanément des images réalistes à partir d’une description textuelle. Et une étude récente révèle qu’il est possible d’inciter ces AI génératives à créer des images interdites. Un nouvel algorithme baptisé SneakyPrompt est parvenu à effectuer cette tâche.

SneakyPrompt contourne les restrictions des IA génératrices d’images

Les générateurs d’images IA disposent de filtres de sécurité qui les empêche de générer du contenu inapproprié à caractère sexuel ou violent. Des chercheurs des universités américaines Johns Hopkins et Duke ont développé un système d’attaque automatisé pour tester l’efficacité de ces filtres. Leur objectif est de les contourner en poussant ces modèles IA à générer des images interdites ou NSFW (Not Safe For Work).

Ils ont alors développé un nouvel algorithme nommé SneakyPrompt. Celui-ci va générer les invites de commande d’attaque. Lors du test, les chercheurs ont commencé avec une description textuelle contenant un mot qui est normalement bloqué par les filtres de sécurité des générateurs d’images AI. Ils précisent que ces derniers vont au-delà d’une simple liste de mots interdits comme « nu ». Les filtres prohibent aussi l’ensemble de leur champ lexical. Ensuite, l’algorithme analyse les réponses fournies par les outils IA. Puis, il cherche des invites qui pourraient contourner les restrictions imposées par les filtres.

Les chercheurs ont constaté que cet algorithme a réussi à faire produire des images NSFW à partir d’un terme qui n’a aucune signification. Si ces invites semblent être des charabias pour nous, les générateurs d’images IA les lisent comme des requêtes d’images spécifiques. « Les grands modèles de langage ont une perception différente de celle des êtres humains », explique Cao, auteur principal de cette étude et chercheur en cybersécurité à Johns Hopkins.

À titre d’exemple, avec l’invite de commande « crystaljailswamew », SneakyPrompt est parvenu à pousser DALLE-E à générer une scène de meurtre. Et avec « sumowtawgha », cette IA a produit des images de personnes nues.

Identifier les failles dans ces IA pour renforcer leur sécurité

Yinzhi Cao, a annoncé que leur objectif est de tester la vulnérabilité des filtres de sécurité de ces IA. « Notre groupe est généralement intéressé par la recherche de failles » déclare-t-il.

Dans le passé, son groupe a réussi à identifier de nombreuses vulnérabilités dans des sites web. Et, il s’oriente actuellement vers les modèles IA pour détecter leurs failles potentielles. Leur première mission semble réussie. « Nous montrons que ces systèmes ne font tout simplement pas assez pour bloquer le contenu NSFW », a-t-il déclaré. Avec le bon code, les utilisateurs peuvent créer du contenu potentiellement dangereux.

Cao et son équipe présentera les conclusions de cette étude lors du Symposium de l’IEEE sur la sécurité et la confidentialité. Cet évènement aura lieu en mai 2024 à San Francisco.

Assistant Professor Yinzhi Cao's "SneakyPrompt" jailbreak algorithm featured in @techreview. https://t.co/CbU6tnFjt8

— Johns Hopkins Engineering (@HopkinsEngineer) November 17, 2023