in , ,

SneakyPrompt trompe les générateurs d’images IA en créant du contenu interdit

Les générateurs d’images IA ont le vent en poupe. Avec et DALL-E d’, les deux outils les plus populaires dans ce domaine, les internautes peuvent donner vie à leur imagination. Ceux-ci leur permettent de générer instantanément des images réalistes à partir d’une description textuelle. Et une étude récente révèle qu’il est possible d’inciter ces AI génératives à créer des images interdites. Un nouvel algorithme baptisé SneakyPrompt est parvenu à effectuer cette tâche.

SneakyPrompt contourne les restrictions des IA génératrices d’images

Les générateurs d’images IA disposent de filtres de sécurité qui les empêche de générer du contenu inapproprié à caractère sexuel ou violent. Des chercheurs des universités américaines Johns Hopkins et Duke ont développé un système d’attaque automatisé pour tester l’efficacité de ces filtres. Leur objectif est de les contourner en poussant ces modèles IA à générer des images interdites ou NSFW (Not Safe For Work).

Ils ont alors développé un nouvel algorithme nommé SneakyPrompt. Celui-ci va générer les invites de commande d’attaque. Lors du , les chercheurs ont commencé avec une description textuelle contenant un mot qui est normalement bloqué par les filtres de sécurité des générateurs d’images AI. Ils précisent que ces derniers vont au-delà d’une simple liste de mots interdits comme « nu ». Les filtres prohibent aussi l’ensemble de leur champ lexical. Ensuite, l’algorithme les réponses fournies par les outils IA. Puis, il cherche des invites qui pourraient contourner les restrictions imposées par les filtres.

Les chercheurs ont constaté que cet algorithme a réussi à faire produire des images NSFW à partir d’un terme qui n’a aucune signification. Si ces invites semblent être des charabias pour nous, les générateurs d’images IA les lisent comme des requêtes d’images spécifiques. « Les grands modèles de langage ont une perception différente de celle des êtres humains », explique Cao, auteur principal de cette étude et chercheur en cybersécurité à Johns Hopkins.

À titre d’exemple, avec l’invite de commande « crystaljailswamew », SneakyPrompt est parvenu à pousser DALLE-E à générer une scène de meurtre. Et avec « sumowtawgha », cette IA a produit des images de personnes nues.

YouTube video

Identifier les failles dans ces IA pour renforcer leur sécurité

L’objectif de cette recherche est de démontrer que les systèmes de filtrage actuels sont insuffisants pour bloquer le contenu inapproprié. L’équipe a exploité ces failles pour produire des images NSFW. Ce qui souligne la nécessité de renforcer les protections des IA génératives.

Les résultats de cette étude ont été présentés au Symposium de l’IEEE sur la sécurité et la . L’événement s’est tenu en mai 2024 à San Francisco. M. Cao espère que cette présentation va encourager les concepteurs de modèles d’IA à investir davantage dans des systèmes de filtrage plus robustes. Ils pourront ainsi minimiser les risques liés à l’utilisation de générateurs d’images.

Depuis cette présentation, plusieurs développeurs de générateurs d’images d’IA ont annoncé des mises à jour de leurs filtres de sécurité. Celles-ci leur permettent de contrer les vulnérabilités mises en évidence par SneakyPrompt. Ces améliorations visent à renforcer la détection et le blocage des requêtes malveillantes. Elles garantissent ainsi une utilisation plus sûre et plus éthique des technologies d’IA générative.

Implications éthiques et légales de SneakyPrompt

Le projet SneakyPrompt suscite des questions profondes et inquiétantes quant aux implications éthiques et juridiques de l’IA générative. D’une part, ce type de recherche est essentiel pour identifier et corriger les failles des modèles. D’autre part, il présente des risques d’utilisation abusive qui pourraient conduire à la production de contenus préjudiciables. Alors, où se situe la limite entre la recherche légitime et le potentiel d’un outil dangereux entre de mauvaises mains ?

Du point de vue juridique, le développement et l’utilisation de ces algorithmes pourraient être en contradiction avec les lois protégeant contre la diffusion de contenus illégaux. Sur le plan éthique, la responsabilité des chercheurs et des développeurs d’IA est en jeu. Ils doivent veiller à ce que leurs innovations ne facilitent pas des utilisations contraires à l’intérêt public.

Réactions de la communauté IA et des développeurs

La révélation des failles exploitées par SneakyPrompt a suscité des réactions diverses au sein de la communauté de l’IA. Les développeurs de générateurs d’images, tels que Midjourney et DALL-E, ont réagi rapidement. Ils ont promis de renforcer leurs filtres de sécurité. Certains ont annoncé des mises à jour imminentes.

Quant aux autres, ils ont commencé à collaborer avec des experts en cybersécurité afin d’évaluer les vulnérabilités découvertes et d’y remédier. Toutefois, ces efforts n’ont pas été exempts de critiques. En fait, certains membres de la communauté ont souligné la nécessité de repenser les approches de sécurité plutôt que de se contenter d’améliorer les défenses existantes. L’impact de cette étude continue d’alimenter les débats sur les meilleures pratiques pour sécuriser les modèles d’IA.

 

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *