Les IA génératrices d’images permettent de créer des œuvres d’art numériques. Elles sont formées à partir de vastes ensembles de données comprenant des images et des textes. Ces outils ont récemment été sous le feu des projecteurs pour des raisons des plus alarmantes. Des chercheurs de l’université de Standford entrepris une analyse approfondie des banques de données qui les nourrissent. Et ils ont identifié un nombre significatif d’images pédopornographiques au sein de celles-ci.
Plus de 1000 fichiers pédopornographiques détectés
Les générateurs d’images propulsés par l’intelligence artificielle tirent leur puissance d’une base de données massive qui façonne leur apprentissage. Une enquête récente menée par le Standford Internet Observatory révèle une réalité troublante. Les chercheurs ont découvert que dans cette base de données se trouvent des fichiers choquants, notamment des images présentant des actes d’abus sexuel sur des enfants. Ils ont recensé pas moins de 1000 d’illustrations pédopornographiques.
Ils ont également identifié la source de ces contenus. Ceux-ci proviennent de la base de données allemande LAION-5B, qui constitue le plus grand ensemble de données d’images IA existant. Pourtant, des entreprises telles que Google et Stable AI utilisent les données de cette banque d’images pour le développement de leurs modèles d’apprentissage automatique, respectivement Imagen et Stable Diffusion.
Pour valider cette découverte, les chercheurs ont eu recours à l’outil PhotoDNA de Microsoft, en respectant les directives du Centre international pour enfants disparus et sexuellement exploités.
Child abuse images found in AI training data https://t.co/3H0lZ8vju2
— Ryan Heath (@ryanaxios) December 20, 2023
LAION réagit rapidement par mesure de prudence
Suite à cette découverte préoccupante, LAION a pris des mesures immédiates. Il suspend temporairement l’accès à sa base de données pour mener des vérifications. L’organisme a réaffirmé sa politique de tolérance zéro vis-à-vis des contenus illégaux.
Les résultats de cette enquête mettent en lumière l’absence de transparence des développeurs d’intelligence artificielle quant aux données utilisées pour entraîner leurs modèles. Pourtant, la présence d’un nombre même restreint d’images à caractère pédopornographique peut suffire à ces IA pour générer un grand nombre de nouvelles images réalistes illustrant des abus sexuels envers les mineurs.
Cette situation est particulièrement inquiétante, d’autant plus que les chercheurs de Stanford n’ont analysé qu’une fraction minime des données présentes dans les banques de données d’entraînement des grands modèles d’IA.
La nécessité d’une amélioration continue des IA
Les IA génératrices d’images ne sont pas intrinsèquement malveillantes. Cependant, cette situation révèle l’impératif pour les développeurs d’intelligence artificielle de vérifier scrupuleusement l’intégralité des données utilisées pour la formation de leur IA. C’est crucial pour exclure tout risque de présence de contenus illégaux dans leurs modèles avant leur diffusion.
Les entreprises qui développent ces outils doivent également être transparentes quant à l’origine de leurs données. Ceci garantit que l’utilisation de ces données est à la fois éthique et légale.
Stable AI, qui a financé le générateur d’images Stable Diffusion, s’est défendue en soulignant que la version incriminée, la 1.5 a été développé par une entité tierce, Runway. La start-up britannique affirme avoir depuis entraîné une nouvelle version, la 2.0, sur une base de données soigneusement filtrées. Elle rassure aussi sur son engagement à éviter tout détournement malveillant et criminel de ses technologies.
- Partager l'article :