Films et séries utilisés pour entraîner l’IA

Dans un monde où les géants de la technologie entraînent leurs IA avec d’innombrables données, un aspect reste flou : d’où proviennent exactement ces données ? Dernièrement, un rapport d’Alex Reisner dans The Atlantic a dévoilé une facette surprenante de cette question. Selon ses recherches, plusieurs des plus grands modèles d’IA ont été formés à partir d’une base de données de plus de 53 000 films et 85 000 épisodes de séries télévisées. Une révélation qui suscite une multitude de questions sur l’utilisation de contenus protégés par le droit d’auteur.

Un ensemble de données colossal pour l’IA générative

Les films et séries télévisées sont une source d’or pour les algorithmes d’IA, en particulier ceux formés par des entreprises comme OpenAI, Meta ou encore NVIDIA. L’ensemble de données qui a fait l’objet du rapport contient des œuvres telles que tous les films nommés aux Oscars du meilleur film entre 1950 et 2016, des séries cultes comme Breaking Bad, The Wire, ou Les Sopranos, et même The Simpsons et Seinfeld. Ces œuvres ont été utilisées pour alimenter des chatbots d’IA et des générateurs de texte en image, avec des sous-titres provenant de OpenSubtitles.org, une plateforme riche en millions de fichiers multilingues.

https://twitter.com/koltregaskes/status/1861514017841226098

Ce type d’utilisation de contenu protégé par le droit d’auteur a fait l’objet de nombreuses critiques. Pourtant, il semble que les géants de la tech aient trouvé un moyen de contourner les lois sur le copyright. Ceci en utilisant des sous-titres plutôt que les films et épisodes eux-mêmes. Cette méthode soulève des questions sur le respect des droits des créateurs et sur l’avenir de la protection des œuvres en ligne.

Une polémique sur le scraping des données pour l’IA

Une autre question épineuse est celle du scraping des données. Effectivement, cette pratique consiste à extraire massivement du contenu en ligne pour former des modèles d’IA. Alex Hirsch, le créateur de la série Gravity Falls, a réagi à la présence de celle-ci dans la base de données. D’ailleurs, ce dernier souligne l’ironie de la situation. Ce fait ajoute une morale réconfortante à la fin de chaque épisode pour souligner le paradoxe. Ainsi, ce genre d’anecdotes met en lumière le dilemme que rencontrent les créateurs. Ceci face à l’utilisation de leur travail par des entités privées.

Pourtant, certains géants de l’industrie continuent de défendre cette pratique. Netflix, par exemple, a récemment été critiqué pour avoir utilisé de l’IA pour prolonger des affiches de la saison 2 d’Arcane. Ce geste a été qualifié d’irrespectueux par les artistes derrière la série. De même, OpenAI a récemment été accusé de minimiser l’importance de l’usage des logiciels anti-scraping par les artistes numériques en les qualifiant d’abus. Un débat qui semble bien loin de se résoudre.

Un outil pour vérifier l’utilisation de vos séries préférées

Alex Reisner, dans son rapport, a également mis à disposition un outil pratique permettant à chacun de vérifier si son film ou série préférée a été utilisée pour entraîner un modèle d’IA. En saisissant simplement le nom d’une œuvre, il devient possible de savoir si elle fait partie de cette gigantesque base de données. Cet outil permet une transparence inédite. Cela offre au public une chance de découvrir l’ampleur du phénomène.

https://twitter.com/UMichOnline/status/1841194654147969171

Cette démarche soulève un autre questionnement : jusqu’où peut-on aller dans l’utilisation de contenus protégés ? Peut-on vraiment considérer cela comme une forme d’exploitation ou doit-on accepter cette évolution des technologies ? La réponse semble encore floue, et les débats sur ce sujet ne sont pas près de s’éteindre.

La révolution numérique face aux droits d’auteur

Les discussions sur l’utilisation des œuvres protégées par l’IA ne sont pas nouvelles, mais elles prennent une ampleur inédite avec ces révélations. Les créateurs de contenu doivent désormais naviguer dans un environnement complexe. Ceci où leur travail s’utilise sans leur consentement direct. Cela soulève d’ailleurs un dilemme éthique majeur. D’ailleurs, le cas de Arcane et les critiques subies par OpenAI montrent qu’il reste beaucoup de travail pour concilier innovation technologique et respect des droits des créateurs.

Le monde de l’IA générative évolue à grande vitesse, mais la question de la légitimité de son alimentation reste ouverte. Les artistes et les développeurs de ces technologies devront rapidement trouver un terrain d’entente. Ceci pour éviter des conflits qui risquent de perturber l’industrie.

Partager l'article :