Ces géants de la tech, dont Apple, exploitent YouTube pour former leurs IA

Apple aurait utilisé des données de YouTube pour former ses modèles d’intelligence artificielle. Or, les propriétaires des vidéos publiées sur la plateforme de vidéos n’ont pas donné son autorisation. Notamment PewDiePie, MKBHD (Marquees Brownlee), Stephen Colbert, MrBeast, Jimmy Kimmel, et John Oliver.

L’approche adoptée par Apple et certains géants de la tech (Nvidia, Anthropic et Salesforce) va cependant en dépit de la politique de confidentialité de YouTube.

Autrement dit, la collecte de données, qu’il s’agisse des fichiers de sous-titres ou autres, peut faire l’objet d’une poursuite judiciaire.

Mais Apple, en tant que leader du domaine de l’IA, a fait exprès d’enfreindre cette règle. Cela en collectant et en utilisant sans consentement plus de 170 000 fichiers de sous-titres pour entraîner son modèle d’intelligence artificielle.

Des données YouTube accessibles au grand public et à Apple

D’après les déclarations d’EleutherAI, l’entreprise en charge des téléchargements illicites des données YouTube, sa collaboration avec Apple visait tout simplement à fournir du matériel pour soutenir les startups et les petites entreprises.

Il s’agit donc d’apporter du soutien aux développeurs en devenir. Mais aussi à ceux qui exercent dans la recherche universitaire en intelligence artificielle.

Or, la situation a pris une autre tournure. Les grandes entreprises d’IA générative mentionnées ci-dessus ont commencé à utiliser les données fournies par EleutherAI.

Apple et d'autres ont utilisé des données siphonnées sur YouTube pour entrainer leurs IAhttps://t.co/umNA0W0kNY
#Mac4Ever #Apple #IA #YouTube pic.twitter.com/kbbLxsHbmi
— Mac4Ever (@Mac4ever) July 16, 2024

Pile, le présumé nom de l’ensemble des données YouTube, était ensuite publié pour être accessible au grand public.

C’est donc à partir de ses publications que toux ceux disposant de l’espace de stockage suffisant et de la puissance de calcul nécessaire pourraient utiliser les données.

À qui la faute ?

Les géants de la technologie, notamment Apple, Nvidia et Salesforce, ont récemment révélé leur comment ils ont utilisé Pile pour l’entraînement de leurs modèles d’intelligence artificielle respective.

Mais le cas d’Apple dans l’affaire YouTube semble particulièrement intéressant. L’entreprise a utilisé Pile pour développer OpenELM. Il s’agit d’un modèle d’IA qui a fait beaucoup parler de lui lors de son lancement en avril.

Cette révélation prend tout son sens à la lumière de l’annonce ultérieure d’Apple concernant l’intégration de l’Apple Intelligence dans les iPhone, les iPad et les MacBook.

En gros, même si Apple et d’autres géants technologiques ont utilisé Pile, la situation met en lumière les complexités juridiques inhérentes à l’exploitation de données publiques pour l’entraînement des systèmes d’IA.

C’est-à-dire que lorsque les ensembles de données sont librement accessibles sur le Web, leur utilisation pour développer des technologies d’IA soulève de nombreuses questions légales et éthiques.

La difficulté de naviguer dans un paysage juridique incertain

Ce scénario met en évidence les risques juridiques considérables liés à l’utilisation de données en ligne pour entraîner des systèmes d’IA.

Toutes les entreprises, indépendamment de leur envergure ou de leur prestige, font face à un dilemme majeur : elles doivent innover dans un environnement légal flou.

D’où la nécessité d’établir des règles claires régissant l’exploitation des données dans le développement de l’IA (voire le cas de la France).

I just learned that Apple and other companies used one of my videos without my consent to train their AI and I’m fucking pissed

EleutherAI took the transcript of my old “Cancelling myself” video (plus 173,536 other YouTube videos) to help train their model without permission pic.twitter.com/bhbpKnMsep
— Saltydkdan (@saltydkdan) July 16, 2024

L’enjeu est alors de trouver un équilibre entre l’avancement technologique et le respect des droits de propriété intellectuelle.

Sans cadre juridique précis, les entreprises risquent de se retrouver sur un terrain glissant. Un environnement dans lequel chaque utilisation de données pourrait potentiellement entraîner des litiges ou des controverses.

Partager l'article :