OpenAI, Meta, Google, Microsoft, chacune de ces entreprises affirment entraîner leur modèle d’IA sur des données accessibles au grand public. Pendant ce temps, Nvidia, Salesforce et Apple ont été pris la main dans le sac après avoir utilisé des données YouTube pour l’entraînement de leur intelligence artificielle. Aussi, il y a des modèles d’IA qui s’entraînent à partir des données générées par l’intelligence artificielle elle-même. Cela dit, ces modèles d’IA risquent ne jamais voir le jour, et on parle d’une autodestruction sans précédent.
Il est donc essentiel de filtrer les données qui vont servir à la formation d’un modèle d’IA.
Une étude montre même l’importance de la qualité des données pour l’entraînement des agents d’intelligence artificielle.
En gros, si ces entreprises persistent à utiliser des données synthétiques, elles vont assister à l’autodestruction de leur modèle d’IA.
La preuve fournie par l’Université d’Oxford
Selon une étude menée par Ilia Shumailov de l’Université d’Oxford, les LLM peuvent négliger certaines parties des données d’entraînement.
Or, c’est cette négligence qui va fausser la formation d’un modèle d’IA. À ce stade, le processus d’effondrement se déroulera en deux temps.
D’abord, le modèle perd en variance. Ce qui a pour impact la réduction de ses performances sur les données minoritaires.
Ensuite, dans un stade plus avancé, le modèle d’IA va s’effondrer petit à petit jusqu’à atteindre la phase d’autodestruction.
Cette dégradation est due majoritairement à une boucle récursive où le modèle s’entraîne sur des textes de moins en moins précis qu’il a lui-même générés.
Ce phénomène peut rapidement transformer un LLM performant en une version appauvrie de lui-même.
Au final, le modèle d’AI va perdre sa capacité à interpréter et à appliquer les informations de manière efficace dans divers contextes.
Internet inondé, la qualité des informations compromise
Depuis le lancement de ChatGPT en 2022, les IA ont vite inondé internet. On voit souvent apparaître de nouveaux modèles d’IA.
En France par exemple, on Kyutai a lancé Moshi plus tôt ce mois-ci. Du côté des Sud-Coréens, ils ont Koala AI.
Sur X et presque tous les réseaux sociaux, les vidéos et les images générées par une IA telle que Sora AI mettent le feu.
Internet commence alors à être encombré par du contenu généré par l’IA. Ce qui pourrait amplifier le problème déjà existant de fermes de contenu, mais à une échelle sans précédent.
Conséquence : ce phénomène menace non seulement la qualité de l’information en ligne, mais aussi l’intégrité des modèles d’IA eux-mêmes.
Comment la détérioration des modèles d’IA affecte-t-elle les groupes minoritaires ?
La détérioration des modèles d’IA pose en effet des problèmes d’équité. Les données des groupes minoritaires seront négligées. Ce qui peut mener à leur sous-représentation ou à leur effacement.
Pour lutter contre ce phénomène, des entreprises comme Google modifient leurs algorithmes afin de mettre en avant le contenu créé par des humains.
Les experts du domaine préconisent également plusieurs alternatives.
Il faudra en premier lieu permettre aux entreprises d’IA d’avoir accès aux données originales. Un filtrage des informations est par ailleurs indispensable.
Sinon, dans un autre contexte, il faudra encourager la collaboration au sein de la communauté de l’IA pour retracer l’origine des données.
Mistral AI et Nvidia ont d’ailleurs pris cette voie et ont lancé Mistral NeMo, une nouvelle IA qui peut fonctionner sur un PC peu performant.
En l’absence de ces mesures, il serait préférable d’utiliser des données datant d’avant l’ère de l’IA. C’est-à-dire des données directement par des humains à grande échelle.
- Partager l'article :