Les modèles d’IA, tel que nous les connaissons aujourd’hui, ont été formés sur un très grand volume de données. Et selon Elon Musk, grand patron de Tesla et propriétaire de Grok, les entreprises d’IA n’ont plus de données pour entraîner leurs modèles. Il affirme même que ces dernières ont épuisé la connaissance humaine. D’où la nécessité de se tourner vers des données synthétiques. BIu encore des données créées par l’IA elle-même pour développer de nouveaux systèmes.
C’est du moins ce qu’il a déclaré dans une interview qui a été diffusé sur X, anciennement Twitter et propriété d’Elon Musk depuis le 27 octobre 2022.
Meta et Microsoft font déjà face à une crise de données
Prenant conscience de cet épuisement des données, Meta et Microsoft ont décidé d’utiliser des données synthétiques pour former leur modèle respectif.
À savoir Llama pour Meta et Phi-4 pour Microsoft, comme l’a indiqué Faniry R. dans cet article de blog.
Pour Meta, elle a dû recourir à des données synthétiques pour le peaufinage de son plus grand modèle.
En ce qui concerne OpenAI, les données synthétiques lui ont permis de former ses plus récents modèles.
Ce n’est pas tout à fait une mauvaise chose. Mais comme l’a dit Elon Musk, le problème réside dans le fait que les modèles d’IA ont tendance à générer des hallucinations et de fausses réponses. Résultat : les modèles vont s’effondrer.
Il n'y a plus assez de connaissances humaines pour entraîner les IA, alors elles apprennent à partir de données synthétiques, elles-mêmes générées par des IA. Ce type de données a été utilisé pour entraîner Claude 3.5 Sonnet d'Anthropic et la dernière série de modèles Llama de… pic.twitter.com/cnlQV7SisK
— Bruno Guglielminetti | Mon Carnet (@Guglielminetti) January 9, 2025
Le compte à rebours a commencé, les données pour l’IA s’épuiseront dans un an
« Il ne reste plus qu’un an avant que les données accessibles, servant à l’entraînement des modèles d’IA et accessibles au grand public, ne s’épuisent ».
« C’est ce qui a été mentionné dans un article universitaire. Et la déclaration d’Elon Musk correspond à cet article ». C’est ce qu’a souligné Andrew Duncan, Directeur de la science et de l’innovation à l’Institut Alan Turing.
Il a même ajouté que si les entreprises décidaient de dépendre entièrement des données synthétiques, cela va entraîner un effondrement de leurs modèles.
C’est-à-dire qu’en tant qu’utilisateur, on aura affaire à des modèles d’IA générant des réponses de mauvaise qualité. Voire des répliques entièrement détériorées.
Duncan ajoute même qu’à force de dépendre aux données synthétiques, les rendements des modèles vont décroître.
Et le risque de détérioration et de manque de créativité, comme c’est déjà le cas avec certains modèles, va augmenter.
Les données publiques ne suffisent plus à former les modèles d’IA
Trouver des données de qualité pour former un modèle d’IA fait partie des enjeux principaux de l’essor de l’intelligence artificielle.
Mais ce n’est pas tout, les données accessibles au public ne suffisent pas pour entraîner et former un modèle d’IA.
Même OpenAI affirme qu’il est quasiment impossible de développer un outil comme ChatGPT sans accéder à des données protégées par le droit d’auteur.
Il est donc question de trouver le juste équilibre puisque les éditeurs et les créateurs exigent aussi de leur côté une compensation financière. Surtout par rapport à l’utilisation de leurs œuvres dans l’entraînement des modèles d’IA.
De mon point de vue, il y a des questions qui méritent d’être tirées au clair. Peut-être qu’il est préférable de créer un cadre juridique bien adapté à la situation actuelle.
- Partager l'article :