in

La pénurie imminente de données menace l’industrie de l’IA

Les modèles de langage IA poursuivent leur montée en puissance. Leurs capacités de plus en plus avancées fascinent le monde entier. Toutefois, ces systèmes révolutionnaires pourraient bien faire face à un défi de taille dans quelques années : la pénurie de données. Le monde pourrait ne plus pouvoir les approvisionner en quantité suffisante de données d’ici 2026.

Les données, le carburant des solutions IA

Pour pouvoir s’améliorer, tous les outils IA, qu’il s’agisse d’un modèle LLM comme ou d’un générateur d’images à partir de descriptions textuelles comme nécessite des données d’entraînement. C’est grâce à ces ressources que les entreprises IA peuvent former des algorithmes de haute qualité et puissants.

À titre d’exemple, pour pouvoir fournir des réponses de qualité aux requêtes des utilisateurs,  ChatGPT a été entraîné au départ à partir de 570 Go de données textuelles. Ce qui correspond à environ 300 milliards de mots. Ses capacités s’améliorent à mesure que les développeurs l’enrichissent avec de nouvelles données.

L’algorithme de diffusion stable qui alimente un grand nombre d’outils IA générateurs d’images comme DALL-E, quant à lui, repose sur les données LIAON-5B.  Celles-ci comptent près de 5,8 milliards de paires d’image-texte.

La quantité de données utilisées pour entraîner un modèle est ainsi d’une grande importance pour que celui-ci fournisse des résultats exacts. Mais, il faut savoir que la qualité de ces données d’entraînement impacte également sur la performance d’un outil IA. L’utilisation de données de mauvaise qualité telles que les photographies floues pour l’algorithme de diffusion stable ou des contenus non fiables sur les réseaux sociaux pour les modèles LLM ne permet pas de former des outils performants.

L’IA bientôt à court de données

Alors que l’intelligence artificielle a besoin de plus en plus de données de qualité pour croître, le volume des ressources disponibles ne progresse pas au même rythme. Si celles-ci venaient à se tarir, les chercheurs préviennent que les entreprises IA pourraient faire face à un sérieux bilan financier.

YouTube video

Des chercheurs d’Epoch AI, une organisation de prévision en , ont réalisé l’année dernière une étude sur ce sujet. Ils ont estimé que les entreprises IA pourraient être à court de données textuelles de haute qualité d’ici 2026. Quant aux réserves de données d’images et de textes de faible qualité, elles pourraient s’épuiser entre 2023 et 2060.

Selon les prévisions, d’ici 2030, l’industrie de l’IA pourrait contribuer à hauteur de 15,7 milliards de dollars à l’économie . Toutefois, une pénurie de données exploitables menace d’entraver le développement de ce secteur.

Existe-t-il des solutions pour y remédier ?

Plusieurs alternatives sont envisageables pour faire face au risque de pénurie de données. Il est probable que dans les années à venir, les développeurs pourraient concevoir des systèmes IA performants qui sont moins gourmands en données et nécessitant moins de puissance de calcul.

Rita Matulionyte, professeur de droit des technologies de l’information à l’Université australienne de Macquarie, pense qu’il est aussi possible d’envisager l’utilisation de données synthétiques pour atténuer ce risque. Les nouveaux modèles seront alors formés à partir des données générées par les modèles IA actuels. Néanmoins, cette solution n’est pas viable. Il se pourrait même que cela finisse par ruiner complètement un modèle donné.  

À l’heure actuelle, l’établissement de partenariats avec des organisations tierces semble être la solution la plus pratique pour faire face à ce défi imminent. adopté cette approche récemment en laçant son programme Data  Partnerships, L’entreprise souhaite collaborer avec des organisations pour enrichir les données d’entraînement des modèles d’IA. Cette initiative pourrait bien ouvrir la voie vers un partage plus équitable des revenus générés par l’intelligence artificielle. 

 

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *