Répartition inégale des données open sources de machine learning

Machine learning : une poignée d’institutions influence les données open source

Par Vonintsoa R. Publié le 7 décembre 2021 | 2 minutes de lecture

Une étude montre qu’une douzaine d’institutions occidentales influence les données open source pour la recherche sur le machine learning.

Le développement des systèmes d’IA, y compris de machine learning, repose sur les grandes quantités de données. Heureusement, les chercheurs ont à leur disposition plusieurs jeux de données à code source libre. Mais d’après une nouvelle étude, ces données open source seraient dominées par une poignée d’institutions.

L’utilisation des données open sources pour le machine learning

Pour former des modèles de machine learning, les développeurs en IA doivent se baser sur de grands ensembles de données. Alors qu’il existe divers jeux de données disponibles en open sources, tels que ImageNet, une étude a montré que ceux-ci sont influencés par un cartel d’ensembles de données.

Un article publié par l’université de Californie et Google Research affirme qu’effectivement une poignée d’institutions occidentales domine ce secteur. Les chercheurs ont analysé un échantillon constitué de 43 140 jeux de données à l’échelle mondiale. L’étude aurait alors ressorti que douze institutions auraient introduit plus de 50 % de ces ensembles de données. Parmi eux figurent l’université de Stanford, Princeton, Microsoft, Facebook, Google, l’institut Max Planck et AT&T.

Un vecteur d’inégalité dans la science

Selon l’article, cela s’expliquerait avant tout par le coût de création d’un ensemble de données. Autrement dit, ceux qui disposent peu de ressources ont moins de chance d’intégrer ces jeux de données de référence. Par ailleurs, il existe un conflit entre le benchmarking et la crédibilité sociale. Cela signifie que la compétitivité prime sur un ensemble de données techniquement plus approprié.

L’étude faite sur les ensembles de données s’est également penchée sur les différents axes de recherches du machine learning. Les auteurs ont constaté que la recherche sur la computer vision est plus touchée par cette inégalité. La cause probable serait principalement l’intérêt des entreprises, du gouvernement et du secteur privé pour les données sur la reconnaissance faciale. D’ailleurs, l’étude montre aussi la dominance des financements par l’armée américaine et le gouvernement chinois.

Pour conclure, l’article encourage le développement de jeux de données diversifiés et la mise en œuvre de politiques d’équité. En pratique, cela permettrait de prioriser le financement des institutions moins influentes afin de créer des données plus axées sur la qualité.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

▶ Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités

Partager l'article :

Facebook
Twitter
LinkedIn

Plus sur: Machine Learning

Trouvez quel LLM vous pouvez faire tourner sur votre PC avec llmfit

Les modèles de langage locaux deviennent la norme pour la confidentialité et le développement. Mais […] Plus
RIP Stack Overflow, Mozilla lance « cq » pour une mémoire collective des agents IA

Alors que le célèbre forum Stack Overflow s’éteint en silence, délaissé par les humains au […] Plus
Quelle bibliothèque Python utiliser pour l’IA et le machine learning ?

Une bibliothèque Python fournit des outils permettant de développer un programme informatique comme l’IA et […] Plus
TensorFlow : tout savoir sur ce framework du machine learning en 9 mn

Aujourd’hui, l’apprentissage automatique connaît un essor considérable. Parmi les outils incontournables, TensorFlow s’impose comme une référence dès que l’on […] Plus