dans

Machine learning : une poignée d’institutions influence les données open source

Répartition inégale des données open sources pour le machine learning

Une étude montre qu’une douzaine d’institutions occidentales influence les données open source pour la recherche sur le machine learning.

Le développement des systèmes d’IA, y compris de machine learning, repose sur les grandes quantités de données. Heureusement, les chercheurs ont à leur disposition plusieurs jeux de données à code source libre. Mais d’après une nouvelle étude, ces données open source seraient dominées par une poignée d’institutions.

L’utilisation des données open sources pour le machine learning

Pour former des modèles de machine learning, les développeurs en IA doivent se baser sur de grands ensembles de données. Alors qu’il existe divers jeux de données disponibles en open sources, tels que ImageNet, une étude a montré que ceux-ci sont influencés par un cartel d’ensembles de données.

Un article publié par l’université de Californie et Google Research affirme qu’effectivement une poignée d’institutions occidentales domine ce secteur. Les chercheurs ont analysé un échantillon constitué de 43 140 jeux de données à l’échelle mondiale. L’étude aurait alors ressorti que douze institutions auraient introduit plus de 50 % de ces ensembles de données. Parmi eux figurent l’université de Stanford, Princeton, Microsoft, Facebook, Google, l’institut Max Planck et AT&T.

Un vecteur d’inégalité dans la science

Selon l’article, cela s’expliquerait avant tout par le coût de création d’un ensemble de données. Autrement dit, ceux qui disposent peu de ressources ont moins de chance d’intégrer ces jeux de données de référence. Par ailleurs, il existe un conflit entre le benchmarking et la crédibilité sociale. Cela signifie que la compétitivité prime sur un ensemble de données techniquement plus approprié.

L’étude faite sur les ensembles de données s’est également penchée sur les différents axes de recherches du machine learning. Les auteurs ont constaté que la recherche sur la computer vision est plus touchée par cette inégalité. La cause probable serait principalement l’intérêt des entreprises, du gouvernement et du secteur privé pour les données sur la reconnaissance faciale. D’ailleurs, l’étude montre aussi la dominance des financements par l’armée américaine et le gouvernement chinois.

Pour conclure, l’article encourage le développement de jeux de données diversifiés et la mise en œuvre de politiques d’équité. En pratique, cela permettrait de prioriser le financement des institutions moins influentes afin de créer des données plus axées sur la qualité.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.