En termes de coût, la préparation des données est l’étape la plus dépensive dans la formation des modèles de machine learning.
La performance d’un système d’IA/ML repose sur les données, et par-dessus tout des données de qualité. Dans chaque processus, la préparation des données est donc une tâche primordiale. Outre l’importance de son rôle, il s’agit également de l’étape la plus coûteuse.
Le coût de la préparation des données
Toute technologie liée à la data science est soumise au principe du « garbage-in-garbage-out ». Cela signifie que les résultats d’une opération dépendent des données d’entrée. Autrement dit, si les données d’entrée sont de mauvaise qualité, ce sera également le cas des données de sortie. En revanche, si le système reçoit des données de qualité, les résultats seront conséquents. De ce fait, la préparation des données est cruciale pour tout processus dont les projets de machine learning.
Cependant, il s’agit d’une étape qui prend du temps qui plus est extrêmement coûteux lorsqu’elle est prise en charge par des experts humains. Les data scientists doivent étiqueter les données avant de les enregistrer dans les bases de données.
Il existe actuellement des outils d’annotations de données tels que Amazon Sagemaker et Nvidia Rapids. Ceux-ci permettent de réduire le coût de la préparation des données et d’améliorer leur qualité. Mais la réduction de temps reste un défi.
Deux approches pour accélérer le processus
Avec la quantité de données que les entreprises et les nouvelles technologies génèrent actuellement, l’étiquetage des données prend plus de temps.
Afin d’accélérer leur la formation des modèles, une première approche consiste à obtenir les bons points de données étiquetés. Appelée « apprentissage actif », cette méthode interroge un expert (un utilisateur) pour obtenir des annotations spécifiques lorsque le modèle n’est pas sûr. Cela permet de réduire le temps et les efforts nécessaires pour l’étiquetage des données.
Une autre approche dite « supervision simple » utilise des données bruyantes ou imprécises pour fournir un signal pour l’étiquetage de grandes quantités de données. En d’autres termes, cette méthode consiste à utiliser des étiquettes faibles, même imparfaites, pour créer un modèle prédictif solide. Elle peut être combinée à un cadre d’apprentissage supervisé tel que Snorkel et Skweak.
Ces deux approches permettent à la fois d’accélérer la préparation des données et de réduire le coût nécessaire à la mise à l’échelle d’un projet ML.
- Partager l'article :