Hugging Face : dans les coulisses de l'IA générative

Hugging Face, une start-up franco-américaine, a récemment révolutionné le domaine de l’intelligence artificielle (IA) en mettant à disposition un corpus de textes en open source pour le développement de modèles de langue.

L’IA générative, celle derrière ChatGPT, Gemini et Copilot, repose sur des secrets bien gardés. Contrairement à ce que l’on pourrait croire, la clé ne réside pas uniquement dans la puissance de calcul ou la taille des modèles. Les leaders du domaine, tels qu’OpenAI et Microsoft, n’ont jamais révélé leur recette pour créer la collection de textes utilisés pour entraîner leurs modèles.

D’où viennent les textes d’entraînement des IA ?

Les textes utilisés pour entraîner les IA proviennent de diverses sources. Des livres dans le domaine public, des articles de recherche, Wikipédia, mais surtout des pages Web en quantité massive. C’est cette dernière source qui est la plus significative. Le traitement minutieux de ces données est ce qui fait la différence dans les performances des modèles.

Corpus open source Intelligence artificielle

Le nerf de la guerre

Julien Launay, créateur de l’entreprise Adaptive ML et coauteur du corpus d’entraînement RefinedWeb, se souvient de l’impact de son exposé à NeurIPS en décembre 2022. Il avait démontré que la qualité de la préparation des données permettait à une IA de rivaliser avec des modèles nourris de données plus variées. « C’est le nerf de la guerre« , résume-t-il.

Thomas Wolf, cofondateur de Hugging Face, présent à cette conférence, a été impressionné par le travail de Julien Launay. Hugging Face, connue pour sa mise à disposition de modèles et de corpus en open source, a proposé à l’équipe de Julien de rejoindre leur entreprise. Cette collaboration promet de révolutionner encore davantage le domaine de l’IA générative.

80 000 heures de calculs

La création de ces modèles nécessite des ressources considérables. Hugging Face a investi 80 000 heures de calculs pour mettre en place ce corpus performant. Cette initiative permet aux développeurs du monde entier d’accéder à des ressources de haute qualité pour créer leurs propres modèles de langue.

IA générative Hugging Face Modèles de langue

Une avancée pour la communauté

La mise en open source de ce corpus représente une avancée majeure pour la communauté de l’IA. Elle permet une démocratisation de l’accès aux outils nécessaires pour le développement de modèles de langue performants. Cette initiative encourage l’innovation et la collaboration entre chercheurs et développeurs.

Avec des entreprises comme Hugging Face à la pointe de l’innovation, l’avenir de l’IA générative semble prometteur. La transparence et la collaboration dans la création de ces corpus de textes permettent d’accélérer les avancées technologiques. Les chercheurs et développeurs du monde entier peuvent désormais contribuer à l’amélioration des modèles de langue.

En somme, Hugging Face, avec son approche collaborative, change la donne dans le domaine de l’IA générative. La disponibilité d’un corpus de textes performant en open source est une étape essentielle dans la création de modèles linguistiques. Cette initiative souligne l’importance de la qualité des données et ouvre de nouvelles perspectives pour l’innovation dans l’IA.