Microsoft et Nvidia présentent le Megatron-Turing Natural Language Generation (MT-NLG) qu’ils présentent comme le plus grand modèle linguistique.
Les deux entreprises ont créé une immense intelligence artificielle capable d’imiter le langage humain de manière inégalée. En effet, ce nouveau modèle contient 530 milliards de paramètres, ce qui est trois fois plus que le plus grand avant lui.
MT-NLG : le plus grand modèle linguistique à ce jour, par Microsoft et Nvidia
Il y a quelques jours, le géant de la technologie et le fabricant de puces d’IA ont annoncé le Megatron-Turing Natural Language Generation (MT-NLG). Les deux entreprises le présentent comme le plus grand réseau de neurones capable d’imiter le langage humain et le plus performant. Ce modèle linguistique est basé sur le modèle Turing-NLG de Microsoft et le Megatron-LM de Nvidia.
Le GPT-3 d’OpenAI était, jusqu’ici, considéré comme le modèle le plus performant avec ses 175 milliards de paramètres. Le MT-NLG lui en contient trois fois plus, soit 530 milliards de paramètres, répartis sur 105 couches.
Cela signifie également qu’il est plus performant dans une grande variété de tâches en NLP par rapport aux précédents modèles. Nous pouvons notamment citer l’autocomplétion de phrases, les questions et réponses, la lecture, le raisonnement et les inférences en langage naturel.
Selon le Nvidia et Microsoft, le Megatron-Turing a même une capacité d’apprentissage « few-shot » ou « zéro-shot ». Autrement dit, il peut effectuer des tâches avec peu ou aucun réglage fin.
Former des modèles de langage massifs
Nvidia et Microsoft déclarent avoir entraîné le modèle linguistique sur un ensemble de données appelé The Pile. Il s’agit d’une collection de 835 Go de données rassemblés par le groupe de chercheurs EleutherAI. The Pile couvre des sources académiques, des communautés et des référentiels de codes, combinés avec des pages web, dont les articles et les publications sur les réseaux sociaux.
Mais cette quantité de données massive peut également se traduire par un plus grand défi concernant le nettoyage des données. Autrement dit, le MT-NLG peut retenir les stéréotypes biaisés, affirment les deux entreprises. Néanmoins, elles déclarent s’engager à poursuivre « des recherches pour aider à quantifier le biais du modèle ». De plus, des mesures appropriées devront être mises en place pour toute utilisation du Megatron-Turing afin d’atténuer et minimiser les menaces pour les utilisateurs.
- Partager l'article :