Comment Microsoft entend de rendre les modèles de langage plus fiables

Les nouveaux outils (De)Toxigen et AdaTest de Microsoft contribueront à rendre les modèles de langage plus fiables.

Il est bien connu que les mots sont la source du plus grand bien comme ils peuvent avoir des effets désastreux. Plus particulièrement, les textes publiés sur les plateformes en ligne véhiculent de nombreux messages haineux que les modérateurs ne sont pas toujours capables de contrôler.

Le problème courant des systèmes de modération

Beaucoup de systèmes de modérations sont alimentés par les grands modèles de langage, comme le GPT-3 d'OpenAI. Ils permettent détecter et filtrer les langages haineux sur les plateformes de médias sociaux. Mais ces systèmes ne sont pas toujours complètement efficaces.

D'une part, ils ne sont pas assez robustes pour comprendre la complexité des langages toxiques. D'un autre côté, il arrive qu'ils bloquent certains messages par erreur. Par exemple, dès qu'un message fait référence à un groupe minoritaire, un système de modération pourrait automatiquement le classer comme un discours haineux.

Le problème vient généralement des grands modèles de langage (LLM) sur lesquels ils sont basés. Les LLM utilisent des ensembles de textes écrits par les humains dont la plupart proviennent d'internet. Mais ces textes reflètent la vision stéréotypée de leurs auteurs. Autrement dit, les LLM sont aussi biaisés que le sont les humains. Pour résoudre ce problème, et pour rendre les modèles de langage plus fiables, Microsoft a mis en marche deux nouveaux projets.

Microsoft lance (De)Toxigen et AdaTest pour créer des modèles de langage fiables

Pour résoudre le défi de la toxicité, l'entreprise propose (De)Toxigen. Il consiste à former les systèmes de modérations de contenus sur un ensemble de données appelé Toxigen. Celui-ci contient 274 000 de messages neutres et toxiques. (De)Toxigen a permis de démontrer les faiblesses des LLM dans la détection des contenus toxiques. L'équipe de Microsoft a démontré cela en trompant plusieurs outils de modération alimentés par l'IA.

En outre, le second projet intitulé AdaTest correspond à un processus de test de débogage des modèles de langage. Il permet de les mettre à niveau par rapport aux différentes lacunes qui ne concernent pas uniquement les discours haineux. En gros, AdaTest charge le modèle de générer plusieurs tests. Une personne sélectionnera ensuite les tests valides pour rediriger le modèle vers des domaines d'intérêt spécifiques. Au lieu de proposer un outil d'automatisation, Microsoft propose donc une nouvelle approche pour identifier les problèmes des modèles de langage.

Partager l'article :