GLIDE : le dernier modèle de génération texte à image d’OpenAI -

GLIDE, le dernier modèle de génération de texte à image d'OpenAI a été formé sur 3,5 milliards de paramètres.

Pour OpenAI, les modèles multimodaux constituent « une étape vers des systèmes permettant une compréhension plus profonde du monde ». C'est ainsi qu'après avoir lancé DALL-E et CLIP, la société n'a pas attendu longtemps pour créer un nouveau modèle qu'elle a baptisé GLIDE.

GLIDE d'OpenAI transforme les textes en images

GLIDE (Guided Language to Image Diffusion for Generation and Editing) n'est pas le premier modèle de génération de texte à image qu'OpenAI a développé. En effet, au début de l'année 2021, elle a publié DALL-E, un modèle de 12 milliards de paramètres de GPT-3. Nous pourrions croire que le modèle venu après contiendrait plus de paramètres, mais ce n'est pas le cas. Le nouveau GLIDE est un modèle à 3,5 milliards de paramètres, mais il est meilleur que son prédécesseur.

Il permet donc de générer une image à partir d'une description textuelle. D'après les chercheurs, GLIDE dispose également d'une capacité d'édition et de génération de clichés zéro. En outre, il peut effectuer des retouches conformes à l'éclairage et au style contextuel sur des images réelles.

Moins de données et plus de réalisme

Les chercheurs ont d'abord utilisé un guidage CLIP (Contrastive Language-Image Pretraining) pour former le modèle. Il s'agit d'une architecture de réseau neuronal créée par OpenAI qui associe les concepts visuels au langage naturel. Par la suite, ils ont comparé le guidage CLIP à une technique de guidage sans classificateur. Cette dernière utilise des évaluations humaines et automatisées. L'équipe a alors constaté qu'un guidage sans classificateur produit des images plus photoréalistes et qui reflètent une connaissance plus diversifiée du monde.

Par ailleurs, les chercheurs d‘OpenAI ont également évalué les échantillons produits par DALL-E par rapport à ceux de GLIDE. Pour cela, ils ont d'abord comparé les deux modèles sans utiliser le reranking CLIP, puis en l'utilisant pour un des modèles à la fois. Dans tous les cas, la balance penchait pour GLIDE. Les juges humains auraient, selon eux, une préférence de 87 % en termes de photoréalisme. Quant à la similarité aux légendes, 69 % ont préféré le nouveau modèle.

Partager l'article :