Tout savoir sur DALL-E, la puissante IA d’OpenAI

En janvier 2021, OpenAI a révélé DALL-E, son modèle d'apprentissage automatique, un outil générateur d'art IA. Avril 2022, la firme basée à San Francisco frappe fort avec la sortie de DALL-E 2.

Avec ces deux modèles de machine learning générateurs d'images, OpenAI fait une vraie démonstration de force. Mais est-ce que l'on peut dire que DALL-E a un niveau plus élevé que ses prédécesseurs ? Si oui, à quel point est-il intelligent ? Quelles sont ses utilités ? Et quelle est la grande différence entre DALL-E et DALL-E 2 ? Tour d'horizon sur cette prouesse d'intelligence artificielle d'OpenAI.

OpenAI : l'essentiel en quelques mots sur le créateur de DALL-E

À l'origine, OpenAI s'est consacré à la création d'intelligence artificielle génératrice de texte. L'entreprise a cependant créé le modèle d'apprentissage automatique GPT-2 en 2019. À cette époque, le système a été formé à partir de plusieurs millions de pages web et a été doté de plus de 1,5 milliard de configurations. L'objectif d'OpenAI n'était autre que de pouvoir créer un ensemble de données pouvant servir à la formation de son processeur de langage appelé GPT-2. Mais aussi de permettre au système de prédire le mot suivant.

L'IA commence alors à se former sur plusieurs tâches, dont la traduction de texte, la lecture, la rédaction d'un résumé et les réponses aux questions. Sa spécificité c'est sa capacité d'apprentissage en ne se basant que sur des textes bruts. Récemment, OpenAI a lancé GPT-3, le successeur de GPT-2 et le modèle préliminaire de DALL-E.

DALL-E : une extension naturelle de GPT-3 d'OpenAI

Avant d'entrer dans les détails en ce qui concerne DALL-E, il convient de rappeler ce que c'est exactement. De quoi s'agit-il ? Comment peut-on définir cet outil créé par OpenAI il y a quelques mois ?

DALL-E est avant tout une extension naturelle de GPT-3. À titre d'information, GPT-3 ou Generative Pre-Trained Transformer 3 est un modèle d'apprentissage dans l'utilisation réside sur la génération de textes. À ce titre, l'outil est en mesure de générer des textes du type poème, code informatique et sonnets, entre autres.

En ce qui concerne DALL-E, il fonctionne semblablement à GPT-3. Sauf qu'au lieu de fournir des textes, il va générer des images à partir d'une donnée textuelle ou d'une description de langage. En terme technique, on appelle ces données les « invites ». Grâce à ces données, DALL-E peut générer des images de qualité humaine seulement à partir d'une courte description que l'utilisateur fournit. Mais comment est-ce possible ?

En réalité, le système créé par OpenAI vient se baser sur un réseau neuronal ayant la capacité de prédire les idées contenues dans les invites. Une formation est de ce fait nécessaire pour que le système puisse comprendre le contexte. Mais aussi afin de générer une image qui correspond aux descriptions fournies par les utilisateurs.

DALL-E 2 outpainting

Principes et fonctionnement

De manière générale, ce sont les artistes et les créateurs d'arts qui ont recours à DALL-E. Il a donc comme principal fonctionnement de générer des images précises depuis une description unique. Mais comment ça marche au niveau de la production d'art visuel ?

DALL-E utilise un algorithme pour recueillir les textes et les images sous forme de flux de données. C'est grâce à cette approche que le système peut placer les mots fournis dans un ensemble d'intégration texte-image. À ce stade, l'intelligence artificielle va se baser sur une série de représentations génériques pour ensuite, générer une illustration en fonction des descriptions que les utilisateurs fournissent. Au final, DALL-E prend en charge toutes les formes de textes possibles.

En d'autres termes, pour pouvoir créer de l'art visuel, le système va combiner l'apprentissage automatique avec les flux de données. Et comme il a été mentionné plus haut, DALL-E va créer des images réelles à partir des images incorporées dans le système lors de sa formation. Il peut même aller plus loin dans les images qu'il génère en ajoutant des détails. Ici, l'objectif est de pouvoir générer de l'art plus réaliste. Mais pour ce faire, le système va recourir à CLIP, un autre modèle de machine learning qu'OpenAI a créé afin de déterminer les images qui correspondent le mieux aux descriptions textuelles.

Comment OpenAI a-t-il créé DALL-E ?

Bien que les détails sur la conception de DALL-E ne soient pas encore fournis par OpenAI, on peut tout de même expliquer de manière simple comment le système a été créé.

Généralement, DALL-E fait partie des modèles d'apprentissage automatique qui utilisent le même réseau neuronal appelé les transformateurs. Les transformateurs sont très faciles à mettre à l'échelle. Leur second avantage c'est le fait de pouvoir être formés sur une très grande quantité de données.

Quand on parle du NLP ou du traitement de langage naturel, les « Transformer » jouent un grand rôle dans la révolution du secteur. Ils sont en effet à l'origine de la création de plusieurs modèles d'apprentissage automatiques. À savoir GPT-3 d'OpenAI, ou encore BERT ou Bidirectionnal Encoder Representations from Transformers. Les transformateurs ont également contribué dans l'optimisation de la qualité des résultats sur les moteurs de recherche tels que Google. La majorité de ces modèles de machine learning a été formée à partir d'une très grande quantité de données.

DALL-E de son côté, est formé sur des séquences de mots et de pixels. Ce qui fait de lui un modèle d'apprentissage unique.

Quelle différence y a-t-il entre DALL-E et DALL-E 2 ?

DALL-E et DALL-E 2 sont deux modèles d'apprentissage automatique créés par OpenAI. Le premier est sorti au mois de janvier 2021 et le second a vu le jour il y a neuf mois jour pour jour. La plus grande différence entre DALL-E et DALL-E 2 relève du nombre de paramètres intégrés dans les deux systèmes. À un nombre de 3,5 milliards de paramètres et plus de 1 milliard et demi de paramètres supplémentaires, DALL-E 2 est capable de générer des images dont la résolution est maintes fois supérieure à celle de DALL-E.

Un autre aspect spécifique de DALL-E 2 : sa potentialité à apprendre la relation entre les textes et les images que l'on utilise dans la diffusion des résultats. Il s'agit de CLIP qui signifie Contrastive Language-Image Pre-training. Il fait guise de passerelle entre les textes et les images. Par ailleurs, DALL-E 2 recourt également à un processus dans lequel le système utilise un motif de points. Ce dernier va se modifier en image de manière progressive.

Pour en finir avec DALL-E 2, OpenAI fait en sorte que le système puisse étendre les images qu'il génère. Et cela sans se limiter aux descriptions ou aux images originales. C'est ce que l'on appelle l'outpainting. Un processus servant à la création de nouvelles combinaisons à partir des anciennes images. Finalement, on peut dire que DALL-E 2 offre une résolution de quatre fois supérieures à celle de DALL-E. Ce qui fait que les images fournies par DALL-E 2 sont plus précises et plus réalistes que celles générées par DALL-E.

DALL-E : les étapes importantes

Les mécanismes qui sous-tendent le système DALL-E sont très complexes et difficiles à comprendre pour les non-spécialistes. Cependant, DALL-E suit quatre étapes importantes lors de la production d'images :

Prétraitement : DALL-E prend les textes fournis par les utilisateurs et les convertit en vecteurs. Il utilise ensuite un modèle de langage (par exemple GPT-3) pour comprendre ce que l'utilisateur veut obtenir.
Encodage : Les vecteurs créés lors de l'étape de prétraitement sont utilisés pour créer une image qui correspond exactement à l'invite textuelle fournie par l'utilisateur.
Décodage : DALL-E affine l'image plusieurs fois pour garantir son réalisme au cours de la phase de décodage. Ensuite, DALL-E « évalue » le résultat final à l'aide du réseau de discrimination. Si d'autres changements sont nécessaires, le système facilitera les affinements supplémentaires.
Résultat : Une fois tous les affinements terminés, l'image finalisée est présentée à l'utilisateur en tant que résultat.

Avec DALL-E 2, ce processus a été amélioré de manière à ce que les résultats correspondent plus précisément aux données d'entrée. De plus, DALL-E 2 peut fournir une qualité d'image bien supérieure à celle du système original.

Est-il possible d'utiliser les images générées par l'IA à des fins commerciales ?

D'après OpenAI, du moins ce qu'il affirme sur son site web, les images générées par DALL-E peuvent être utilisées à des fins commerciales. Mais la principale utilisation des arts est d'ordre créatif. Il y a cependant plusieurs utilisations possibles des images créées sur le logiciel DALL-E. Notamment les projets d'ordre commercial tels que la création d'une page de couverture de magazines ou de l'illustration d'une landing page, etc.

OpenAI affirme d'ailleurs que cette approche permettra aux utilisateurs de bénéficier des droits d'utilisation des images qu'ils créent sur DALL-E. Mais certains utilisateurs se plaignent toutefois de l'inexistence de réglementations sur l'utilisation des images que génère le système. Il y a même des développeurs qui souhaitent que DALL-E soit payant. Ce qui pourrait être intéressant parce que dernièrement, une des banques d'images gratuites a été victime de censure en raison de la diffusion d'images générées par intelligence artificielle. Cas de Getty Images qui a décidé en septembre dernier d'interdire les contenus générés par l'IA sur son site.

Une percée dans la création de contenu

Avec l'évolution de l'intelligence artificielle génératrice d'art, les portent vers de nouvelles possibilités vont s'ouvrir. Les utilisateurs peuvent en effet recourir à DALL-E pour créer un contenu unique ou pour développer un concept quasi impossible à photographier. En d'autres termes, il s'agit d'une opportunité qui va permettre de créer l'impossible et de développer un produit dont l'existence reste improbable.

Il y a aussi la possibilité de combiner DALL-E avec d'autres outils d'IA pour générer un art animé. Et avec l'évolution de la réalité progressive, les créateurs parviendront à créer un contenu plus créatif. On peut par exemple prendre la photo d'un individu créée sur DALL-E et l'animer grâce un outil de génération de texte vidéo tel que D –ID. Ou encore de créer un paysage animé qui s'accompagne d'une musique de fond générée par l'intelligence artificielle.

Tout cela pour dire que tout est possible. Et que l'on devrait s'attendre à une collaboration entre les grands acteurs de l'IA pour créer un outil capable de révolutionner le monde de la création d'art par l'IA.

Partager l'article :