BlobGAN permet de modifier l’espace latent d’un GAN

BlobGAN est une alternative à Photoshop pour les images créées par un réseau antagoniste génératif (GAN).

Un GAN est un type d'algorithme de deep learning qui permet de créer un contenu ayant les mêmes caractéristiques que ses données de formation. La création d'images photoréalistes figure parmi les différentes applications des réseaux antagonistes génératifs.

BlobGAN : une nouvelle méthode de modification de l'espace latent

Une approche de génération d'images consiste à utiliser les auto-encodeurs. Les GAN ou réseaux antagonistes génératifs permettent de créer des sorties à partir de vecteurs de l'espace latent qui correspond à l'espace entre l'encodeur et le décodeur.

Mais la manipulation de cet espace latent n'est généralement pas faisable avec les méthodes traditionnelles d'image de synthèse. Les approches utilisées sont soit descendantes soit ascendantes. La première méthode associe chaque image à une classe tandis que la deuxième se base sur les pixels d'images. Cependant, aucune de ces deux techniques ne permet de traiter des parties de l'espace latent en tant qu'entités.

Des chercheurs de l'UC Berkeley et d'Adobe proposent une nouvelle méthode non supervisée appelée BlobGAN. Elle consiste à créer une grille de blobs qui correspondent au contenu de l'espace latent. De ce fait, en déplaçant les blobs, l'utilisateur déplace les objets dans la représentation d'une scène.

Plus de possibilités

BlobGAN se base sur un réseau dérivé de StyleGAN2 qui a été modifié pour utiliser les cartes de blobs au lieu d'un seul vecteur global. Il offre donc une nouvelle alternative aux méthodes utilisées par les solutions telles que DALL-E 2 et StyleGAN2.

Au lieu d'utiliser un seul vecteur global ou des étiquettes de pixels individuels, la nouvelle approche permet de créer des blocs constitutifs manipulables. Autrement dit, la carte des blobs permet de manipuler individuellement les objets démêlés ou de les dupliquer.

Certes, les logiciels tels que Photoshop, Cinema4D ou Blender n'ont rien à envier à BlobGAN. Mais la nouvelle approche offre de nouvelles perspectives pour la modification de l'espace latent dans un GAN. En d'autres termes, elle peut faire une analyse syntaxique des parties constituantes des images du monde réel. Elle permet par exemple de déplacer, d'enlever ou de modifier la forme des meubles dans une chambre au lieu de simplement générer « une chambre ».