DALL-E 2 d’OpenAI fait face à une concurrence féroce. Un mouvement open source d’IA et la startup Stability AI entrent en scène.
La startup Stability AI vient d’annoncer la sortie de Stable Diffusion, un autre système semblable à DALL-E 2. Dans un premier temps, il sera progressivement mis à la disposition des nouveaux chercheurs et d’autres groupes via un serveur Discord. Il y aura également une version hébergée avec une interface web pour que les utilisateurs puissent tester le système.
Stability AI finance le concurrent gratuit de DALL-E 2
Stable Diffusion est le résultat d’une collaboration entre des chercheurs de Stability AI, RunwayML, LMU Munich, EleutherAI et LAION. Le collectif de recherche EleutherAI se distingue notamment par ses modèles linguistiques open source GPT-J-6B et GPT-NeoX-20B. Il mène également des recherches sur les modèles multimodaux.
L’organisation à but non lucratif LAION (Large-scale Artificial Intelligence Open Network) a fourni les données d’entraînement avec l’ensemble des données open source LAION 5B. L’équipe a filtré ces données avec des commentaires humains lors d’une phase de test initiale pour créer l’ensemble final de données d’entraînement LAION-Aesthetics.
Patrick Esser de Runway et Robin Rombach de LMU Munich ont dirigé le projet, en s’appuyant sur leurs travaux au sein du groupe CompVis de l’université de Heidelberg. Ils y ont créé VQGAN et Latent Diffusion, largement utilisés. Cette dernière a servi de base à la diffusion stable, avec des recherches menées par OpenAI et Google Brain.
La diffusion stable est une étape importante en open source
Actuellement, un test pour Stable Diffusion est en cours, avec de nouveaux ajouts distribués par vagues. Contrairement à DALL-E 2, Stable Diffusion peut générer des images de personnalités et d’autres sujets qu’OpenAI interdit dans DALL-E 2. D’autres systèmes comme Midjourney ou Pixelz.ai peuvent également le faire, mais n’atteignent pas une qualité comparable à la grande diversité observée dans Stable Diffusion – et aucun des autres systèmes n’est open source.
Il est d’ores et déjà prévu que Stable Diffusion fonctionne sur une seule carte graphique dotée de 5,1 gigaoctets de VRAM. Stable Diffusion offre ainsi aux chercheurs et aux parties intéressées n’ayant pas accès aux serveurs GPU la possibilité d’expérimenter un modèle moderne d’IA générative. Le modèle est également censé fonctionner sur les MacBooks équipés de la puce M1 d’Apple. Toutefois, la génération d’images prend ici plusieurs minutes au lieu de quelques secondes.
Stability AI elle-même veut également permettre aux entreprises d’entraîner leur variante de Stable Diffusion. Les modèles multimodaux suivent ainsi la voie empruntée précédemment par les grands modèles de langage : ils s’éloignent d’un fournisseur unique et se dirigent vers la large disponibilité de nombreuses alternatives grâce à l’open source.
Stability AI : presentation cette start up
Stability AI, fondée en 2020, est soutenue par le mathématicien et informaticien Emad Mostaque. Il a travaillé comme analyste pour divers fonds spéculatifs pendant quelques années avant de se tourner vers le travail public. En 2019, il a participé à la fondation de Symmitree, un projet qui vise à réduire le coût des smartphones et de l’accès à Internet pour les populations défavorisées.
Avec Stability AI, Mostaque vise à encourager la communauté de recherche en IA open source. Sa startup a déjà soutenu la création de l’ensemble de données « LAION 5B ». Pour l’entraînement du modèle de diffusion stable, Stability AI a fourni des serveurs équipés de 4 000 GPU Nvidia A100.
- Partager l'article :