Stability AI dévoile Stable Cascade, une IA texte-image novateur

Stability AI dévoile un nouveau modèle de création d’images piloté par l’intelligence artificielle : Stable Cascade. Cette IA introduit une approche novatrice, offrant aux utilisateurs des solutions encore plus flexibles et efficaces.

Une architecture innovante en cascade

Stable Diffusion s’impose comme l’un des générateurs d’images à partir de texte les plus populaires dans sa catégorie. Développé par Stability AI, il a bénéficié de nombreuses mises à jour majeures depuis sa création. La dernière, SDXL Turbo, date de novembre 2023.

Stable Cascade adopte une architecture différente de Stable Diffusion. Son nom évoque d’ailleurs sa configuration en cascade qui comprend trois phases : A, B et C. Cette architecture améliore considérablement l’apprentissage du modèle.

Le processus démarre par l’étape C qui convertit les descriptions textuelles fournies en latents compacts de 24×24 pixels. Ensuite, les étapes A et B prennent le relais en décodant ces latents pour générer des images haute définition.

Inspirée de l’architecture Würstchen, cette approche innovante en trois étapes révolutionne l’IA texte-image en la rendant beaucoup plus rapide et performante.

Des besoins de calcul considérablement réduits

Stable Cascade is now available in research preview for non-commercial use. This innovative text to image model introduces a three-stage approach, featuring enhancements for fine-tuning and training efficiency with a focus on further eliminating hardware barriers.

Learn more… pic.twitter.com/4sLHoQJtje
— Stability AI (@StabilityAI) February 13, 2024

L’architecture innovante de Stable Cascade réduit considérablement ses besoins en calcul. Selon Stability AI, rien que la phase de réglage fin de l’étape C permet de diminuer les coûts de 16 fois comparé à un celui d’un modèle unique de taille équivalente à Stable Diffusion.

Cette baisse spectaculaire des ressources nécessaires favorise la démocratisation de cette technologie de pointe. Stable Cascade ne se limite plus aux machines ultra-puissantes. Désormais, même les ordinateurs moins performants peuvent exploiter sa puissance. Ce qui le rend accessible un public beaucoup plus large d’artistes, de créateurs et d’amateurs d’IA. Tout le monde peut alors donner vie à ses idées.

Cette accessibilité accrue de Stable Cascade stimule également l’innovation dans le domaine de la génération d’images IA par texte.

Un modèle flexible offrant des résultats de qualité

Bien que nettement moins gourmande en ressources, Stable Cascade n’en demeure pas moins performante en termes de qualité d’image générée. Les visuels produits sont à la fois fidèles aux prompts et de haute qualité. De nombreux utilisateurs l’ont testé et les résultats impressionnent :

Il semblerait que Stable Cascade gère grave bien la génération de texte… pic.twitter.com/RbnkebZNuD
— Stable Diffusion FR (@StableTom) February 14, 2024

L’IA a une excellente compréhension des requêtes :

Stable Cascade, Finally good text with StableDiffusion! And prompt understanding is rather exceptional now! #ai pic.twitter.com/9P0D6BetTj
— Antti Karppinen 🎨 postphotography.xyz (@antti_karppinen) February 15, 2024

Selon d’autres utilisateurs, Stable Cascade surpasse même dès fois la version 6 de Midjourney :

Stable Cascade by @StabilityAI is looking really good. Been playing around with it for a day, Ran some tests and the results are pretty good. Sometimes the results to me look better than Midjourney V6.

Midjourney V6 is doing a great job when it comes to raw aesthetic images ,… pic.twitter.com/TpgUizDeAs
— David (@Joybeanns) February 17, 2024

De plus, la conception modulaire du modèle autorise les utilisateurs experts à le personnaliser en ajustant chacune des trois étapes en cascade en fonction de leurs besoins spécifiques. Ils peuvent ainsi explorer plus avant son potentiel. Stability AI a d’ailleurs publié ses codes d’entraînement et d’inférence sur GitHub.

Parmi ses autres atouts, Stable Cascade permet, à partir d’une image initiale, de générer des variations. Des traductions d’image en image sont aussi possibles. Pour le moment, le modèle est destiné à un usage non commercial.

Partager l'article :