Stability AI dévoile un nouveau modèle de création d’images piloté par l’intelligence artificielle : Stable Cascade. Cette IA introduit une approche novatrice, offrant aux utilisateurs des solutions encore plus flexibles et efficaces.
Une architecture innovante en cascade
Stable Diffusion s’impose comme l’un des générateurs d’images à partir de texte les plus populaires dans sa catégorie. Développé par Stability AI, il a bénéficié de nombreuses mises à jour majeures depuis sa création. La dernière, SDXL Turbo, date de novembre 2023.
Stable Cascade adopte une architecture différente de Stable Diffusion. Son nom évoque d’ailleurs sa configuration en cascade qui comprend trois phases : A, B et C. Cette architecture améliore considérablement l’apprentissage du modèle.
Le processus démarre par l’étape C qui convertit les descriptions textuelles fournies en latents compacts de 24×24 pixels. Ensuite, les étapes A et B prennent le relais en décodant ces latents pour générer des images haute définition.
Inspirée de l’architecture Würstchen, cette approche innovante en trois étapes révolutionne l’IA texte-image en la rendant beaucoup plus rapide et performante.
Des besoins de calcul considérablement réduits
L’architecture innovante de Stable Cascade réduit considérablement ses besoins en calcul. Selon Stability AI, rien que la phase de réglage fin de l’étape C permet de diminuer les coûts de 16 fois comparé à un celui d’un modèle unique de taille équivalente à Stable Diffusion.
Cette baisse spectaculaire des ressources nécessaires favorise la démocratisation de cette technologie de pointe. Stable Cascade ne se limite plus aux machines ultra-puissantes. Désormais, même les ordinateurs moins performants peuvent exploiter sa puissance. Ce qui le rend accessible un public beaucoup plus large d’artistes, de créateurs et d’amateurs d’IA. Tout le monde peut alors donner vie à ses idées.
Cette accessibilité accrue de Stable Cascade stimule également l’innovation dans le domaine de la génération d’images IA par texte.
Un modèle flexible offrant des résultats de qualité
Bien que nettement moins gourmande en ressources, Stable Cascade n’en demeure pas moins performante en termes de qualité d’image générée. Les visuels produits sont à la fois fidèles aux prompts et de haute qualité. De nombreux utilisateurs l’ont testé et les résultats impressionnent :
L’IA a une excellente compréhension des requêtes :
Selon d’autres utilisateurs, Stable Cascade surpasse même dès fois la version 6 de Midjourney :
De plus, la conception modulaire du modèle autorise les utilisateurs experts à le personnaliser en ajustant chacune des trois étapes en cascade en fonction de leurs besoins spécifiques. Ils peuvent ainsi explorer plus avant son potentiel. Stability AI a d’ailleurs publié ses codes d’entraînement et d’inférence sur GitHub.
Parmi ses autres atouts, Stable Cascade permet, à partir d’une image initiale, de générer des variations. Des traductions d’image en image sont aussi possibles. Pour le moment, le modèle est destiné à un usage non commercial.
- Partager l'article :