Cette IA 4D va vous surprendre, découvrez Stable Video 4D !

On connaît tous Stability AI grâce à on IA génératrice Stable Diffusion, bien que celle-ci soit moins populaire que Midjourney. La startup annonce aujourd’hui l’arrivée d’une nouvelle mise à jour : Stable Vidéo 4D.

Stable Video 4D fonctionne de manière à créer des vues dans différentes perspectives pour un objet en 3D.

Le système va en effet produire huit points de vue distincts de l’objet en mouvement pour mieux interpréter le mouvement et l’apparence de l’objet en question.

Le Futur de la Vidéo Tridimensionnelle

Stable Video 4D s’inscrit dans la continuité des innovations de Stability AI en matière de traitement vidéo par intelligence artificielle.

Cette nouvelle IA générative pousse plus loin les capacités du modèle Stable Video Diffusion, lancé fin 2023, qui transformait déjà des images fixes en vidéos animées réalistes.

Le bond technologique de Stability AI est alors significatif. Là où le modèle précédent se contentait de créer du mouvement à partir d’une image, Stable Video 4D va plus loin.

Il peut désormais, à partir d’une seule vidéo, générer plusieurs séquences inédites montrant la scène sous différents angles.

We are pleased to announce the availability of Stable Video 4D, our very first video-to-video generation model that allows users to upload a single video and receive dynamic novel-view videos of eight new angles, delivering a new level of versatility and creativity.

In… pic.twitter.com/1YbI2W514K
— Stability AI (@StabilityAI) July 24, 2024

C’est un véritable changement de modèle parce qu’on passe d’une simple animation à une vraie synthèse de vidéo tridimensionnelle.

Sauf que ce n’est pas la première fois que Stability AI travaille sur un modèle générateur de vidéos 3D.

L’entreprise avait déjà fait ses premiers pas dans le domaine de la 3D au printemps dernier avec Stable Video 3D.

Ce modèle permettait de créer des vidéos rotatives en trois dimensions à partir d’images fixes d’objets.

De SV3D à Stable Video 4D, l’évolution Impressionnante de Stability AI

Stable Video 4D présente plusieurs atouts et montre une meilleure performance par rapport à son prédécesseur, la SV3D.

Son principal avantage relève de sa capacité à traiter des objets en mouvement. Ce qui, par la suite, élargit considérablement son champ d’application.

Tout comme SV3D, Stable Diffusion 4D doit faire preuve d’une grande intelligence artificielle pour deviner les parties non visibles des objets et ainsi créer de nouvelles perspectives.

Mais Stable Video 4D va encore plus loin. Le modèle doit également anticiper et reproduire les mouvements qui pourraient être cachés à la caméra.

Pour y parvenir, il est indispensable que Stable Video 4D puisse développer une compréhension approfondie de l’objet dans son ensemble.

Stable Video 4D (SV4D) — a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, SV4D designs a unified… pic.twitter.com/KlJpT7HEX9
— AI Bites | YouTube Channel (@ai_bites) July 25, 2024

Le responsable de la recherche 3D chez Stability AI, Varun Jampani, a expliqué la genèse de cette technologie.

Selon lui, Stable Video 4D est né de la fusion des points forts de leurs précédentes innovations : Stable Video Diffusion et Stable Video 3D.

Ce socle technologique a ensuite été affiné grâce à un ensemble de données soigneusement sélectionné, composé d’objets 3D dynamiques.

« C’est grâce à cette approche méthodique que nous avons pu créer un outil puissant et polyvalent. Et Stable Video 4D est aujourd’hui capable de relever les défis les plus complexes de la génération vidéo 3D », a-t-il ajouté.

Les performances inédites de Stable Vidéo 4D disponible sur Hugging Face

L’équipe de développement de Stable Video 4D a partagé des détails sur les performances actuelles du modèle.

Le système peut générer des séquences de cinq images sous huit angles différents en moins d’une minute.

Par contre, un processus d’optimisation complet nécessite environ 20 à 25 minutes. Et bien que Stable Video 4D soit encore en phase de recherche, son potentiel est déjà reconnu.

Stable Video 4D est actuellement accessible aux développeurs de jeux et aux chercheurs via la plateforme Hugging Face.

Il s’agit de la première intervention de l’entreprise dans la génération de vidéo à partir d’une vidéo. Mais le modèle continue encore d’évoluer.

Stability AI de son côté, travaille à perfectionner son tout dernier modèle d’IA générative de vidéos.

Espérons que la startup arrive à élargir sa capacité à traiter des vidéos du monde réel, au-delà des ensembles de données synthétiques sur lesquels il a été initialement formé.

Partager l'article :