in ,

WALT, l’étoile montante de la génération text-to-video par IA

On entend beaucoup parler des générateurs IA qui transforment du texte en images, mais sachez qu’il existe aussi des outils propulsés par l’ capables de créer des vidéos. WALT est le dernier-né de cette catégorie. Cette IA text-to-video peut produire des vidéos photoréalistes impressionnantes à partir d’une simple image ou d’un texte.

Des premiers résultats remarquables

WALT est une intelligence artificielle développée par des chercheurs de l’université Stanford, au sud de San Francisco. Cet outil permet de générer des vidéos photoréalistes à partir d’images fixes ou de descriptions textuelles. Un défi de taille, quand on sait qu’il ne s’agit pas simplement de mettre bout à bout des images, mais de les animer afin de créer un mouvement fluide.

D’après son créateur Agrim Gupta, WALT est capable de produire des vidéos en 3D avec un rendu réaliste du mouvement. Les exemples déjà dévoilés laissent entrevoir un immense potentiel : on y voit un dragon cracheur de feu, un ours polaire nageant dans l’eau, un cheval se promenant sur la plage, un robot se déplaçant au milieu d’un paysage enneigé, ou encore un astéroïde percutant la Terre.

Un processus d’apprentissage novateur

La force de WALT réside dans son processus d’entraînement innovant. Ce dernier repose sur deux innovations. D’abord, les chercheurs ont utilisé un encodeur qui compresse conjointement des images et des vidéos dans un même espace latent. Cela permet à WALT d’apprendre et de générer à travers différents formats.

Ensuite, l’architecture de l’IA est basée sur un système de fenêtre qui est adaptée à la modélisation générative spatiale et spatio-temporelle conjointe. Cela a permis à WALT d’acquérir une compréhension approfondie des principes régissant la fluidité du mouvement dès les premiers stades de son apprentissage.

Par ailleurs, WALT dispose d’une structure évolutive et efficace, basée sur une cascade de trois modèles. Le premier crée une vidéo latente de base à partir du texte. Ensuite, deux modèles de diffusion vidéo en super-résolution prennent le relais pour améliorer la qualité de cette vidéo. Ils raffinent successivement la vidéo latente jusqu’à obtention d’une vidéo de haute qualité en 512 x 896 pixels à 8 images par seconde.

Bien que la modélisation générative ait fait d’énormes progrès récemment pour les images, Gupta et ses collègues reconnaissent que la génération de vidéos accuse un certain retard. Ils estiment qu’un cadre unifié image-vidéo est la clé pour réduire cet écart.

WALT excelle dans la fluidité du mouvement

Plusieurs entreprises dont Pika Labs et Runway possèdent aussi des IA génératrices de vidéos. En termes de fluidité du mouvement, WALT semble surpasser ses concurrents récents, notamment en ce qui concerne la gestion du mouvement en 3D. Cependant, la qualité globale de ses vidéos reste inférieure à celles de Pika Labs ou Runway.

Il est important de noter que WALT est actuellement un modèle de recherche en cours de développement à grande échelle par l’équipe. Dans un premier temps, l’IA génère de petites vidéos de 128 x 128 pixels, puis les upscale deux fois pour atteindre une résolution de 512 x 896 à 8 images par seconde.

À titre de comparaison, Gen-2 de Runway est capable de créer des vidéos pouvant aller jusqu’à 1536 x 896, mais uniquement via un abonnement payant. La version gratuite produit des vidéos jusqu’à 768 x 448, soit une résolution légèrement inférieure à celle de WALT.

YouTube video

Même si WALT doit encore faire ses preuves face à la concurrence en termes de qualité vidéo, nul doute que ce prodige de l’IA recèle un potentiel prometteur. Les défis technologiques subsistent, mais l’élan semble irréversible. Accrochez-vous, car WALT n’a certainement pas fini de nous émerveiller !

 

1 commentaires

1 Comments

Laissez une réponse

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *