Google contre-attaque Meta avec Imagen Video

Juste après que méta ait lancé Make-A-Video, à son tour, Google a également dévoilé son IA génératrice de vidéo : Imagen Video. Ce système d'intelligence artificielle est apparemment capable de générer des vidéos en se basant sur des textes descriptifs.

Jusqu'à ce jour, Imagen Video présente encore quelques défauts. Les résultats obtenus à partir de cette IA génératrice de vidéo contiennent encore du bruit et sont encore parasités. Selon Google, bien que le système ne soit pas encore parfait, Imagen Video n'est qu'une phase vers un niveau de contrôlabilité élevé. Il s'agirait aussi de la première étape qui va mener vers un système plus performant qui, dans le futur, serait en mesure de générer des vidéos artistiques.

Une amélioration significative de la part de Google

Les systèmes d'IA utilisés dans la synthétisation des vidéos ne datent pas d'hier. Et selon Devin Coldwey, Make-A-Video de Meta ne présente pas de différence significative par rapport aux autres systèmes. Des chercheurs de l'Académie d'intelligence artificielle de Pékin ont d'ailleurs lancé un autre système baptisé : CogVideo. Mais comme toujours, les clips vidéo générés ressemblent plus ou moins à ceux des modèles d'IA génératrice de vidéo précédents.

Par contre, Imagen Video semble se démarquer. Il s'agirait d'une version pouvant montrer une forte capacité à animer les sous-titres des vidéos. Une aptitude que les systèmes que nous connaissons déjà n'ont pas. Pour Matthew Guzdal, professeur à l'université de l'Alberta, il s'agit d'une amélioration notable pour le domaine des vidéos générées par IA.

Améliorez la performance de vos projets grâce à l’IA générative ?

Je me lance dans l’IA avec mon entreprise !

Imagen Video va-t-il devancer les performances de DALL-E ou de Stable Diffusion ?

Pour rappel, Imagen Video vient s'appuyer sur Imagen de Google. Or, ce premier est un système de génération de vidéo plus ou moins semblable à Stable Diffusion et à DALL-E. Et Imagen n'est autre qu'un modèle de diffusion ayant la capacité de générer des nouvelles données, des vidéos entre autres. Ce système d'apprentissage automatique arrive donc à comprendre une commande à partir des données et des échantillons existants.

« Imagen Video prend en charge les descriptions textuelles pour pouvoir générer un clip vidéo qui sera composé de 16 images. La vitesse monte à 3 vidéos par seconde, avec une résolution de 24×48 pixels. Le système va ensuite mettre la vidéo à l'échelle tout en prédisant des images adjuvantes. Et cela afin de produire une version définitive qui aura une résolution de 1280 × 768 pixels. Soit un clip qui sera composé de 128 images qui monte à une vitesse de 24 images par seconde », affirme l'équipe de recherche en charge du projet.

Une version améliorée, oui ! Mais pas sans limites

Bien qu'Imagen Video de Google présente une nette amélioration sur la capacité d'interpréter les descriptions textuelles, il n'est pas sans limites non plus. Comme avec Make-A-Video, les vidéos obtenues présentent encore des imperfections. Et selon Guzdial, Imagen Video peut encore atteindre le niveau de qualité de DALL-E ou de Midjourney. Et c'est la raison pour laquelle Google s'allie aux chercheurs de Phenaki.