Google contre-attaque Meta avec Imagen Video

Juste après que méta ait lancé Make-A-Video, à son tour, Google a également dévoilé son IA génératrice de vidéo : Imagen Video. Ce système d'intelligence artificielle est apparemment capable de générer des vidéos en se basant sur des textes descriptifs.

Jusqu'à ce jour, Imagen Video présente encore quelques défauts. Les résultats obtenus à partir de cette IA génératrice de vidéo contiennent encore du bruit et sont encore parasités. Selon Google, bien que le système ne soit pas encore parfait, Imagen Video n'est qu'une phase vers un niveau de contrôlabilité élevé. Il s'agirait aussi de la première étape qui va mener vers un système plus performant qui, dans le futur, serait en mesure de générer des vidéos artistiques.

Une amélioration significative de la part de Google

Les systèmes d'IA utilisés dans la synthétisation des vidéos ne datent pas d'hier. Et selon Devin Coldwey, Make-A-Video de Meta ne présente pas de différence significative par rapport aux autres systèmes. Des chercheurs de l'Académie d'intelligence artificielle de Pékin ont d'ailleurs lancé un autre système baptisé : CogVideo. Mais comme toujours, les clips vidéo générés ressemblent plus ou moins à ceux des modèles d'IA génératrice de vidéo précédents.

Par contre, Imagen Video semble se démarquer. Il s'agirait d'une version pouvant montrer une forte capacité à animer les sous-titres des vidéos. Une aptitude que les systèmes que nous connaissons déjà n'ont pas. Pour Matthew Guzdal, professeur à l'université de l'Alberta, il s'agit d'une amélioration notable pour le domaine des vidéos générées par IA.

Améliorez la performance de vos projets grâce à l’IA générative ?

Je me lance dans l’IA avec mon entreprise !

imagen video google

Imagen Video va-t-il devancer les performances de DALL-E ou de Stable Diffusion ?

Pour rappel, Imagen Video vient s'appuyer sur Imagen de Google. Or, ce premier est un système de génération de vidéo plus ou moins semblable à Stable Diffusion et à DALL-E. Et Imagen n'est autre qu'un modèle de diffusion ayant la capacité de générer des nouvelles données, des vidéos entre autres. Ce système d'apprentissage automatique arrive donc à comprendre une commande à partir des données et des échantillons existants.

« Imagen Video prend en charge les descriptions textuelles pour pouvoir générer un clip vidéo qui sera composé de 16 images. La vitesse monte à 3 vidéos par seconde, avec une résolution de 24×48 pixels. Le système va ensuite mettre la vidéo à l'échelle tout en prédisant des images adjuvantes. Et cela afin de produire une version définitive qui aura une résolution de 1280 × 768 pixels. Soit un clip qui sera composé de 128 images qui monte à une vitesse de 24 images par seconde », affirme l'équipe de recherche en charge du projet.

Une version améliorée, oui ! Mais pas sans limites

Bien qu'Imagen Video de Google présente une nette amélioration sur la capacité d'interpréter les descriptions textuelles, il n'est pas sans limites non plus. Comme avec Make-A-Video, les vidéos obtenues présentent encore des imperfections. Et selon Guzdial, Imagen Video peut encore atteindre le niveau de qualité de DALL-E ou de Midjourney. Et c'est la raison pour laquelle Google s'allie aux chercheurs de Phenaki.

Partager l'article :

Facebook
Twitter
LinkedIn

A ne pas manquer

Top 10 des générateurs de Deepfake IA

L’utilisation des générateurs de deepfake IA présente des avantages et des inconvénients. Il est possible […] Plus
Test de Turing – Un test pour mesurer l’intelligence artificielle

Le test de Turing est un test permettant de vérifier la capacité d’une machine à […] Plus
Les plus grandes entreprises d’intelligence artificielle dans le monde

Au cours de ces dernières années, l’intelligence artificielle a gagné l’intérêt de plusieurs entreprises et […] Plus
Comment réécrire et contourner la détection d’IA ?

L’utilisation de l’intelligence artificielle (IA) pour détecter et empêcher le plagiat devient de plus en […] Plus