Make-A-Video : la nouvelle IA génératrice de vidéo de Meta

Aux dernières nouvelles, Meta a lancé une nouvelle IA génératrice de texte en vidéo. L'outil en question s'appelle Make-A-Video et est considéré comme une nouvelle tendance du web pour générer un contenu vidéo par intelligence artificielle.

Ce modèle d'IA créé par Meta fonctionne avec un principe assez simple. Les utilisateurs peuvent par exemple rédiger des descriptions qui vont servir de base pour la création de vidéo. Les résultats obtenus vont en effet dépendre du choix de l'utilisateur. Bien que les descriptions acceptées soient assez courtes, le rendu des vidéos peut être réaliste, surréaliste ou stylisé.

Make-A-Video accepte cependant les descriptions du type « un couple marchant dans une ruelle » ou « un bateau naviguant dans l'océan ». Le système va alors créer un GIF de courte durée selon les descriptions données.

Make-A-Vidéo : l'IA qui va faciliter la génération de vidéos

Avec les autres IA génératrices d'images comme DALL-E, il est difficile de traduire les descriptions écrites en vidéo. Et cela en raison de la nécessité du mouvement dans ce type de contenu. Mark Zuckerberg affirme d'ailleurs qu'il est plus difficile de générer des vidéos plutôt que des photos. « Il ne s'agit pas tout simplement de générer des pixels. Le travail consiste également à prédire l'évolution de chaque pixel dans le temps. Avec Make-A-Video, on peut facilement ajouter des couches d'apprentissage. Cette technique de deep learning va permettre à l'IA d'appréhender le mouvement pour ensuite, l'appliquer dans la phase de génération de texte en vidéo », ajoute-t-il.

Un modèle hors du commun

Toujours selon les dires du PDG de Meta, les équipes de recherche en IA ont déclaré dans un article récemment publié que ce modèle d'intelligence artificielle est différent de ceux qu'on a déjà vus. Les méthodes actuelles utilisent l'approche T2I ou Text-to-Image. Make-A-Video utilise une autre méthode, notamment la T2V ou Text-to-Video.

Selon les chercheurs de Meta, la méthode T2I ressemble plutôt à celle adoptée par DALL-E. Et les applications de conversion de texte en image ont gagné en réputation ces derniers jours. Pour le cas de TikTok par exemple, ils ont lancé le AI Greenscreen. Un filtre qui consiste à générer une image ou une peinture à partir des textes que les utilisateurs tapent.

D'un autre côté, il y a également la technologie Deepfake, une méthode qui consiste à remplacer le visage d'une personne par un autre. Les studios d'effets visuels ont d'ailleurs adopté cette approche dans des Blockbusters tels que The Mandalorian.

DALL-E : menace ou opportunité pour l'avenir de l'IA génératrice de vidéo ?

Le problème avec la technologie d'IA, c'est que certains l'utilisent pour diffuser des fausses nouvelles. Une question se pose alors : l'IA constitue-t-elle une menace ? En réalité, les outils comme DALL-E ou Make-A-Video ne sont que des technologies dont le but est de s'amuser. Elles proposent d'ailleurs des fonctionnalités intéressantes et divertissantes en même temps. Quitte à dire qu'il ne faut pas se concentrer que sur le mauvais côté des choses.

Partager l'article :