VideoPoet, le tout nouveau générateur de vidéos de Google,

L'année dernière, Google a mis au point Imagen Video, une intelligence artificielle text-to-video. Le géant technologique poursuit ses avancées en dévoilant VideoPoet, un nouvel outil novateur qui permet également de créer des vidéos basées sur la saisie de texte. Néanmoins, derrière leur fonctionnement similaire, ces deux IA présentent des différences notables, aussi bien dans leur conception que dans les résultats obtenus. VideoPoet, le nouveau venu de Google, impressionne sur bien des aspects.

Une IA s'appuyant sur un grand modèle de langage

Contrairement aux autres générateurs de vidéos tels que celui de Runway, VideoPoet de Google ne s'appuie pas sur des modèles pré-entraînés uniquement sur des images. Ces systèmes concurrents utilisent généralement une architecture modulaire, où l'intelligence artificielle est divisée en sous-systèmes spécialisés (traitement d'image, génération audio, etc.). Puis, ces derniers sont entraînés séparément et par la suite assemblés.

VideoPoet, lui, repose sur un unique modèle de langage, à l'image des chatbots IA comme Bard ou ChatGPT. Cette approche permet d'optimiser l'entraînement de l'IA. Toutes ses capacités de génération de vidéos sont intégrées dans un seul modèle de langage. Le LLM peut ainsi apprendre à effectuer toutes les tâches de génération en même temps. Les chercheurs ont par ailleurs utilisé un ensemble de données massif provenant de différentes sources pour former le modèle. Le résultat ? Des vidéos cohérentes et visuellement attrayantes.

Introducing VideoPoet, a large language model for zero-shot video generation that produces a range of large & smooth motions while preserving objects' appearance over multiple seconds. Learn more and check out a range of example generated videos → https://t.co/jdqehGruLE pic.twitter.com/sQ4z9D7l4O

— Google AI (@GoogleAI) December 19, 2023

Un large panel de fonctionnalités intéressantes

Les générateurs de vidéos par IA existants se basant sur la diffusion ne parviennent pas à produire des vidéos avec des mouvements larges puisque ceux-ci amplifient les artefacts visuels indésirables. VideoPoet de Google, en revanche, est capable de générer des vidéos contenant des mouvements beaucoup plus amples et fluides. Sa technologie lui permet d'offrir aux utilisateurs des résultats plus réalistes et agréables à regarder.

De plus, cette IA offre des fonctionnalités avancées d'édition et de retouche vidéo. Non seulement elle génère des vidéos à partir d'un texte, mais elle donne également à l'utilisateur la possibilité d'ajouter des effets stylistiques à leur création. Il est aussi possible de réaliser de l'inpainting (remplissage de zones) ou de l'outpainting (extension du cadre de la vidéo) sur les séquences générées. L'utilisateur peut ainsi ajouter des détails visuels qui améliorent le réalisme, ou agrandir l'arrière-plan d'une scène.

VideoPoet peut aussi générer des bandes sonores réalistes pour les vidéos et simuler divers mouvements de caméra. Un autre atout majeur est la capacité de cette IA à créer des vidéos de longue durée en enchaînant plusieurs courts clips. L'utilisateur peut alors s'en servir pour réaliser différents types de contenu vidéo de long format comme des tutoriels, des clips musicaux ou encore des courts métrages. De plus, VideoPoet permet de générer des vidéos au format portrait, adaptées à la consommation sur des plateformes telles que TikTok.

Enfin, les chercheurs ont comparé VideoPoet de Google à d'autres générateurs de vidéos en utilisant divers benchmarks, et il est apparu que cette nouvelle IA surpassait nettement ses concurrents en termes de qualité et de performances. VideoPoet semble ainsi détenir un potentiel considérable et pourrait influencer significativement l'industrie du cinéma, du divertissement et de l'e-commerce.

Partager l'article :