Alibaba vient de lancer EMO, son IA générative de portraits chantés

Après Sora d’OpenAI, c’est au tour d’Alibaba de lancer son IA générative capable de transformer une seule image en une séquence de vidéo. Baptisé EMO (Emote Portrait Alive), ce nouveau système est alimenté par intelligence artificielle, génère ainsi un portrait parlant ou chantant selon l’invite fournie.

C’est dans une publication sur arXiv que les résultats de la recherche ont été publiés. Et selon les chercheurs, EMO ne crée pas des vidéos en entier d’une personne qui marche. Il s’agita d’un programme qui recrée les mouvements du visage pour ensuite, proposer un résultat dans lequel la source s’exprime via des expressions faciales, une chanson ou des poses de têtes. L’auteur principal de l’étude, Linrui Tian explique d’ailleurs que les approches traditionnelles ne permettent pas de capturer et de reproduire les expressions humaines, encore moins les caractères uniques de chaque visage. « EMO est une IA générative se basant sur une approche de synthèse audio-vidéo directe. On n’a donc pas besoin d’une modélisation 3D dans la reproduction d’un portrait en une vidéo qui chante », a-t-il ajouté.

Conversion directe des ondes audio en vidéo sans modélisation 3D, la vraie performance d’EMO

Pour pouvoir convertir l’audio en vidéo sans recourir à des modèles 3D intermédiaires, EMO utilise ce que l’on appelle modèle de diffusion. Celui-ci a d’ailleurs permis à cette nouvelle intelligence artificielle d’Alibaba de générer des images de synthèses assez réalistes. Pour ce qui est de l’apprentissage du modèle, EMO a été formé sur un ensemble de 250 heures de vidéos incluant des films, des têtes qui parlent, des émissions de télévision, des discours, ainsi que des chants de spectacle.

Ainsi, sans modèles de visage 3D, EMO peut directement convertir l’onde audio en vidéo. C’est cette technique qui offre à EMO la capacité de capturer tous les mouvements perspicaces. Mais aussi les étrangetés de notre identité souvent combinées à notre langage naturel.

Le rapport de l’étude indique cependant une meilleure performance d’EMO par rapport aux méthodes précédentes. En particulier dans les calculs de mesure de la qualité de vidéo qu’il génère. Du côté des utilisateurs, la majorité d’entre eux affirment que le contenu généré par Emo est plus naturel et donne plus d’émotion.

Plus qu’un générateur de vidéos conversationnelles

Toujours d’après les développeurs d’EMO, il ne s’agit pas d’une simple IA génératrice de vidéos conversationnelles. L’algorithme peut également générer des portraits chantés dont les mouvements des lèvres correspondent avec perfection avec la parole des chansons. Quant à la longueur de la vidéo, elle reste conforme à la durée de l’audio.

🚨Introducing Alibaba's EMO!

This AI technology generates expressive portrait videos from just a single image and audio, creating lifelike talking and singing videos.

Say goodbye to static images and hello to a new era of creative content!
pic.twitter.com/dpt68Mxsjd
— Fernando Ocasio (@TechPalsTalk) March 1, 2024

En somme, EMO est sans doute le portail qui ouvre la voie vers la création de vidéos personnalisées à partir d’une seule image. Mais comme toute IA générative, son utilisation abusive laisse présager une usurpation d’identité. Surtout si l’on crée une séquence vidéo du propriétaire de l’image sans son consentement.

Cela dit, l’adoption d’un texte réglementaire pour ce genre d’intelligence artificielle sera de mise. Cela afin d’éviter tout type de risque dont ont été victimes les précédentes IA génératives.

Partager l'article :