Sora, l'IA génératrice de vidéos d'OpenAI

Après un début d’année dominé par Google et ses multiples annonces, OpenAI revient sur le devant de la scène avec Sora, une IA génératrice de vidéos prometteuse. Encore en phase de développement, elle est déjà capable de produire des vidéos ultraréalistes à partir de simples descriptions textuelles. La start-up californienne fait un nouveau pas de géant avec cette technologie révolutionnaire.

Un photoréalisme prodigieux pour des vidéos de haute qualité

Pendant un certain laps de temps, OpenAI a semblé délaisser la génération de vidéos par IA à l’aide de descriptifs textuels. D’ailleurs, bon nombre de ses concurrents en ont profité pour révéler leurs projets d’intelligence artificielle texte-vidéo. Il existe déjà aujourd’hui de nombreux outils générateurs de vidéo IA. Le 15 février dernier, cette erreur a enfin été corrigée avec la présentation de Sora.

Pour l’heure, l’outil est seulement disponible pour quelques créateurs triés sur le volet. Néanmoins, les retours font déjà état d’un photoréalisme saisissant qui le différencie des autres modèles d’IA dans le domaine. Mieux, Sora a la capacité de réaliser des vidéos d’une minute. À titre de comparaison, ses concurrents ne produisent encore que de très courts extraits. Par ailleurs, il est possible de modifier la vidéo générée et l’affiner en ajoutant ou en supprimant des éléments jusqu’à l’obtention du résultat souhaité.

L’émergence d’une compréhension de la grammaire cinématographique

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Si Sora se distingue par son photoréalisme et sa capacité de production, il impressionne davantage par sa manière de procéder. En effet, le nouveau modèle d’IA générative de vidéos d’OpenAI ne se contente pas uniquement de transformer en clips les prompts. Il fait montre d’une certaine forme de compréhension naissante de la grammaire cinématographique.

Pour preuve, Sora a développé un véritable talent pour la narration, un point pour lequel il n’a pourtant pas été entraîné. Lors des changements de plans, le timing et les angles de caméra sont simplement impressionnants. De plus, l’outil les génère en un seul jet. Autrement dit, ils ne sont pas produits en plusieurs fois et nécessitent encore un assemblage.

Des restrictions sur le contenu en guise de prévention des risques de dérapage

Pour accélérer le développement de Sora et optimiser ses capacités, OpenAI s’est appuyé sur le modèle de diffusion de DALL-E 3. Il bénéficie aussi d’un moteur qui repose sur un transformateur de GPT-4. Pour améliorer davantage les facultés de narration de son outil, la firme américaine explore des pistes comme la génération de vidéos à partir d’une image.

Pour autant, OpenAI ne compte pas développer Sora sans balises. Ainsi, les utilisateurs devraient s’attendre aux mêmes restrictions qu’avec DALL-E 3 pour la création de contenus. Par exemple, l’IA refusera de générer des scènes de violence et la pornographie. Par ailleurs, elle prohibera l’appropriation des styles d’artistes ou encore l’utilisation de vraies personnes.

OpenAI va certainement améliorer les performances de cette IA. Une innovation aussi révolutionnaire pourrait avoir un impact significatif sur de nombreux métiers liés à la création de contenus vidéo.

Partager l'article :