Après avoir fait mouche dans le développement d’une IA génératrice de texte, OpenAI étend ses activités et se lance dans les vidéos générées par intelligence artificielle. Sora, c’est le nom de ce nouvel IA développé par le créateur de ChatGPT.
Février 2024, il y a quelques jours, OpenAI a annoncé la toute première IA génératrice de vidéos offrant des résultats plus réalistes. Mais comme il s’agit de la première version développée par le géant de l’intelligence artificielle, la date de sortie pour la version grand public de Sora n’a pas encore été annoncée. Par contre, on peut d’ores et déjà trouver quelques vidéos que le personnel d’OpenAI a publiées sur TikTOk et X (anciennement Twitter).
Sora : les détails techniques à ne pas manquer
En tant que modèle de diffusion, Sora repose sur la technologie qui se cache derrière DALL-E. Mais OpenAI a apporté une amélioration pour que cette technologie puisse s’adapter aux nouvelles fonctionnalités intégrées dans Sora.
En ce qui concerne son apprentissage, OpenAI a utilisé des données accessibles au grand public. Du moins, c’est ce que la société a déclaré lors du lancement officiel de Sora. Mais ils ont également formé Sora sur des contenus protégés par le droit d’auteur dont ils ont acheté la licence en amont.
En somme, Sora est un LLM qui a été formé sur un grand volume de données incluant des vidéos, des codes et des textes. En tant que modèle d’IA générative, il a la capacité de générer des vidéos sous différents formats, de longueurs différentes, et dont la résolution peut varier en fonction du résultat souhaité. Sora permet également une extension de vidéos et en créer des boucles si besoin est.
D’après les chercheurs, Sora est un modèle prometteur dans le cadre du développement de simulateur. Et ils ont raison parce qu’après tout, Sora peut facilement créer des vidéos composées de mouvements de caméra. Et plus les caméras se déplacent, plus les sujets, eux aussi, bougent de manière cohérente.
Par rapport au défi majeur auquel se confrontent les IA génératrices de vidéos, dont le maintien de la cohérence temporelle, Sora se révèle plus performant. Mais ce n’est pas toujours le cas non plus, même s’il est peut modéliser les dépendances à court et à long terme de manière efficace. Malgré tout, Sora présente encore des défauts qui, peut-être, seront réglés par OpenAI dans un avenir proche. Ou du moins jusqu’au lancement de la version accessible au public.
Bien plus qu’un simple générateur de vidéo ?
Par définition, Sora est un système qui utilise l’IA dans le but de créer des séquences vidéo à partir d’une description textuelle, connue également sous le nom de prompt. Mais d’après OpenAI, il ne s’agit pas d’un simple générateur de vidéo. Si les anciens modèles de génération de vidéo se limitent au simple fait d’utiliser du texte comme prompt, Sora a la capacité de prendre en charge d’autres types d’invites. Notamment des images ou des vidéos préexistantes qui seront ensuite modifiées de toutes les manières possibles en fonction des invites textuelles.
Quoi qu’il en soit, il n’en est rien de Sora sans la technologie qui se cache derrière elle. Il s’agit en effet d’une version améliorée des modèles destinés à DALL-E 3, c’est-à-dire la plateforme de génération d’images d’OpenAI lui-même, mais qui est dotée de nouvelles fonctionnalités pour un meilleur contrôle.
Au final, Sora est comme un spécialiste des effets spéciaux qui, au lieu d’utiliser les pixels, utilise les capacités génératives de l’intelligence artificielle. Mais pour y arriver, OpenAI a dû former Sora sur toute une variété de données. Dont des images de formats différents et des vidéos ayant des durées variées et des résolutions différentes.
La perfection n’existe pas
Comme toute IA générative, Sora n’a pas encore atteint son plein potentiel. OpenAI de son côté, affirme que l’outil présente encore quelques limites. Notamment au niveau de la modélisation de la physique du sujet, mais aussi par rapport à l’interaction entre les objets du décor. Néanmoins, OpenAI est actuellement à la recherche de nouvelles techniques pour résoudre le problème. C’est l’une des raisons pour lesquelles Sora n’est pas encore accessible au grand public.
Parallèlement, Sora fait aujourd’hui l’objet d’un débat majeur auprès des utilisateurs. OpenAI devra donc faire attention aux risques liés à l’usage abusif de l’intelligence artificielle. À savoir la prolifération des deepfakes, ou encore l’édition d’une image de personnes réelles en vidéo.
D’un autre côté, il y a les menaces qui pèsent sur les créateurs de vidéos et de tous les acteurs du secteur. Notamment les monteurs vidéos, les animateurs, ou encore les spécialistes en effets spéciaux. Sans oublier les réglementations qui encadrent l’utilisation de l’IA dans certains pays qui remettent en cause le fonctionnement de Sora dans un avenir proche.
OpenAI impliqué dans le respect de la restriction de contenu et de la confidentialité
Pendant la formation de Sora, les experts d’OpenAI ont travaillé pour identifier et interdire les cas d’utilisation problématiques. Notamment la désinformation, le contenu haineux ou les préjugés. Des métadonnées sous forme de balise permettent également d’identifier les vidéos générées par l’IA. Il s’agit ici d’une approche qui permettra d’effectuer des vérifications au niveau des invites. Et c’est ainsi que Sora pourrait s’assurer que les descriptions textuelles respectent bel et bien les politiques d’utilisation.
À l’instar de DALL-E 3, Sora aura aussi un certain nombre de restrictions avant son lancement public. Celles-ci fixent les limites quant à la génération d’images de personnes réelles. Mais aussi de contenu incluant une violence extrême, de contenu sexuel, ou encore du contenu haineux. La création de contenus liés à des célébrités ou portant atteinte aux droits de propriété intellectuelle sera également interdite.
Ces garde-fous visent à encadrer strictement les utilisations possibles de cette puissante IA. Cela afin de prévenir les dérives et les usages préjudiciables. Mais ce ne sont que des précautions similaires à celles mises en place pour DALL-E 3 sur les images statiques.
Quand est-ce que Sora sera accessible au public ?
Aucune date de sortie n’a encore été annoncée par OpenAI quant à la version publique de Sora. L’entreprise déclare avoir encore du travail sur les aspects de sécurité avant de le lancer, mais cela devrait intervenir d’ici avril ou mai.
Comme le cas de DALL-E 3, tout laisse croire qu’OpenAI va intégrer Sora à ChatGPT au lieu d’en faire un modèle entièrement indépendant. Et bien que les anciennes versions de DALL-E bénéficient de leur propre page, le géant californien de l’intelligence artificielle va lancer Sora sous forme d’API. Les développeurs pourront ainsi intégrer les fonctionnalités de Sora dans leurs applications.
Cette stratégie d’intégration à d’autres produits est déjà utilisée pour DALL-E 3. Par exemple, des plateformes comme NightCafe proposent leur propre interface pour générer des images avec le modèle d’OpenAI.
En attendant son lancement qui aura lieu dans un ou deux mois, OpenAI continue de travailler sur les garde-fous sécuritaires à mettre en place autour de cette puissante technologie de synthèse vidéo par IA.
Sora face à la concurrence
Google et Meta se concentrent actuellement sur leur propre modèle de génération de vidéo. En février 2024, Google a annoncé Lumière qui est encore en phase de développement. Quant à Make-a-Video, Meta est encore dans la phase de préparation.
D’autres entreprises se sont également lancées dans le développement de modèles de génération de texte en vidéo. C’est le cas de Runaway qui travaille sur le modèle Gen-2. Mais jusqu’à l’heure où l’on a rédigé ses lignes, Sora reste en tête de liste des meilleurs générateurs de texte en vidéo.
- Partager l'article :