Tout comme Midjourney qui n’arrive pas vraiment à recréer les doigts, la majorité des IA génératives de vidéos, dont Sora AI d’OpenAI, présente des limites qu’il ne faut pas négliger. Et certes, elles parviennent à générer des vidéos d’une qualité impressionnante. Par contre, ces modèles, d’après les chercheurs, n’ont pas la capacité de comprendre les lois de la physique.
Ce qui fait que malgré les ambitions des entreprises, il est toujours difficile pour leurs modèles de simuler le monde réel.
Une question se pose cependant. Est-ce que cette faiblesse a un rapport avec la qualité des données d’entraînement des modèles d’IA génératives de vidéos ?
Ou c’est généralement dû à l’incapacité des modèles à apprendre et à comprendre les règles universelles ?
Les générateurs de vidéos IA ne peuvent pas recréer le monde réel
Après avoir réalisé des tests sur les modèles de génération de vidéos par IA, les chercheurs ont déduit que même ceux les plus performants n’assimilent pas les lois de la physique.
Au contraire, ils ne font que copier les modèles inclus dans les données d’entraînement. Cela tout en s’appuyant sur leurs caractéristiques superficielles.
Tous les modèles présentent en effet le même scénario. Ils suivent une organisation dans le processus de génération des vidéos.
Cela dit, les modèles comme Sora AI, Dream Machine, HeyGen et Kling peuvent générer des vidéos réalistes si les prompts comportent des données qui leur sont familiers.
Dans le cas contraire, quand ils se confrontent à des situations inconnues, les résultats que l’on obtient est assez médiocre.
La vidéo de démonstration de Sora AI vidéo prouve cette hypothèse
Pour illustrer l’hallucination des modèles de génération de vidéos par IA, Bingyi Kang, chercheur scientifique chez TikTok, a publié une vidéo de démonstration sur X.
Au cours de leur expérimentation, Kang et son équipe ont soumis Sora AI à un entraînement utilisant des projectiles se déplaçant horizontalement, dans les deux sens.
Lors des tests avec des balles à vitesse réduite, ils ont observé un comportement inattendu de la part du modèle. Il prédisait des changements soudains de trajectoire après seulement quelques images.
Alors peut-on vraiment résoudre ces problèmes d’hallucinations et surpasser les limites actuelles des IA génératives de vidéos ?
Bien évidemment que oui, mais pas en mettant le modèle à l’échelle. C’est-à-dire que l’ajoute de données d’entraînement ne suffit pas pour augmenter sa capacité de compréhension.
Or, c’est ce qu’ont fait OpenAI et Google avec les modèles Orion et Gemini. Sauf que cette approche ne permet pas aux IA génératives de vidéos de simuler des scénarios qui ne font pas partie de leurs données d’entraînement.
Ces systèmes restreints ne peuvent donc pas prétendre à la qualification de modèles du monde réel.
La véritable essence d’un tel modèle réside dans son habileté de généralisation. Une aptitude qui va au-delà des données ayant servi à son entraînement.
Compte tenu de l’impossibilité pratique de capturer l’intégralité des nuances du monde ou de l’univers lors de la constitution des données d’apprentissage, un modèle de génération de vidéos par IA doit être capable de comprendre et d’appliquer des principes fondamentaux, plutôt que de se limiter à la mémorisation de configurations prédéfinies.
En tout cas, moi, personnellement, je suis impatient d’enfin pouvoir tester Sora AI après tant de battage médiatique.
- Partager l'article :