Genie : tout savoir sur l’IA de Google qui transforme les images en jeux vidéo

Nous avons un article précédent les généralités sur Genie, l’IA de Google qui transforme les invites textuelles en jeux vidéo 2D. Aujourd’hui, nous allons entrer dans les détails et décortiquer cette IA générative. Comment elle fonctionne ? Quels sont ses avantages ? Y a-t-il des améliorations à apporter ? Explications !

Le pouvoir d’évasion et d’immersion dans un univers totalement étranger à notre réalité quotidienne fait partie des attraits fondamentaux du jeu vidéo. Imaginez maintenant que vous disposez de la capacité de concevoir vous-même ce monde imaginaire de toutes pièces. C’est précisément ce que permettra Genie, la nouvelle avancée technologique des scientifiques de Google DeepMind. Grâce à cet outil révolutionnaire, vous aurez la possibilité de modeler et de donner vie à votre propre univers fictionnel, aux paysages et ambiances aussi singuliers que ceux des jeux vidéo aux graphismes les plus marquants et travaillés.

Que faut-il savoir sur Genie ?

Genie représente une nouvelle forme d’intelligence artificielle générative révolutionnaire. Elle permet à tout un chacun, même les plus jeunes, d’imaginer et d’explorer des mondes immersifs générés de manière similaire aux environnements simulés habituellement conçus par des créateurs humains. D’après un article que l’équipe de Google DeepMind à publié, sur simple instruction, cette nouvelle IA générative est capable de modeler une grande diversité d’univers interactifs et contrôlables par l’utilisateur.

Alors que de nombreux modèles d’IA générative existants produisent déjà du contenu créatif sous forme de textes, d’images ou même de vidéos, avec Genie, Google a percé un nouveau domaine. C’est la toute première fois après ChatGPT, Midjourney AI ou Claude AI que l’intelligence artificielle peut générer non pas une image ni un texte, mais plutôt un environnement virtuel interactif.

Genie se démarque alors de ses prédécesseurs par son approche novatrice et unique. Plutôt que d’être entraîné par des instructions explicites, ce système d’intelligence artificielle de pointe apprend par l’observation grâce à un vaste ensemble de données vidéo non étiquetées. Son impressionnante base d’apprentissage comprend pas moins de 200 000 heures de séquences vidéo issues principalement de jeux de platesformes 2D.

En analysant et en discernant les schémas, les comportements et les interactions au sein de ces nombreuses vidéos, Genie parvient à transcender les limitations traditionnelles des IA génératives. Son processus d’apprentissage profond lui permet ainsi de générer des environnements de jeu immersifs et interactifs à partir d’un minimum d’éléments d’entrée fournis par l’utilisateur.

Pas besoin de tout un album, une seule image suffit !

Le point fort distinctif de Genie réside dans sa faculté inédite à modeler des univers virtuels jouables et interactifs intégralement nouveaux, en prenant pour unique point de départ une simple image d’entrée. Cette fonctionnalité ouvre la voie à de nouvelles manières de concevoir et d’explorer des mondes numériques immersifs.

Pour démontrer cette prouesse, les chercheurs de DeepMind ont utilisé une image générée par le modèle texte-vers-image Imagen 2 comme base pour créer un environnement virtuel complet explorable. Un simple croquis peut également servir de tremplin à Genie pour donner naissance à un univers jouable made in DeepMind.

Toujours d’après les équipes de Google DeepMind, leur IA ne se cantonne pas aux univers déjà connus. Au contraire, il peut au contraire être amené à générer des environnements virtuels à partir d’images totalement inédites pour lui. Que ce soient des photographies, des croquis ou toute autre représentation du monde réel, Genie a la capacité de les transformer en terrains de jeu numériques interactifs dans lesquels l’utilisateur peut s’immerger et évoluer.

Cette aptitude à créer des « mondes de fondation » entièrement nouveaux à partir d’éléments visuels arbitraires démontre la grande polyvalence de Genie. Pour ce faire, le modèle a été entraîné selon une approche générique sur un vaste corpus de données vidéo provenant notamment de jeux de plateforme 2D et de simulations robotiques.

Generative AI developers at Google DeepMind have unveiled Genie in a strategic move to enter the world's highest grossing industry: entertainment.

Read more in our newsletter at https://t.co/5NML4Mt50z #Gaming #AI #ArtificialIntelligence pic.twitter.com/2jBK0NUZBz
— Born (@BornImmersive) March 18, 2024

Comment Genie transforme-t-elle les invites en des jeux de plateforme 2D ? La magie derrière le processus

Le processus de génération de jeux sur Genie se décompose en trois phases distinctes aux rôles complémentaires. Il y a avant tout ce que l’on appelle le Video Tokenizer. Celui-ci joue un rôle de base et vient décomposer les données vidéo complexes en éléments plus simples et manipulables, des jetons en d’autres termes. Cette étape se réfère à la manière d’un chef qui prépare méticuleusement ses ingrédients.

Ce n’est qu’après la préparation des éléments que le modèle d’action latente analyse les transitions entre images. C’est grâce à ce processus que Genie peut identifier les actions fondamentales au gameplay. Notamment certaines actions comme sauter, courir ou interagir avec les éléments. On peut le comparer à un fin connaisseur culinaire détectant les saveurs clés pour réussir un bon repas.

La troisième et dernière étape consiste à prédire les images suivantes en fonction des interactions courantes. C’est ce qui donne naissance à une expérience de jeu fluide et dynamique. On peut d’ailleurs comparer cette phase à un chef créatif orchestrant un plat.

Oui, Genie a un énorme potentiel et présente une avancée significative dans le domaine de l’intelligence artificielle et de l’IA générative. Mais comme tous les autres modèles, elle présente encore certaines limitations. À savoir la limitation de la qualité visuelle, mais aussi la restriction de l’accès.

Comme l’a souligné Jaspreet Bindra, fondateur de TechWhisperer UK : « l’IA générative est un outil créatif et génératif ultra-puissant qui peut démocratiser la programmation. Google a franchi une étape supplémentaire avec Genie AI pour créer des jeux 2D via des invites textuelles. Le niveau visuel n’égale pas encore les jeux existants, mais c’est un pas clair dans cette direction ».

Quand le génie fait face à un blocage …

Notons tout de même que Genie en est encore au stade de projet de recherche. Cette IA ne permet donc pas, pour l’instant, de générer des jeux vidéo de haute qualité visuelle.

Le modèle a en effet été entraîné sur des vidéos de très basse résolution (160 x 90 pixels) à seulement 10 images par seconde. En conséquence, les environnements virtuels générées souffrent de cette même limitation. Elles se limitent donc à une résolution indigente et un taux d’images par seconde très faible de 1 ips sur une durée maximale de 16 secondes.

Néanmoins, la preuve de concept a été réalisée avec succès par cette première version. On peut donc raisonnablement s’attendre à ce que les futures itérations de cette IA de Google, alimentées par des données vidéo de bien meilleure qualité et des capacités de calcul accrues, permettent d’atteindre des résolutions visuelles et des performances nettement supérieures pour ces mondes virtuels générés par IA.

Pour l’heure, si l’idée est prometteuse, Genie reste un prototype de recherche aux résultats encore modestes en termes de rendu graphique et de fluidité de jeu. Mais les bases d’un outil révolutionnaire de worldbuilding sont désormais posées.

Partager l'article :