Gemini : le secret derrière la super intelligence des robots RT-2

Dans le cadre de la facilitation des tâches en entreprises, Google, par le biais de l’équipe DeepMind, vise à optimiser l’intelligence des robots RT-2 en leur entraînant avec le modèle Gemini 1.5 Pro. Ce qui permettrait à ces humanoïdes d’une meilleure capacité de navigation et d’aptitudes physiques.

Les chercheurs en robotique de DeepMind ont alors démontré comment les capacités étendues de traitement contextuel de Gemini 1.5 Pro peuvent-elle faciliter les interactions entre les utilisateurs et les robots RT-2.

Ce qui, par la suite, permet à chaque utilisateur de mieux communiquer avec les robots. Mais aussi de leur fournir des instructions en langage courant.

Gemini X RT-2 : la combinaison gagnante

DeepMind a combiné deux technologies clés dans son récent projet de robotique avancée (l’intelligence artificielle et la robotique en d’autres termes).

Le premier élément, le modèle Gemini 1.5 Pro, est utilisé pour sa capacité à traiter de longues séquences d’informations.

La seconde clé, le Robotic Transformer 2 (RT-2), est employé pour son aptitude à intégrer vision, langage et action.

À titre d’information, le robot RT-2 a la particularité d’apprendre à la fois à partir de données en ligne et d’expériences avec des robots dans le monde réel.

DeepMind's robotics showcase how Gemini 1.5 Pro's long context window enhances natural language interactions with RT-2 robots.

Gemini has the largest context window for LLM's, though this will likely go back and forth between the major players over time.

What this means: pic.twitter.com/RAwL1E4HGe
— James S (@BeginnersinAI) July 12, 2024

Cette double approche lui permet de mieux comprendre et interagir avec son environnement. Ce qui explique d’ailleurs le choix de DeepMind.

La combinaison de ces deux technologies vise cependant à créer des robots capables de mieux interpréter les instructions en langage naturel. Mais aussi d’agir de manière plus efficace dans leur environnement.

Actuellement, le temps de traitement des instructions par le robot est de moins d’une minute, voire quelques secondes.

De la vidéo à l’action : comment DeepMind forme-t-il les robots RT-2 ?

Toujours comme l’ont indiqué les équipes de DeepMind, les robots sont entraînés par le biais d’une séquence vidéo.

Elles ont alors développé une approche dans laquelle le modèle Gemini 1.5 Pro analyse le contenu de la vidéo avant de transmettre les données aux robots RT-2.

Le processus passe d’abord par l’analyse de l’environnement, qu’il s’agisse d’un bureau, d’une maison, ou d’une chaîne d’approvisionnement.

Le robot, de son côté, effectue une tâche ou exécute une commande selon les données qu’il obtient de Gemini.

L’exemple que Google a donné, c’est celui dans lequel ils ont demandé au robot où et comment recharger un smartphone.

Tout de suite, le robot a indiqué une prise murale et a dirigé l’utilisateur vers le dispositif de recharge.

Un taux de réussite de 90 % et une vitesse d’exécution de 30 secondes

Après une série de tests, les chercheurs de Google DeepMind ont déduit que le modèle RT-2 alimenté par Gemini 1.5 atteint un taux de réussite de 90 %.

#Google utilise son IA Gemini pour améliorer la navigation et les tâches des robots. L'équipe de DeepMind explique que l'utilisation de la fenêtre de contexte étendue de #Gemini 1.5 Pro permet une interaction plus facile avec les robots RT-2 via des instructions en langage… pic.twitter.com/inItyVubVd
— Romain Leclaire (@actutechreddit) July 11, 2024

Ils ont obtenu ce chiffre en testant le robot sur une cinquantaine de requêtes dans un espace de travail de plus de 800 mètres carrés.

Parallèlement, DeepMind avance que le modèle Gemini Pro permet aux robots RT-2 d’optimiser sa vitesse.

À l’heure actuelle, ils mettent entre 10 et 30 secondes pour effectuer une tâche. Et au-delà de la navigation, les robots disposent également d’une capacité à planifier les instructions qu’ils reçoivent.

Partager l'article :