in ,

Gemini : le secret derrière la super intelligence des robots RT-2

Google Gemini 1.5 Pro formant un robot RT-2

Dans le cadre de la facilitation des tâches en entreprises, , par le biais de l’équipe , vise à optimiser l’intelligence des robots RT-2 en leur entraînant avec le modèle 1.5 Pro. Ce qui permettrait à ces humanoïdes d’une meilleure capacité de navigation et d’aptitudes physiques.

Les chercheurs en robotique de DeepMind ont alors démontré comment les capacités étendues de traitement contextuel de Gemini 1.5 Pro peuvent-elle faciliter les interactions entre les utilisateurs et les robots RT-2.

Ce qui, par la suite, permet à chaque utilisateur de mieux communiquer avec les robots. Mais aussi de leur fournir des instructions en langage courant.

YouTube video

Gemini X RT-2 : la combinaison gagnante

DeepMind a combiné deux technologies clés dans son récent projet de robotique avancée (l’ et la robotique en d’autres termes).

Le premier élément, le modèle Gemini 1.5 Pro, est utilisé pour sa capacité à traiter de longues séquences d’informations.

La seconde clé, le Robotic Transformer 2 (RT-2), est employé pour son aptitude à intégrer vision, langage et action.

À titre d’information, le RT-2 a la particularité d’apprendre à la fois à partir de données en ligne et d’expériences avec des robots dans le monde réel.

Cette double approche lui permet de mieux comprendre et interagir avec son environnement. Ce qui explique d’ailleurs le choix de DeepMind.

La combinaison de ces deux technologies vise cependant à créer des robots capables de mieux interpréter les instructions en langage naturel. Mais aussi d’agir de manière plus efficace dans leur environnement.

Actuellement, le temps de traitement des instructions par le robot est de moins d’une minute, voire quelques secondes.

De la vidéo à l’action : comment DeepMind forme-t-il les robots RT-2 ?

Toujours comme l’ont indiqué les équipes de DeepMind, les robots sont entraînés par le biais d’une séquence vidéo.

Elles ont alors développé une approche dans laquelle le modèle Gemini 1.5 Pro le contenu de la vidéo avant de transmettre les données aux robots RT-2.

Le processus passe d’abord par l’analyse de l’environnement, qu’il s’agisse d’un bureau, d’une maison, ou d’une chaîne d’approvisionnement.

Le robot, de son côté, effectue une tâche ou exécute une commande selon les données qu’il obtient de Gemini.

YouTube video

L’exemple que Google a donné, c’est celui dans lequel ils ont demandé au robot où et comment recharger un .

Tout de suite, le robot a indiqué une prise murale et a dirigé l’utilisateur vers le dispositif de recharge.

Un taux de réussite de 90 % et une vitesse d’exécution de 30 secondes

Après une série de tests, les chercheurs de Google DeepMind ont déduit que le modèle RT-2 alimenté par Gemini 1.5 atteint un taux de réussite de 90 %.

Ils ont obtenu ce chiffre en testant le robot sur une cinquantaine de requêtes dans un espace de travail de plus de 800 mètres carrés.

Parallèlement, DeepMind avance que le modèle Gemini Pro permet aux robots RT-2 d’optimiser sa vitesse.

À l’heure actuelle, ils mettent entre 10 et 30 secondes pour effectuer une tâche. Et au-delà de la navigation, les robots disposent également d’une capacité à planifier les instructions qu’ils reçoivent.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *