NVIDIA lance le modèle robotique DreamDojo

Par Irisoa R. Publié le 24 février 2026 & Mis à jour le 24 février 2026 | 3 minutes de lecture

Le géant NVIDIA dévoile DreamDojo, une intelligence artificielle révolutionnaire entraînée sur plus de 44 000 heures de vidéos humaines. Ce modèle open source permet aux robots d’apprendre la physique du monde réel par simple observation visuelle.

NVIDIA a publié jeudi DreamDojo, un modèle mondial de base pour la robotique polyvalente. Ce système apprend comment les machines doivent interagir avec leur environnement physique sans dynamique codée. Il utilise pour cela un immense ensemble de données vidéo capturées du point de vue humain. Cette initiative place ainsi le fabricant de puces au centre de l’IA physique mondiale. Le projet DreamDojo résulte d’ailleurs d’une collaboration avec Berkeley, Stanford et plusieurs universités prestigieuses. NVIDIA espère ainsi accélérer drastiquement le développement des futurs robots humanoïdes intelligents.

Un entraînement massif par observation humaine

La force des actions latentes continues

Le cœur du système repose sur DreamDojo-HV, le plus grand dataset vidéo égocentrique jamais assemblé. Il couvre 6 015 tâches uniques et plus d’un million de trajectoires de mouvements fluides. Cette base de données est 15 fois plus vaste que tout ensemble robotique antérieur.

L’équipe a introduit une méthode auto-supervisée pour déduire les changements entre les images vidéo. Cette technique permet de traiter n’importe quelle vidéo humaine sans étiquettes d’actions robotiques spécifiques. Les humains explorent déjà naturellement des combinaisons complexes comme saisir, verser ou plier des objets. Le modèle assimile ainsi ces gestes à travers des scènes encombrées et variées. Cette méthode auto-supervisée innovante et performante élimine donc le besoin de matériel physique initial. Le robot apprend simplement en observant les succès et les échecs des opérateurs humains.

Une diversité de scènes sans précédent

Jim Fan souligne que les humains réalisent des chaînes de tâches d’une heure complète. Aucune flotte de robots actuelle ne pourrait égaler une telle échelle de données réelles. DreamDojo-HV est 2 000 fois plus diversifié que les anciens jeux de données de recherche. Cette richesse permet au modèle de comprendre la physique des pixels de manière intuitive. L’IA génère ainsi des états futurs prédits sans s’appuyer sur un moteur physique. Cette diversité de scènes mondiales massives garantit une meilleure robustesse lors du déploiement futur.

Inférence en temps réel et performances réelles

Après son pré-entraînement, DreamDojo subit une phase d’adaptation sur des équipements spécifiques comme l’AgiBot. Le modèle atteint une vitesse d’inférence de 10,81 images par seconde grâce à la distillation. Cette performance déverrouille plusieurs applications concrètes pour les industriels et les chercheurs indépendants.

Téléopération et planification avancée

Le modèle permet désormais la téléopération en direct via des casques de réalité virtuelle. Une démonstration sur l’Unitree G1 avec une RTX 5090 a prouvé cette efficacité. DreamDojo améliore également de 17 % le taux de réussite lors d’emballages de fruits. Cette planification basée sur le modèle remplace avantageusement les politiques de contrôle classiques. On obtient ainsi un contrôle moteur fluide et réactif en conditions de travail réelles. Les robots deviennent plus précis et capables de réagir aux imprévus visuels.

NVIDIA a publié deux variantes de son modèle comptant 2 et 14 milliards de paramètres. Le code est disponible sur GitHub sous une licence Apache 2.0 très flexible. Les poids du modèle et les jeux de données sont également accessibles librement. Cette publication vise à rattacher la communauté de recherche à l’écosystème matériel de NVIDIA. La firme propose ainsi une plateforme logicielle ouverte et gratuite pour tous les développeurs. Cette stratégie renforce sa domination sur le marché de l’infrastructure IA mondiale.

"Avec #DreamDojo, #Nvidia veut permettre aux #robots, principalement humanoïdes, de réaliser des tâches complexes directement à partir de vidéos réelles d’actions humaines, sans ajout de données de démonstration spécifiques"???? ????https://t.co/Q6CZNUkpLN
— Lionel Costes (@RLDI_Lamy) February 16, 2026