Embodied AI : quand l’IA interagit sensoriellement avec son environnement

L’Embodied AI est le fruit des récentes recherches sur l’intelligence artificielle, le machine learning et la vision par ordinateur. Elle vise à former des agents d’IA capables d’interagir avec leur environnement de la même manière sensorielle que les humains.

L’objectif principal de l’intelligence artificielle a toujours été d’imiter l’intelligence humaine. Pour y parvenir, les professionnels de l’IA développent des algorithmes et des logiciels intelligents. Cela donne aux machines la faculté d’effectuer des tâches aussi efficacement que les humains. Cependant, les capacités de ces systèmes sont généralement limitées par l’environnement changeant qui requiert un grand niveau d’adaptation.

L’embodied AI vise à résoudre ces problèmes en créant des agents virtuels qui peuvent se déplacer, voir, parler et interagir avec leur environnement virtuel. Par la suite, ces capacités sont transférées dans les agents physiques pour les appliquer au monde réel.

D’où vient le concept d’embodied AI ?

C’est Linda Smith qui a proposé le concept dans son « embodiment hypothesis » (hypothèse de l’incarnation), en 2005. L’idée était de rendre l’interaction d’un agent d’IA avec son environnement plus immersif, comme le résultat d’une activité sensorimotrice. En d’autres termes, elle soutient que pour acquérir la flexibilité et l’inventivité humaines, l’intelligence doit se développer dans un monde physique, social et linguistique. L’hypothèse fait également valoir que le corps de l’agent joue un rôle important dans le cognitivisme, au-delà du cerveau.

D’autre part, une grande partie des récents développements de la recherche sur l’embodied AI rassemble les sous-catégories de l’IA. Nous pouvons notamment citer le traitement du langage naturel (NLP), la computer vision, le reinforcement learning, la navigation, la simulation virtuelle et la robotique. Les chercheurs en vision par ordinateur définissent le concept comme des agents virtuels opérant dans des environnements 3D qui fondent leurs décisions sur les données perceptives égocentriques. Autrement dit, l’embodied AI forme des agents « incarnés » dans un simulateur virtuel, pour transférer ensuite les compétences acquises dans la réalité.

Les limites de l’intelligence artificielle

Le machine learning et le deep learning ont largement contribué aux progrès de l’IA au cours des dernières années. Ces technologies facilitent le traitement des grands ensembles de données avec de grandes puissances de calcul. En quelque sorte, ces types d’apprentissages se rapprochent tant bien que mal de l’apprentissage humain. Mais une grande différence réside dans la perception des données. Les images, les vidéos et les textes qui alimentent ces systèmes sont principalement issus d’internet, d’où la désignation d’« Internet AI ». Ces données proviennent de satellites, de flux Twitter, des selfies, etc., mais ne correspondent pas à la manière dont un humain perçoit le monde.

De son côté, l’embodied AI part du principe que les agents incarnés doivent apprendre de la même manière que les humains. Les robots virtuels devront donc apprendre en voyant, en bougeant, en parlant et en interagissant avec le monde.

Comment fonctionne l’embodied AI ?

L’embodied AI repose avant tout sur l’agent et l’environnement de formation. L’agent incarné, aussi appelé robot virtuel, agent simulé ou agent égocentrique se caractérise par sa perception du monde à la première personne. Il évolue dans un environnement simulé qui représente le monde réel pour interagir de manière sensorielle.

Si l’Internet AI apprend à partir de données statiques, la perception égocentrique de l’embodied AI produit des images ou des vidéos plus instables. En d’autres termes, elle fait face à des changements supplémentaires. D’autre part, l’intelligence basée sur les données internet se concentre sur la reconnaissance de formes. L’embodied AI, en revanche, permet à l’agent d’entreprendre une action dans son environnement virtuel. Certes, l’embodied AI et l’IA basée sur les données internet utilisent différentes approches. Toutefois, les avancées en matière de vision par ordinateur et de NLP peuvent contribuer à la réussite l’IA incarnée. De même, les scènes 3D (SUNCG, Matterport3D, iGibson, Replica, etc.) fournissent des environnements simulés pour former les agents.

Dans le cadre de l’embodied AI, les chercheurs utilisent l’apprentissage par renforcement (reinforcement learning). Entre autres, pour réussir une action, l’agent doit apprendre par plusieurs tentatives aléatoires. Il reçoit ensuite des observations en fonction de son action pour s’améliorer et atteindre son objectif.

Les avantages de l’embodied AI

Précisons d’abord que les agents virtuels sont équipés de capteurs pour importer les données et les transférer aux systèmes d’IA physiques. Grâce à ces capteurs, les agents incarnés peuvent effectuer une odométrie visuelle (VO), une localisation globale et une navigation visuelle dans un environnement 3D.

En outre, l’embodied AI permet d’apprendre aux agents, d’une manière plus efficace, à comprendre le langage humain. Cela ouvre également la possibilité à une navigation visuelle guidée par les instructions et à une capacité de fournir des réponses à des questions aléatoires.

Partager l'article :