Une IA qui comprend les relations entre les objets ? -

Les machines ont du mal à comprendre les relations qui existent entre les objets, mais l'IA est sur le point de changer cela.

Des chercheurs ont développé un modèle de machine learning qui permettrait aux robots de comprendre les objets comme le font les humains. Cela augmenterait leur capacité à nous assister réellement dans notre quotidien ou dans les entreprises.

Les relations entre les objets, du point de vue de l'IA

« Prendre la spatule qui se trouve à gauche de la cuisinière et la placer sur la planche à découper ». Voilà une commande qui ne nous est pas difficile à comprendre. Mais pour un ordinateur, c'est une autre histoire. En effet, les machines ne peuvent pas comprendre quelles relations existent entre les objets individuels.

Pour les chercheurs du MIT CSAIL, un système capable de comprendre ces relations pourrait interagir plus efficacement avec son environnement. Ils ont donc développé un nouveau modèle de machine learning pour résoudre ce problème.

Ce nouveau cadre d'IA permet de générer l'image d'une scène à partir d'une description textuelle incluant des objets et leurs relations. Il décompose les phrases en de plus petites parties pour décrire chaque relation individuelle. Cette première étape permet de modéliser chaque partie séparément. Ensuite, un processus d'optimisation génère l'image de la scène en combinant les différentes pièces. Le système peut combiner les éléments de différentes manières.

Le système fonctionne également dans l'autre sens. Autrement dit, il peut trouver des descriptions en se basant sur les relations entre les objets d'une scène. En outre, il peut réorganiser les objets de la scène en suivant une nouvelle description.

Évaluer l'efficacité du système

Les chercheurs ont soumis leur modèle à différentes épreuves pour évaluer sa performance. Ils l'ont d'abord comparé à d'autres méthodes de génération des images à partir de descriptions textuelles et leur modèle a obtenu de meilleurs résultats. Les chercheurs ont également demandé à des humains d'évaluer la correspondance entre les descriptions et les images. Là encore, 91 % des participants ont affirmé que le modèle était plus performant.

Par ailleurs, à la différence des méthodes préexistantes, cette nouvelle IA peut prendre en charge jusqu'à quatre descriptions de relations entre les objets. De plus, elle a pu identifier la description de scènes inconnues parmi différentes propositions. Enfin, avec des descriptions différentes, mais équivalentes, le modèle est parvenu à générer une scène unique.

La prochaine étape pour les chercheurs sera d'évaluer le comportement du modèle sur des images soumises à des conditions plus complexes. Par la suite, ils espèrent pouvoir intégrer le modèle dans des systèmes robotiques pour le déployer dans le monde réel.

Partager l'article :