MonoCon : une IA qui identifie des objets en 3D dans les images 2D

Par Vonintsoa R. Publié le 7 février 2022 | 2 minutes de lecture

MonoCon devrait améliorer la capacité des systèmes d’IA à identifier les objets en 3D, même dans les images en 2D.

La reconnaissance des objets est l’un des défis principaux des technologies de conduite autonome. En développant cette nouvelle technique, ces chercheurs ont amélioré la capacité de l’IA à identifier les objets en 3D pour les voitures mais aussi pour les robots.

Améliorer l’identification des objets en 3D par l’IA à l’aide de MonoCon

Les recherches ont été menées par des chercheurs de la North Carolina State University. L’étude consistait à développer une technique appelée MonoCon visant à améliorer la capacité des systèmes d’IA à identifier les objets en 3D.

Entre autres applications, cette nouvelle approche serait particulièrement bénéfique aux véhicules autonomes. Néanmoins, il pourrait également aider à développer de meilleurs dispositifs robotiques, notamment pour la fabrication.

Une des techniques les plus avancées pour identifier les objets en 3D consiste en l’utilisation des capteurs LiDAR. Ils permettent de mesurer la distance entre les objets, ce qui est essentiel pour les véhicules qui doivent prendre des décisions de manière autonome. Cependant, en termes d’économie, la mise en place des LiDAR coûte largement plus cher que les simples caméras embarquées.

Se baser sur des images 2D

Les chercheurs ont donc trouvé un moyen d’exploiter les images 2D obtenues à l’aide des caméras. Pour relever le défi, ils ont d’abord demandé à l’IA MonoCon d’identifier les objets 3D dans les images 2D. Ensuite, les objets sont placés dans une boîte englobante pour déterminer leurs dimensions des bords extérieurs.

D’un côté, l’IA est entraînée à reconnaître la distance entre la caméra et l’objet ainsi que les dimensions de la boîte englobante. D’autre part, les chercheurs l’ont également formé à prédire l’emplacement des huit points de la boîte et sa distance par rapport au centre de la boîte en 2D. Cette approche, baptisée « contexte auxiliaire » a permis d’améliorer la précision de la prédiction.

Les auteurs de l’étude se sont inspirés du théorème de Cramér-Wold qui peut, selon eux, s’appliquer à d’autres tâches de production en computer vision. Pour tester le système, ils ont utilisé une base de données connue sous le nom de KITTI.

Certes, MonoCon n’est pas la première méthode d’IA qui vise à extraire des données 3D à partir d’images 2D. Les chercheurs affirment toutefois que le système a obtenu de meilleurs résultats que les approches existantes.