Abstrait et 1 Introduction
Travaux connexes
2.1. Navigation Vision-et-Langage
2.2. Compréhension sémantique de scène et segmentation d'instance
2.3. Reconstruction de scène 3D
Méthodologie
3.1. Collecte de données
3.2. Informations sémantiques en ensemble ouvert à partir d'images
3.3. Création de la représentation 3D en ensemble ouvert
3.4. Navigation guidée par le langage
Expériences
4.1. Évaluation quantitative
4.2. Résultats qualitatifs
Conclusion et travaux futurs, Déclaration de divulgation et Références
Ces derniers temps, la reconstruction de scène 3D a connu des avancées significatives. Certains travaux récents dans ce domaine incluent l'utilisation d'une approche auto-supervisée pour la complétion de géométrie sémantique et la reconstruction d'apparence à partir de scans RGB-D comme [26], qui utilise une architecture d'encodeur-décodeur 3D pour la géométrie et la couleur. Pour ces approches, l'accent est mis sur la génération de reconstruction sémantique sans vérité terrain. Une autre approche consiste à intégrer la reconstruction 3D en temps réel avec SLAM. Cela se fait par des techniques basées sur des images-clés et a été utilisé dans des cas d'utilisation récents de navigation autonome et de RA [27]. Une autre méthode récente a vu des travaux sur les Neural Radiance Fields [28] pour les espaces intérieurs lors de l'utilisation de la structure-from-motion pour comprendre les scènes capturées par caméra. Ces modèles NeRF sont formés pour chaque emplacement et sont particulièrement bons pour la compréhension spatiale. Une autre méthode consiste à construire des graphes de scène 3D en utilisant un vocabulaire ouvert et des modèles fondamentaux comme CLIP pour capturer les relations sémantiques entre les objets et leurs représentations visuelles [4]. Pendant la reconstruction, ils utilisent les caractéristiques extraites des nuages de points 3D et les projettent sur l'espace d'embedding appris par CLIP.
\ Ce travail utilise une méthode de segmentation d'instance 2D en ensemble ouvert, comme expliqué dans les sections précédentes. Étant donné une image RGB-D, nous obtenons ces masques d'objets individuels à partir de l'image RGB et les rétro-projetons en 3D en utilisant l'image de profondeur. Ici, nous avons une approche basée sur l'instance au lieu d'avoir un calcul point par point pour reconstruire, ce qui était précédemment fait par Concept-Fusion [29]. Cette extraction de masque de caractéristiques par objet nous aide également à calculer des embeddings, qui préservent la nature en ensemble ouvert de ce pipeline.
\
:::info Auteurs:
(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;
(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, Inde;
(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;
(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, Inde;
(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turquie;
(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, Inde.
:::
:::info Cet article est disponible sur arxiv sous licence CC by-SA 4.0 Deed (Attribution-Partage dans les mêmes conditions 4.0 International).
:::
\


