Passe en revue la reconstruction 3D, y compris les méthodes auto-supervisées, SLAM et NeRF. Notre approche utilise la segmentation d'instance 2D en open-set et la rétroprojection RGB-D pour une cartographie 3D efficace basée sur les instances.Passe en revue la reconstruction 3D, y compris les méthodes auto-supervisées, SLAM et NeRF. Notre approche utilise la segmentation d'instance 2D en open-set et la rétroprojection RGB-D pour une cartographie 3D efficace basée sur les instances.

Intégration de la complétion géométrique sémantique et du SLAM dans la cartographie 3D

Par : Hackernoon

2025/12/11 02:00

OPEN$0,20351-1,71%

D$0,01472+1,02%

Table des liens

Abstrait et 1 Introduction

Travaux connexes

2.1. Navigation Vision-et-Langage

2.2. Compréhension sémantique de scène et segmentation d'instance

2.3. Reconstruction de scène 3D
Méthodologie

3.1. Collecte de données

3.2. Informations sémantiques en ensemble ouvert à partir d'images

3.3. Création de la représentation 3D en ensemble ouvert

3.4. Navigation guidée par le langage
Expériences

4.1. Évaluation quantitative

4.2. Résultats qualitatifs
Conclusion et travaux futurs, Déclaration de divulgation et Références

2.3. Reconstruction de scène 3D

Ces derniers temps, la reconstruction de scène 3D a connu des avancées significatives. Certains travaux récents dans ce domaine incluent l'utilisation d'une approche auto-supervisée pour la complétion de géométrie sémantique et la reconstruction d'apparence à partir de scans RGB-D comme [26], qui utilise une architecture d'encodeur-décodeur 3D pour la géométrie et la couleur. Pour ces approches, l'accent est mis sur la génération de reconstruction sémantique sans vérité terrain. Une autre approche consiste à intégrer la reconstruction 3D en temps réel avec SLAM. Cela se fait par des techniques basées sur des images-clés et a été utilisé dans des cas d'utilisation récents de navigation autonome et de RA [27]. Une autre méthode récente a vu des travaux sur les Neural Radiance Fields [28] pour les espaces intérieurs lors de l'utilisation de la structure-from-motion pour comprendre les scènes capturées par caméra. Ces modèles NeRF sont formés pour chaque emplacement et sont particulièrement bons pour la compréhension spatiale. Une autre méthode consiste à construire des graphes de scène 3D en utilisant un vocabulaire ouvert et des modèles fondamentaux comme CLIP pour capturer les relations sémantiques entre les objets et leurs représentations visuelles [4]. Pendant la reconstruction, ils utilisent les caractéristiques extraites des nuages de points 3D et les projettent sur l'espace d'embedding appris par CLIP.

\ Ce travail utilise une méthode de segmentation d'instance 2D en ensemble ouvert, comme expliqué dans les sections précédentes. Étant donné une image RGB-D, nous obtenons ces masques d'objets individuels à partir de l'image RGB et les rétro-projetons en 3D en utilisant l'image de profondeur. Ici, nous avons une approche basée sur l'instance au lieu d'avoir un calcul point par point pour reconstruire, ce qui était précédemment fait par Concept-Fusion [29]. Cette extraction de masque de caractéristiques par objet nous aide également à calculer des embeddings, qui préservent la nature en ensemble ouvert de ce pipeline.

:::info Auteurs:

(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;

(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, Inde;

(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;

(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, Inde;

(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turquie;

(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, Inde.

:::

:::info Cet article est disponible sur arxiv sous licence CC by-SA 4.0 Deed (Attribution-Partage dans les mêmes conditions 4.0 International).

:::

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.