Детально описує конвеєр O3D-SIM для VLN. Він витягує інформацію про семантичні екземпляри відкритого типу (маски, функції CLIP/DINO) з RGB-D зображеньДетально описує конвеєр O3D-SIM для VLN. Він витягує інформацію про семантичні екземпляри відкритого типу (маски, функції CLIP/DINO) з RGB-D зображень

Семантичне вилучення екземплярів: функції CLIP та DINO для 3D-картографування

2025/12/11 03:00

Анотація та 1 Вступ

  1. Пов'язані роботи

    2.1. Навігація на основі зору та мови

    2.2. Семантичне розуміння сцени та сегментація екземплярів

    2.3. 3D реконструкція сцени

  2. Методологія

    3.1. Збір даних

    3.2. Відкрита семантична інформація з зображень

    3.3. Створення відкритого 3D представлення

    3.4. Навігація на основі мови

  3. Експерименти

    4.1. Кількісна оцінка

    4.2. Якісні результати

  4. Висновок та майбутня робота, Заява про розкриття інформації та Посилання

3. Методологія

У цьому розділі ми обговорюємо конвеєр нашого методу навігації на основі зору та мови (VLN), який використовує O3D-SIM. Ми починаємо з огляду нашого запропонованого конвеєра, а потім представляємо глибокий аналіз його складових етапів. Початкова фаза нашої методології включає збір даних, що складається з набору RGB-D зображень та зовнішніх і внутрішніх параметрів камери, які описані спочатку. Згодом ми переходимо до створення відкритої 3D семантичної карти екземплярів. Цей процес поділяється на два основні етапи: спочатку ми витягуємо відкриту семантичну інформацію про екземпляри із зображень; після цього ми використовуємо зібрану відкриту інформацію для організації 3D хмари точок у відкриту 3D семантичну карту екземплярів. Остання частина нашого обговорення зосереджена на модулі VLN, де ми говоримо про його реалізацію та функціональність.

\ Конвеєр створення O3D-SIM зображено на рис.2. Перший крок створення O3D-SIM, представлений у розділі 3.2, - це вилучення відкритої семантичної інформації про екземпляри з RGB-послідовності вхідних зображень. Ця інформація включає для кожного екземпляра об'єкта інформацію про маску та семантичні особливості, представлені вбудованими функціями CLIP [9] та DINO [10]. Другий крок, представлений у розділі 3.3, використовує цю відкриту семантичну інформацію про екземпляри для кластеризації вхідної 3D хмари точок у відкриту семантичну 3D карту об'єктів, див. рисунки 2 і 3. Операція покращується поступово шляхом застосування послідовності RGB-D зображень з часом.

\

:::info Автори:

(1) Лакш Нанвані, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;

(2) Кумарадітья Гупта, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;

(3) Адітья Матур, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;

(4) Свайям Аграваль, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;

(5) А.Х. Абдул Хафез, Університет Хасана Кальйонджу, Шахінбей, Газіантеп, Туреччина;

(6) К. Мадхава Крішна, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія.

:::


:::info Ця стаття доступна на arxiv за ліцензією CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Ринкові можливості
Логотип OpenLedger
Курс OpenLedger (OPEN)
$0.18149
$0.18149$0.18149
-1.62%
USD
Графік ціни OpenLedger (OPEN) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою [email protected] для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

CME Group розширює криптодеривативи з ф'ючерсами XRP та SOL з котируванням по споту

CME Group розширює криптодеривативи з ф'ючерсами XRP та SOL з котируванням по споту

CME Group запускає ф'ючерси XRP і SOL з котируванням за спотовими цінами, розширюючи доступ до криптовалют для роздрібних клієнтів з довшими термінами дії та зниженими витратами на перенесення позицій. CME Group запустила спот
Поділитись
LiveBitcoinNews2025/12/16 11:30
Кит Binance втрачає $11,58 мільйона через падіння Bitcoin нижче $86 000

Кит Binance втрачає $11,58 мільйона через падіння Bitcoin нижче $86 000

Великий трейдер на Binance зазнав ліквідації на суму $11.58 мільйона за лонг позицією BTC/USDT, коли Bitcoin впав нижче рівня $86,000. Вся позиція була ліквідована одним ордером, що демонструє безжальну природу торгівлі криптовалютою з кредитним плечем у періоди інтенсивного тиску продажів.
Поділитись
MEXC NEWS2025/12/16 14:39
Коефіцієнти Polymarket свідчать, що Bitcoin швидше повернеться до $80 000, ніж досягне $150 000

Коефіцієнти Polymarket свідчать, що Bitcoin швидше повернеться до $80 000, ніж досягне $150 000

Polymarket, платформа прогнозування на основі блокчейну, наразі показує 85% ймовірності того, що Bitcoin досягне $80,000 перш ніж досягти $150,000. Ринок ефективно відображає колективну віру в те, що подальше зниження відбудеться перед наступним значним зростанням.
Поділитись
MEXC NEWS2025/12/16 14:49