Abstrakt i 1. Wprowadzenie
Prace Powiązane
MaGGIe
3.1. Wydajne Maskowane Kierowane Wydzielanie Instancji
3.2. Spójność Czasowa Cech i Mat
Zbiory Danych Wydzielania Instancji
4.1. Wydzielanie Instancji Obrazu i 4.2. Wydzielanie Instancji Wideo
Eksperymenty
5.1. Wstępne trenowanie na danych obrazowych
5.2. Trenowanie na danych wideo
Dyskusja i Bibliografia
\ Materiał Uzupełniający
Szczegóły architektury
Wydzielanie obrazu
8.1. Generowanie i przygotowanie zbioru danych
8.2. Szczegóły trenowania
8.3. Szczegóły ilościowe
8.4. Więcej wyników jakościowych na obrazach naturalnych
Wydzielanie wideo
9.1. Generowanie zbioru danych
9.2. Szczegóły trenowania
9.3. Szczegóły ilościowe
9.4. Więcej wyników jakościowych
Ta sekcja rozszerza proces wydzielania obrazu, dostarczając dodatkowych informacji na temat generowania zbiorów danych i kompleksowych porównań z istniejącymi metodami. Zagłębiamy się w tworzenie zbiorów danych I-HIM50K i M-HIM2K, oferujemy szczegółowe analizy ilościowe i prezentujemy dalsze wyniki jakościowe, aby podkreślić skuteczność naszego podejścia.
Zbiór danych I-HIM50K został zsyntetyzowany ze zbioru HHM50K [50], który jest znany z obszernej kolekcji mat obrazów ludzkich. Wykorzystaliśmy model MaskRCNN [14] Resnet-50 FPN 3x, trenowany na zbiorze danych COCO, aby odfiltrować obrazy z pojedynczą osobą, co dało podzbiór 35 053 obrazów. Zgodnie z metodologią InstMatt [49], obrazy te zostały skomponowane z różnorodnymi tłami ze zbioru BG20K [29], tworząc scenariusze z wieloma instancjami z 2-5 osobami na obraz. Osoby zostały przeskalowane i umieszczone w celu zachowania realistycznej skali i uniknięcia nadmiernego nakładania się, co wskazuje IoU instancji nieprzekraczające 30%. Proces ten dał 49 737 obrazów, ze średnią 2,28 instancji na obraz. Podczas trenowania maski kierujące były generowane przez binaryzację mat alfa i zastosowanie losowych operacji porzucania, dylatacji i erozji. Przykładowe obrazy z I-HIM50K są pokazane na Rys. 10.
\ Zbiór danych M-HIM2K został zaprojektowany w celu testowania odporności modelu na różne jakości masek. Składa się z dziesięciu masek na instancję, generowanych przy użyciu różnych modeli MaskRCNN. Więcej informacji o modelach użytych w tym procesie generowania pokazano w Tabeli 8. Maski zostały dopasowane do instancji na podstawie najwyższego IoU z mat alfa prawdy podstawowej, zapewniając minimalny próg IoU wynoszący 70%. Maski, które nie spełniały tego progu, były sztucznie generowane z prawdy podstawowej. Proces ten zaowocował kompleksowym zestawem 134 240 masek, z czego 117 660 dla obrazów kompozytowych i 16 600 dla obrazów naturalnych, zapewniając solidny punkt odniesienia do oceny maskowanego kierowanego wydzielania instancji. Pełny zbiór danych I-HIM50K i M-HIM2K zostanie udostępniony po przyjęciu tej pracy.
\ 
\ 
\
:::info Autorzy:
(1) Chuong Huynh, University of Maryland, College Park ([email protected]);
(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);
(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);
(4) Joon-Young Lee, Adobe Research ([email protected]).
:::
:::info Ten artykuł jest dostępny na arxiv na licencji CC by 4.0 Deed (Attribution 4.0 International).
:::
\


