MaGGIe introduce i dataset I-HIM50K e M-HIM2K, contenenti oltre 180.000 maschere umane sintetizzate per valutare la robustezza del matting delle istanze.MaGGIe introduce i dataset I-HIM50K e M-HIM2K, contenenti oltre 180.000 maschere umane sintetizzate per valutare la robustezza del matting delle istanze.

Sintesi di Dati Multi-Istanza per Human Matting con MaskRCNN e BG20K

2025/12/20 02:30

Astratto e 1. Introduzione

  1. Lavori Correlati

  2. MaGGIe

    3.1. Efficient Masked Guided Instance Matting

    3.2. Feature-Matte Temporal Consistency

  3. Dataset di Instance Matting

    4.1. Image Instance Matting e 4.2. Video Instance Matting

  4. Esperimenti

    5.1. Pre-addestramento su dati di immagini

    5.2. Addestramento su dati video

  5. Discussione e Riferimenti

\ Materiale Supplementare

  1. Dettagli dell'architettura

  2. Matting delle immagini

    8.1. Generazione e preparazione del dataset

    8.2. Dettagli di addestramento

    8.3. Dettagli quantitativi

    8.4. Ulteriori risultati qualitativi su immagini naturali

  3. Matting video

    9.1. Generazione del dataset

    9.2. Dettagli di addestramento

    9.3. Dettagli quantitativi

    9.4. Ulteriori risultati qualitativi

8. Matting delle Immagini

Questa sezione amplia il processo di matting delle immagini, fornendo ulteriori approfondimenti sulla generazione del dataset e confronti completi con i metodi esistenti. Approfondiamo la creazione dei dataset I-HIM50K e M-HIM2K, offriamo analisi quantitative dettagliate e presentiamo ulteriori risultati qualitativi per sottolineare l'efficacia del nostro approccio.

8.1. Generazione e Preparazione del Dataset

Il dataset I-HIM50K è stato sintetizzato dal dataset HHM50K [50], noto per la sua vasta collezione di matte di immagini umane. Abbiamo impiegato un modello MaskRCNN [14] Resnet-50 FPN 3x, addestrato sul dataset COCO, per filtrare le immagini di singole persone, ottenendo un sottoinsieme di 35.053 immagini. Seguendo la metodologia InstMatt [49], queste immagini sono state compositate su sfondi diversi dal dataset BG20K [29], creando scenari multi-istanza con 2-5 soggetti per immagine. I soggetti sono stati ridimensionati e posizionati per mantenere una scala realistica ed evitare sovrapposizioni eccessive, come indicato da IoU di istanza che non superano il 30%. Questo processo ha prodotto 49.737 immagini, con una media di 2,28 istanze per immagine. Durante l'addestramento, le maschere di guida sono state generate binarizzando i matte alpha e applicando operazioni casuali di dropout, dilatazione ed erosione. Immagini campione da I-HIM50K sono mostrate nella Fig. 10.

\ Il dataset M-HIM2K è stato progettato per testare la robustezza del modello contro qualità variabili delle maschere. Comprende dieci maschere per istanza, generate utilizzando vari modelli MaskRCNN. Maggiori informazioni sui modelli utilizzati per questo processo di generazione sono mostrate nella Tabella 8. Le maschere sono state abbinate alle istanze in base al più alto IoU con i matte alpha ground truth, garantendo una soglia IoU minima del 70%. Le maschere che non soddisfacevano questa soglia sono state generate artificialmente dal ground truth. Questo processo ha prodotto un set completo di 134.240 maschere, con 117.660 per immagini composite e 16.600 per immagini naturali, fornendo un benchmark robusto per la valutazione del masked guided instance matting. Il dataset completo I-HIM50K e M-HIM2K sarà rilasciato dopo l'accettazione di questo lavoro.

\ Figura 10. Esempi del dataset I-HIM50K. (Meglio visualizzato a colori).

\ Tabella 8. Dieci modelli con qualità di maschera variabile sono utilizzati in MHIM2K. I modelli MaskRCNN provengono da detectron2 addestrato su COCO con diverse impostazioni.

\

:::info Autori:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info Questo documento è disponibile su arxiv sotto licenza CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Disclaimer: gli articoli ripubblicati su questo sito provengono da piattaforme pubbliche e sono forniti esclusivamente a scopo informativo. Non riflettono necessariamente le opinioni di MEXC. Tutti i diritti rimangono agli autori originali. Se ritieni che un contenuto violi i diritti di terze parti, contatta [email protected] per la rimozione. MEXC non fornisce alcuna garanzia in merito all'accuratezza, completezza o tempestività del contenuto e non è responsabile per eventuali azioni intraprese sulla base delle informazioni fornite. Il contenuto non costituisce consulenza finanziaria, legale o professionale di altro tipo, né deve essere considerato una raccomandazione o un'approvazione da parte di MEXC.