Uno Sguardo Dietro le Quinte alla Costruzione di una Pipeline di Ordinamento degli Attributi Basata su IA per Milioni di SKU.Uno Sguardo Dietro le Quinte alla Costruzione di una Pipeline di Ordinamento degli Attributi Basata su IA per Milioni di SKU.

Come Ho Utilizzato l'IA per Correggere Valori di Attributi Incoerenti su Larga Scala nell'E-commerce

2025/12/25 12:53

Quando si parla di scalare l'e-commerce, ci si concentra sulle grandi sfide ingegneristiche: ricerca distribuita, inventario in tempo reale, motori di raccomandazione e ottimizzazione del checkout. Ma sotto tutto questo si nasconde un problema più silenzioso e persistente con cui quasi tutti i rivenditori fanno i conti: i valori degli attributi.

Gli attributi sono la spina dorsale della scoperta dei prodotti. Alimentano filtri, confronti, ranking di ricerca e logica di raccomandazione. Ma nei cataloghi reali, i valori degli attributi sono raramente puliti. Sono incoerenti, duplicati, formattati male o semanticamente ambigui.

Prendiamo qualcosa di semplice come Dimensione. Potresti vedere:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

O Colore:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

Individualmente, queste incoerenze sembrano innocue. Ma moltiplicale su oltre 3 milioni di SKU, ognuno con decine di attributi, e il problema diventa sistemico. I filtri si comportano in modo imprevedibile, i motori di ricerca perdono rilevanza, i merchandiser annegano nella pulizia manuale e la scoperta dei prodotti diventa più lenta e frustrante per i clienti.

Questa era la sfida che ho affrontato come ingegnere software full-stack presso Zoro, un problema facile da trascurare ma che influenzava ogni pagina prodotto.

Il Mio Approccio: Basato su IA Ibrida Incontra il Determinismo

Non volevo un misterioso Agente IA black box che si limitasse a ordinare le cose. Sistemi del genere sono difficili da fidarsi, debuggare o scalare. Invece, ho puntato a una pipeline che fosse:

  • spiegabile
  • prevedibile
  • scalabile
  • controllabile dagli esseri umani

Il risultato è stata una pipeline Basato su IA ibrida che combina ragionamento contestuale dagli LLM con regole chiare e controlli dei merchandiser. Agisce in modo intelligente quando necessario, ma rimane sempre prevedibile. Questa è un'IA con guardrail, non un'IA fuori controllo.

Processi in Background: Costruiti per il Throughput

Tutta l'elaborazione degli attributi avviene in processi in background offline, non in tempo reale. Questa non è stata una compromissione; è stata una scelta architettonica strategica.

Le pipeline in tempo reale sembrano allettanti, ma su scala e-commerce introducono:

  • latenza imprevedibile
  • dipendenze fragili
  • picchi di calcolo costosi
  • fragilità operativa

I processi offline, d'altra parte, ci hanno dato:

  • Alta frequenza: enormi batch elaborati senza influenzare i sistemi live
  • Resilienza: i guasti non hanno mai influenzato il traffico dei clienti
  • Controllo dei costi: il calcolo poteva essere programmato durante i periodi di traffico basso
  • Isolamento: la latenza LLM non ha mai influenzato le pagine prodotto
  • Coerenza: gli aggiornamenti erano atomici e prevedibili

Mantenere i sistemi rivolti ai clienti separati dalle pipeline di elaborazione dati è essenziale quando si lavora con milioni di SKU.

Pulizia e Normalizzazione

Prima di utilizzare l'IA sui dati, ho eseguito un chiaro passaggio di preprocessing per rimuovere rumore e confusione. Questo passaggio può sembrare semplice, ma ha notevolmente migliorato il ragionamento dell'LLM.

La pipeline di pulizia includeva:

  • rimozione degli spazi bianchi
  • rimozione dei valori vuoti
  • deduplicazione dei valori
  • appiattimento delle breadcrumb di categoria in una stringa contestuale

Questo ha garantito che l'LLM ricevesse input puliti e chiari, fondamentali per risultati coerenti. Spazzatura in entrata, spazzatura in uscita. A questa scala, anche piccoli errori possono portare a problemi più grandi in seguito.

Servizio LLM con Contesto

L'LLM non stava solo ordinando i valori alfabeticamente. Stava ragionando su di essi.

Il servizio ha ricevuto:

  • valori degli attributi puliti
  • breadcrumb di categoria
  • metadati degli attributi

Con questo contesto, il modello poteva comprendere:

  • Che "Voltage" in Utensili Elettrici è numerico
  • che "Size" in Abbigliamento segue una progressione nota
  • che "Colour" in Vernici potrebbe seguire gli standard RAL
  • che "Material" in Hardware ha relazioni semantiche

Il modello ha restituito:

  • valori ordinati
  • nomi degli attributi raffinati
  • una decisione: ordinamento deterministico o contestuale

Questo consente alla pipeline di gestire diversi tipi di attributi senza codificare regole per ogni categoria.

Fallback Deterministici

Non tutti gli attributi hanno bisogno dell'Agente IA.

Infatti, molti attributi sono gestiti meglio da logica deterministica.

Intervalli numerici, valori basati su unità e set semplici spesso beneficiano di:

  • elaborazione più veloce
  • ordinamento prevedibile
  • costo inferiore
  • zero ambiguità

La pipeline ha rilevato automaticamente questi casi e ha utilizzato logica deterministica per loro. Questo ha mantenuto il sistema efficiente ed evitato chiamate LLM non necessarie.

Tagging Manuale vs LLM

I merchandiser avevano ancora bisogno di controllo, soprattutto per attributi sensibili dal punto di vista business.

Quindi ogni categoria poteva essere taggata come:

  • LLM_SORT — lascia decidere al modello
  • MANUAL_SORT — i merchandiser definiscono l'ordine

Questo sistema dual-tag consente alle persone di prendere le decisioni finali mentre l'IA faceva la maggior parte del lavoro. Ha anche costruito fiducia, poiché i merchandiser potevano sovrascrivere il modello quando necessario senza rompere la pipeline.

Persistenza e Controllo

Tutti i risultati sono stati archiviati direttamente in un database Product MongoDB, mantenendo l'architettura semplice e centralizzata.

MongoDB è diventato il singolo archivio operativo per:

  • valori degli attributi ordinati
  • nomi degli attributi raffinati
  • tag di ordinamento a livello di categoria
  • campi sortOrder a livello di prodotto

Questo ha reso facile rivedere le modifiche, sovrascrivere i valori, rielaborare le categorie e sincronizzare con altri sistemi.

Integrazione di Ricerca

Una volta ordinati, i valori fluivano in:

  • Elasticsearch per ricerca basata su parole chiave
  • Vespa per ricerca semantica e basata su vettori

Questo ha garantito che:

  • i filtri apparissero in ordine logico
  • le pagine prodotto visualizzassero attributi coerenti
  • i motori di ricerca classificassero i prodotti in modo più accurato
  • i clienti potessero navigare le categorie più facilmente

La ricerca è dove l'ordinamento degli attributi è più visibile e dove la coerenza conta di più.

Panoramica dell'Architettura

Per far funzionare questo su milioni di SKU, ho progettato una pipeline modulare costruita attorno a processi in background, ragionamento Basato su IA e integrazione di ricerca. Il diagramma dell'architettura qui sotto cattura il flusso completo:

  • I dati del prodotto entrano dal Product Information System
  • L'Attribute Extraction Job estrae i valori degli attributi e il contesto di categoria
  • Questi vengono passati all'AI Sorting Service
  • I documenti dei prodotti aggiornati vengono scritti nel Product MongoDB
  • L'Outbound Sync Job aggiorna il Product Information System con l'ordine di ordinamento
  • I Sync Job di Elasticsearch e Vespa inviano i dati ordinati nei rispettivi sistemi di ricerca
  • I servizi Nuovo API collegano Elasticsearch e Vespa alla Client Application

Questo flusso assicura che ogni valore di attributo, sia ordinato dall'IA che impostato manualmente, si rifletta nella ricerca, nel merchandising e nell'esperienza del cliente.

La Soluzione in Azione

Ecco come i valori disordinati sono stati trasformati:

| Attributo | Valori grezzi | Output ordinato | |----|----|----| | Dimensione | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Colore | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Materiale | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numerico | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Questi esempi mostrano come la pipeline combina ragionamento contestuale con regole chiare per creare sequenze pulite e facili da capire.

Perché Processi Offline Invece dell'Elaborazione in Tempo Reale?

L'elaborazione in tempo reale avrebbe introdotto:

  • latenza imprevedibile
  • costi di calcolo più elevati
  • dipendenze fragili
  • complessità operativa

I processi offline ci hanno dato:

  • efficienza batch
  • chiamate LLM asincrone
  • logica di retry e code di errore
  • finestre di revisione umana
  • spesa di calcolo prevedibile

Il compromesso è stato un piccolo ritardo tra l'ingestione dei dati e la visualizzazione, ma il vantaggio è stata la coerenza su larga scala, che i clienti apprezzano molto di più.

Impatto

I risultati sono stati significativi:

  • Ordinamento coerente degli attributi su oltre 3 milioni di SKU
  • Ordinamento numerico prevedibile tramite fallback deterministici
  • Controllo del merchandiser tramite tagging manuale
  • Pagine prodotto più pulite e filtri più intuitivi
  • Migliorata rilevanza di ricerca
  • Maggiore fiducia dei clienti e conversione

Questa non è stata solo una vittoria tecnica; è stata anche una vittoria per l'esperienza utente e il fatturato.

Lezioni Apprese

  • Le pipeline ibride superano l'IA pura su larga scala. I guardrail sono importanti.
  • Il contesto migliora notevolmente l'accuratezza dell'LLM
  • I processi offline sono essenziali per throughput e resilienza
  • I meccanismi di override umano costruiscono fiducia e adozione
  • L'input pulito è il fondamento di un output IA affidabile

Pensiero Finale

Ordinare i valori degli attributi sembra semplice, ma diventa una vera sfida quando devi farlo per milioni di prodotti.

Combinando l'intelligenza LLM con regole chiare e controllo del merchandiser, ho trasformato un problema complesso e nascosto in un sistema pulito e scalabile.

È un promemoria che alcune delle più grandi vittorie derivano dalla risoluzione dei problemi noiosi, quelli facili da perdere ma che appaiono su ogni pagina prodotto.

\n \n \n

Opportunità di mercato
Logo Sleepless AI
Valore Sleepless AI (AI)
$0.03817
$0.03817$0.03817
-0.36%
USD
Grafico dei prezzi in tempo reale di Sleepless AI (AI)
Disclaimer: gli articoli ripubblicati su questo sito provengono da piattaforme pubbliche e sono forniti esclusivamente a scopo informativo. Non riflettono necessariamente le opinioni di MEXC. Tutti i diritti rimangono agli autori originali. Se ritieni che un contenuto violi i diritti di terze parti, contatta [email protected] per la rimozione. MEXC non fornisce alcuna garanzia in merito all'accuratezza, completezza o tempestività del contenuto e non è responsabile per eventuali azioni intraprese sulla base delle informazioni fornite. Il contenuto non costituisce consulenza finanziaria, legale o professionale di altro tipo, né deve essere considerato una raccomandazione o un'approvazione da parte di MEXC.