ExchangeDEX+

Acquista crypto Mercati Spot Futures500X Earn Eventi

Altro

Uno Sguardo Dietro le Quinte alla Costruzione di una Pipeline di Ordinamento degli Attributi Basata su IA per Milioni di SKU.Uno Sguardo Dietro le Quinte alla Costruzione di una Pipeline di Ordinamento degli Attributi Basata su IA per Milioni di SKU.

Come Ho Utilizzato l'IA per Correggere Valori di Attributi Incoerenti su Larga Scala nell'E-commerce

2025/12/25 12:53

Quando si parla di scalare l'e-commerce, ci si concentra sulle grandi sfide ingegneristiche: ricerca distribuita, inventario in tempo reale, motori di raccomandazione e ottimizzazione del checkout. Ma sotto tutto questo si nasconde un problema più silenzioso e persistente con cui quasi tutti i rivenditori fanno i conti: i valori degli attributi.

Gli attributi sono la spina dorsale della scoperta dei prodotti. Alimentano filtri, confronti, ranking di ricerca e logica di raccomandazione. Ma nei cataloghi reali, i valori degli attributi sono raramente puliti. Sono incoerenti, duplicati, formattati male o semanticamente ambigui.

Prendiamo qualcosa di semplice come Dimensione. Potresti vedere:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

O Colore:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

Individualmente, queste incoerenze sembrano innocue. Ma moltiplicale su oltre 3 milioni di SKU, ognuno con decine di attributi, e il problema diventa sistemico. I filtri si comportano in modo imprevedibile, i motori di ricerca perdono rilevanza, i merchandiser annegano nella pulizia manuale e la scoperta dei prodotti diventa più lenta e frustrante per i clienti.

Questa era la sfida che ho affrontato come ingegnere software full-stack presso Zoro, un problema facile da trascurare ma che influenzava ogni pagina prodotto.

Il Mio Approccio: Basato su IA Ibrida Incontra il Determinismo

Non volevo un misterioso Agente IA black box che si limitasse a ordinare le cose. Sistemi del genere sono difficili da fidarsi, debuggare o scalare. Invece, ho puntato a una pipeline che fosse:

spiegabile
prevedibile
scalabile
controllabile dagli esseri umani

Il risultato è stata una pipeline Basato su IA ibrida che combina ragionamento contestuale dagli LLM con regole chiare e controlli dei merchandiser. Agisce in modo intelligente quando necessario, ma rimane sempre prevedibile. Questa è un'IA con guardrail, non un'IA fuori controllo.

Processi in Background: Costruiti per il Throughput

Tutta l'elaborazione degli attributi avviene in processi in background offline, non in tempo reale. Questa non è stata una compromissione; è stata una scelta architettonica strategica.

Le pipeline in tempo reale sembrano allettanti, ma su scala e-commerce introducono:

latenza imprevedibile
dipendenze fragili
picchi di calcolo costosi
fragilità operativa

I processi offline, d'altra parte, ci hanno dato:

Alta frequenza: enormi batch elaborati senza influenzare i sistemi live
Resilienza: i guasti non hanno mai influenzato il traffico dei clienti
Controllo dei costi: il calcolo poteva essere programmato durante i periodi di traffico basso
Isolamento: la latenza LLM non ha mai influenzato le pagine prodotto
Coerenza: gli aggiornamenti erano atomici e prevedibili

Mantenere i sistemi rivolti ai clienti separati dalle pipeline di elaborazione dati è essenziale quando si lavora con milioni di SKU.

Pulizia e Normalizzazione

Prima di utilizzare l'IA sui dati, ho eseguito un chiaro passaggio di preprocessing per rimuovere rumore e confusione. Questo passaggio può sembrare semplice, ma ha notevolmente migliorato il ragionamento dell'LLM.

La pipeline di pulizia includeva:

rimozione degli spazi bianchi
rimozione dei valori vuoti
deduplicazione dei valori
appiattimento delle breadcrumb di categoria in una stringa contestuale

Questo ha garantito che l'LLM ricevesse input puliti e chiari, fondamentali per risultati coerenti. Spazzatura in entrata, spazzatura in uscita. A questa scala, anche piccoli errori possono portare a problemi più grandi in seguito.

Servizio LLM con Contesto

L'LLM non stava solo ordinando i valori alfabeticamente. Stava ragionando su di essi.

Il servizio ha ricevuto:

valori degli attributi puliti
breadcrumb di categoria
metadati degli attributi

Con questo contesto, il modello poteva comprendere:

Che "Voltage" in Utensili Elettrici è numerico
che "Size" in Abbigliamento segue una progressione nota
che "Colour" in Vernici potrebbe seguire gli standard RAL
che "Material" in Hardware ha relazioni semantiche

Il modello ha restituito:

valori ordinati
nomi degli attributi raffinati
una decisione: ordinamento deterministico o contestuale

Questo consente alla pipeline di gestire diversi tipi di attributi senza codificare regole per ogni categoria.

Fallback Deterministici

Non tutti gli attributi hanno bisogno dell'Agente IA.

Infatti, molti attributi sono gestiti meglio da logica deterministica.

Intervalli numerici, valori basati su unità e set semplici spesso beneficiano di:

elaborazione più veloce
ordinamento prevedibile
costo inferiore
zero ambiguità

La pipeline ha rilevato automaticamente questi casi e ha utilizzato logica deterministica per loro. Questo ha mantenuto il sistema efficiente ed evitato chiamate LLM non necessarie.

Tagging Manuale vs LLM

I merchandiser avevano ancora bisogno di controllo, soprattutto per attributi sensibili dal punto di vista business.

Quindi ogni categoria poteva essere taggata come:

LLM_SORT — lascia decidere al modello
MANUAL_SORT — i merchandiser definiscono l'ordine

Questo sistema dual-tag consente alle persone di prendere le decisioni finali mentre l'IA faceva la maggior parte del lavoro. Ha anche costruito fiducia, poiché i merchandiser potevano sovrascrivere il modello quando necessario senza rompere la pipeline.

Persistenza e Controllo

Tutti i risultati sono stati archiviati direttamente in un database Product MongoDB, mantenendo l'architettura semplice e centralizzata.

MongoDB è diventato il singolo archivio operativo per:

valori degli attributi ordinati
nomi degli attributi raffinati
tag di ordinamento a livello di categoria
campi sortOrder a livello di prodotto

Questo ha reso facile rivedere le modifiche, sovrascrivere i valori, rielaborare le categorie e sincronizzare con altri sistemi.

Integrazione di Ricerca

Una volta ordinati, i valori fluivano in:

Elasticsearch per ricerca basata su parole chiave
Vespa per ricerca semantica e basata su vettori

Questo ha garantito che:

i filtri apparissero in ordine logico
le pagine prodotto visualizzassero attributi coerenti
i motori di ricerca classificassero i prodotti in modo più accurato
i clienti potessero navigare le categorie più facilmente

La ricerca è dove l'ordinamento degli attributi è più visibile e dove la coerenza conta di più.

Panoramica dell'Architettura

Per far funzionare questo su milioni di SKU, ho progettato una pipeline modulare costruita attorno a processi in background, ragionamento Basato su IA e integrazione di ricerca. Il diagramma dell'architettura qui sotto cattura il flusso completo:

I dati del prodotto entrano dal Product Information System
L'Attribute Extraction Job estrae i valori degli attributi e il contesto di categoria
Questi vengono passati all'AI Sorting Service
I documenti dei prodotti aggiornati vengono scritti nel Product MongoDB
L'Outbound Sync Job aggiorna il Product Information System con l'ordine di ordinamento
I Sync Job di Elasticsearch e Vespa inviano i dati ordinati nei rispettivi sistemi di ricerca
I servizi Nuovo API collegano Elasticsearch e Vespa alla Client Application

Questo flusso assicura che ogni valore di attributo, sia ordinato dall'IA che impostato manualmente, si rifletta nella ricerca, nel merchandising e nell'esperienza del cliente.

La Soluzione in Azione

Ecco come i valori disordinati sono stati trasformati:

| Attributo | Valori grezzi | Output ordinato | |----|----|----| | Dimensione | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Colore | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Materiale | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numerico | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Questi esempi mostrano come la pipeline combina ragionamento contestuale con regole chiare per creare sequenze pulite e facili da capire.

Perché Processi Offline Invece dell'Elaborazione in Tempo Reale?

L'elaborazione in tempo reale avrebbe introdotto:

latenza imprevedibile
costi di calcolo più elevati
dipendenze fragili
complessità operativa

I processi offline ci hanno dato:

efficienza batch
chiamate LLM asincrone
logica di retry e code di errore
finestre di revisione umana
spesa di calcolo prevedibile

Il compromesso è stato un piccolo ritardo tra l'ingestione dei dati e la visualizzazione, ma il vantaggio è stata la coerenza su larga scala, che i clienti apprezzano molto di più.

Impatto

I risultati sono stati significativi:

Ordinamento coerente degli attributi su oltre 3 milioni di SKU
Ordinamento numerico prevedibile tramite fallback deterministici
Controllo del merchandiser tramite tagging manuale
Pagine prodotto più pulite e filtri più intuitivi
Migliorata rilevanza di ricerca
Maggiore fiducia dei clienti e conversione

Questa non è stata solo una vittoria tecnica; è stata anche una vittoria per l'esperienza utente e il fatturato.

Lezioni Apprese

Le pipeline ibride superano l'IA pura su larga scala. I guardrail sono importanti.
Il contesto migliora notevolmente l'accuratezza dell'LLM
I processi offline sono essenziali per throughput e resilienza
I meccanismi di override umano costruiscono fiducia e adozione
L'input pulito è il fondamento di un output IA affidabile

Pensiero Finale

Ordinare i valori degli attributi sembra semplice, ma diventa una vera sfida quando devi farlo per milioni di prodotti.

Combinando l'intelligenza LLM con regole chiare e controllo del merchandiser, ho trasformato un problema complesso e nascosto in un sistema pulito e scalabile.

È un promemoria che alcune delle più grandi vittorie derivano dalla risoluzione dei problemi noiosi, quelli facili da perdere ma che appaiono su ogni pagina prodotto.

\n \n \n

Opportunità di mercato

Valore Sleepless AI (AI)

$0.03817

$0.03817$0.03817

-0.36%

USD

Grafico dei prezzi in tempo reale di Sleepless AI (AI)

Disclaimer: gli articoli ripubblicati su questo sito provengono da piattaforme pubbliche e sono forniti esclusivamente a scopo informativo. Non riflettono necessariamente le opinioni di MEXC. Tutti i diritti rimangono agli autori originali. Se ritieni che un contenuto violi i diritti di terze parti, contatta [email protected] per la rimozione. MEXC non fornisce alcuna garanzia in merito all'accuratezza, completezza o tempestività del contenuto e non è responsabile per eventuali azioni intraprese sulla base delle informazioni fornite. Il contenuto non costituisce consulenza finanziaria, legale o professionale di altro tipo, né deve essere considerato una raccomandazione o un'approvazione da parte di MEXC.