Proč doporučovat doplňkové produkty a jaké jsou cíle
Doporučování doplňkových produktů (cross-sell) zvyšuje průměrnou hodnotu objednávky (AOV), marži a spokojenost zákazníka tím, že navrhuje kompatibilní položky k právě prohlíženému či nakupovanému produktu. Na rozdíl od „podobných“ produktů (substituty) jde o komplementy – příslušenství, spotřební materiál, rozšíření a služby. Algoritmy musí respektovat kompatibilitu, kontext, skladové zásoby, cenu a záměr. Optimální strategie kombinuje rychlou generaci kandidátů a přesné rankingové modely s obchodními pravidly a experimentováním.
Architektura: od dat k rozhodnutí
- Zdrojová data: transakce (košíky, sekvence), prohlížení (session events), katalog (atributy, kompatibilita), ceny a promo, marže, sklad, dodací doby, recenze.
- Feature store: agregáty (co-occurrence, RFM), sekvenční znaky (posledních n interakcí), kontext (kanál, zařízení, lokalita, čas), signály kompatibility.
- Servírovací vrstva: candidate generation (latence v ms) → ranking (model s kompletními znaky) → re-ranking (obchodní pravidla: sklad, marže, diverzita, brand safety).
- Měření: offline (Precision@k, NDCG@k) + online (A/B testy, uplift konverze, AOV, marže) s trvalými holdout skupinami.
Heuristiky a pravidla: baseline pro rychlý start
- Manuální páry: kurátorovaná mapování „produkt → příslušenství“. Výhoda: 100 % kompatibilita. Nevýhoda: nízká škálovatelnost, rychlá zastaralost.
- Top sellers podle kategorie: nejprodávanější doplňky v dané kategorii. Výhoda: jednoduché. Nevýhoda: ignoruje personalizaci a kompatibilitu.
- Podobnost atributů: párování podle značky/modelu/rozměrů. Výhoda: interpretovatelnost. Nevýhoda: slabší u rozsáhlých katalogů.
Asociační pravidla a ko-výskyt
Tradiční přístup pro „nakupované spolu“. Vstup: transakční košíky.
- Apriori, FP-Growth: hledání pravidel typu {A} → {B} s metrikami support, confidence, lift. Lift > 1 signalizuje komplementaritu nad náhodu.
- Pointwise Mutual Information (PMI): PMI(A,B) = log [ P(A,B) / (P(A)P(B)) ]; robustní skóre ko-výskytu s penalizací často samostatně nakupovaných položek.
- Normalizace a sezónnost: časově vážené počítání (exponenciální rozpad), filtrování sezónních šumů a promo efektů.
- Výhody: jednoduchost, transparentnost, vhodné pro „PDP → doplňky“.
- Omezení: studený start novinek, ignorování uživatelského kontextu, citlivost na sparsity dat.
Kolaborativní filtrování (CF)
- Item-Item CF: podobnost mezi položkami podle společných kupujících/prohlížejících. Vhodné pro doplňky, pokud se podobnost počítá na ko-nákupech, nikoli jen ko-prohlíženích.
- User-User CF: nalézá „podobné“ uživatele a doporučuje jejich doplňky. Méně stabilní při vysoké sparsity.
- Implicitní feedbacky: nákupy, zobrazení, kliky s různými váhami (nákup > přidání do košíku > zobrazení). Modely jako Implicit ALS pracují s binárními a váženými signály.
- Výhody: personalizace bez potřeby atributů.
- Omezení: škálování, studený start, preference populárních položek.
Faktorizace a embeddingové modely
- Matrix factorization (ALS/BPR): učí vektory pro uživatele a položky; BPR optimalizuje párové pořadí (zakoupené > nezakoupené) – vhodné pro ranking doplňků.
- Word2Vec pro produkty („prod2vec“): okenní kontext v košících/sesích → vektory položek; komplementy mají vysokou kosínusovou podobnost.
- Hybridní embeddings: kombinace ko-výskytu a textových/obrázkových embeddingů (popisy, obrázky) pro pokrytí long tailu.
Sekvenční a session-based modely
- Markovské řetězce: pravděpodobnosti přechodů mezi typy položek (např. „telefon → pouzdro“).
- RNN/GRU a Transformers: predikce další položky v relaci; doplňkovost se učí z pořadí akcí. Výhoda: citlivost na krátkodobý záměr.
- Next-Basket Recommendation: predikce košíku jako množiny (Set Transformers, Deep Sets); vhodné pro plánované doplnění spotřebního materiálu.
Grafové metody a znalostní grafy
- Product graph: uzly = produkty, hrany = ko-nákup, kompatibilita, substituce; techniky Node2Vec, GraphSAGE pro šíření signálu.
- Znalostní graf: uzly = produkt, značka, konektor, zařízení; logické omezení „kompatibility“ zajišťují přesnost (např. patici žárovek).
- Výhoda: explicitní pravidla kompatibility, lepší interpretace a kontrola.
Generace kandidátů vs. ranking: dvoustupňová strategie
- Generace kandidátů (1–5 ms): co-occurrence, prod2vec, item-item CF. Cíl: snížit z 106 položek na ~100–500 kandidátů.
- Ranking (10–50 ms): gradient boosting / neuronové sítě s featurami: cena, marže, sleva, popularita, kompatibilita, podobnost, kontext, uživatelská historie, expediční doba.
- Re-ranking: diverzita, limit počtu stejných značek, skladovost, pravidla kampaní, „do not recommend“ seznam.
Optimalizace na podnikové cíle
- Maržově uvědomělé doporučování: v rankeru optimalizujte expected margin = P(konverze) × marže − náklady (sleva, logistika).
- Inventář a SLA: penalizace nízké skladovosti a dlouhých dodacích lhůt; preference lokálního skladu.
- Udržitelnost: preferovat doplňky s nižší vratností a ekologickým balením.
Kauzalita, bandité a reinforcement learning
- Uplift modely: odhad inkrementálního efektu doporučení na konverzi/AOV oproti pasivnímu zobrazení.
- Kontextové bandité: online učení výběru widgetu/pozice/počtu položek s minimalizací regretu.
- RL v košíku: sekvenční rozhodování (kolik slotů, které kategorie) s odměnou CLV a penalizacemi za rušivost.
Správa kompatibility a doménová pravidla
- Kompatibilitní matice: tabulka „base SKU → compatible SKU“ generovaná z katalogu a doplněná o logy vrácení (inkompatibilita).
- Kontraindikace: vyloučení substitutů v doplňkovém slotu (např. dvě konkurenční základní položky).
- Regulace: věkové omezení, regionální zákazy, bezpečnostní normy.
Evaluace: offline a online metriky
- Offline: Precision@k, Recall@k, MAP, NDCG, Coverage, Novelty, Diversity, Serendipity.
- Online: CTR → Add-to-Cart Rate → Conversion Rate, AOV, marže/relace, attach rate doplňku, vratnost, míra stížností.
- Kauzální: uplift (Δ mezi testem a kontrolou), CUPED pro redukci variance, dlouhodobý efekt CLV.
Tabulka: porovnání přístupů
| Metoda | Silné stránky | Slabiny | Použití |
|---|---|---|---|
| Asociační pravidla / PMI | Transparentní, rychlé | Žádná personalizace, sezónnost | PDP, kategorie s jasnou kompatibilitou |
| Item-Item CF | Dobrá přesnost, jednoduchá generace kandidátů | Sparsita, bias popularity | Košík, podobné relace |
| Prod2vec / embeddings | Pokrytí long tailu, rychlé nearest-neighbor vyhledávání | Interpretace, citlivost na velikost okna | Generace kandidátů |
| Sekvenční modely (RNN/Transformer) | Citlivost na záměr | Komplexita, latence | Session widgety, real-time |
| Grafové metody | Kompatibilita, interpretovatelnost | Údržba grafu | Technické příslušenství |
| Bandité / RL | Online optimalizace | Riziko explorace | Výběr slotů a layoutů |
Místa umístění doporučení a jejich specifika
- PDP (produktová stránka): primární doplňky vázané na SKU; vysoká potřeba kompatibility.
- Košík: nízký počet položek (1–3), rychlé rozhodnutí, důraz na dostupnost a doručení spolu s objednávkou.
- Checkout: pouze neinvazivní, nízkorizikové doplňky (záruky, balení); pozor na rušivost.
- Post-purchase / e-mail: spotřební materiál, doplnění, instalační služby; časování podle životnosti.
Diverzita, novost a serendipita
- Diverzita: maximalizovat pokrytí kategorií v top-k; penalizace redundance (např. x podobných pouzder).
- Novost: upřednostnit relevantní novinky s váženou popularitou; kontrola rizika výkonu pomocí banditů.
- Serendipita: přidat 1 „překvapivý“ doplněk s logickou vazbou a vysokou spokojeností (např. instalační kit).
Etika, férovost a soulad
- Transparentnost: označení „Doporučeno podle vaší aktivity“ vs. „Sponzorováno“.
- Férovost: kontrola biasu vůči menším značkám (share of shelf), limity promo zásahů.
- Soukromí: minimalizace osobních údajů, agregace a anonymizace, správa souhlasů.
MLOps a provoz
- Verzionování: data, featury, modely a pravidla jako kód; auditovatelné releasy.
- Monitoring: online metriky (CTR, ATC, AOV), výstrahy na drift, latence p99, pokrytí inventáře.
- Retrénink: plánovaný (týdně/měsíčně) + event-driven (nové kolekce, sezóny, promo akce).
- Canary a rollback: postupné nasazení modelu; bezpečnostní guardrails (fallback na heuristiky).
Praktický rankingový model: příklad vstupů
- Uživatel: frekvence nákupů, citlivost na cenu (historie slev), preferované značky, RFM skóre.
- Položka (base SKU): typ, značka, generace, kompatibilitní třída, průměrné ko-nákupy.
- Kandidát (doplněk): marže, sleva, sklad, promo, hodnocení, vratnost.
- Kontext: zařízení, zdroj návštěvy, čas, země, logistická SLA.
Specifika domén
- Elektronika: tvrdé kompatibility (konektory, modely); znalostní grafy a kurátorované mapy.
- Móda: stylingové doplňky; vizuální embeddingy (CLIP) a outfitové grafy.
- DIY/Auto: díly podle VIN/rozměrů; striktní filtrace a validace.
- FMCG: doplňování spotřeby; sekvenční modely a predikce replenishmentu.
Experimentování a rollout
- Hypotézy: např. „prod2vec kandidáti + GBM ranker zvýší attach rate o 8 %“.
- Testovací design: A/B test s CUPED, stratifikace podle trafficu a zařízení; minimální velikost vzorku pro 95 % interval spolehlivosti.
- Guardrails: stabilita AOV, míra stížností, latence, míra vyprodání.
- Dokumentace: výsledky do znalostní báze a návrh systému „recommendation components“.
Roadmapa zavedení na 12 týdnů
- Týden 1–2: sběr a čištění transakcí, obohacení katalogu (kompatibilita), defin