Proč doporučovat doplňkové produkty a jaké jsou cíle
Doporučování doplňkových produktů (cross-sell) zvyšuje průměrnou hodnotu objednávky (AOV), marži a spokojenost zákazníka tím, že navrhuje kompatibilní položky k právě prohlíženému nebo nakupovanému produktu. Na rozdíl od „podobných“ produktů (substituty) se jedná o komplementy – příslušenství, spotřební materiál, rozšíření a služby. Algoritmy musí respektovat kompatibilitu, kontext, zásoby, cenu a záměr. Optimální strategie kombinuje rychlou generaci kandidátů a přesné rankingové modely s obchodními pravidly a experimentováním.
Architektura: od dat k rozhodnutí
- Zdrojová data: transakce (košíky, sekvence), prohlížení (session events), katalog (atributy, kompatibilita), ceny a promo, marže, sklad, dodací časy, recenze.
- Feature store: agregáty (co-occurrence, RFM), sekvenční znaky (posledních n interakcí), kontext (kanál, zařízení, lokalita, čas), signály kompatibility.
- Servírovací vrstva: candidate generation (ms latence) → ranking (model s plnými znaky) → re-ranking (business pravidla: zásoby, marže, diverzita, brand safety).
- Měření: offline (Precision@k, NDCG@k) + online (A/B testy, uplift konverze, AOV, marže), s trvalými holdout skupinami.
Heuristiky a pravidla: baseline pro rychlý start
- Manuální páry: kurátorovaná mapování „produkt → příslušenství“. Výhoda: 100 % kompatibilita. Nevýhoda: nízká škálovatelnost, rychlá zastaralost.
- Top sellers per category: nejprodávanější doplňky v dané kategorii. Výhoda: jednoduchost. Nevýhoda: ignoruje personalizaci a kompatibilitu.
- Podobnost atributů: párování podle značky/modelu/rozměrů. Výhoda: interpretovatelnost. Nevýhoda: slabší u bohatých katalogů.
Asociační pravidla a ko-výskyt
Tradiční přístup pro „kupované spolu“. Vstup: transakční košíky.
- Apriori, FP-Growth: hledání pravidel typu {A} → {B} s metrikami support, confidence, lift. Lift > 1 signalizuje komplementaritu nad náhodu.
- Pointwise Mutual Information (PMI): PMI(A,B) = log [ P(A,B) / (P(A)P(B)) ]; robustní skóre ko-výskytu s penalizací častých samostatných položek.
- Normalizace a sezónnost: časově vážené počítání (exponenciální rozpad), filtrace sezónních šumů a promo efektů.
- Výhody: jednoduchost, transparentnost, vhodné pro „PDP → doplňky“.
- Limity: studený start novinek, ignorování uživatelského kontextu, citlivost na sparsitu.
Kolaborativní filtrování (CF)
- Item-Item CF: podobnost mezi položkami podle společných kupujících/prohlížejících. Vhodné pro doplňky, pokud podobnost počítáme na ko-nákupech, nikoliv pouze ko-prohlíženích.
- User-User CF: najde „podobné“ uživatele a doporučí jejich doplňky. Méně stabilní při vysoké sparsotě.
- Implicitní feedbacky: nákupy, zobrazení, kliky s váhami (nákup > přidání do košíku > zobrazení). Modely jako Implicit ALS pracují s binárními a váženými signály.
- Výhody: personalizace bez potřeby atributů.
- Limity: škálování, studený start, zaměření na populární položky.
Faktorizace a embeddingové modely
- Matrix factorization (ALS/BPR): naučí vektory pro uživatele a položky; BPR optimalizuje párové pořadí (zakoupené > nezakoupené) – vhodné pro ranking doplňků.
- Word2Vec pro produkty („prod2vec“): okenní kontext v košících/sesích → vektory položek; komplementy mají vysokou kosínusovou podobnost.
- Hybridní embeddings: kombinace ko-výskytu a textových/obrázkových embeddingů (popisy, obrázky) pro pokrytí long tailu.
Sekvenční a session-based modely
- Markovské řetězce: pravděpodobnosti přechodů mezi typy položek (např. „telefon → pouzdro“).
- RNN/GRU a Transformers: predikce další položky v relaci; doplnkovost se učí z pořadí akcí. Výhoda: citlivost na krátkodobý záměr.
- Next-Basket Recommendation: predikuje košík jako množinu (Set Transformers, Deep Sets); vhodné pro plánované doplnění spotřebního materiálu.
Grafové metody a znalostní grafy
- Product graph: uzly = produkty, hrany = ko-nákup, kompatibilita, substituce; techniky Node2Vec, GraphSAGE pro šíření signálu.
- Znalostní graf: uzly = produkt, značka, konektor, zařízení; logická omezení „kompatibilita“ zajišťují přesnost (např. sockety žárovek).
- Výhoda: explicitní pravidla kompatibility, lepší interpretace a kontrola.
Generace kandidátů vs. ranking: dvoustupňová strategie
- Generace kandidátů (1–5 ms): co-occurrence, prod2vec, item-item CF. Cíl: snížit z 106 položek na ~100–500 kandidátů.
- Ranking (10–50 ms): gradient boosting / neuronové sítě s featurami: cena, marže, sleva, popularita, kompatibilita, podobnost, kontext, uživatelská historie, expediční čas.
- Re-ranking: diverzita, limit počtu stejných značek, skladovost, pravidla kampaní, „do not recommend“ seznam.
Optimalizace na podnikové cíle
- Maržově uvědomělé doporučování: v rankeru optimalizujte expected margin = P(konverze) × marže − náklady (sleva, logistika).
- Inventář a SLA: penalizace nízké skladovosti a dlouhých dodacích časů; preference lokálního skladu.
- Udržitelnost: preferovat doplňky s nižší návratovostí a ekologickým balením.
Kauzalita, bandité a reinforcement learning
- Uplift modely: odhad inkrementálního efektu doporučení na konverzi/AOV vs. pasivní zobrazení.
- Kontextové bandité: online učení výběru widgetu/pozice/počtu položek minimalizující regret.
- RL v košíku: sekvenční rozhodování (kolik slotů, které kategorie) s odměnou CLV a penalizacemi za rušivost.
Správa kompatibility a doménová pravidla
- Kompatibilitní matice: tabulka „base SKU → compatible SKU“ generovaná z katalogu a obohacená o logy vrácení (inkompatibilita).
- Kontraindikace: vyloučení substitutů v doplňkovém slotu (např. dvě konkurenční základní položky).
- Regulace: věkové omezení, regionální zákazy, bezpečnostní normy.
Evaluace: offline a online metriky
- Offline: Precision@k, Recall@k, MAP, NDCG, Coverage, Novelty, Diversity, Serendipity.
- Online: CTR → Add-to-Cart Rate → Conversion Rate, AOV, marže/relace, attach rate doplňku, návratovost, complaint rate.
- Kauzálně: uplift (Δ mezi testem a kontrolou), CUPED pro redukci variance, dlouhodobý CLV efekt.
Tabulka: porovnání přístupů
| Metoda | Silné stránky | Slabiny | Použití |
|---|---|---|---|
| Asociační pravidla / PMI | Transparentní, rychlé | Žádná personalizace, sezónnost | PDP, kategorie s jasnou kompatibilitou |
| Item-Item CF | Dobrá přesnost, jednoduchá generace kandidátů | Sparsita, popularitní bias | Košík, podobné relace |
| Prod2vec / embeddings | Pokrytí long tailu, rychlé nearest-neighbor | Interpretace, citlivost na okno | Generace kandidátů |
| Sekvenční modely (RNN/Transformer) | Citlivost na záměr | Komplexita, latence | Session widgety, real-time |
| Grafové metody | Kompatibilita, interpretace | Údržba grafu | Technické příslušenství |
| Bandité / RL | Online optimalizace | Riziko explorace | Výběr slotů a layoutů |
Umístění doporučení a specifika
- PDP (produktová stránka): primární doplňky vázané na SKU; vysoká potřeba kompatibility.
- Košík: nízký počet položek (1–3), rychlé rozhodnutí, důraz na dostupnost a doručení společně s objednávkou.
- Checkout: pouze neinvazivní, nízkorizikové doplňky (záruky, balení); pozor na rušivost.
- Post-purchase / e-mail: spotřební materiál, doplnění, instalační služby; časování podle životnosti.
Diverzita, novost a serendipita
- Diverzita: maximalizovat pokrytí kategorií v top-k; penalizace redundancy (např. x podobných pouzder).
- Novost: upřednostnit relevantní novinky s váženou popularitou; kontrola rizika přes bandity.
- Serendipita: přidat 1 „překvapivý“ doplněk s logickou vazbou a vysokou spokojeností (např. instalační kit).
Etika, spravedlnost a soulad
- Transparentnost: označení „Doporučeno podle vaší aktivity“ vs. „Sponzorováno“.
- Spravedlnost: kontrola biasu vůči menším značkám (share of shelf), limity promo zásahů.
- Soukromí: minimalizace osobních údajů, agregace a anonymizace, správa souhlasů.
MLOps a provoz
- Verzionování: data, featury, modely a pravidla jako kód; auditovatelné releasy.
- Monitoring: online metriky (CTR, ATC, AOV), výstrahy na drift, latence p99, pokrytí inventáře.
- Retrénink: plánovaný (týdně/měsíčně) + event-driven (nové kolekce, sezóna, promo).
- Canary a rollback: postupné vypouštění modelu; bezpečnostní guardrails (fallback na heuristiky).
Praktický rankingový model: příklad vstupů
- Uživatel: frekvence nákupů, citlivost na cenu (historie slev), preferované značky, RFM skóre.
- Položka (base SKU): typ, značka, generace, kompatibilitní třída, průměrné ko-nákupy.
- Kandidát (add-on): marže, sleva, sklad, promo, hodnocení, návratovost.
- Kontext: zařízení, zdroj návštěvy, čas, země, logistické SLA.
Specifika domén
- Elektronika: tvrdé kompatibility (konektory, modely); znalostní grafy a kurátorované mapy.
- Móda: stylingové doplňky; vizuální embeddingy (CLIP) a outfitové grafy.
- DIY/Auto: díly podle VIN/rozměrů; striktní filtrace a validace.
- FMCG: doplňování spotřeby; sekvenční modely a predikce replenishmentu.
Experimentování a rollout
- Hypotézy: např. „prod2vec kandidáti + GBM ranker zvýší attach rate o 8 %“.
- Testovací design: A/B s CUPED, stratifikace dle trafficu a zařízení; minimální vzorek pro 95 % CI.
- Guardrails: stabilita AOV, complaint rate, latence, out-of-stock rate.
- Dokumentace: výsledky do znalostní báze a design systému „recommendation components“.
Roadmap zavedení na 12 týdnů
- Týden 1–2: sběr a čištění transakcí, katalogové obohacení (kompatibilita), definice KPI a slotů.
- Týden 3–5: kandidáti (PMI/prod2vec), základní ranker (GBM) s marží a skladov