Algoritmy doporučování doplňkových produktů

Proč doporučovat doplňkové produkty a jaké jsou cíle

Doporučování doplňkových produktů (cross-sell) zvyšuje průměrnou hodnotu objednávky (AOV), marži a spokojenost zákazníka tím, že navrhuje kompatibilní položky k právě prohlíženému nebo nakupovanému produktu. Na rozdíl od „podobných“ produktů (substituty) se jedná o komplementy – příslušenství, spotřební materiál, rozšíření a služby. Algoritmy musí respektovat kompatibilitu, kontext, zásoby, cenu a záměr. Optimální strategie kombinuje rychlou generaci kandidátů a přesné rankingové modely s obchodními pravidly a experimentováním.

Architektura: od dat k rozhodnutí

Zdrojová data: transakce (košíky, sekvence), prohlížení (session events), katalog (atributy, kompatibilita), ceny a promo, marže, sklad, dodací časy, recenze.
Feature store: agregáty (co-occurrence, RFM), sekvenční znaky (posledních n interakcí), kontext (kanál, zařízení, lokalita, čas), signály kompatibility.
Servírovací vrstva: candidate generation (ms latence) → ranking (model s plnými znaky) → re-ranking (business pravidla: zásoby, marže, diverzita, brand safety).
Měření: offline (Precision@k, NDCG@k) + online (A/B testy, uplift konverze, AOV, marže), s trvalými holdout skupinami.

Heuristiky a pravidla: baseline pro rychlý start

Manuální páry: kurátorovaná mapování „produkt → příslušenství“. Výhoda: 100 % kompatibilita. Nevýhoda: nízká škálovatelnost, rychlá zastaralost.
Top sellers per category: nejprodávanější doplňky v dané kategorii. Výhoda: jednoduchost. Nevýhoda: ignoruje personalizaci a kompatibilitu.
Podobnost atributů: párování podle značky/modelu/rozměrů. Výhoda: interpretovatelnost. Nevýhoda: slabší u bohatých katalogů.

Asociační pravidla a ko-výskyt

Tradiční přístup pro „kupované spolu“. Vstup: transakční košíky.

Apriori, FP-Growth: hledání pravidel typu {A} → {B} s metrikami support, confidence, lift. Lift > 1 signalizuje komplementaritu nad náhodu.
Pointwise Mutual Information (PMI): PMI(A,B) = log [ P(A,B) / (P(A)P(B)) ]; robustní skóre ko-výskytu s penalizací častých samostatných položek.
Normalizace a sezónnost: časově vážené počítání (exponenciální rozpad), filtrace sezónních šumů a promo efektů.
Výhody: jednoduchost, transparentnost, vhodné pro „PDP → doplňky“.
Limity: studený start novinek, ignorování uživatelského kontextu, citlivost na sparsitu.

Kolaborativní filtrování (CF)

Item-Item CF: podobnost mezi položkami podle společných kupujících/prohlížejících. Vhodné pro doplňky, pokud podobnost počítáme na ko-nákupech, nikoliv pouze ko-prohlíženích.
User-User CF: najde „podobné“ uživatele a doporučí jejich doplňky. Méně stabilní při vysoké sparsotě.
Implicitní feedbacky: nákupy, zobrazení, kliky s váhami (nákup > přidání do košíku > zobrazení). Modely jako Implicit ALS pracují s binárními a váženými signály.
Výhody: personalizace bez potřeby atributů.
Limity: škálování, studený start, zaměření na populární položky.

Faktorizace a embeddingové modely

Matrix factorization (ALS/BPR): naučí vektory pro uživatele a položky; BPR optimalizuje párové pořadí (zakoupené > nezakoupené) – vhodné pro ranking doplňků.
Word2Vec pro produkty („prod2vec“): okenní kontext v košících/sesích → vektory položek; komplementy mají vysokou kosínusovou podobnost.
Hybridní embeddings: kombinace ko-výskytu a textových/obrázkových embeddingů (popisy, obrázky) pro pokrytí long tailu.

Sekvenční a session-based modely

Markovské řetězce: pravděpodobnosti přechodů mezi typy položek (např. „telefon → pouzdro“).
RNN/GRU a Transformers: predikce další položky v relaci; doplnkovost se učí z pořadí akcí. Výhoda: citlivost na krátkodobý záměr.
Next-Basket Recommendation: predikuje košík jako množinu (Set Transformers, Deep Sets); vhodné pro plánované doplnění spotřebního materiálu.

Grafové metody a znalostní grafy

Product graph: uzly = produkty, hrany = ko-nákup, kompatibilita, substituce; techniky Node2Vec, GraphSAGE pro šíření signálu.
Znalostní graf: uzly = produkt, značka, konektor, zařízení; logická omezení „kompatibilita“ zajišťují přesnost (např. sockety žárovek).
Výhoda: explicitní pravidla kompatibility, lepší interpretace a kontrola.

Generace kandidátů vs. ranking: dvoustupňová strategie

Generace kandidátů (1–5 ms): co-occurrence, prod2vec, item-item CF. Cíl: snížit z 10⁶ položek na ~100–500 kandidátů.
Ranking (10–50 ms): gradient boosting / neuronové sítě s featurami: cena, marže, sleva, popularita, kompatibilita, podobnost, kontext, uživatelská historie, expediční čas.
Re-ranking: diverzita, limit počtu stejných značek, skladovost, pravidla kampaní, „do not recommend“ seznam.

Optimalizace na podnikové cíle

Maržově uvědomělé doporučování: v rankeru optimalizujte expected margin = P(konverze) × marže − náklady (sleva, logistika).
Inventář a SLA: penalizace nízké skladovosti a dlouhých dodacích časů; preference lokálního skladu.
Udržitelnost: preferovat doplňky s nižší návratovostí a ekologickým balením.

Kauzalita, bandité a reinforcement learning

Uplift modely: odhad inkrementálního efektu doporučení na konverzi/AOV vs. pasivní zobrazení.
Kontextové bandité: online učení výběru widgetu/pozice/počtu položek minimalizující regret.
RL v košíku: sekvenční rozhodování (kolik slotů, které kategorie) s odměnou CLV a penalizacemi za rušivost.

Správa kompatibility a doménová pravidla

Kompatibilitní matice: tabulka „base SKU → compatible SKU“ generovaná z katalogu a obohacená o logy vrácení (inkompatibilita).
Kontraindikace: vyloučení substitutů v doplňkovém slotu (např. dvě konkurenční základní položky).
Regulace: věkové omezení, regionální zákazy, bezpečnostní normy.

Evaluace: offline a online metriky

Offline: Precision@k, Recall@k, MAP, NDCG, Coverage, Novelty, Diversity, Serendipity.
Online: CTR → Add-to-Cart Rate → Conversion Rate, AOV, marže/relace, attach rate doplňku, návratovost, complaint rate.
Kauzálně: uplift (Δ mezi testem a kontrolou), CUPED pro redukci variance, dlouhodobý CLV efekt.

Tabulka: porovnání přístupů

Metoda	Silné stránky	Slabiny	Použití
Asociační pravidla / PMI	Transparentní, rychlé	Žádná personalizace, sezónnost	PDP, kategorie s jasnou kompatibilitou
Item-Item CF	Dobrá přesnost, jednoduchá generace kandidátů	Sparsita, popularitní bias	Košík, podobné relace
Prod2vec / embeddings	Pokrytí long tailu, rychlé nearest-neighbor	Interpretace, citlivost na okno	Generace kandidátů
Sekvenční modely (RNN/Transformer)	Citlivost na záměr	Komplexita, latence	Session widgety, real-time
Grafové metody	Kompatibilita, interpretace	Údržba grafu	Technické příslušenství
Bandité / RL	Online optimalizace	Riziko explorace	Výběr slotů a layoutů

Umístění doporučení a specifika

PDP (produktová stránka): primární doplňky vázané na SKU; vysoká potřeba kompatibility.
Košík: nízký počet položek (1–3), rychlé rozhodnutí, důraz na dostupnost a doručení společně s objednávkou.
Checkout: pouze neinvazivní, nízkorizikové doplňky (záruky, balení); pozor na rušivost.
Post-purchase / e-mail: spotřební materiál, doplnění, instalační služby; časování podle životnosti.

Diverzita, novost a serendipita

Diverzita: maximalizovat pokrytí kategorií v top-k; penalizace redundancy (např. x podobných pouzder).
Novost: upřednostnit relevantní novinky s váženou popularitou; kontrola rizika přes bandity.
Serendipita: přidat 1 „překvapivý“ doplněk s logickou vazbou a vysokou spokojeností (např. instalační kit).

Etika, spravedlnost a soulad

Transparentnost: označení „Doporučeno podle vaší aktivity“ vs. „Sponzorováno“.
Spravedlnost: kontrola biasu vůči menším značkám (share of shelf), limity promo zásahů.
Soukromí: minimalizace osobních údajů, agregace a anonymizace, správa souhlasů.

MLOps a provoz

Verzionování: data, featury, modely a pravidla jako kód; auditovatelné releasy.
Monitoring: online metriky (CTR, ATC, AOV), výstrahy na drift, latence p99, pokrytí inventáře.
Retrénink: plánovaný (týdně/měsíčně) + event-driven (nové kolekce, sezóna, promo).
Canary a rollback: postupné vypouštění modelu; bezpečnostní guardrails (fallback na heuristiky).

Praktický rankingový model: příklad vstupů

Uživatel: frekvence nákupů, citlivost na cenu (historie slev), preferované značky, RFM skóre.
Položka (base SKU): typ, značka, generace, kompatibilitní třída, průměrné ko-nákupy.
Kandidát (add-on): marže, sleva, sklad, promo, hodnocení, návratovost.
Kontext: zařízení, zdroj návštěvy, čas, země, logistické SLA.

Specifika domén

Elektronika: tvrdé kompatibility (konektory, modely); znalostní grafy a kurátorované mapy.
Móda: stylingové doplňky; vizuální embeddingy (CLIP) a outfitové grafy.
DIY/Auto: díly podle VIN/rozměrů; striktní filtrace a validace.
FMCG: doplňování spotřeby; sekvenční modely a predikce replenishmentu.

Experimentování a rollout

Hypotézy: např. „prod2vec kandidáti + GBM ranker zvýší attach rate o 8 %“.
Testovací design: A/B s CUPED, stratifikace dle trafficu a zařízení; minimální vzorek pro 95 % CI.
Guardrails: stabilita AOV, complaint rate, latence, out-of-stock rate.
Dokumentace: výsledky do znalostní báze a design systému „recommendation components“.

Roadmap zavedení na 12 týdnů

Týden 1–2: sběr a čištění transakcí, katalogové obohacení (kompatibilita), definice KPI a slotů.
Týden 3–5: kandidáti (PMI/prod2vec), základní ranker (GBM) s marží a skladov