Algoritmy pro doporučování doplňkových produktů

Proč doporučovat doplňkové produkty a jaké jsou cíle

Doporučování doplňkových produktů (cross-sell) zvyšuje průměrnou hodnotu objednávky (AOV), marži a spokojenost zákazníka tím, že navrhuje kompatibilní položky k právě prohlíženému či nakupovanému produktu. Na rozdíl od „podobných“ produktů (substituty) jde o komplementy – příslušenství, spotřební materiál, rozšíření a služby. Algoritmy musí respektovat kompatibilitu, kontext, skladové zásoby, cenu a záměr. Optimální strategie kombinuje rychlou generaci kandidátů a přesné rankingové modely s obchodními pravidly a experimentováním.

Architektura: od dat k rozhodnutí

Zdrojová data: transakce (košíky, sekvence), prohlížení (session events), katalog (atributy, kompatibilita), ceny a promo, marže, sklad, dodací doby, recenze.
Feature store: agregáty (co-occurrence, RFM), sekvenční znaky (posledních n interakcí), kontext (kanál, zařízení, lokalita, čas), signály kompatibility.
Servírovací vrstva: candidate generation (latence v ms) → ranking (model s kompletními znaky) → re-ranking (obchodní pravidla: sklad, marže, diverzita, brand safety).
Měření: offline (Precision@k, NDCG@k) + online (A/B testy, uplift konverze, AOV, marže) s trvalými holdout skupinami.

Heuristiky a pravidla: baseline pro rychlý start

Manuální páry: kurátorovaná mapování „produkt → příslušenství“. Výhoda: 100 % kompatibilita. Nevýhoda: nízká škálovatelnost, rychlá zastaralost.
Top sellers podle kategorie: nejprodávanější doplňky v dané kategorii. Výhoda: jednoduché. Nevýhoda: ignoruje personalizaci a kompatibilitu.
Podobnost atributů: párování podle značky/modelu/rozměrů. Výhoda: interpretovatelnost. Nevýhoda: slabší u rozsáhlých katalogů.

Asociační pravidla a ko-výskyt

Tradiční přístup pro „nakupované spolu“. Vstup: transakční košíky.

Apriori, FP-Growth: hledání pravidel typu {A} → {B} s metrikami support, confidence, lift. Lift > 1 signalizuje komplementaritu nad náhodu.
Pointwise Mutual Information (PMI): PMI(A,B) = log [ P(A,B) / (P(A)P(B)) ]; robustní skóre ko-výskytu s penalizací často samostatně nakupovaných položek.
Normalizace a sezónnost: časově vážené počítání (exponenciální rozpad), filtrování sezónních šumů a promo efektů.
Výhody: jednoduchost, transparentnost, vhodné pro „PDP → doplňky“.
Omezení: studený start novinek, ignorování uživatelského kontextu, citlivost na sparsity dat.

Kolaborativní filtrování (CF)

Item-Item CF: podobnost mezi položkami podle společných kupujících/prohlížejících. Vhodné pro doplňky, pokud se podobnost počítá na ko-nákupech, nikoli jen ko-prohlíženích.
User-User CF: nalézá „podobné“ uživatele a doporučuje jejich doplňky. Méně stabilní při vysoké sparsity.
Implicitní feedbacky: nákupy, zobrazení, kliky s různými váhami (nákup > přidání do košíku > zobrazení). Modely jako Implicit ALS pracují s binárními a váženými signály.
Výhody: personalizace bez potřeby atributů.
Omezení: škálování, studený start, preference populárních položek.

Faktorizace a embeddingové modely

Matrix factorization (ALS/BPR): učí vektory pro uživatele a položky; BPR optimalizuje párové pořadí (zakoupené > nezakoupené) – vhodné pro ranking doplňků.
Word2Vec pro produkty („prod2vec“): okenní kontext v košících/sesích → vektory položek; komplementy mají vysokou kosínusovou podobnost.
Hybridní embeddings: kombinace ko-výskytu a textových/obrázkových embeddingů (popisy, obrázky) pro pokrytí long tailu.

Sekvenční a session-based modely

Markovské řetězce: pravděpodobnosti přechodů mezi typy položek (např. „telefon → pouzdro“).
RNN/GRU a Transformers: predikce další položky v relaci; doplňkovost se učí z pořadí akcí. Výhoda: citlivost na krátkodobý záměr.
Next-Basket Recommendation: predikce košíku jako množiny (Set Transformers, Deep Sets); vhodné pro plánované doplnění spotřebního materiálu.

Grafové metody a znalostní grafy

Product graph: uzly = produkty, hrany = ko-nákup, kompatibilita, substituce; techniky Node2Vec, GraphSAGE pro šíření signálu.
Znalostní graf: uzly = produkt, značka, konektor, zařízení; logické omezení „kompatibility“ zajišťují přesnost (např. patici žárovek).
Výhoda: explicitní pravidla kompatibility, lepší interpretace a kontrola.

Generace kandidátů vs. ranking: dvoustupňová strategie

Generace kandidátů (1–5 ms): co-occurrence, prod2vec, item-item CF. Cíl: snížit z 10⁶ položek na ~100–500 kandidátů.
Ranking (10–50 ms): gradient boosting / neuronové sítě s featurami: cena, marže, sleva, popularita, kompatibilita, podobnost, kontext, uživatelská historie, expediční doba.
Re-ranking: diverzita, limit počtu stejných značek, skladovost, pravidla kampaní, „do not recommend“ seznam.

Optimalizace na podnikové cíle

Maržově uvědomělé doporučování: v rankeru optimalizujte expected margin = P(konverze) × marže − náklady (sleva, logistika).
Inventář a SLA: penalizace nízké skladovosti a dlouhých dodacích lhůt; preference lokálního skladu.
Udržitelnost: preferovat doplňky s nižší vratností a ekologickým balením.

Kauzalita, bandité a reinforcement learning

Uplift modely: odhad inkrementálního efektu doporučení na konverzi/AOV oproti pasivnímu zobrazení.
Kontextové bandité: online učení výběru widgetu/pozice/počtu položek s minimalizací regretu.
RL v košíku: sekvenční rozhodování (kolik slotů, které kategorie) s odměnou CLV a penalizacemi za rušivost.

Správa kompatibility a doménová pravidla

Kompatibilitní matice: tabulka „base SKU → compatible SKU“ generovaná z katalogu a doplněná o logy vrácení (inkompatibilita).
Kontraindikace: vyloučení substitutů v doplňkovém slotu (např. dvě konkurenční základní položky).
Regulace: věkové omezení, regionální zákazy, bezpečnostní normy.

Evaluace: offline a online metriky

Offline: Precision@k, Recall@k, MAP, NDCG, Coverage, Novelty, Diversity, Serendipity.
Online: CTR → Add-to-Cart Rate → Conversion Rate, AOV, marže/relace, attach rate doplňku, vratnost, míra stížností.
Kauzální: uplift (Δ mezi testem a kontrolou), CUPED pro redukci variance, dlouhodobý efekt CLV.

Tabulka: porovnání přístupů

Metoda	Silné stránky	Slabiny	Použití
Asociační pravidla / PMI	Transparentní, rychlé	Žádná personalizace, sezónnost	PDP, kategorie s jasnou kompatibilitou
Item-Item CF	Dobrá přesnost, jednoduchá generace kandidátů	Sparsita, bias popularity	Košík, podobné relace
Prod2vec / embeddings	Pokrytí long tailu, rychlé nearest-neighbor vyhledávání	Interpretace, citlivost na velikost okna	Generace kandidátů
Sekvenční modely (RNN/Transformer)	Citlivost na záměr	Komplexita, latence	Session widgety, real-time
Grafové metody	Kompatibilita, interpretovatelnost	Údržba grafu	Technické příslušenství
Bandité / RL	Online optimalizace	Riziko explorace	Výběr slotů a layoutů

Místa umístění doporučení a jejich specifika

PDP (produktová stránka): primární doplňky vázané na SKU; vysoká potřeba kompatibility.
Košík: nízký počet položek (1–3), rychlé rozhodnutí, důraz na dostupnost a doručení spolu s objednávkou.
Checkout: pouze neinvazivní, nízkorizikové doplňky (záruky, balení); pozor na rušivost.
Post-purchase / e-mail: spotřební materiál, doplnění, instalační služby; časování podle životnosti.

Diverzita, novost a serendipita

Diverzita: maximalizovat pokrytí kategorií v top-k; penalizace redundance (např. x podobných pouzder).
Novost: upřednostnit relevantní novinky s váženou popularitou; kontrola rizika výkonu pomocí banditů.
Serendipita: přidat 1 „překvapivý“ doplněk s logickou vazbou a vysokou spokojeností (např. instalační kit).

Etika, férovost a soulad

Transparentnost: označení „Doporučeno podle vaší aktivity“ vs. „Sponzorováno“.
Férovost: kontrola biasu vůči menším značkám (share of shelf), limity promo zásahů.
Soukromí: minimalizace osobních údajů, agregace a anonymizace, správa souhlasů.

MLOps a provoz

Verzionování: data, featury, modely a pravidla jako kód; auditovatelné releasy.
Monitoring: online metriky (CTR, ATC, AOV), výstrahy na drift, latence p99, pokrytí inventáře.
Retrénink: plánovaný (týdně/měsíčně) + event-driven (nové kolekce, sezóny, promo akce).
Canary a rollback: postupné nasazení modelu; bezpečnostní guardrails (fallback na heuristiky).

Praktický rankingový model: příklad vstupů

Uživatel: frekvence nákupů, citlivost na cenu (historie slev), preferované značky, RFM skóre.
Položka (base SKU): typ, značka, generace, kompatibilitní třída, průměrné ko-nákupy.
Kandidát (doplněk): marže, sleva, sklad, promo, hodnocení, vratnost.
Kontext: zařízení, zdroj návštěvy, čas, země, logistická SLA.

Specifika domén

Elektronika: tvrdé kompatibility (konektory, modely); znalostní grafy a kurátorované mapy.
Móda: stylingové doplňky; vizuální embeddingy (CLIP) a outfitové grafy.
DIY/Auto: díly podle VIN/rozměrů; striktní filtrace a validace.
FMCG: doplňování spotřeby; sekvenční modely a predikce replenishmentu.

Experimentování a rollout

Hypotézy: např. „prod2vec kandidáti + GBM ranker zvýší attach rate o 8 %“.
Testovací design: A/B test s CUPED, stratifikace podle trafficu a zařízení; minimální velikost vzorku pro 95 % interval spolehlivosti.
Guardrails: stabilita AOV, míra stížností, latence, míra vyprodání.
Dokumentace: výsledky do znalostní báze a návrh systému „recommendation components“.

Roadmapa zavedení na 12 týdnů

Týden 1–2: sběr a čištění transakcí, obohacení katalogu (kompatibilita), defin