Modelování chování zákazníků

Modelování chování zákazníků

Modelování chování zákazníků představuje systematický přístup k porozumění a predikci budoucího jednání zákazníků na základě historických dat, kontextu a interakcí v digitálních i fyzických kontaktních bodech. V oblasti prediktivní analytiky v marketingu jde o klíčovou disciplínu, která umožňuje přesnější cílení, optimalizaci nákladů, personalizaci a řízení zákaznické hodnoty v čase (Customer Lifetime Value, CLV). Hlavním cílem je převést data na akční doporučení – komu co nabídnout, kdy, jakým kanálem a s jakou pravděpodobností pozitivní odezvy.

Dátové zdroje a datová struktura pro modelování

  • Transakční data: objednávky, košíky, frekvence nákupů, hodnoty objednávek, způsoby platby, vrácení zboží.
  • Behaviorální data: webové a mobilní události (pageview, klik, scroll, přidání do košíku), otevření a prokliky e-mailů, reakce na push notifikace, využívání aplikace.
  • Demografická a firmografická data: věkové kohorty, regiony, B2B segmenty, velikost firmy, odvětví.
  • Kontextová a produktová data: katalogové atributy, ceny, skladová dostupnost, sezónnost, kampaně, promo kalendář.
  • Interakční data ze zákaznického servisu: tikety, sentiment, doba vyřízení, NPS/CSAT, důvody kontaktu.
  • Externí data: makroekonomické ukazatele, svátky, počasí, média a trendové signály.

Při návrhu datové vrstvy je užitečné zavést customer 360 model s jednotným identifikátorem zákazníka, normalizovanými časovými značkami a konzistentním slovníkem událostí. Datové marty pro modelování mají typicky podobu feature table s jedním řádkem na zákazníka (nebo zákazník–čas) a množinou desítek až stovek příznaků.

Feature engineering a reprezentace chování

  • RFM a jeho varianty: Recency (počet dnů od poslední interakce), Frequency (počet interakcí/nákupů), Monetary (útrata). Rozšíření: RFX (kanálová frekvence), RFE (zapojení), RFA (aktivita).
  • Okno a agregace: časová okna (7/30/90 dní), součty, průměry, maxima, trendové koeficienty, volatilita, percentily.
  • Sekvenční příznaky: n-gramy událostí, posledních k interakcí, doba mezi interakcemi (inter-event time), Markovovy přechody mezi touchpointy.
  • Produktové a cenové příznaky: preferované kategorie, elasticita ceny, reakce na slevy, podíl nákupů v akci.
  • Kanálové příznaky: preferovaný kanál (e-mail, SMS, push, PPC), čas dne/den v týdnu, zařízení.
  • Vektorové reprezentace: Embeddings produktů (co-purchase, co-view), zákazníků (sequence2vec) a textové embeddings pro důvody kontaktu a recenze.

Typické modelové úlohy v marketingu

  • Propensity modely: pravděpodobnost nákupu / reakce na kampaň v definovaném okně (např. 14 dní).
  • Modely churnu: pravděpodobnost odchodu / neaktivity (survival analýza, čas do události).
  • CLV (Customer Lifetime Value): očekávaný diskontovaný zisk/hodnota v horizontu (např. 12 měsíců).
  • Next-best-action / next-best-offer: doporučení dalšího kroku, nabídky nebo kanálu komunikace.
  • Uplift/causal modely: efekt zásahu (léčba vs. kontrola), komu poslat nabídku, aby kauzálně zvýšila pravděpodobnost konverze.
  • Cross-sell a up-sell: pravděpodobnost nákupu příbuzných kategorií, košíkové pravidla a sekvenční vzory.
  • Předpověď poptávky na úrovni zákazník×produkt: pravděpodobnost opakovaného nákupu, spotřební cykly.

Modelové přístupy a algoritmy

  • Supervised learning: logistická regrese (baseline, interpretovatelná), stromy a gradient boosting (XGBoost, LightGBM), náhodné lesy, regularizované lineární modely (L1/L2), neuronové sítě (MLP).
  • Sekvenční modely: Markovovy řetězce, HMM, LSTM/GRU, Temporal Convolutional Networks; pro dlouhé sekvence transformers (pozor na potřebu velkých dat).
  • Survival analýza: Coxův model, AFT modely, random survival forests – pro modelování času do churnu.
  • Rekomendační systémy: kolaborativní filtrování (matrix factorization), faktoriální stroje, sekvenční recommendery.
  • Uplift modelování: dvoumodelový přístup (T-learner), S-learner, X-learner, Two-Model Uplift Trees, causal forests.
  • Bayesovské přístupy: BG/NBD a Pareto/NBD pro frekvenci nákupů, Gamma-Gamma pro monetární složku CLV, hierarchické modely pro segmenty.
  • Reinforcement learning: multi-armed bandits (ε-greedy, UCB, Thompson sampling) a kontextové bandity pro výběr kanálu/nabídky v reálném čase.

Formulace cílových proměnných a labelů

Jádro úspěchu spočívá v přesné definici „co předpovídáme“ a „kdy“. Běžné je využití look-forward oken (např. label = nákup do 14 dnů) a feature oken (např. posledních 90 dnů). Je nutné zabránit leakage (příznaky, které by v čase predikce nebyly známy). U CLV se kombinuje frekvence a monetární hodnota, přičemž je důležité diskontování a separátní modelování pravděpodobnosti opakovaných nákupů a výše útraty.

Výběr metrik a hodnocení modelů

  • Klasifikační úlohy: AUC-ROC, PR-AUC (při silné nevyváženosti), log-loss, Brier score, calibration (reliability curves), KS statistika.
  • Obchodní metriky: kumulativní lift/gain, top-k precision/recall, inkrementální zisk, náklad na konverzi, ROI.
  • Survival: C-index, kalibrace rizika a time-dependent AUC.
  • Uplift: Qini křivky a Qini koeficient, uplift-AUC.
  • Stabilita: PSI/CSI, monitoring driftu, výkonnost napříč segmenty (fairness).

Experimentování a kauzalita

Modely náchylné ke konfúzi je třeba ověřovat kauzálními metodami. A/B testy představují zlatý standard pro měření inkrementality. Kde není možná randomizace, přicházejí na řadu propensity score matching/weighting, difference-in-differences a syntetické kontrolní skupiny. Uplift modely musí být kalibrovány na rozdíl pravděpodobností mezi léčebnou a kontrolní skupinou – nikoliv na absolutní konverzi.

Integrace do rozhodování: Next-Best-Action a orchestraci

Predikce vstupují do rozhodovacích pravidel nebo optimalizačních vrstev. Next-Best-Action (NBA) využívá kombinaci propensity, marže, kapacitních omezení a obchodních pravidel pro výběr nabídky či kanálu. Orchestraci je třeba zohlednit fatigue (únavu z kampaní), kolize kampaní, frekvenci, cool-off periody a prioritizaci podle hodnoty a rizika.

Architektura, MLOps a nasazení

  • Datové toky: zdroj → ingestion → čistota/validace → featurizace → trénování → registrace modelů → deploy → monitoring.
  • Online scoring: API mikroservis, latence pod 100 ms pro real-time personalizaci; feature store se sdílenými offline/online příznaky.
  • Verzionování a reprodukovatelnost: verzování datasetů, specifikace hyperparametrů, sledování experimentů a artefaktů.
  • Monitoring po nasazení: drift, výkonnost v produkci (post-deploy A/B), alerting, automatické re-trénování.

Rizika a časté chyby

  • Data leakage: použití budoucích informací v příznacích, které uměle zvyšují výkonnost.
  • Nezlazená okna: míchání featurizačních a labelingových období; porušení kauzálního pořadí.
  • Nevyvážené třídy: ignorování minoritní třídy vede k zdánlivě dobrým, ale neakčním modelům; řešení: váhování, focal loss, stratifikace.
  • Nekalibrované pravděpodobnosti: rozhodování podle „skóre“ bez kalibrace (Platt, isotonic) deformuje výběr top-k.
  • Přetrénování a nestabilita: příliš komplexní modely, málo dat, slabá regularizace, nevhodné cross-validation.
  • Ignorování nákladů a marží: optimalizace na přesnost místo na zisk.

Etika, regulace a ochrana soukromí

Modelování chování musí respektovat zásady minimalizace dat, legitimity účelu a transparentnosti. Klíčové jsou mechanismy na odstranění zaujatosti (bias), auditovatelnost rozhodnutí (explainability, SHAP/ICE grafy) a možnost opt-out či vymazání údajů. U citlivých atributů je vhodné používat fairness-aware učení, agregovaná nebo syntetická data a techniky jako federované učení či diferencované soukromí.

Uplift modelování a inkrementální hodnota

Uplift přímo modeluje rozdíl chování s a bez zásahu. Segmentuje populaci na persuadables, sure things, lost causes a do not disturb. Implementace zahrnuje návrh experimentu (randomizace, ztráta), trénink (např. uplift trees) a aktivaci (pravidla omezující oslovení „do not disturb“). Hodnocení probíhá pomocí Qini křivek a porovnáním inkrementální marže.

Survival analýza pro churn a retenci

Pro churn je přirozené modelovat čas do události. Coxův proporční hazard umožňuje interpretovat vliv příznaků na riziko odchodu. Random survival forests poskytují nelineární vztahy bez silných předpokladů. Výstupem je pravděpodobnost přežití (zůstatku) v čase, což lze přímo využít při plánování retence a výpočtu CLV.

CLV: od pravděpodobnosti k hodnotě

CLV spojuje frekvenci (jak často bude zákazník nakupovat), monetární hodnotu (kolik utratí) a diskontování. V praxi se samostatně modeluje pravděpodobnost dalších nákupů (např. BG/NBD) a průměrná marže na transakci (Gamma-Gamma). Při portfoliové optimalizaci se CLV používá jako kritérium pro alokaci marketingového rozpočtu a priorit v CRM.

Doporučení a sekvenční rozhodování

Kromě statického propensity je důležité i pořadí nabídek a správa sekvencí. Sekvenční modely (RNN, transformers) zachycují kontext ve flow relací a pomáhají předpovídat další krok uživatele. Kontextové bandity umožňují učit se optimální akci v reálném čase s průzkumem a využíváním.

Praktická implementace: projektový rámec

  1. Scoping: definovat obchodní cíl (např. +10 % inkrementální konverze při –15 % nákladech).
  2. Data a kvalita: mapování zdrojů, DQ pravidla, identita zákazníka, governance a přístupová práva.
  3. Feature store: návrh příznaků, sdílení mezi týmy, dokumentace a testy.
  4. Výběr baseline a benchmark: jednoduchá logistická regrese nebo RFM pravidla jako referenční bod.
  5. Experimentální design: pilot na vybraném segmentu, A/B nebo holdout, nastavení metriky úspěchu.
  6. Nasazení a orchestraci: integrační API, pravidla NBA, limity a řešení kolizí.
  7. Monitoring: online metriky, drift, pravidelné re-trénování, zpětná vazba z kampaní.

Kalibrace, interpretace a důvěra

Kromě přesnosti je klíčová důvěra. Kalibrace (isotonická, Plattova) zajistí, že skóre reprezentují pravděpodobnosti. Global feature importance a lokální vysvětlení (SHAP) podporují audit a obchodní rozhodování. V regulovaných odvětvích je vhodné používat jednoduše vysvětlitelné baseline modely v kombinaci s pravidly.

Personalizace napříč kanály

Modely mají nejvyšší hodnotu v multikanálovém kontextu: web, aplikace, e-mail, SMS, call centrum, POS. Konzistentní identifikátory, frekvenční limity a journey caps zajišťují, že zákazník dostane jeden koherentní příběh namísto fragmentovaných oslovení. Orchestraci je nutné doplnit o zpětné vazby (zda oslovení vedlo k akci) pro kontinuální učení.

Mitigace cold-start a datové