Prediktivní analytika

Vymezení pojmu a význam pro strategický marketing

Prediktivní analytika v marketingu využívá statistické a strojově učící se modely k odhadu budoucího chování zákazníků, vývoje poptávky, výsledků kampaní či rizika odchodu. Jejím cílem není pouze „předpovědět“, ale také optimalizovat rozhodnutí – rozpočet, nabídku, cenu, kanály a načasování – se zaměřením na kauzální dopad a ekonomiku (CLV, marže, CAC). V praxi propojuje datové zdroje, metodiky modelování a experimentování tak, aby marketing jednal proaktivně, nikoli reaktivně.

Use-cases: kde predikce přinášejí největší hodnotu

  • Propensity to buy / convert: pravděpodobnost nákupu nebo reakce na nabídku pro jednotlivé zákazníky.
  • Churn a retence: riziko odchodu, doporučené zásahy, nákladová efektivita stimulů.
  • CLV (Customer Lifetime Value): diskontovaný budoucí cash-flow, segmentace podle potenciálu.
  • Uplift modeling: výběr zákazníků, kterým zásah zvýší pravděpodobnost konverze (nejen těch s přirozeně vysokou pravděpodobností).
  • Demand forecasting: krátkodobé i sezónní prognózy prodeje; plánování zásob a mediálního rozpočtu.
  • Dynamické stanovování cen: elasticita poptávky, pravidla promoakcí, personalizované nabídky.
  • Recommender systems: personalizované produkty/obsah, řazení kategorií, křížový prodej.
  • Marketing mix modeling (MMM): odhad příspěvku kanálů a optimální rozpočet bez nutnosti uživatelské cookies atribuce.
  • Lead scoring a routing v B2B: pravděpodobnost kvalifikace a konverze, přiřazení obchodníkovi.
  • NLP pro VoC: predikce sentimentu, témat a „root cause“ nespokojenosti.

Datové zdroje a architektura: od surových dat po featury

  • Prvostranová data: CRM, transakce, web/aplikace (události), ticketing, e-mail, produktové logy.
  • Externí data: makro proměnné, konkurence, počasí, kalendář/svátek, panelová data, mediální zásahy.
  • Identita a slučování: deterministické (login, e-mail) a pravděpodobnostní (device graph), důraz na soulad s GDPR.
  • Feature store: sdílený katalog vypočítaných proměnných (RFM, frekvence, recence, trend, sezónnost, košík, historie kanálů) s konzistencí mezi tréninkem a produkcí.
  • Batch vs. real-time: plánované dávky pro strategické modely (MMM, CLV) a streamové featury pro realtime scoring (doporučování, prevence odchodu).

Modelové přístupy podle typu úlohy

  • Klasifikace: logistická regrese, gradient boosting, random forest, neuronové sítě pro pravděpodobnost konverze/churnu.
  • Regrese: lineární/elastic net pro CLV a košík, GBM/NN pro nelinearity; pro nulami bohatá rozdělení Poisson/NegBin.
  • Časové řady: ARIMA/ETS, Prophet, LSTM/Temporal Fusion Transformer; hierarchické forecasty (SKU→kategorie→trh).
  • Uplift modeling: dvou-modelový přístup (T-model/C-model), uplift stromy/lesy, meta-learnery (T-, S-, X-, R-learner); cílem je inkrementální odpověď.
  • Kauzální metody: A/B test, difference-in-differences, syntetická kontrola, instrumentální proměnné; kombinace s ML (Double ML, Causal Forests).
  • MMM: Bayesovské víceúrovňové modely se saturovatelnými křivkami (adstock, Hill/S-křivka), kontrola confounderů.
  • Recommenders: CF (ALS, BPR), sekvenční modely, hybridní s obsahovými featurami a obchodní logikou (diverzita, novinky, marže).

Metodika CLV: rámec a praktické volby

CLV vychází z modelu CLV = sum_{t=1}^{T} frac{mathbb{E}[příjem_t – náklad_t]}{(1+r)^t}. V praxi se používá:

  • Transakční přístup (BG/NBD, Pareto/NBD + Gamma-Gamma): pro frekvenční nákupy a odhad budoucích nákupů i průměrné útraty.
  • Survival a hazard modely: pravděpodobnost setrvání klienta a cash-flow podmíněný přežitím.
  • Segmentově-behaviorální přístup: CLV podle kohort/segmentů s aktualizací při každé události.

Kalibrace, validace a metriky

  • Rozlišovací schopnost: AUC-ROC, PR-AUC u tříd s nerovnováhou, KS statistika.
  • Kalibrace: Brier score, reliabilitní diagramy, Platt/Isotonic překalibrace.
  • Business metriky: kumulativní lift/gain, inkrementální zisk, hit-rate v top-k, přesnost forecastu (sMAPE, MASE), udržitelná marže.
  • Backtesting: roll-forward validace u časových řad, leakage testy, stabilita featur.

Experimentování: od predikce k důkazu dopadu

Predikce bez kauzálního ověření může vést k iluzorním ziskům. Základem je kontrolovaný experiment (A/B, geo-experimenty, holdout) s jasným KPI a horizontem pozorování. Uplift modely se ověřují čtyřkvadrantovým designem (treatment/control × scored/unscored). MMM se podpoří pilotážemi s variací výdajů a kanálů, což stabilizuje odhady elasticit.

Nasazení a MLOps v marketingu

  • CI/CD pro modely: verzování dat, kódu, artefaktů; schvalovací brány s business KPI.
  • Monitoring: výkon (AUC, lift), drift dat (PSI), drift predikcí, latence; alerting a automatická překalibrace.
  • Governance: rozhodovací tabulky (business rules + model), auditovatelnost, sledovatelnost kampaní.
  • Orchestrace akcí: real-time rozhodovací engine (next-best-action), experiment manager, feature store.

Etika, zodpovědné AI a soulad s regulací

  • GDPR a ePrivacy: právní základ zpracování, minimalizace dat, právo na vysvětlení, správa souhlasů a retention policy.
  • Fairness: testy rozdílných dopadů mezi skupinami, kontrola proxy proměnných (nežádoucí korelace).
  • Explainability: globální/individuální vysvětlení (SHAP, LIME), stabilita důležitosti featur.
  • Bezpečnost a kvalita: pravidla DQ (completeness, validity, uniqueness), simulované útoky (prompt/feedback loops při generativním obsahu).

Marketing Mix Modeling: praktická implementace

MMM řeší příspěvek médií (TV, OOH, online, retail media) a mimo-mediálních faktorů k prodeji.

  • Transformace kanálů: adstock (zpožděný efekt) a saturace (Hillova křivka) pro realistickou odezvu na spend.
  • Hierarchický Bayes: pooling mezi regiony/brandami; robustní intervaly nejistoty.
  • Kalibrace na experimenty: sladění s A/B výsledky a atribučnými signály na mikroúrovni.
  • Optimalizace: rozpočet jako omezený problém s cílem maximalizovat prodej/inkrementální zisk při pravidlech (min/max spend, share of voice, sezóna).

Uplift modeling vs. propensity: proč nezaměňovat

Propensity (pravděpodobnost nákupu) identifikuje „kdo koupí“, nikoli „koho ovlivní kampaň“. Uplift modely odhadují přírůstek způsobený zásahem: uplift = P(Y=1 | T=1, X) − P(Y=1 | T=0, X). Tím chrání rozpočet před plýtváním na „sure things“ a „lost causes“ a zvyšují ROI.

Návrh featur: od RFM po sekvenční vzory

  • RFM++: recence, frekvence, monetary + trend, volatilita, košíkové asociace.
  • Kanálové signály: historie impresí/kliků, délka okna, frekvence, placené a organické dotyky.
  • Behaviorální sekvence: Markovské přechody mezi obrazovkami, délka session, hluboké reprezentace (embeddingy).
  • Konteksty: zařízení, lokalita, počasí, svátky, cena konkurence.

Rozhodovací pravidla a obchodní logika

Predikce se propojují s pravidly: pokud churn_score > θ a marže > m, nabídni retenční balíček A; pokud propensity vyšší než β a skladová zásoba < z, přesuň nabídku na alternativu. Důležitá je simulace a „policy evaluation“ (off-policy) před nasazením, aby bylo minimalizováno riziko kanibalizace a limitů zásob.

Nejistota, intervaly a rozhodování pod rizikem

Predikce by měly nést informaci o nejistotě (predikční intervaly, posteriorní rozdělení). Rozpočtové rozhodování pak pracuje s risk-adjusted ROI (např. minimalizace regretu), nikoli pouze s bodovým odhadem.

Škálování: od pilotu k programu

  1. Pilot: definujte úzký úkol (např. churn v segmentu X), jasné KPI a experiment.
  2. Industrializace: automatizujte ingest, featury, scoring a aktivaci do kanálů (e-mail, push, call centrum, web).
  3. Rozšíření: přidejte cross-sell, pricing, MMM a jednotnou optimalizaci rozpočtů napříč portfoliem.
  4. Nepřetržitá optimalizace: governance rituály, kvartální kalibrace, refit při driftu.

Praktický mini-příklad: retence předplatitelů

  • Cíl: snížit churn o 3 p.b. při ROI > 150 %.
  • Data: recence používání, typ obsahu, stížnosti, platební historie, sezóna.
  • Model: gradient boosting + kalibrace; segmentace na „persuadables“ podle upliftu.
  • Akce: personalizované zprávy s obsahem maximalizujícím engagement + selektivní slevový kredit pouze pro „persuadables“.
  • Výsledek: v A/B testu pokles churnu o 3,6 p.b., ROI 182 %, žádná kanibalizace u „sure things“.

Typická rizika a jak jim předejít

  • Data leakage: featury vytvořené z budoucích událostí nebo target leakage → striktně časově omezovat data.
  • Nerovnováha tříd: používat vhodné metriky (PR-AUC), váhy, focal loss, stratifikované samplingy.
  • Záměna korelace a kauzality: doplňovat prediktivní modely experimenty nebo kauzálním ML.
  • Overfitting na offline metriky: vyžadovat online ověření přes A/B nebo geo-testy.
  • Ignorování provozu: model bez kanálové aktivace a pravidel nepřinese dopad.

Checklist před nasazením

  • Je definováno jediné primární business KPI a hypotéza dopadu?
  • Jsou data legální, dokumentovaná a replikovatelná?
  • Proběhla časová validace a test úniku informací?
  • Existuje plán kalibrace, monitoring driftu a fallback pravidla?
  • Je připraven experimentální design a schopnost rychle vypnout zásah?
  • Jsou komunikována omezení modelu a nejistota rozhodnutí?

Prediktivní analytika jako operační systém marketingu

Prediktivní analytika mění marketing z kampaní ad hoc na nepřetržitý rozhodovací systém: jedním tokem přivádí data, druhým vyhodnocuje dopad a třetím aktivuje personalizované zásahy s kontrolou rizika. Její síla spočívá ve spojení predikce, kauzálního ověření a ekonomické optimalizace. Tam, kde se tyto tři osy propojují, vzniká trvalá konkurenční výhoda – rychlejší učení se, lépe alokované rozpočty a spokojenější zákazníci s vyšší životní hodnotou.