Prediktivní analytika

Vymezení pojmu a význam pro strategický marketing

Prediktivní analytika v marketingu využívá statistické a strojově učící se modely k odhadu budoucího chování zákazníků, vývoje poptávky, výsledků kampaní či rizika odchodu. Jejím cílem není pouze „předpovědět“, ale také optimalizovat rozhodnutí – rozpočet, nabídku, cenu, kanály a načasování – se zaměřením na kauzální dopad a ekonomiku (CLV, marže, CAC). V praxi propojuje datové zdroje, metodiky modelování a experimentování tak, aby marketing jednal proaktivně, nikoli reaktivně.

Use-cases: kde predikce přinášejí největší hodnotu

Propensity to buy / convert: pravděpodobnost nákupu nebo reakce na nabídku pro jednotlivé zákazníky.
Churn a retence: riziko odchodu, doporučené zásahy, nákladová efektivita stimulů.
CLV (Customer Lifetime Value): diskontovaný budoucí cash-flow, segmentace podle potenciálu.
Uplift modeling: výběr zákazníků, kterým zásah zvýší pravděpodobnost konverze (nejen těch s přirozeně vysokou pravděpodobností).
Demand forecasting: krátkodobé i sezónní prognózy prodeje; plánování zásob a mediálního rozpočtu.
Dynamické stanovování cen: elasticita poptávky, pravidla promoakcí, personalizované nabídky.
Recommender systems: personalizované produkty/obsah, řazení kategorií, křížový prodej.
Marketing mix modeling (MMM): odhad příspěvku kanálů a optimální rozpočet bez nutnosti uživatelské cookies atribuce.
Lead scoring a routing v B2B: pravděpodobnost kvalifikace a konverze, přiřazení obchodníkovi.
NLP pro VoC: predikce sentimentu, témat a „root cause“ nespokojenosti.

Datové zdroje a architektura: od surových dat po featury

Prvostranová data: CRM, transakce, web/aplikace (události), ticketing, e-mail, produktové logy.
Externí data: makro proměnné, konkurence, počasí, kalendář/svátek, panelová data, mediální zásahy.
Identita a slučování: deterministické (login, e-mail) a pravděpodobnostní (device graph), důraz na soulad s GDPR.
Feature store: sdílený katalog vypočítaných proměnných (RFM, frekvence, recence, trend, sezónnost, košík, historie kanálů) s konzistencí mezi tréninkem a produkcí.
Batch vs. real-time: plánované dávky pro strategické modely (MMM, CLV) a streamové featury pro realtime scoring (doporučování, prevence odchodu).

Modelové přístupy podle typu úlohy

Klasifikace: logistická regrese, gradient boosting, random forest, neuronové sítě pro pravděpodobnost konverze/churnu.
Regrese: lineární/elastic net pro CLV a košík, GBM/NN pro nelinearity; pro nulami bohatá rozdělení Poisson/NegBin.
Časové řady: ARIMA/ETS, Prophet, LSTM/Temporal Fusion Transformer; hierarchické forecasty (SKU→kategorie→trh).
Uplift modeling: dvou-modelový přístup (T-model/C-model), uplift stromy/lesy, meta-learnery (T-, S-, X-, R-learner); cílem je inkrementální odpověď.
Kauzální metody: A/B test, difference-in-differences, syntetická kontrola, instrumentální proměnné; kombinace s ML (Double ML, Causal Forests).
MMM: Bayesovské víceúrovňové modely se saturovatelnými křivkami (adstock, Hill/S-křivka), kontrola confounderů.
Recommenders: CF (ALS, BPR), sekvenční modely, hybridní s obsahovými featurami a obchodní logikou (diverzita, novinky, marže).

Metodika CLV: rámec a praktické volby

CLV vychází z modelu CLV = sum_{t=1}^{T} frac{mathbb{E}[příjem_t – náklad_t]}{(1+r)^t}. V praxi se používá:

Transakční přístup (BG/NBD, Pareto/NBD + Gamma-Gamma): pro frekvenční nákupy a odhad budoucích nákupů i průměrné útraty.
Survival a hazard modely: pravděpodobnost setrvání klienta a cash-flow podmíněný přežitím.
Segmentově-behaviorální přístup: CLV podle kohort/segmentů s aktualizací při každé události.

Kalibrace, validace a metriky

Rozlišovací schopnost: AUC-ROC, PR-AUC u tříd s nerovnováhou, KS statistika.
Kalibrace: Brier score, reliabilitní diagramy, Platt/Isotonic překalibrace.
Business metriky: kumulativní lift/gain, inkrementální zisk, hit-rate v top-k, přesnost forecastu (sMAPE, MASE), udržitelná marže.
Backtesting: roll-forward validace u časových řad, leakage testy, stabilita featur.

Experimentování: od predikce k důkazu dopadu

Predikce bez kauzálního ověření může vést k iluzorním ziskům. Základem je kontrolovaný experiment (A/B, geo-experimenty, holdout) s jasným KPI a horizontem pozorování. Uplift modely se ověřují čtyřkvadrantovým designem (treatment/control × scored/unscored). MMM se podpoří pilotážemi s variací výdajů a kanálů, což stabilizuje odhady elasticit.

Nasazení a MLOps v marketingu

CI/CD pro modely: verzování dat, kódu, artefaktů; schvalovací brány s business KPI.
Monitoring: výkon (AUC, lift), drift dat (PSI), drift predikcí, latence; alerting a automatická překalibrace.
Governance: rozhodovací tabulky (business rules + model), auditovatelnost, sledovatelnost kampaní.
Orchestrace akcí: real-time rozhodovací engine (next-best-action), experiment manager, feature store.

Etika, zodpovědné AI a soulad s regulací

GDPR a ePrivacy: právní základ zpracování, minimalizace dat, právo na vysvětlení, správa souhlasů a retention policy.
Fairness: testy rozdílných dopadů mezi skupinami, kontrola proxy proměnných (nežádoucí korelace).
Explainability: globální/individuální vysvětlení (SHAP, LIME), stabilita důležitosti featur.
Bezpečnost a kvalita: pravidla DQ (completeness, validity, uniqueness), simulované útoky (prompt/feedback loops při generativním obsahu).

Marketing Mix Modeling: praktická implementace

MMM řeší příspěvek médií (TV, OOH, online, retail media) a mimo-mediálních faktorů k prodeji.

Transformace kanálů: adstock (zpožděný efekt) a saturace (Hillova křivka) pro realistickou odezvu na spend.
Hierarchický Bayes: pooling mezi regiony/brandami; robustní intervaly nejistoty.
Kalibrace na experimenty: sladění s A/B výsledky a atribučnými signály na mikroúrovni.
Optimalizace: rozpočet jako omezený problém s cílem maximalizovat prodej/inkrementální zisk při pravidlech (min/max spend, share of voice, sezóna).

Uplift modeling vs. propensity: proč nezaměňovat

Propensity (pravděpodobnost nákupu) identifikuje „kdo koupí“, nikoli „koho ovlivní kampaň“. Uplift modely odhadují přírůstek způsobený zásahem: uplift = P(Y=1 | T=1, X) − P(Y=1 | T=0, X). Tím chrání rozpočet před plýtváním na „sure things“ a „lost causes“ a zvyšují ROI.

Návrh featur: od RFM po sekvenční vzory

RFM++: recence, frekvence, monetary + trend, volatilita, košíkové asociace.
Kanálové signály: historie impresí/kliků, délka okna, frekvence, placené a organické dotyky.
Behaviorální sekvence: Markovské přechody mezi obrazovkami, délka session, hluboké reprezentace (embeddingy).
Konteksty: zařízení, lokalita, počasí, svátky, cena konkurence.

Rozhodovací pravidla a obchodní logika

Predikce se propojují s pravidly: pokud churn_score > θ a marže > m, nabídni retenční balíček A; pokud propensity vyšší než β a skladová zásoba < z, přesuň nabídku na alternativu. Důležitá je simulace a „policy evaluation“ (off-policy) před nasazením, aby bylo minimalizováno riziko kanibalizace a limitů zásob.

Nejistota, intervaly a rozhodování pod rizikem

Predikce by měly nést informaci o nejistotě (predikční intervaly, posteriorní rozdělení). Rozpočtové rozhodování pak pracuje s risk-adjusted ROI (např. minimalizace regretu), nikoli pouze s bodovým odhadem.

Škálování: od pilotu k programu

Pilot: definujte úzký úkol (např. churn v segmentu X), jasné KPI a experiment.
Industrializace: automatizujte ingest, featury, scoring a aktivaci do kanálů (e-mail, push, call centrum, web).
Rozšíření: přidejte cross-sell, pricing, MMM a jednotnou optimalizaci rozpočtů napříč portfoliem.
Nepřetržitá optimalizace: governance rituály, kvartální kalibrace, refit při driftu.

Praktický mini-příklad: retence předplatitelů

Cíl: snížit churn o 3 p.b. při ROI > 150 %.
Data: recence používání, typ obsahu, stížnosti, platební historie, sezóna.
Model: gradient boosting + kalibrace; segmentace na „persuadables“ podle upliftu.
Akce: personalizované zprávy s obsahem maximalizujícím engagement + selektivní slevový kredit pouze pro „persuadables“.
Výsledek: v A/B testu pokles churnu o 3,6 p.b., ROI 182 %, žádná kanibalizace u „sure things“.

Typická rizika a jak jim předejít

Data leakage: featury vytvořené z budoucích událostí nebo target leakage → striktně časově omezovat data.
Nerovnováha tříd: používat vhodné metriky (PR-AUC), váhy, focal loss, stratifikované samplingy.
Záměna korelace a kauzality: doplňovat prediktivní modely experimenty nebo kauzálním ML.
Overfitting na offline metriky: vyžadovat online ověření přes A/B nebo geo-testy.
Ignorování provozu: model bez kanálové aktivace a pravidel nepřinese dopad.

Checklist před nasazením

Je definováno jediné primární business KPI a hypotéza dopadu?
Jsou data legální, dokumentovaná a replikovatelná?
Proběhla časová validace a test úniku informací?
Existuje plán kalibrace, monitoring driftu a fallback pravidla?
Je připraven experimentální design a schopnost rychle vypnout zásah?
Jsou komunikována omezení modelu a nejistota rozhodnutí?