Proč nestačí anekdoty
Sentimentální analýza v kryptoprostoru je lákavá, protože nálada účastníků trhu často předchází pohybům ceny. Problém spočívá v tom, že „nálada“ je nepozorovatelná veličina a rádi ji nahrazujeme anekdotami – virálním vláknem, tweetem influencerů či pocitem z diskuzního fóra. Tyto anekdoty jsou snadno dostupné (každý je vidí), avšak mají nízkou reprezentativitu. Cílem tohoto článku je ukázat, jak provádět sentimentální analýzu rozumně: definovat, operacionalizovat, měřit a testovat ji na datech, nikoli na dojmech.
Definice: co nazýváme „sentiment“
Sentiment představuje agregovaný postoj trhu k budoucí ceně nebo riziku aktiva. Nejde o „hlas lidu“ ani o „míru hluku na sociálních sítích“. Prakticky ho chápeme jako signál, který (1) je měřitelný, (2) má jasný směr (risk-on vs. risk-off), (3) má známý vztah k budoucí výkonnosti – byť pouze podmíněný tržním režimem.
Taxonomie zdrojů: od textu po derivátové knihy
- Textové zdroje: Twitter/X, Reddit, Telegram, blogy, zprávy, komentáře k repozitářům. Měřitelné pomocí NLP (lexikony, klasifikátory, embeddingy).
- On-chain data: příliv/odliv na burzy, počet aktivních adres, růst zásoby stablecoinů, držby velryb, rychlost obratů (velocity).
- Order-flow a mikrostruktura: agresivní vs. pasivní objem, hluboká likvidita, šířka spreadu, míry rušení objednávek.
- Deriváty: financování perpetualů (funding rate), otevřený zájem (open interest), futures basis, skew opcí (25D risk reversal), poměr put/call.
- Off-chain „meta“ signály: Google Trends, objem vyhledávání tickerů, webový provoz protokolů a burz.
Operacionalizace: jak převést „náladu“ do čísel
Každý z výše uvedených zdrojů je třeba transformovat na škálu, kterou lze agregovat. Příklady:
- Text → skóre: klasifikace po větách s pravděpodobností pozitivní/negativní; vyhněte se binarizaci – zachovejte pravděpodobnostní výstup.
- Funding → z-skóre: normalizujte vůči 180dennímu oknu; extrémy jsou robustnější než průměry.
- On-chain toky → percentil: přílivy na CEX v 95. percentilu znamenají rizikový režim (potenciální tlak na prodej).
- Options skew → směr: výrazně záporný 25D risk reversal implikuje strach; použijte exponenciální vážení, aby se potlačily staré hodnoty.
Design datové pipeline: od sběru po verifikaci
- Sběr: streamované API (sociální sítě, burzy), plánované snapshoty (on-chain), off-line korpusy (zprávy).
- Čištění: deduplikace, detekce botů (časové vzorce, opakované šablony), jazyková filtrace, odstranění URL a emoji šumu, segmentace.
- Obohacení: entity linking (tickery, protokoly, jména), mapování na páry (BTC-USD vs. ETH-BTC), geolokalizace (pokud anonymizovaná, eticky a legálně).
- Modelování: pravidlové lexikony, logistická regrese s n-gramy, Transformer-based klasifikátory, embeddingy + clustering.
- Validace: lidské anotace na reprezentativním vzorku; metriky F1, ROC AUC; monitoring driftu (zda se význam slov mění v čase).
NLP přístupy: lexikony vs. moderní modely
- Lexikony: rychlé, interpretovatelné, ale náchylné ke sarkasmu, ironii a žargonu (např. „rekt“, „gm“, „ngmi“).
- Klasifikátory: jemně doladěné modely (fine-tuned) pro krypto doménu výrazně zlepšují přesnost; vyžadují však kuraci tréninkových dat a pravidelný retrén.
- Kontextové embeddingy: umožňují měření „tonu“ tématu i bez explicitní štítkování; vhodné pro detekci změn narativů (AI, ETF, L2, RWA).
Agregace: konstrukce kompozitního sentiment indexu
Jednotlivé komponenty mají různou kvalitu a periodicitu. Doporučený postup:
- Standardizace: každý komponent převeďte na z-skóre nebo percentil v klouzavém okně.
- Robustní váhy: určete váhy podle out-of-sample prediktivní síly a stability (nižší volatilita = vyšší váha), ne podle „intuice“.
- Režimy a režimy: identifikujte tržní režimy (trend, konsolidace, panika) například pomocí Markov Switching modelu nebo volatility; sentiment funguje rozdílně v každém režimu.
- Saturace: extrémy mají tendenci revertovat k průměru; ořezávejte komponenty (winsorizace), aby index nevyskočil do nerealistických hodnot.
Backtest: oddělení dojmu od reality
Bez přísného backtestu zůstane sentiment pouze příběhem. Minimalistický framework:
- Definujte pravidla: například pokud kompozitní index > 90. percentil → sniž expozici; < 10. percentil → navyšuj expozici.
- Vyhněte se look-ahead biasu: používejte pouze data dostupná v čase rozhodnutí; respektujte zpoždění publikace (funding se aktualizuje intradenně, on-chain grafy mohou mít zpoždění).
- Transakční náklady a skluz: zahrňte realistické náklady; sentimentální strategie často rotují častěji.
- Stres test: výkonnost během šoků (výlistování ETF, výpadek chainu, velká likvidace); sledujte maximum drawdown a tail risk.
- Out-of-sample validace: časová separace (walk-forward) a geografická/aktivní separace (BTC → ETH → altcoinová koš).
Anekdoty a kognitivní zkreslení: jak se nenechat nachytat
- Selektivní pozornost: vnímáme jen hluk, který potvrzuje naši hypotézu. Řešení: předem definovaná pravidla a slepé testy.
- Survivorship bias: pamatujeme si „správné“ predikce influencerů, nikoli stovky chybných. Řešení: měřte track record systematicky.
- Recency bias: nadhodnocujeme nedávné události; indexujte sentiment na různých časových horizontech (intradenní, denní, týdenní).
- Echo chambers: sociální sítě amplifikují minoritní extrémy; řešení: vzorkování napříč platformami a deduplikace.
Derivátové signály: „tvrdá“ data sentimentu
- Funding rate: pozitivní extrém znamená přehřátý long sentiment; negativní extrém signalizuje paniku/hedging. Smysluplná je křížová verifikace napříč burzami.
- Open interest (OI): růst OI při růstu ceny = trend-following euforie; růst OI při poklesu = potenciál squeeze.
- Opcí (skew, IV): put-skew a zvýšená implikovaná volatilita jsou proxy strachu; divergence mezi spotovou cenou a IV mohou předcházet pohybu.
- Likvidace: série long/short likvidací je důsledkem přeplněného sentimentu; po kaskádě často následuje krátkodobý mean reversion.
On-chain signály: od narativů k kapitálovým tokům
- Rezervy na burzách a netflow: přílivy na CEX zvyšují pravděpodobnost prodeje; odlivy směrem k self-custody často doprovázejí akumulaci.
- Stablecoinová zásoba a prémie: růst emise a prémií na regionálních trzích naznačuje risk-on apetit; pokles často předchází korekci.
- Velryby a smart money: změny pozic adresních clusterů (market maker, trezory) korigují retailový „hype“.
Textový sentiment: robustnost nad „virálem“
- Vzorkování: stratifikujte podle velikosti účtu a historie; jinak konverzace ovládnou botí sítě.
- Kontext: odlište makro (BTC, ETH) od mikro (konkrétní tokeny/protokoly); shlukujte témata podle embeddingů.
- Změny narativů: sledujte přechody témat (ETF → AI → L2) a jejich korelaci s kapitálovými toky.
Režimově podmíněná interpretace: kdy sentiment funguje opačně
Ve silném trendu je pozitivní sentiment provázející (pokračující) signál; v bočním trendu se extrémy obracejí do mean reversion. Proto kombinujte sentiment s identifikátorem režimu (trendový filtr, volatilita, makro události). Bez toho se snadno ocitnete na špatné straně „crowded trade“.
Integrace do rozhodování: nikoli indikátor, ale vrstva
- Multi-signální framework: sentiment je jedna vrstva mezi cenovou akcí, on-chain toky a rizikovým managementem.
- Risk sizing: sentiment používejte primárně pro úpravu velikosti pozice a páky, nikoli pro samotné načasování vstupu.
- Guardrails: při extrémním přehřátí omezte leverage; při extrémním strachu rozšiřte pásma akumulace, ale dodržujte stop pravidla.
Vizualizace a monitoring: aby signál nebyl iluzí
- Dashboard: komponenty indexu, jejich váhy, poslední hodnoty a percentily; alarmy nastavujte pouze na extrémy.
- Divergence: zobrazení rozdílů mezi spotovou cenou a sentiment indexem; zvýrazněte délku a velikost odchylky.
- Explainability: SHAP/feature importance pro textový model; transparentnost snižuje riziko „magie modelu“.
Etika a regulace: spravedlnost a odpovědnost
- Ochrana soukromí: minimalizujte osobní údaje; upřednostněte agregaci a anonymizaci.
- Proti-manipulační politika: sentimentní indexy mohou být zneužity k „painting the tape“; vyžadují detekci anomálií a manuální flagy.
- Transparentnost metodiky: zveřejňujte rámcově, jak index vzniká a kdy jej revidujete; pomáhá to komunitě interpretovat výstupy.
Časté chyby a jak se jim vyhnout
- Overfitting: příliš dobré backtesty selhávají v produkci; omezte počet parametrů a používejte penalizace.
- Záměna příčiny a následku: funding roste, protože cena roste – ne naopak; odlište „drivery“ od „reakcí“.
- Ignorování latence: textový sentiment může zpožďovat oproti derivátům; sladěte frekvence a použijte nowcasting.
- Jedna metrika, jeden verdikt: vždy hledejte konfluenci alespoň tří nezávislých komponent.
Checklist: sentiment s rozumem
- Definujte, co měříte (doména, horizont, aktiva).
- Získejte multi-zdrojová data (text, on-chain, deriváty, order-book).
- Vyčistěte a normalizujte (z-skóre, percentily, winsorizace).
- Postavte kompozit s váhami podle out-of-sample síly.
- Zjistěte tržní režim a přizpůsobte interpretaci.
- Backtestujte s náklady, bez look-ahead, s walk-forward validací.
- Nasazení dashboardu, alarmy jen na extrémy, vysvětlitelnost modelu.
- Řiďte riziko přes sizing a limity, ne pouze přes „buy/sell“ signály.
- Auditujte drift modelu a aktualizujte tréninková data.
- Komunikujte metodiku a respektujte etiku/soukromí.
Data nad dojmy, disciplína nad hype
Sentiment je užitečný spojenec, pokud k němu přistupujeme jako k datovému produktu, nikoli jako k pocitovému kompasi. Anekdoty jsou skvělé na anekdoty; kapitál si však zaslouží měření, normalizaci, backtest a pokoru. V prostředí kryptoměn – kde informace a nálady přeletí během sekund – rozhoduje právě disciplína: jasné definice, vícedruhová měření a opatrná integrace do rozhodování.
Disclaimer
Tento text je vzdělávacím materiálem a nepředstavuje investiční, právní ani daňové poradenství. Obchodování s kryptoměnami je rizikové a může vést ke ztrátě kapitálu.