Sentimentová analýza s rozumem: data versus anekdoty

Proč nestačí anekdoty

Sentimentální analýza v kryptoprostoru je atraktivní, protože nálada účastníků trhu často předběhne cenu. Problém je v tom, že „nálada“ je nepozorovatelná veličina a rádi ji nahrazujeme anekdotami – virálním vláknem, tweety influencerů či dojmem z diskusního fóra. Takové anekdoty mají vysokou dostupnost (každý je vidí), ale nízkou reprezentativnost. Cílem tohoto článku je ukázat, jak provádět sentimentální analýzu rozumně: definovat, operacionalizovat, měřit a testovat ji na datech, nikoliv na dojmech.

Definice: co nazýváme „sentiment“

Sentiment je agregovaný postoj trhu k budoucnosti ceny či rizika aktiva. Není to „hlas lidu“ ani „míra šumu na sociálních sítích“. Prakticky ho chápeme jako signál, který (1) je měřitelný, (2) má jasný směr (risk-on vs. risk-off) a (3) má známý vztah k budoucímu výkonu – byť pouze podmíněný tržním režimem.

Taxonomie zdrojů: od textu po derivátové knihy

  • Textové zdroje: Twitter/X, Reddit, Telegram, blogy, zpravodajství, komentáře k repozitářům. Měřitelné pomocí NLP (lexikony, klasifikátory, embeddingy).
  • On-chain data: příliv/odliv na burzy, počet aktivních adres, růst zásoby stablecoinů, držby velryb, rychlost obratů (velocity).
  • Order-flow a mikrostruktura: agresivní vs. pasivní objem, hluboká likvidita, šířka spreadu, míra zrušení objednávek.
  • Deriváty: financování perpetualů (funding rate), otevřený zájem (OI), futures basis, skew opcí (25D RR), poměr put/call.
  • Off-chain „meta“ signály: Google Trends, objem vyhledávání tickerů, web traffic protokolů a burz.

Operacionalizace: jak převést „náladu“ do čísel

Každý z výše uvedených zdrojů je nutné transformovat na škálu, kterou lze agregovat. Příklady:

  • Text → skóre: klasifikace po větách s pravděpodobností pozitivně/negativně; vyhněte se binarizaci – zachovejte pravděpodobnostní výstup.
  • Funding → z-skóre: normalizujte vůči 180dennímu oknu; extrémy jsou robustnější než průměry.
  • On-chain toky → percentil: přílivy na CEX v 95. percentilu = rizikový režim (potenciální prodejní tlak).
  • Options skew → směr: výrazně záporný 25D risk reversal implikuje strach; použijte exponenciální vážení, aby byly potlačeny staré hodnoty.

Design datové pipeline: od sběru po verifikaci

  1. Sběr: streamované API (sociální sítě, burzy), plánované snapshoty (on-chain), off-line korpusy (zprávy).
  2. Čištění: deduplikace, detekce botů (časové vzorce, opakované šablony), jazyková filtrace, odstranění URL/emoji šumu, segmentace.
  3. Obohacení: entity linking (tickery, protokoly, jména), mapování na páry (BTC-USD vs. ETH-BTC), geolokalizace (pokud anonymizovaná, eticky a legálně).
  4. Modelování: pravidlové lexikony, logistická regrese s n-gramy, Transformer-based klasifikátory, embeddingy + clustering.
  5. Validace: lidské anotace na reprezentativní vzorku; metriky F1, ROC AUC; drift monitoring (zda se význam slov mění v čase).

NLP přístupy: lexikony vs. moderní modely

  • Lexikony: rychlé, interpretovatelné, ale křehké vůči sarkasmu, ironii a žargonu (např. „rekt“, „gm“, „ngmi“).
  • Klasifikátory: jemně doladěné modely (fine-tuned) na kryptodoménu výrazně zlepšují přesnost; vyžadují ale kuratelu tréninkových dat a pravidelný re-train.
  • Kontextové embeddingy: umožňují měření „tonu“ tématu i bez explicitního labelu; vhodné k detekci změn narativů (AI, ETF, L2, RWA).

Agregace: konstrukce kompozitního sentiment indexu

Jednotlivé komponenty mají různou kvalitu a periodicitu. Doporučený postup:

  1. Standardizace: každý komponent převeďte na z-skóre nebo percentil v klouzavém okně.
  2. Robustní váhy: určete váhy podle out-of-sample predikční síly a stability (nižší volatilita = vyšší váha), ne podle „intuice“.
  3. Režimy a režimy: identifikujte tržní režimy (trend, konsolidace, panika) například pomocí Markov switching nebo volatility; sentiment funguje jinak v každém režimu.
  4. Saturace: extrémy mají tendenci k návratu k průměru; ořezávejte komponenty (winsorizace), aby index nevystřelil do nerealistických hodnot.

Backtest: oddělení dojmu od reality

Bez přísného backtestu zůstane sentiment pouze příběhem. Minimalistický framework:

  • Definujte pravidla: např. pokud kompozitní index > 90. percentil → sniž expozici; < 10. percentil → zvyš expozici.
  • Vyhněte se look-ahead biasu: používejte pouze data dostupná v čase rozhodnutí; respektujte zpoždění publikace (funding se aktualizuje intraday, on-chain grafy mohou mít zpoždění).
  • Transakční náklady a skluz: zapracujte realistické náklady; sentimentální strategie často rotují častěji.
  • Stres test: výkonnost během šoků (listování ETF, výpadek chainu, velká likvidace); sledujte maximální drawdown a tail riziko.
  • Out-of-sample validace: časová separace (walk-forward) a geografická/aktivní separace (BTC → ETH → alt basket).

Anekdoty a kognitivní zkreslení: jak se nenechat nachytat

  • Selektivní pozornost: vnímáme pouze šum, který potvrzuje náš názor. Řešení: předem definovaná pravidla a slepé testy.
  • Survivorship bias: pamatujeme si „správné“ předpovědi influencerů, ne stovky chybných. Řešení: systematické měření track recordu.
  • Recency bias: přeceňujeme poslední události; indexujte sentiment na různých horizontech (intraday, denní, týdenní).
  • Echo komory: sociální sítě zesilují minoritní extrémy; řešení: vzorkování napříč platformami a deduplikace.

Derivátové signály: „tvrdá“ data sentimentu

  • Funding rate: pozitivní extrém = přehřátý long sentiment; negativní extrém = panika/hedging. Smysluplná je křížová verifikace napříč burzami.
  • Open interest (OI): růst OI při růstu ceny = trend-following euforie; růst OI při poklesu = potenciál squeeze.
  • Opce (skew, IV): put-skew a zvýšená implikovaná volatilita jsou proxy pro strach; divergence mezi spotem a IV mohou předcházet pohybu.
  • Likvidace: série long/short likvidací je následkem překonaného sentimentu; po kaskádě často přichází krátkodobý mean reversion.

On-chain signály: od narativů k kapitálovým tokům

  • Exchange reserves a netflow: přílivy na CEX zvyšují pravděpodobnost prodeje; odlivy směrem k self-custody často doprovázejí akumulaci.
  • Zásoba stablecoinů a prémie: růst emise a prémií na regionálních trzích naznačuje risk-on apetit; pokles často předchází korekci.
  • Velryby a smart money: změny pozic adresních klastrů (market maker, trezory) korigují retailový „hype“.

Textový sentiment: robustnost nad „virálem“

  • Vzorkování: stratifikace podle velikosti účtu a historie; jinak vám konverzaci unesou botnety.
  • Kontext: odlište makro (BTC, ETH) od mikro (konkrétní tokeny/protokoly); shlukujte témata dle embeddingů.
  • Změny narativů: sledujte přechody témat (ETF → AI → L2) a jejich korelaci s kapitálovými toky.

Režimově podmíněná interpretace: kdy sentiment funguje opačně

V silném trendu bývá pozitivní sentiment doprovodný (pokračující) signál; v bočním trendu se extrémy překlápí do mean reversion. Proto kombinujte sentiment s identifikátorem režimu (trendový filtr, volatilita, makro události). Bez toho se snadno ocitnete na špatné straně „crowded trade“.

Integrace do rozhodování: ne indikátor, ale vrstva

  • Multi-signálový framework: sentiment je jedna z vrstev mezi cenovou akcí, on-chain toky a rizikovým managementem.
  • Risk sizing: sentiment používejte primárně k úpravě velikosti pozice a páky, nikoliv k samotnému načasování vstupu.
  • Ochranné mechanismy: při extrémním přehřátí omezte leverage; při extrémním strachu rozšiřte pásma akumulace, ale zachovejte stop pravidla.

Vizualizace a monitoring: aby signál nebyl iluzí

  • Dashboard: komponenty indexu, jejich váhy, poslední hodnoty a percentily; aktivujte alarmy pouze na extrémy.
  • Divergence: zobrazení rozdílů mezi spot cenou a sentiment indexem; zvýrazněte délku a velikost odchylky.
  • Vysvětlitelnost: SHAP/feature importance pro textový model; transparentnost snižuje riziko „modelové magie“.

Etika a regulace: spravedlnost a odpovědnost

  • Ochrana soukromí: minimalizujte osobní údaje; preferujte agregaci a anonymizaci.
  • Proti-manipulační politika: sentiment indexy mohou být zneužity na „painting the tape“; vyžadují detekci anomálií a manuální zásahy.
  • Transparentnost metodiky: zveřejňujte rámcově, jak index vzniká a kdy je revidován; pomáhá to komunitě interpretovat výstupy.

Časté chyby a jak se jim vyhnout

  1. Overfitting: příliš dobré backtesty selhávají v produkci; omezte počet parametrů a používejte penalizace.
  2. Zmatení příčiny a následku: funding roste, protože cena roste – ne naopak; oddělte „dráhy“ od „reakcí“.
  3. Ignorování latence: textový sentiment může mít zpoždění oproti derivátům; slaďte frekvence a použijte nowcasting.
  4. Jedna metrika, jedno rozhodnutí: vždy hledejte konfluenci alespoň tří nezávislých komponent.

Checklist: sentiment s rozumem

  1. Definujte, co měříte (domena, horizont, aktiva).
  2. Získejte multi-zdrojová data (text, on-chain, deriváty, order-book).
  3. Vyčistěte a normalizujte (z-skóre, percentily, winsorizace).
  4. Postavte kompozit s váhami podle out-of-sample síly.
  5. Určete tržní režim a přizpůsobte interpretaci.
  6. Backtestujte s náklady, bez look-ahead, s walk-forward validací.
  7. Nasazujte dashboard, alarmy jen na extrémy, vysvětlitelnost modelu.
  8. Řiďte riziko přes sizing a limity, ne jen přes „buy/sell“ signály.
  9. Auditujte drift modelu a aktualizujte tréninková data.
  10. Komunikujte metodiku a respektujte etiku a soukromí.

Data nad dojmy, disciplína nad humbuk

Sentiment je užitečným spojencem, pokud k němu přistupujeme jako k datovému produktu, nikoli jako k pocitovému kompasu. Anekdoty jsou skvělé na anekdoty; kapitál si však zaslouží měření, normalizaci, backtest a pokoru. V prostředí krypta – kde informace a nálady přelétávají během sekund – rozhoduje především disciplína: jasné definice, vícezdrojová měření a opatrná integrace do rozhodování.

Disclaimer

Tento text je vzdělávací materiál a nepředstavuje investiční, právní ani daňové poradenství. Obchodování s kryptoměnami je rizikové a může vést ke ztrátě kapitálu.