Sentimentální analýza s rozumem

Proč nestačí anekdoty

Sentimentální analýza v kryptoprostoru je lákavá, protože nálada účastníků trhu často předchází pohybům ceny. Problém spočívá v tom, že „nálada“ je nepozorovatelná veličina a rádi ji nahrazujeme anekdotami – virálním vláknem, tweetem influencerů či pocitem z diskuzního fóra. Tyto anekdoty jsou snadno dostupné (každý je vidí), avšak mají nízkou reprezentativitu. Cílem tohoto článku je ukázat, jak provádět sentimentální analýzu rozumně: definovat, operacionalizovat, měřit a testovat ji na datech, nikoli na dojmech.

Definice: co nazýváme „sentiment“

Sentiment představuje agregovaný postoj trhu k budoucí ceně nebo riziku aktiva. Nejde o „hlas lidu“ ani o „míru hluku na sociálních sítích“. Prakticky ho chápeme jako signál, který (1) je měřitelný, (2) má jasný směr (risk-on vs. risk-off), (3) má známý vztah k budoucí výkonnosti – byť pouze podmíněný tržním režimem.

Taxonomie zdrojů: od textu po derivátové knihy

  • Textové zdroje: Twitter/X, Reddit, Telegram, blogy, zprávy, komentáře k repozitářům. Měřitelné pomocí NLP (lexikony, klasifikátory, embeddingy).
  • On-chain data: příliv/odliv na burzy, počet aktivních adres, růst zásoby stablecoinů, držby velryb, rychlost obratů (velocity).
  • Order-flow a mikrostruktura: agresivní vs. pasivní objem, hluboká likvidita, šířka spreadu, míry rušení objednávek.
  • Deriváty: financování perpetualů (funding rate), otevřený zájem (open interest), futures basis, skew opcí (25D risk reversal), poměr put/call.
  • Off-chain „meta“ signály: Google Trends, objem vyhledávání tickerů, webový provoz protokolů a burz.

Operacionalizace: jak převést „náladu“ do čísel

Každý z výše uvedených zdrojů je třeba transformovat na škálu, kterou lze agregovat. Příklady:

  • Text → skóre: klasifikace po větách s pravděpodobností pozitivní/negativní; vyhněte se binarizaci – zachovejte pravděpodobnostní výstup.
  • Funding → z-skóre: normalizujte vůči 180dennímu oknu; extrémy jsou robustnější než průměry.
  • On-chain toky → percentil: přílivy na CEX v 95. percentilu znamenají rizikový režim (potenciální tlak na prodej).
  • Options skew → směr: výrazně záporný 25D risk reversal implikuje strach; použijte exponenciální vážení, aby se potlačily staré hodnoty.

Design datové pipeline: od sběru po verifikaci

  1. Sběr: streamované API (sociální sítě, burzy), plánované snapshoty (on-chain), off-line korpusy (zprávy).
  2. Čištění: deduplikace, detekce botů (časové vzorce, opakované šablony), jazyková filtrace, odstranění URL a emoji šumu, segmentace.
  3. Obohacení: entity linking (tickery, protokoly, jména), mapování na páry (BTC-USD vs. ETH-BTC), geolokalizace (pokud anonymizovaná, eticky a legálně).
  4. Modelování: pravidlové lexikony, logistická regrese s n-gramy, Transformer-based klasifikátory, embeddingy + clustering.
  5. Validace: lidské anotace na reprezentativním vzorku; metriky F1, ROC AUC; monitoring driftu (zda se význam slov mění v čase).

NLP přístupy: lexikony vs. moderní modely

  • Lexikony: rychlé, interpretovatelné, ale náchylné ke sarkasmu, ironii a žargonu (např. „rekt“, „gm“, „ngmi“).
  • Klasifikátory: jemně doladěné modely (fine-tuned) pro krypto doménu výrazně zlepšují přesnost; vyžadují však kuraci tréninkových dat a pravidelný retrén.
  • Kontextové embeddingy: umožňují měření „tonu“ tématu i bez explicitní štítkování; vhodné pro detekci změn narativů (AI, ETF, L2, RWA).

Agregace: konstrukce kompozitního sentiment indexu

Jednotlivé komponenty mají různou kvalitu a periodicitu. Doporučený postup:

  1. Standardizace: každý komponent převeďte na z-skóre nebo percentil v klouzavém okně.
  2. Robustní váhy: určete váhy podle out-of-sample prediktivní síly a stability (nižší volatilita = vyšší váha), ne podle „intuice“.
  3. Režimy a režimy: identifikujte tržní režimy (trend, konsolidace, panika) například pomocí Markov Switching modelu nebo volatility; sentiment funguje rozdílně v každém režimu.
  4. Saturace: extrémy mají tendenci revertovat k průměru; ořezávejte komponenty (winsorizace), aby index nevyskočil do nerealistických hodnot.

Backtest: oddělení dojmu od reality

Bez přísného backtestu zůstane sentiment pouze příběhem. Minimalistický framework:

  • Definujte pravidla: například pokud kompozitní index > 90. percentil → sniž expozici; < 10. percentil → navyšuj expozici.
  • Vyhněte se look-ahead biasu: používejte pouze data dostupná v čase rozhodnutí; respektujte zpoždění publikace (funding se aktualizuje intradenně, on-chain grafy mohou mít zpoždění).
  • Transakční náklady a skluz: zahrňte realistické náklady; sentimentální strategie často rotují častěji.
  • Stres test: výkonnost během šoků (výlistování ETF, výpadek chainu, velká likvidace); sledujte maximum drawdown a tail risk.
  • Out-of-sample validace: časová separace (walk-forward) a geografická/aktivní separace (BTC → ETH → altcoinová koš).

Anekdoty a kognitivní zkreslení: jak se nenechat nachytat

  • Selektivní pozornost: vnímáme jen hluk, který potvrzuje naši hypotézu. Řešení: předem definovaná pravidla a slepé testy.
  • Survivorship bias: pamatujeme si „správné“ predikce influencerů, nikoli stovky chybných. Řešení: měřte track record systematicky.
  • Recency bias: nadhodnocujeme nedávné události; indexujte sentiment na různých časových horizontech (intradenní, denní, týdenní).
  • Echo chambers: sociální sítě amplifikují minoritní extrémy; řešení: vzorkování napříč platformami a deduplikace.

Derivátové signály: „tvrdá“ data sentimentu

  • Funding rate: pozitivní extrém znamená přehřátý long sentiment; negativní extrém signalizuje paniku/hedging. Smysluplná je křížová verifikace napříč burzami.
  • Open interest (OI): růst OI při růstu ceny = trend-following euforie; růst OI při poklesu = potenciál squeeze.
  • Opcí (skew, IV): put-skew a zvýšená implikovaná volatilita jsou proxy strachu; divergence mezi spotovou cenou a IV mohou předcházet pohybu.
  • Likvidace: série long/short likvidací je důsledkem přeplněného sentimentu; po kaskádě často následuje krátkodobý mean reversion.

On-chain signály: od narativů k kapitálovým tokům

  • Rezervy na burzách a netflow: přílivy na CEX zvyšují pravděpodobnost prodeje; odlivy směrem k self-custody často doprovázejí akumulaci.
  • Stablecoinová zásoba a prémie: růst emise a prémií na regionálních trzích naznačuje risk-on apetit; pokles často předchází korekci.
  • Velryby a smart money: změny pozic adresních clusterů (market maker, trezory) korigují retailový „hype“.

Textový sentiment: robustnost nad „virálem“

  • Vzorkování: stratifikujte podle velikosti účtu a historie; jinak konverzace ovládnou botí sítě.
  • Kontext: odlište makro (BTC, ETH) od mikro (konkrétní tokeny/protokoly); shlukujte témata podle embeddingů.
  • Změny narativů: sledujte přechody témat (ETF → AI → L2) a jejich korelaci s kapitálovými toky.

Režimově podmíněná interpretace: kdy sentiment funguje opačně

Ve silném trendu je pozitivní sentiment provázející (pokračující) signál; v bočním trendu se extrémy obracejí do mean reversion. Proto kombinujte sentiment s identifikátorem režimu (trendový filtr, volatilita, makro události). Bez toho se snadno ocitnete na špatné straně „crowded trade“.

Integrace do rozhodování: nikoli indikátor, ale vrstva

  • Multi-signální framework: sentiment je jedna vrstva mezi cenovou akcí, on-chain toky a rizikovým managementem.
  • Risk sizing: sentiment používejte primárně pro úpravu velikosti pozice a páky, nikoli pro samotné načasování vstupu.
  • Guardrails: při extrémním přehřátí omezte leverage; při extrémním strachu rozšiřte pásma akumulace, ale dodržujte stop pravidla.

Vizualizace a monitoring: aby signál nebyl iluzí

  • Dashboard: komponenty indexu, jejich váhy, poslední hodnoty a percentily; alarmy nastavujte pouze na extrémy.
  • Divergence: zobrazení rozdílů mezi spotovou cenou a sentiment indexem; zvýrazněte délku a velikost odchylky.
  • Explainability: SHAP/feature importance pro textový model; transparentnost snižuje riziko „magie modelu“.

Etika a regulace: spravedlnost a odpovědnost

  • Ochrana soukromí: minimalizujte osobní údaje; upřednostněte agregaci a anonymizaci.
  • Proti-manipulační politika: sentimentní indexy mohou být zneužity k „painting the tape“; vyžadují detekci anomálií a manuální flagy.
  • Transparentnost metodiky: zveřejňujte rámcově, jak index vzniká a kdy jej revidujete; pomáhá to komunitě interpretovat výstupy.

Časté chyby a jak se jim vyhnout

  1. Overfitting: příliš dobré backtesty selhávají v produkci; omezte počet parametrů a používejte penalizace.
  2. Záměna příčiny a následku: funding roste, protože cena roste – ne naopak; odlište „drivery“ od „reakcí“.
  3. Ignorování latence: textový sentiment může zpožďovat oproti derivátům; sladěte frekvence a použijte nowcasting.
  4. Jedna metrika, jeden verdikt: vždy hledejte konfluenci alespoň tří nezávislých komponent.

Checklist: sentiment s rozumem

  1. Definujte, co měříte (doména, horizont, aktiva).
  2. Získejte multi-zdrojová data (text, on-chain, deriváty, order-book).
  3. Vyčistěte a normalizujte (z-skóre, percentily, winsorizace).
  4. Postavte kompozit s váhami podle out-of-sample síly.
  5. Zjistěte tržní režim a přizpůsobte interpretaci.
  6. Backtestujte s náklady, bez look-ahead, s walk-forward validací.
  7. Nasazení dashboardu, alarmy jen na extrémy, vysvětlitelnost modelu.
  8. Řiďte riziko přes sizing a limity, ne pouze přes „buy/sell“ signály.
  9. Auditujte drift modelu a aktualizujte tréninková data.
  10. Komunikujte metodiku a respektujte etiku/soukromí.

Data nad dojmy, disciplína nad hype

Sentiment je užitečný spojenec, pokud k němu přistupujeme jako k datovému produktu, nikoli jako k pocitovému kompasi. Anekdoty jsou skvělé na anekdoty; kapitál si však zaslouží měření, normalizaci, backtest a pokoru. V prostředí kryptoměn – kde informace a nálady přeletí během sekund – rozhoduje právě disciplína: jasné definice, vícedruhová měření a opatrná integrace do rozhodování.

Disclaimer

Tento text je vzdělávacím materiálem a nepředstavuje investiční, právní ani daňové poradenství. Obchodování s kryptoměnami je rizikové a může vést ke ztrátě kapitálu.