Proč nestačí spoléhat na anekdoty
Sentimentová analýza v kryptoprostoru je lákavá, protože nálada účastníků trhu často předchází pohyb cen. Problémem však je, že „nálada“ je nepozorovatelná veličina, kterou rádi nahrazujeme anekdotami – virálním vláknem, tweety influencerů nebo dojmy z diskusních fór. Takové anekdoty mají vysokou dostupnost (každý je vidí), avšak nízkou reprezentativnost. Cílem tohoto článku je ukázat, jak provádět sentimentovou analýzu rozumně: definovat, operacionalizovat, měřit a testovat ji na datech, nikoliv na intuíciích.
Definice: co nazýváme „sentiment“
Sentiment je agregovaný postoj trhu k budoucnosti ceny či riziku aktiva. Není to „hlas lidu“ ani „míra hluku na sociálních sítích“. Prakticky jej chápeme jako signál, který (1) je měřitelný, (2) má jasný směr (risk-on vs. risk-off), (3) má známý vztah k budoucí výkonnosti – byť podmíněný tržním režimem.
Taxonomie zdrojů: od textu po knihy derivátů
- Textové zdroje: Twitter/X, Reddit, Telegram, blogy, zpravodajství, komentáře k repozitářům. Měřitelné pomocí NLP (lexikony, klasifikátory, embeddingy).
- On-chain data: příliv/odliv na burzy, počet aktivních adres, růst stablecoinové zásoby, držby velryb, rychlost obratů (velocity).
- Order-flow a mikrostruktura: agresivní vs. pasivní objem, hluboká likvidita, šířka spreadu, míry zrušení objednávek.
- Deriváty: financování perpetualů (funding rate), otevřený zájem (OI), futures basis, skew opcí (25D RR), poměr put/call.
- Off-chain „meta“ signály: Google Trends, objem vyhledávání tickerů, webový traffic protokolů a burz.
Operacionalizace: jak převést „náladu“ do čísel
Každý ze zmíněných zdrojů je třeba transformovat na škálu, kterou lze agregovat. Příklady:
- Text → skóre: klasifikace po větách s pravděpodobností pozitivní/negativní; vyhněte se binarizaci – zachovejte pravděpodobnostní výstup.
- Funding → z-skóre: normalizujte vůči 180dennímu oknu; extrémy jsou robustnější než průměry.
- On-chain toky → percentil: přílivy na CEX v 95. percentilu indikují rizikový režim (potenciální prodejní tlak).
- Options skew → směr: výrazně záporný 25D risk reversal implikuje strach; použijte exponenciální vážení, abyste potlačili staré hodnoty.
Návrh datové pipeline: od sběru po verifikaci
- Sběr: streamované API (sociální sítě, burzy), plánované snapshoty (on-chain), offline korpusy (zprávy).
- Čištění: deduplikace, detekce botů (časové vzorce, opakující se šablony), jazyková filtracja, odstranění URL/emoji šumu, segmentace.
- Obohacení: entity linking (tickery, protokoly, jména), mapování na páry (BTC-USD vs. ETH-BTC), geolokalizace (pokud anonymizovaná, eticky a legálně správná).
- Modelování: pravidlové lexikony, logistická regrese s n-gramy, Transformer-based klasifikátory, embeddingy + clustering.
- Validace: lidské anotace na reprezentativním vzorku; metriky F1, ROC AUC; monitoring driftu (zda se význam slov mění v čase).
NLP přístupy: lexikony vs. moderní modely
- Lexikony: rychlé, interpretovatelné, ale křehké vůči sarkasmu, ironii a žargonu (např. „rekt“, „gm“, „ngmi“).
- Klasifikátory: jemně laděné modely (fine-tuned) na krypto doménu významně zvyšují přesnost; vyžadují však kurátorství tréninkových dat a pravidelný re-train.
- Kontextové embeddingy: umožňují měřit „tón“ tématu i bez explicitního labelu; vhodné pro detekci změn narativů (AI, ETF, L2, RWA).
Agregace: konstrukce kompozitního sentimentového indexu
Jednotlivé komponenty mají rozdílnou kvalitu i periodičnost. Doporučený postup:
- Standardizace: každý komponent převedeme na z-skóre nebo percentile v klouzavém okně.
- Robustní váhy: určete váhy podle out-of-sample predikční síly a stability (nižší volatilita = vyšší váha), nikoliv podle „intuice“.
- Režimy a stavy: identifikujte tržní režimy (trend, konsolidace, panika) například pomocí Markov switching modelu nebo volatility; sentiment funguje v každém režimu odlišně.
- Saturace: extrémy mají tendenci k mean reversion; ořezávejte komponenty (winsorizace), aby index nenaběhl do nerealistických hodnot.
Backtest: oddělení dojmu od reality
Bez přísného backtestu zůstane sentiment jen příběhem. Minimalistický framework:
- Definujte pravidla: například pokud kompozitní index > 90. percentil → snižujte expozici; < 10. percentil → zvyšujte expozici.
- Vyhněte se look-ahead biasu: používejte pouze data dostupná v době rozhodnutí; zohledněte zpoždění publikace (funding se aktualizuje intraday, on-chain grafy mohou mít zpoždění).
- Transakční náklady a skluz: zahrňte realistické náklady; sentimentální strategie často rotují častěji.
- Stres test: výkonnost během šoků (listing ETF, chain outage, masivní likvidace); sledujte maximální drawdown a tail riziko.
- Out-of-sample validace: časové oddělení (walk-forward) a geografické/aktivní oddělení (BTC → ETH → alt basket).
Anekdoty a kognitivní zkreslení: jak se nenechat zmást
- Selektivní pozornost: vnímáme jen hluk potvrzující naši tezi. Řešení: předem definovaná pravidla a slepé testy.
- Survivorship bias: pamatujeme si „správné“ predikce influencerů, ne stovky chybných. Řešení: systematické měření track recordu.
- Recency bias: přeceňujeme poslední události; indexujte sentiment na různých časových horizontech (intradenní, denní, týdenní).
- Echo komory: sociální sítě zesilují minoritní extrémy; řešení: vzorkování napříč platformami a deduplikace.
Derivátové signály: „tvrdá“ data sentimentu
- Funding rate: pozitivní extrém = přehřátý long sentiment; negativní extrém = panika/hedging. Smysluplná je křížová verifikace mezi burzami.
- Open interest (OI): růst OI s růstem ceny = trend-following euforie; růst OI při poklesu = potenciál squeeze.
- Opce (skew, IV): put-skew a zvýšená implikovaná volatilita jsou proxy strachu; divergence mezi spotem a IV mohou předcházet pohybu.
- Likvidace: série long/short likvidací je důsledkem přeplněného sentimentu; po kaskádě často přichází krátkodobý mean reversion.
On-chain signály: od narativů ke kapitálovým tokům
- Exchange reserves a netflow: přílivy na CEX zvyšují pravděpodobnost prodeje; odlivy směrem k self-custody často doprovázejí akumulaci.
- Stablecoin supply & prémia: růst emise a prémií na regionálních trzích naznačuje risk-on apetit; pokles často předchází korekci.
- Velryby a smart money: změny pozic adresních klastrů (market maker, trezory) korigují retailový „hype“.
Textový sentiment: robustnost nad „virálem“
- Vzorkování: stratifikujte podle velikosti účtu a historie; jinak vám konverzaci ovládnou botsítě.
- Kontext: odlište makro (BTC, ETH) od mikro (konkrétní tokeny/protokoly); shlukujte témata podle embeddingů.
- Změny narativů: sledujte přechody témat (ETF → AI → L2) a jejich korelaci s kapitálovými toky.
Režimově podmíněná interpretace: kdy sentiment funguje opačně
Ve silném trendu je pozitivní sentiment provázejícím (pokračujícím) signálem; v bočním trendu se extrémy převracejí do mean reversion. Proto kombinujte sentiment s identifikátorem režimu (trendový filtr, volatilita, makro události). Bez toho se snadno ocitnete na špatné straně „crowded trade“.
Integrace do rozhodování: ne indikátor, ale vrstva
- Multi-signálový framework: sentiment je jedna vrstva mezi cenovou akcí, on-chain toky a řízením rizika.
- Risk sizing: sentiment používejte primárně pro úpravu velikosti pozice a pákového efektu, nikoliv k samotnému načasování vstupu.
- Bezpečnostní mantinely: při extrémním přehřátí omezte leverage; při extrémním strachu rozšiřte pásma akumulace, ale zachovejte stop pravidla.
Vizualizace a monitoring: aby signál nebyla iluze
- Dashboard: komponenty indexu, jejich váhy, poslední hodnoty a percentily; nastavte alarmy pouze na extrémy.
- Divergence: zobrazení rozdílů mezi spotovou cenou a sentimentovým indexem; zvýrazněte trvání a velikost odchylky.
- Vysvětlitelnost: SHAP/feature importance pro textový model; transparentnost snižuje riziko „modelové magie“.
Etika a regulace: spravedlnost a zodpovědnost
- Ochrana soukromí: minimalizujte osobní údaje; preferujte agregaci a anonymizaci.
- Proti-manipulační politika: sentimentové indexy mohou být zneužity k „painting the tape“; vyžadují detekci anomálií a manuální flagy.
- Transparentnost metodiky: publikujte rámcově, jak index vzniká a kdy je revidován; to pomáhá komunitě interpretovat výstupy.
Časté chyby a jak se jim vyhnout
- Overfitting: příliš dobré backtesty selhávají v produkci; omezte počet parametrů a používejte penalizace.
- Záměna příčiny a následku: funding roste, protože cena roste – ne naopak; oddělte „drivery“ od „reakcí“.
- Ignorování latence: textový sentiment může mít zpoždění vůči derivátům; sladte frekvence a použijte nowcasting.
- Jedna metrika, jeden verdikt: vždy hledejte konfluenci alespoň tří nezávislých komponent.
Checklist: sentiment s rozumem
- Definujte, co měříte (doména, horizont, aktiva).
- Získejte multi-zdrojová data (text, on-chain, deriváty, order-book).
- Vyčistěte a normalizujte (z-skóre, percentily, winsorizace).
- Postavte kompozit s váhami podle out-of-sample síly.
- Zjistěte tržní režim a přizpůsobte interpretaci.
- Backtestujte s náklady, bez look-ahead a s walk-forward validací.
- Zaveďte dashboard, alarmy jen na extrémy, vysvětlitelnost modelu.
- Řiďte riziko přes sizing a limity, ne pouze skrze „buy/sell“ signály.
- Auditujte drift modelu a aktualizujte tréninková data.
- Komunikujte metodiku a respektujte etiku a soukromí.
Data nad dojmy, disciplína nad hype
Sentiment je užitečný spojenec, pokud k němu přistupujeme jako k datovému produktu, nikoli jako k pocitovému kompasu. Anekdoty jsou skvělé pro anekdoty; kapitál však vyžaduje měření, normalizaci, backtest a pokoru. V kryptoprostoru – kde informace a nálady kolují v sekundách – rozhoduje právě disciplína: jasné definice, vícezdrojová měření a opatrná integrace do rozhodování.
Disclaimer
Tento text je vzdělávací materiál a nepředstavuje investiční, právní ani daňové poradenství. Obchodování s kryptoměnami je rizikové a může vést ke ztrátě kapitálu.