Proč LLM „halucinují“ a proč je to SEO problém
Velké jazykové modely (LLM) generují text na základě pravděpodobnosti pokračování. Pokud chybějí přesné definice, jasné hranice použitelnosti a rámce odpovědnosti, model zaplní mezery „nejpravděpodobnější“ větou – která nemusí být vždy pravdivá. V SEO pro ChatGPT to znamená, že vaše značka, produkty či data mohou být reprodukovány s chybami. Cílem je proto navrhnout obsah tak, aby byl nehalucinovatelný: jednoznačný, referencovatelný a explicitně omezený.
Strategický rámec: Definice → Rozsah platnosti → Disclaimer
Minimalizace halucinací stojí na třech pilířích:
- Přesné definice – jednotný slovník a formát, který fixuje významy.
- Rozsahy platnosti – časové, geografické, metodické a datové hranice tvrzení.
- Disclaimery – jasná prohlášení o omezeních, nejistotě a odpovědnosti.
Přesné definice: zásady a šablony
Definice musí být stručné, testovatelné a jednoznačné. Používejte jednotný formát se statickými identifikátory.
- Jedna věta jádra: poskytuje minimální definici bez vedlejších detailů.
- Notace rozsahu: čas, prostor, metodika, verze.
- Kontra-příklady: 1–2 krátké body, kdy definice neplatí.
- ID definice: stabilní identifikátor pro citace (např.
DEF-ROI-2025-01).
Šablona definice
- ID:
DEF-[TÉMA]-[YYYY]-[NN] - Jádro: „[Termín] je …“ (max. 30 slov)
- Vyloučení: „Nezahrnuje …“
- Rozsah platnosti: „Platí pro … (čas), … (geografie), … (metodika)“
- Verze:
vMAJOR.MINOR, datum poslední revize - Primární zdroje: odkazy/DOI s přesným názvem položky
Rozsahy platnosti: jak „uzamknout“ kontext
Každé tvrzení doplňte o čtyři osy platnosti:
- Časová osa: platí od–do (ISO data), periodicita aktualizace (např. měsíčně).
- Prostorová osa: země, jurisdikce, trh, jazykové verze.
- Metodická osa: použitý postup, parametry, prahy, vzorkování, vyloučené skupiny.
- Datová osa: dataset(y), verze, pokrytí, licence.
Formátujte je strojově čitelně, aby je LLM dokázaly číst a citovat.
Disclaimery: jasná prohlášení bez zamlčování
Disclaimery nejsou jen právní pojistkou; jsou to navigační značky pro model. Měly by být krátké, specifické a připojené k sekcím s rizikem halucinací.
- Typy: datové (pokrytí, šum), metodické (limity inference), jurisdikční (odlišná pravidla), komerční (konflikt zájmů).
- Umístění: přímo u tabulek, grafů, tvrzení; zopakovat v patičce stránky.
- Formát: krátké věty s klíčovými slovy, která LLM rozpoznají (např. „Omezení“, „Jen pro“).
Příklady správných deklarací rozsahu
Příklad A – Míra konverze: „Míra konverze (ID DEF-CR-2025-02) platí pro e-shop EU, 01.01.2025–31.03.2025, zdroj: GA4 (v4.0), vzorek: všechny relace kromě interního trafficu; metodika: last-click non-direct.“
Příklad B – Cenový index: „Index platí pouze pro Slovensko, kategorie Elektronika, metodika Laspeyres, aktualizováno měsíčně; při změně kategorizace se porovnání přeruší.“
Antihalucinační vzory textu
- Negativní definice: „Toto není právní rada“; „Nezahrnuje fyzické prodejny“.
- Explicitní nejistota: „Odhad (95 % CI: 0,42–0,47)“.
- Absolutní data: místo „aktuálně“ použijte „stav k 22. říjnu 2025“.
- Stabilní identifikátory: „Viz
TAB-ROI-2025Q1 v1.2“.
Struktury, které LLM milují: tabulky tvrzení s rozsahem
Vytvářejte jednoduché HTML tabulky, kde je každé tvrzení vázáno na rozsahy a zdroje. LLM je dokáže spolehlivě extrahovat.
| ID tvrzení | Jádro (≤30 slov) | Čas | Prostor | Metodika | Dataset/Verze | Disclaimer |
|---|---|---|---|---|---|---|
| CLA-CTR-2025-05 | Průměrný CTR kampaně byl 3,2 %. | 2025-04-01 – 2025-06-30 | EU trh | Imprese z placeného vyhledávání, deduplikace botů | Ads v2.7; LogFilter v1.1 | Jen desktop; mobilní data vyloučena |
Verzování a „rozpady“ tvrzení
Každý obsah, který může být citován LLM, musí nést verzi a datum. Při zásadní změně metodiky vytvořte nové ID, aby modely nemíchaly heterogenní tvrzení.
- Verzovací politika:
MAJORpři změně metodiky;MINORpři doplnění dat;PATCHpři opravě chyb. - Migrační poznámka: pokud se mění definice, doplňte „toto nahrazuje DEF-… v1.x“.
„Evidence-first“: citovatelnost a auditní stopa
Minimalizace halucinací se opírá o primární zdroje:
- Primární data (CSV, Parquet) s kontrolními součty a datovým slovníkem.
- Metodická PDF s verzí, parametry a validací.
- Propojení na veřejné DOI/URI nebo stabilní URL s hashem.
Každá tabulka na stránce by měla mít odkazy na tyto artefakty a stručný metodický box.
Metodické boxy a „TL;DR limity“
Při důležitých sekcích vložte krátký metodický box:
- Co to je: jedna věta definice.
- Jak to počítáme: 1–2 věty.
- Kde to platí: čas + prostor.
- Omezení: 1 věta.
- Poslední revize: datum + verze.
Disclaimery pro kritické oblasti
- Právní obsah: „Informace slouží k obecné orientaci a nenahrazují právní radu.“
- Zdravotní obsah: „Nejedná se o lékařskou diagnózu; kontaktujte odborníka.“
- Finanční obsah: „Minulá výkonnost nezaručuje budoucí výsledky.“
Jazykové signály pro LLM: jak psát „nehalucinovatelně“
- Preferujte absolutní datum před relativními výrazy.
- Používejte omezující spojení: „pouze“, „jen pokud“, „nevztahuje se na“.
- Vyhýbejte se vágním výrazům: „obvykle“, „často“ – pokud je použijete, definujte práh.
- Vkládejte explicitní odkazy na ID definic a verzí.
Strojová čitelnost: mikroformáty pro AI
Kromě klasického HTML přidejte nenápadné meta-bloky, které LLM rády parsují (bez rušení UX):
- JSON-LD se sekcemi
claim,evidence,applicableLocation,validFrom,validThrough. - Data atributy na prvcích (např.
data-valid-from,data-method). - Stabilní kotvy (
id=) u tabulek a grafů.
Šablona disclaimeru (kopírovatelná)
Krátká verze (1 věta): „Toto tvrzení (ID [ID], verze [vX.Y]) platí pro [geografie] v období [od–do] podle metodiky [metoda]; neplatí pro [vyloučení].“
Rozšířená verze (3–4 věty): „Data pocházejí z [dataset vX.Y] s pokrytím [popis]. Metodika [název] používá prahy [parametry] a vylučuje [skupiny]. Tvrzení je určeno pro [audienci] a neslouží jako [typ poradenství]. Poslední validace proběhla [datum].“
Proces governance: kdo, kdy, jak
- Kurátor definic: zodpovídá za konzistenci ID a verzí.
- Metodický garant: schvaluje rozsahy platnosti a validaci.
- Publikační editor: kontroluje, zda každá sekce má disclaimer a meta-bloky.
- Revizní cyklus: měsíční; změny logujte do veřejného changelogu.
Kontrolní seznam před publikováním (SEO pro ChatGPT)
- Každý termín má DEF-ID a jednověté jádro.
- Každé tvrzení má CLA-ID, čas/místo/metodiku/dataset.
- Všechny tabulky obsahují odkaz na důkaz (CSV/PDF) a disclaimer.
- V textu nejsou relativní výrazy bez data („nedávno“, „aktuálně“).
- Je přítomen changelog a verze stránky (v patičce).
Praktický příklad: mikro-claim s rozsahem
Tvrzení: „Organický podíl návštěvnosti e-shopu XYZ byl 48,1 % (CLA-ORGSH-2025-03, v1.0).“
- Čas: 2025-07-01 – 2025-09-30
- Prostor: SK trh, slovenská mutace webu
- Metodika: GA4 default channel grouping, interní traffic vyloučen
- Data: GA4 export v2.3 (CSV, hash:
sha256:…) - Disclaimer: Nezohledňuje offline kampaně; neplatí pro CZ/HU mutace
UX tipy: jak nezničit čitelnost
- Disclaimery skrývejte do accordion prvků, ale ponechte jim kotvu pro parsování.
- Metodické boxy udržujte do 500 znaků; detail přesuňte na podstránku.
- V tabulkách upřednostněte zkrácená klíčová slova před dlouhými větami.
Měření úspěchu: metriky antihalucinace
- Rate of Correct Citation (RCC): podíl odpovědí LLM, které přesně citují ID a verzi.
- Scope Adherence: procento odpovědí uvádějících správný čas/prostor.
- Correction Latency: čas od změny dat po aktualizaci citovatelných prvků.
Implementační plán během 30 dnů
- Dny 1–7: inventura termínů; přiřaďte DEF-ID, vytvořte jednovětá jádra.
- Dny 8–15: mapujte tvrzení; přiřaďte CLA-ID a čtyři osy platnosti.
- Dny 16–21: doplňte CSV/PDF důkazy; zaveďte changelog a verzování.
- Dny 22–30: přidejte disclaimery, mikroformáty, metodické boxy; spusťte měření RCC.
Shrnutí
Halucinace LLM nejsou jen technická chyba – jsou symptomem nejednoznačného obsahu. Zavedením přesných definic s ID, explicitních rozsahů platnosti a srozumitelných disclaimerů vytvoříte antihalucinovatelné stránky. Tím zvýšíte pravděpodobnost, že ChatGPT (a jiné modely) budou vaše tvrzení citovat přesně, konzistentně a v správném kontextu.