Proč některý obsah LLM cituje a jiný ignoruje
Generativní modely citují zdroje, které jsou ověřitelné, jednoznačné, stabilní v čase a snadno parsovatelné. Pokud je informace atomická (jedno tvrzení = jedna URL/sekce), podložená daty a má technické prvky pro strojové zpracování (struktura, identifikátory, metadata, licence), pravděpodobnost citace roste. V praxi se jedná o disciplínu GEO – Generative Engine Optimization: publikační standardy pro modely s RAG, hodnotící pipeline a AIO/SGE.
Signály citovatelnosti: rámec 4×E
- Exactness (Přesnost): konkrétní čísla, rozsahy, definice, jasné jednotky a podmínky platnosti.
- Evidence (Důkazy): tabulky, dataset, odkazy na primární zdroje, metodika měření.
- Explainability (Vysvětlitelnost): Q→A bloky, kroky, pravidla a prahy (pokud X > Y, pak Z).
- Extractability (Extrahovatelnost): čistá HTML struktura, krátké snippety (≤ 40 slov), identifikovatelné prvky (ID, anchor linky).
Informační architektura, kterou LLM „chápou“
- Jedna myšlenka = jedna sekce = vlastní odkaz (např.
#definice-entropy). - Hierarchie H2/H3 se substantivními nadpisy („Metodika měření hluku v dB(A)“ místo „Metodika“).
- Stabilní permalinky bez dat ve struktuře URL; verze řešte tagy a
dateModifiedv metadatech. - Tabulkové fakty s vlastním ID a vysvětlením zdroje a omezení.
„Atomic facts“: jak psát citovatelné tvrzení
- Začněte tvrzením v jedné větě (≤ 25 slov), které lze citovat bez dalšího kontextu.
- Hned za větou uveďte zdroj (primární, sekundární), časovou platnost a metodickou poznámku.
- Pokud se jedná o čísla, doplňte intervaly, percentily a jednotky (+ ISO normy měření).
Styl Q→A a mikro-snippety
Modely preferují přímočaré Q→A páry, které lze extrahovat bez „hlukových“ vět. Vytvářejte krátké boxy: otázka v přirozené formě, odpověď do 40 slov, jasná reference.
RAG-friendly struktura: chunking, kontext, disambiguace
- Chunking 200–400 slov se samostatným nadpisem a krátkým shrnutím (prvních 160 znaků = „tl;dr“ pro retrievery).
- Lexikální konzistence: používejte stabilní názvy entit a synonyma uveďte v závorce („INP (Interaction to Next Paint)“).
- Negativní příklady: vysvětlete, kdy tvrzení neplatí (pomáhá reasoning modulům modelů).
Strukturovaná data, která pomáhají citacím
- Article/TechArticle s
datePublished,dateModified,about(entity),mentions(další entity),isBasedOn(primární zdroje). - Dataset pro tabulky a CSV; uveďte
measurementTechnique,variableMeasured,license,distribution(CSV/JSON). - Claim / ClaimReview pro formalizaci tvrzení a jejich hodnocení.
- BreadcrumbList pro kontext a ItemList pro porovnání.
Licence a atribuce: právní „palivová směs“ pro citace
- Pro text doporučujte CC BY 4.0 nebo jasnou komerční licenci s požadavkem atribuce.
- Pro data použijte ODC-By nebo CC0 (pakliže je cílem maximální citace).
- Licence uveďte přímo u tabulky a v JSON-LD (
license).
Provenience: důkaz o původu a aktuálnosti
- Datum a verze (sekce changelog a kotva
#verze-2025-10). - Metodická příloha: normy, protokoly, odkazy na skripty.
- Kontakt na autora a reviewedBy (odborný garant).
Entity-first copywriting: aby model správně disambiguoval
- První zmínku entity pište s definicí a aliasy.
- U homonym doplňte rozlišující atributy (rok, výrobce, verze).
- Odkazujte na glosář s definicemi (vlastní permalinky).
Formátové vzory, které se dobře citují
- Definiční karty: 3–5 vět, příklad, hranice použití.
- Tabulky se zdrojem: poslední sloupec „Zdroj/Metoda“, horní řádek „Stav k: YYYY-MM“.
- Rozhodovací stromy (pokud X/Y, pak A/B) – strojově zpracovatelná pravidla.
- Mini-case s čísly a kontextem (před/po, procenta, absolutní hodnoty).
Technické minimum: HTML a head
- Čisté odkazy (
<a href>) a kotvy s ID; žádné základní fakta pouze v obrázcích. - Canonical na sebe samé; hreflang pro jazykové mutace stejného obsahu.
- Open Graph s jasným
og:title/og:description(extrahovatelný „lead“).
„Citeability scorecard“: sebehodnocení stránky
| Kritérium | Otázka | 0–2 |
|---|---|---|
| Přesnost | Obsahuje tvrzení konkrétní čísla/jednotky/intervaly? | 0/1/2 |
| Důkazy | Je přímo k dispozici tabulka/dataset + zdroje? | 0/1/2 |
| Vysvětlitelnost | Jsou Q→A bloky a pravidla rozhodování? | 0/1/2 |
| Extrahovatelnost | Jsou sekce krátké, s ID a čistým HTML? | 0/1/2 |
| Provenience | Jsou uvedeny datum, verze a autor/garant? | 0/1/2 |
| Licence | Je licence srozumitelná pro stroj/i člověka? | 0/1/2 |
JSON-LD příklady
Article + Dataset (výňatek):
{ "@context": "https://schema.org", "@type": "TechArticle", "headline": "Měření hluku ventilátorů v dB(A)", "datePublished": "2025-09-15", "dateModified": "2025-10-10", "about": [{"@type":"DefinedTerm","name":"dB(A)"},{"@type":"Thing","name":"Notebook"}], "isBasedOn": [{"@type":"CreativeWork","url":"https://example.org/iso-XXXX"}], "author": {"@type": "Person","name": "Ján Novák"}, "dataset": { "@type": "Dataset", "name": "Hluk notebooků 2025", "license": "https://creativecommons.org/licenses/by/4.0/", "measurementTechnique": "A-weighted SPL @1m", "variableMeasured": "SoundPressureLevel", "distribution": [{"@type":"DataDownload","encodingFormat":"text/csv","contentUrl":"https://example.org/hluk-2025.csv"}] } }
Metodika: jak vytvářet čísla, která přežijí audit
- Publikujte protokol: zařízení, nastavení, počty opakování, statistika.
- Kalibrace: uveďte referenční měření a chyby měření nástrojů.
- Limitace: kde výsledek neplatí; odlište extrapolaci od měření.
Citation a bibliografie: styl pro modely
- Primární zdroje upřednostňujte před sekundárními; při přejímání uveďte obojí.
- Používejte permalinky (DOI, archivované verze) a klíčová bibliografická pole: autor, rok, název, vydavatel, URL, datum přístupu.
- V textu používejte in-line citace (např. [1]) a na konci sekce seznam referencí.
Antipatterny: co snižuje šanci na citaci
- Nejasné formulace („záleží“ bez metodiky a rozsahů).
- „Názorové“ články bez dat a odkazů na primární zdroje.
- Důležitá čísla pouze v obrázcích/PDF bez textového ekvivalentu.
- Časté změny URL a titulků bez redirectů a verzování.
Proces GEO: od návrhu po publikaci
- Výběr tezí: identifikujte 5–10 „citovatelných“ tvrzení s dopadem.
- Evidence pack: připravte tabulky, dataset, metodiku, citace.
- IA a HTML: sekce s ID, Q→A, tabulky s popisy, mikro-snippety.
- Metadata: JSON-LD (Article/Dataset/Claim), OG, licence.
- QA: validace faktů, jednotek, verzí, hreflang.
- Distribuce: interní prolinkování na huby, příspěvky s „citovatelnými kartami“.
- Monitoring: citace v AIO/SGE, brand mentions, kopírování datasetu.
Praktické mikrošablony
Definiční box:
<section id="definice-inp"> <h3>INP (Interaction to Next Paint): definice</h3> <p>INP je metrika odezvy, která hodnotí nejhorší interakci uživatele v rámci relace (P98). Aktualizováno: 2025-10.</p> <p><small>Zdroj: W3C/web.dev; komparace s FID v doplňkové tabulce.</small></p> </section>
Q→A snippet:
<div id="qa-minimal"> <p><strong>Otázka:</strong> Jaký je doporučený limit hluku pro notebooky?</p> <p><strong>Odpověď:</strong> Při běžné zátěži se hodnoty < 35 dB(A) ve vzdálenosti 1 m považují za tiché. Metodika: A-vážení, 23 °C, pozadí < 20 dB(A).</p> </div>
Měření úspěchu GEO
- Imprese a kliky u dotazů „definice/co je/kolik/jak dlouho/který“.
- Externí citace a brand mentions s citovanými úryvky.
- Reference na dataset (stahování, backlinky na CSV/JSON).
- Čas do citace: interval mezi publikací a první zaznamenanou citací.
Kontrolní seznam před publikací
- Má každá klíčová teze vlastní odkaz a snippet ≤ 40 slov?
- Jsou čísla v jednotkách s rozsahy/percentily a metodikou?
- Je dostupný dataset/tabulka + licence?
- Jsou JSON-LD a OG pole vyplněné a validní?
- Existuje changelog, autor a reviewedBy?
Citace je odměna za pořádek
LLM rády citují obsah, který je přesný, podložený a technicky „čitelný“. Když svá tvrzení proměníte na atomické fakty s důkazy, poskytnete strukturovaná data, stabilní URL a licence, stanete se přirozeným zdrojem pro generativní přehledy i RAG aplikace. GEO není trik – je to redakční disciplína a technická hygiena v jednom.