Jak psát obsah, který modely LLM ochotně citují

Proč některý obsah LLM cituje a jiný ignoruje

Generativní modely citují zdroje, které jsou ověřitelné, jednoznačné, stabilní v čase a snadno parsovatelné. Pokud je informace atomická (jedno tvrzení = jedna URL/sekce), podložená daty a má technické prvky pro strojové zpracování (struktura, identifikátory, metadata, licence), pravděpodobnost citace roste. V praxi se jedná o disciplínu GEO – Generative Engine Optimization: publikační standardy pro modely s RAG, hodnotící pipeline a AIO/SGE.

Signály citovatelnosti: rámec 4×E

  • Exactness (Přesnost): konkrétní čísla, rozsahy, definice, jasné jednotky a podmínky platnosti.
  • Evidence (Důkazy): tabulky, dataset, odkazy na primární zdroje, metodika měření.
  • Explainability (Vysvětlitelnost): Q→A bloky, kroky, pravidla a prahy (pokud X > Y, pak Z).
  • Extractability (Extrahovatelnost): čistá HTML struktura, krátké snippety (≤ 40 slov), identifikovatelné prvky (ID, anchor linky).

Informační architektura, kterou LLM „chápou“

  1. Jedna myšlenka = jedna sekce = vlastní odkaz (např. #definice-entropy).
  2. Hierarchie H2/H3 se substantivními nadpisy („Metodika měření hluku v dB(A)“ místo „Metodika“).
  3. Stabilní permalinky bez dat ve struktuře URL; verze řešte tagy a dateModified v metadatech.
  4. Tabulkové fakty s vlastním ID a vysvětlením zdroje a omezení.

„Atomic facts“: jak psát citovatelné tvrzení

  • Začněte tvrzením v jedné větě (≤ 25 slov), které lze citovat bez dalšího kontextu.
  • Hned za větou uveďte zdroj (primární, sekundární), časovou platnost a metodickou poznámku.
  • Pokud se jedná o čísla, doplňte intervaly, percentily a jednotky (+ ISO normy měření).

Styl Q→A a mikro-snippety

Modely preferují přímočaré Q→A páry, které lze extrahovat bez „hlukových“ vět. Vytvářejte krátké boxy: otázka v přirozené formě, odpověď do 40 slov, jasná reference.

RAG-friendly struktura: chunking, kontext, disambiguace

  • Chunking 200–400 slov se samostatným nadpisem a krátkým shrnutím (prvních 160 znaků = „tl;dr“ pro retrievery).
  • Lexikální konzistence: používejte stabilní názvy entit a synonyma uveďte v závorce („INP (Interaction to Next Paint)“).
  • Negativní příklady: vysvětlete, kdy tvrzení neplatí (pomáhá reasoning modulům modelů).

Strukturovaná data, která pomáhají citacím

  • Article/TechArticle s datePublished, dateModified, about (entity), mentions (další entity), isBasedOn (primární zdroje).
  • Dataset pro tabulky a CSV; uveďte measurementTechnique, variableMeasured, license, distribution (CSV/JSON).
  • Claim / ClaimReview pro formalizaci tvrzení a jejich hodnocení.
  • BreadcrumbList pro kontext a ItemList pro porovnání.

Licence a atribuce: právní „palivová směs“ pro citace

  • Pro text doporučujte CC BY 4.0 nebo jasnou komerční licenci s požadavkem atribuce.
  • Pro data použijte ODC-By nebo CC0 (pakliže je cílem maximální citace).
  • Licence uveďte přímo u tabulky a v JSON-LD (license).

Provenience: důkaz o původu a aktuálnosti

  • Datum a verze (sekce changelog a kotva #verze-2025-10).
  • Metodická příloha: normy, protokoly, odkazy na skripty.
  • Kontakt na autora a reviewedBy (odborný garant).

Entity-first copywriting: aby model správně disambiguoval

  • První zmínku entity pište s definicí a aliasy.
  • U homonym doplňte rozlišující atributy (rok, výrobce, verze).
  • Odkazujte na glosář s definicemi (vlastní permalinky).

Formátové vzory, které se dobře citují

  • Definiční karty: 3–5 vět, příklad, hranice použití.
  • Tabulky se zdrojem: poslední sloupec „Zdroj/Metoda“, horní řádek „Stav k: YYYY-MM“.
  • Rozhodovací stromy (pokud X/Y, pak A/B) – strojově zpracovatelná pravidla.
  • Mini-case s čísly a kontextem (před/po, procenta, absolutní hodnoty).

Technické minimum: HTML a head

  • Čisté odkazy (<a href>) a kotvy s ID; žádné základní fakta pouze v obrázcích.
  • Canonical na sebe samé; hreflang pro jazykové mutace stejného obsahu.
  • Open Graph s jasným og:title/og:description (extrahovatelný „lead“).

„Citeability scorecard“: sebehodnocení stránky

Kritérium Otázka 0–2
Přesnost Obsahuje tvrzení konkrétní čísla/jednotky/intervaly? 0/1/2
Důkazy Je přímo k dispozici tabulka/dataset + zdroje? 0/1/2
Vysvětlitelnost Jsou Q→A bloky a pravidla rozhodování? 0/1/2
Extrahovatelnost Jsou sekce krátké, s ID a čistým HTML? 0/1/2
Provenience Jsou uvedeny datum, verze a autor/garant? 0/1/2
Licence Je licence srozumitelná pro stroj/i člověka? 0/1/2

JSON-LD příklady

Article + Dataset (výňatek):

{ "@context": "https://schema.org", "@type": "TechArticle", "headline": "Měření hluku ventilátorů v dB(A)", "datePublished": "2025-09-15", "dateModified": "2025-10-10", "about": [{"@type":"DefinedTerm","name":"dB(A)"},{"@type":"Thing","name":"Notebook"}], "isBasedOn": [{"@type":"CreativeWork","url":"https://example.org/iso-XXXX"}], "author": {"@type": "Person","name": "Ján Novák"}, "dataset": { "@type": "Dataset", "name": "Hluk notebooků 2025", "license": "https://creativecommons.org/licenses/by/4.0/", "measurementTechnique": "A-weighted SPL @1m", "variableMeasured": "SoundPressureLevel", "distribution": [{"@type":"DataDownload","encodingFormat":"text/csv","contentUrl":"https://example.org/hluk-2025.csv"}] } }

Metodika: jak vytvářet čísla, která přežijí audit

  • Publikujte protokol: zařízení, nastavení, počty opakování, statistika.
  • Kalibrace: uveďte referenční měření a chyby měření nástrojů.
  • Limitace: kde výsledek neplatí; odlište extrapolaci od měření.

Citation a bibliografie: styl pro modely

  • Primární zdroje upřednostňujte před sekundárními; při přejímání uveďte obojí.
  • Používejte permalinky (DOI, archivované verze) a klíčová bibliografická pole: autor, rok, název, vydavatel, URL, datum přístupu.
  • V textu používejte in-line citace (např. [1]) a na konci sekce seznam referencí.

Antipatterny: co snižuje šanci na citaci

  • Nejasné formulace („záleží“ bez metodiky a rozsahů).
  • „Názorové“ články bez dat a odkazů na primární zdroje.
  • Důležitá čísla pouze v obrázcích/PDF bez textového ekvivalentu.
  • Časté změny URL a titulků bez redirectů a verzování.

Proces GEO: od návrhu po publikaci

  1. Výběr tezí: identifikujte 5–10 „citovatelných“ tvrzení s dopadem.
  2. Evidence pack: připravte tabulky, dataset, metodiku, citace.
  3. IA a HTML: sekce s ID, Q→A, tabulky s popisy, mikro-snippety.
  4. Metadata: JSON-LD (Article/Dataset/Claim), OG, licence.
  5. QA: validace faktů, jednotek, verzí, hreflang.
  6. Distribuce: interní prolinkování na huby, příspěvky s „citovatelnými kartami“.
  7. Monitoring: citace v AIO/SGE, brand mentions, kopírování datasetu.

Praktické mikrošablony

Definiční box:

<section id="definice-inp"> <h3>INP (Interaction to Next Paint): definice</h3> <p>INP je metrika odezvy, která hodnotí nejhorší interakci uživatele v rámci relace (P98). Aktualizováno: 2025-10.</p> <p><small>Zdroj: W3C/web.dev; komparace s FID v doplňkové tabulce.</small></p> </section>

Q→A snippet:

<div id="qa-minimal"> <p><strong>Otázka:</strong> Jaký je doporučený limit hluku pro notebooky?</p> <p><strong>Odpověď:</strong> Při běžné zátěži se hodnoty < 35 dB(A) ve vzdálenosti 1 m považují za tiché. Metodika: A-vážení, 23 °C, pozadí < 20 dB(A).</p> </div>

Měření úspěchu GEO

  • Imprese a kliky u dotazů „definice/co je/kolik/jak dlouho/který“.
  • Externí citace a brand mentions s citovanými úryvky.
  • Reference na dataset (stahování, backlinky na CSV/JSON).
  • Čas do citace: interval mezi publikací a první zaznamenanou citací.

Kontrolní seznam před publikací

  • Má každá klíčová teze vlastní odkaz a snippet ≤ 40 slov?
  • Jsou čísla v jednotkách s rozsahy/percentily a metodikou?
  • Je dostupný dataset/tabulka + licence?
  • Jsou JSON-LD a OG pole vyplněné a validní?
  • Existuje changelog, autor a reviewedBy?

Citace je odměna za pořádek

LLM rády citují obsah, který je přesný, podložený a technicky „čitelný“. Když svá tvrzení proměníte na atomické fakty s důkazy, poskytnete strukturovaná data, stabilní URL a licence, stanete se přirozeným zdrojem pro generativní přehledy i RAG aplikace. GEO není trik – je to redakční disciplína a technická hygiena v jednom.