Jak psát obsah, který modely LLM ochotně citují

Proč některý obsah LLM cituje a jiný ignoruje

Generativní modely citují zdroje, které jsou ověřitelné, jednoznačné, stabilní v čase a snadno parsovatelné. Pokud je informace atomická (jedno tvrzení = jedna URL/sekce), podložená daty a má technické prvky pro strojové zpracování (struktura, identifikátory, metadata, licence), pravděpodobnost citace roste. V praxi se jedná o disciplínu GEO – Generative Engine Optimization: publikační standardy pro modely s RAG, hodnotící pipeline a AIO/SGE.

Signály citovatelnosti: rámec 4×E

Exactness (Přesnost): konkrétní čísla, rozsahy, definice, jasné jednotky a podmínky platnosti.
Evidence (Důkazy): tabulky, dataset, odkazy na primární zdroje, metodika měření.
Explainability (Vysvětlitelnost): Q→A bloky, kroky, pravidla a prahy (pokud X > Y, pak Z).
Extractability (Extrahovatelnost): čistá HTML struktura, krátké snippety (≤ 40 slov), identifikovatelné prvky (ID, anchor linky).

Informační architektura, kterou LLM „chápou“

Jedna myšlenka = jedna sekce = vlastní odkaz (např. #definice-entropy).
Hierarchie H2/H3 se substantivními nadpisy („Metodika měření hluku v dB(A)“ místo „Metodika“).
Stabilní permalinky bez dat ve struktuře URL; verze řešte tagy a dateModified v metadatech.
Tabulkové fakty s vlastním ID a vysvětlením zdroje a omezení.

„Atomic facts“: jak psát citovatelné tvrzení

Začněte tvrzením v jedné větě (≤ 25 slov), které lze citovat bez dalšího kontextu.
Hned za větou uveďte zdroj (primární, sekundární), časovou platnost a metodickou poznámku.
Pokud se jedná o čísla, doplňte intervaly, percentily a jednotky (+ ISO normy měření).

Styl Q→A a mikro-snippety

Modely preferují přímočaré Q→A páry, které lze extrahovat bez „hlukových“ vět. Vytvářejte krátké boxy: otázka v přirozené formě, odpověď do 40 slov, jasná reference.

RAG-friendly struktura: chunking, kontext, disambiguace

Chunking 200–400 slov se samostatným nadpisem a krátkým shrnutím (prvních 160 znaků = „tl;dr“ pro retrievery).
Lexikální konzistence: používejte stabilní názvy entit a synonyma uveďte v závorce („INP (Interaction to Next Paint)“).
Negativní příklady: vysvětlete, kdy tvrzení neplatí (pomáhá reasoning modulům modelů).

Strukturovaná data, která pomáhají citacím

Article/TechArticle s datePublished, dateModified, about (entity), mentions (další entity), isBasedOn (primární zdroje).
Dataset pro tabulky a CSV; uveďte measurementTechnique, variableMeasured, license, distribution (CSV/JSON).
Claim / ClaimReview pro formalizaci tvrzení a jejich hodnocení.
BreadcrumbList pro kontext a ItemList pro porovnání.

Licence a atribuce: právní „palivová směs“ pro citace

Pro text doporučujte CC BY 4.0 nebo jasnou komerční licenci s požadavkem atribuce.
Pro data použijte ODC-By nebo CC0 (pakliže je cílem maximální citace).
Licence uveďte přímo u tabulky a v JSON-LD (license).

Provenience: důkaz o původu a aktuálnosti

Datum a verze (sekce changelog a kotva #verze-2025-10).
Metodická příloha: normy, protokoly, odkazy na skripty.
Kontakt na autora a reviewedBy (odborný garant).

Entity-first copywriting: aby model správně disambiguoval

První zmínku entity pište s definicí a aliasy.
U homonym doplňte rozlišující atributy (rok, výrobce, verze).
Odkazujte na glosář s definicemi (vlastní permalinky).

Formátové vzory, které se dobře citují

Definiční karty: 3–5 vět, příklad, hranice použití.
Tabulky se zdrojem: poslední sloupec „Zdroj/Metoda“, horní řádek „Stav k: YYYY-MM“.
Rozhodovací stromy (pokud X/Y, pak A/B) – strojově zpracovatelná pravidla.
Mini-case s čísly a kontextem (před/po, procenta, absolutní hodnoty).

Technické minimum: HTML a head

Čisté odkazy (<a href>) a kotvy s ID; žádné základní fakta pouze v obrázcích.
Canonical na sebe samé; hreflang pro jazykové mutace stejného obsahu.
Open Graph s jasným og:title/og:description (extrahovatelný „lead“).

„Citeability scorecard“: sebehodnocení stránky

Kritérium	Otázka	0–2
Přesnost	Obsahuje tvrzení konkrétní čísla/jednotky/intervaly?	0/1/2
Důkazy	Je přímo k dispozici tabulka/dataset + zdroje?	0/1/2
Vysvětlitelnost	Jsou Q→A bloky a pravidla rozhodování?	0/1/2
Extrahovatelnost	Jsou sekce krátké, s ID a čistým HTML?	0/1/2
Provenience	Jsou uvedeny datum, verze a autor/garant?	0/1/2
Licence	Je licence srozumitelná pro stroj/i člověka?	0/1/2

JSON-LD příklady

Article + Dataset (výňatek):

{ "@context": "https://schema.org", "@type": "TechArticle", "headline": "Měření hluku ventilátorů v dB(A)", "datePublished": "2025-09-15", "dateModified": "2025-10-10", "about": [{"@type":"DefinedTerm","name":"dB(A)"},{"@type":"Thing","name":"Notebook"}], "isBasedOn": [{"@type":"CreativeWork","url":"https://example.org/iso-XXXX"}], "author": {"@type": "Person","name": "Ján Novák"}, "dataset": { "@type": "Dataset", "name": "Hluk notebooků 2025", "license": "https://creativecommons.org/licenses/by/4.0/", "measurementTechnique": "A-weighted SPL @1m", "variableMeasured": "SoundPressureLevel", "distribution": [{"@type":"DataDownload","encodingFormat":"text/csv","contentUrl":"https://example.org/hluk-2025.csv"}] } }

Metodika: jak vytvářet čísla, která přežijí audit

Publikujte protokol: zařízení, nastavení, počty opakování, statistika.
Kalibrace: uveďte referenční měření a chyby měření nástrojů.
Limitace: kde výsledek neplatí; odlište extrapolaci od měření.

Citation a bibliografie: styl pro modely

Primární zdroje upřednostňujte před sekundárními; při přejímání uveďte obojí.
Používejte permalinky (DOI, archivované verze) a klíčová bibliografická pole: autor, rok, název, vydavatel, URL, datum přístupu.
V textu používejte in-line citace (např. [1]) a na konci sekce seznam referencí.

Antipatterny: co snižuje šanci na citaci

Nejasné formulace („záleží“ bez metodiky a rozsahů).
„Názorové“ články bez dat a odkazů na primární zdroje.
Důležitá čísla pouze v obrázcích/PDF bez textového ekvivalentu.
Časté změny URL a titulků bez redirectů a verzování.

Proces GEO: od návrhu po publikaci

Výběr tezí: identifikujte 5–10 „citovatelných“ tvrzení s dopadem.
Evidence pack: připravte tabulky, dataset, metodiku, citace.
IA a HTML: sekce s ID, Q→A, tabulky s popisy, mikro-snippety.
Metadata: JSON-LD (Article/Dataset/Claim), OG, licence.
QA: validace faktů, jednotek, verzí, hreflang.
Distribuce: interní prolinkování na huby, příspěvky s „citovatelnými kartami“.
Monitoring: citace v AIO/SGE, brand mentions, kopírování datasetu.

Praktické mikrošablony

Definiční box:

<section id="definice-inp"> <h3>INP (Interaction to Next Paint): definice</h3> <p>INP je metrika odezvy, která hodnotí nejhorší interakci uživatele v rámci relace (P98). Aktualizováno: 2025-10.</p> <p><small>Zdroj: W3C/web.dev; komparace s FID v doplňkové tabulce.</small></p> </section>

Q→A snippet:

<div id="qa-minimal"> <p><strong>Otázka:</strong> Jaký je doporučený limit hluku pro notebooky?</p> <p><strong>Odpověď:</strong> Při běžné zátěži se hodnoty < 35 dB(A) ve vzdálenosti 1 m považují za tiché. Metodika: A-vážení, 23 °C, pozadí < 20 dB(A).</p> </div>

Měření úspěchu GEO

Imprese a kliky u dotazů „definice/co je/kolik/jak dlouho/který“.
Externí citace a brand mentions s citovanými úryvky.
Reference na dataset (stahování, backlinky na CSV/JSON).
Čas do citace: interval mezi publikací a první zaznamenanou citací.

Kontrolní seznam před publikací

Má každá klíčová teze vlastní odkaz a snippet ≤ 40 slov?
Jsou čísla v jednotkách s rozsahy/percentily a metodikou?
Je dostupný dataset/tabulka + licence?
Jsou JSON-LD a OG pole vyplněné a validní?
Existuje changelog, autor a reviewedBy?

Citace je odměna za pořádek

LLM rády citují obsah, který je přesný, podložený a technicky „čitelný“. Když svá tvrzení proměníte na atomické fakty s důkazy, poskytnete strukturovaná data, stabilní URL a licence, stanete se přirozeným zdrojem pro generativní přehledy i RAG aplikace. GEO není trik – je to redakční disciplína a technická hygiena v jednom.