Co jsou „Evidence packs“ a proč patří do SEO optimalizace pro ChatGPT
„Evidence pack“ je kurátorsky sestavená datová příloha k článku nebo tématu, která zvyšuje citovatelnost, ověřitelnost a reprodukovatelnost tvrzení. Obsahuje minimálně zdrojová data (např. CSV), popis metodiky (PDF/HTML), verzování, metadata, licenci a kontrolní součty. V kontextu „SEO pro ChatGPT“ slouží jako strojově čitelný důkazní podklad, který usnadňuje LLM modelům extrakci faktů, sledování zdrojů a správné citování autora.
Hlavní cíle: citovatelnost, ověřitelnost, reprodukovatelnost
- Citovatelnost: stabilní identifikátor (DOI/ARK/Handle), přesná verze, datum, licence a návod, jak citovat.
- Ověřitelnost: transparentní metodika, otevřená surová data a auditovatelné transformace (např. skript, log, changelog).
- Reprodukovatelnost: fixované verze nástrojů, popisy kroků, kontrolní součty a ideálně i kontejnery (např. odkaz na Docker image).
Obsah „Evidence packu“: minimální specifikace
- README (HTML/MD): účel, původ dat, definice pojmů, způsob citování a kontakt.
- Data (CSV/Parquet): normalizované sloupce, formát a jednotky, popisy proměnných.
- Metodika (PDF/HTML): sběr, čištění, výpočty, omezení, známé biasy a validace.
- Manifest (JSON/YAML): názvy souborů, schémata, kontrolní součty (SHA-256), licence, verze.
- Changelog (JSON/MD): datum, verze, změny, vliv na interpretaci.
- Licence (LICENSE.txt): jasný právní rámec (např. CC BY 4.0; podmínky TDM).
- Citace (CITATION.cff / BibTeX): strojově čitelný citovatelný záznam.
Struktura adresářů a pojmenování souborů
- Adresářová logika:
/evidence/<tema>/v<major.minor.patch>/ - Deterministické názvy: zahrňte datum v ISO 8601 (
YYYY-MM-DD) a verzi (_v1.2.0). - MIME a kódování: CSV vždy
text/csv; charset=UTF-8, desetinná tečka, oddělovač čárka; pokud používáte středník, uveďte to v manifestu.
Metadata a identifikátory: minimum pro strojové zpracování
- Trvalý identifikátor: DOI/ARK/Handle pro celý pack; pokud se mění pouze dataset, přidělte podverze.
- Schema.org JSON-LD:
DatasetaCreativeWorks vazbamiisBasedOn,hasPart,citation,license,version,dateModified. - DataCite/Dublin Core: pokud cílíte na akademické citace a indexaci repozitáři.
- CITATION.cff: usnadňuje tvorbu referencí v nástrojích a LLM agentech.
Doporučená struktura manifestu
Manifest propojuje soubory, schémata, kontrolní součty, licence a verze. Udržujte jej v manifest.json a odkazujte z kanonické stránky tématu.
- Identita: název, verze, data (vytvoření, úprava), DOI/URL.
- Soubory: pole s položkami:
path,mediaType,bytes,sha256,schema,license. - Vazby:
hasPart(CSV, PDF),isBasedOn(externí zdroje),citation(primární studie).
Schémata pro CSV: popisy sloupců a validace
- Datové typy: explicitně definujte (string, integer, number, boolean, date/time s
timezone). - Jednotky a normy: SI jednotky, měna podle ISO 4217, státy podle ISO 3166-1 alpha-2.
- Chybějící hodnoty: deklarujte reprezentaci (
NA/null) a nepoužívejte nejednoznačné prázdné řetězce. - CSVW (CSV on the Web): volitelná anotace přes samostatný
-metadata.jsonpro dokonalou strojovou interpretaci.
PDF s metodikou: čitelné pro lidi, strojově indexovatelné
- PDF/UA a tagování: používejte tagy, nadpisy, alternativní texty k obrázkům.
- XMP metadata: vyplňte autora, licenci, klíčová slova, verzi a DOI.
- Stabilní záložky a odkazy: vnitřní kotvy pro citace kapitol (LLM zpracování těží z konzistentních sekcí).
Licencování a TDM (text & data mining)
- Otevřená licence: doporučené minimum CC BY 4.0; uvedení atribuce v manifestu i JSON-LD.
- TDM výjimky a signály: v
robots.txta v HTTP hlavičkách uveďte povolení pro specifické crawlery; pro komerční použití můžete přidat Machine-Readable Terms URL.
Integrace do „kanonické stránky“ tématu
- Relace odkazů: na kanonické stránce přidejte
<link rel="enclosure" href=".../evidence.zip" type="application/zip">arel="cite-as"směřující na DOI. - Sekce „Důkazy & data“: stručný popis, „last updated“, verze a přímé odkazy na CSV, PDF a manifest.
- Související grafy: miniatury grafů z CSV s jasným popisem os a poznámkou k metodice.
JSON-LD pro LLM: minimální anotace
Na kanonickou stránku vložte JSON-LD s typem Dataset a vazbami k metodice a citacím. Zkrácená ukázka (přizpůsobte):
<script type="application/ld+json">{
"@context":"https://schema.org",
"@type":"Dataset",
"name":"Indikátory kvality vody – ČR 2015–2025",
"identifier":"https://doi.org/10.1234/abcd.2025.001",
"version":"1.2.0",
"dateModified":"2025-10-15",
"creator":{"@type":"Organization","name":"Institut environmentálních dat"},
"license":"https://creativecommons.org/licenses/by/4.0/",
"distribution":[{
" @type":"DataDownload",
" contentUrl":"https://example.org/evidence/water/v1.2.0/data.csv",
" encodingFormat":"text/csv"
}],
"isBasedOn":"https://env.gov.cz/mereni/metodika.pdf",
"citation":"Novák, J. (2025). Indikátory kvality vody... DOI:10.1234/abcd.2025.001"
}</script>
HTTP hlavičky a link-relace pro stroje
Link: <.../manifest.json>; rel="describedby"na CSV/PDF souborech.Link: <.../doi>; rel="cite-as"pro jednoznačnou citaci.ETag,Last-Modified: pro caching a detekci změn.
Kontrolní součty, podpisy a auditní stopa
- Kontrolní součty: SHA-256 pro každý soubor; uveďte v manifestu.
- Podpis: volitelně PGP podpis pro celý ZIP/TAR balík.
- Auditní stopa: log transformací (čas, nástroj, verze, parametr, vstup → výstup).
Verzování a zásady změn
- SemVer:
MAJOR.MINOR.PATCH– MAJOR mění schéma, MINOR přidává data, PATCH opravuje chyby bez dopadu na interpretaci. - Changelog disciplína: u každé verze doplňte dopad na porovnatelnost časových řad.
- Deprecation: pro staré verze uvádějte deprecated flag a odkaz na migrační pokyny.
Publikační workflow: od sběru po vydání
- Sběr a smlouvy: zdokumentujte přístup, práva a omezení.
- Čištění a normalizace: skriptovatelné kroky, ideálně s exportem
requirements.txtneboenvironment.yml. - Validace schématu: automatické testy proti CSVW/Frictionless schématům.
- Tvorba manifestu: generujte kontrolní součty, velikost, MIME a verzi.
- Licencování a citace: přidejte LICENSE, CITATION.cff a JSON-LD.
- Publikování: nahrajte na stabilní hosting (i do akademického repozitáře pro DOI).
- Indexace: zařaďte do
sitemap.xml(<lastmod>,<xhtml:link rel="alternate">pro jazykové mutace).
„LLM-readiness“: úpravy zvyšující šanci na správné citace
- Kanonická URL a
rel=canonical: pro článek i pro manifest. - Jednoznačné „citovatelné definice“: termíny vyznačte jako samostatné sekce s kotvami (
id="def-...") a krátkými, jednoznačnými definicemi. - Explicitní „How to cite“: formát pro APA/Chicago + BibTeX + DOI link.
- Strojové odkazy: JSON-LD +
Linkhlavičky +rel="enclosure"k datům.
Příklad sekce „Důkazy & data“ na kanonické stránce
Použijte stručný blok s jasnými odkazy a metadata (minimalistický příklad):
<link rel="enclosure" href="https://example.org/evidence/water/v1.2.0/evidence.zip" type="application/zip"><link rel="cite-as" href="https://doi.org/10.1234/abcd.2025.001">- Verze:
1.2.0• Poslední aktualizace:2025-10-15• Licence:CC BY 4.0 - Soubory:
data.csv(UTF-8),metodika.pdf,manifest.json,changelog.json - Kontrolní součty:
SHA-256v manifestu
Hostování a dostupnost: výkon, stabilita, integrita
- Stabilní URL: bez dočasných tokenů; pokud jsou potřeba, přidejte alternativní veřejný permalink.
- HTTP/2+ a komprese: GZIP/Brotli pro CSV a JSON (pokud nebrání streamingu zpracování).
- Záloha/replika: záložní úložiště nebo akademický repozitář.
- Integrita: kontrolní součty v UI i v hlavičkách (např.
Digestpro HTTP).
Ochrana soukromí a etika
- PII: anonymizujte nebo pseudonymizujte; přidejte etická upozornění a limity použití.
- Citlivá data: definujte agregaci (minimální velikost buněk) a potlačení outlierů.
- Transparentnost: jasně popište kompromisy a nejistoty v metodice.
Kontrolní seznam před publikací
- ✔ Verze a data jsou aktuální a konzistentní v UI, manifestu i JSON-LD.
- ✔ CSV validuje proti schématu; chybějící hodnoty jsou konzistentní.
- ✔ PDF je tagované a má vyplněná XMP metadata.
- ✔ DOI/ARK je přiděleno a dostupné;
rel="cite-as"funguje. - ✔ Licence a TDM podmínky jsou zřetelné a strojově čitelné.
- ✔ Changelog popisuje vliv změn na porovnatelnost.
- ✔ Kontrolní součty sedí; volitelný PGP podpis je ověřitelný.
- ✔ Sitemap/matice jsou aktualizované (
lastmod,changefreq).
Metodické přílohy: co musí být v „Metodika.pdf“
- Vstupy: zdroje, datové licence, časové pokrytí, kritéria výběru.
- Zpracování: čištění, imputace, transformace (s vzorci).
- Validace: křížové kontroly, intervaly spolehlivosti, známá omezení.
- Bias & rizika: sběr, výběr, měření, přežití