Evidence packy: datové přílohy (CSV, PDF, metodiky) pro maximalizaci citovatelnosti

Co jsou „Evidence packs“ a proč patří do SEO optimalizace pro ChatGPT

„Evidence pack“ je kurátorsky sestavená datová příloha k článku nebo tématu, která zvyšuje citovatelnost, ověřitelnost a reprodukovatelnost tvrzení. Obsahuje minimálně zdrojová data (např. CSV), popis metodiky (PDF/HTML), verzování, metadata, licenci a kontrolní součty. V kontextu „SEO pro ChatGPT“ slouží jako strojově čitelný důkazní podklad, který usnadňuje LLM modelům extrakci faktů, sledování zdrojů a správné citování autora.

Hlavní cíle: citovatelnost, ověřitelnost, reprodukovatelnost

  • Citovatelnost: stabilní identifikátor (DOI/ARK/Handle), přesná verze, datum, licence a návod, jak citovat.
  • Ověřitelnost: transparentní metodika, otevřená surová data a auditovatelné transformace (např. skript, log, changelog).
  • Reprodukovatelnost: fixované verze nástrojů, popisy kroků, kontrolní součty a ideálně i kontejnery (např. odkaz na Docker image).

Obsah „Evidence packu“: minimální specifikace

  • README (HTML/MD): účel, původ dat, definice pojmů, způsob citování a kontakt.
  • Data (CSV/Parquet): normalizované sloupce, formát a jednotky, popisy proměnných.
  • Metodika (PDF/HTML): sběr, čištění, výpočty, omezení, známé biasy a validace.
  • Manifest (JSON/YAML): názvy souborů, schémata, kontrolní součty (SHA-256), licence, verze.
  • Changelog (JSON/MD): datum, verze, změny, vliv na interpretaci.
  • Licence (LICENSE.txt): jasný právní rámec (např. CC BY 4.0; podmínky TDM).
  • Citace (CITATION.cff / BibTeX): strojově čitelný citovatelný záznam.

Struktura adresářů a pojmenování souborů

  • Adresářová logika: /evidence/<tema>/v<major.minor.patch>/
  • Deterministické názvy: zahrňte datum v ISO 8601 (YYYY-MM-DD) a verzi (_v1.2.0).
  • MIME a kódování: CSV vždy text/csv; charset=UTF-8, desetinná tečka, oddělovač čárka; pokud používáte středník, uveďte to v manifestu.

Metadata a identifikátory: minimum pro strojové zpracování

  • Trvalý identifikátor: DOI/ARK/Handle pro celý pack; pokud se mění pouze dataset, přidělte podverze.
  • Schema.org JSON-LD: Dataset a CreativeWork s vazbami isBasedOn, hasPart, citation, license, version, dateModified.
  • DataCite/Dublin Core: pokud cílíte na akademické citace a indexaci repozitáři.
  • CITATION.cff: usnadňuje tvorbu referencí v nástrojích a LLM agentech.

Doporučená struktura manifestu

Manifest propojuje soubory, schémata, kontrolní součty, licence a verze. Udržujte jej v manifest.json a odkazujte z kanonické stránky tématu.

  • Identita: název, verze, data (vytvoření, úprava), DOI/URL.
  • Soubory: pole s položkami: path, mediaType, bytes, sha256, schema, license.
  • Vazby: hasPart (CSV, PDF), isBasedOn (externí zdroje), citation (primární studie).

Schémata pro CSV: popisy sloupců a validace

  • Datové typy: explicitně definujte (string, integer, number, boolean, date/time s timezone).
  • Jednotky a normy: SI jednotky, měna podle ISO 4217, státy podle ISO 3166-1 alpha-2.
  • Chybějící hodnoty: deklarujte reprezentaci (NA/null) a nepoužívejte nejednoznačné prázdné řetězce.
  • CSVW (CSV on the Web): volitelná anotace přes samostatný -metadata.json pro dokonalou strojovou interpretaci.

PDF s metodikou: čitelné pro lidi, strojově indexovatelné

  • PDF/UA a tagování: používejte tagy, nadpisy, alternativní texty k obrázkům.
  • XMP metadata: vyplňte autora, licenci, klíčová slova, verzi a DOI.
  • Stabilní záložky a odkazy: vnitřní kotvy pro citace kapitol (LLM zpracování těží z konzistentních sekcí).

Licencování a TDM (text & data mining)

  • Otevřená licence: doporučené minimum CC BY 4.0; uvedení atribuce v manifestu i JSON-LD.
  • TDM výjimky a signály: v robots.txt a v HTTP hlavičkách uveďte povolení pro specifické crawlery; pro komerční použití můžete přidat Machine-Readable Terms URL.

Integrace do „kanonické stránky“ tématu

  • Relace odkazů: na kanonické stránce přidejte <link rel="enclosure" href=".../evidence.zip" type="application/zip"> a rel="cite-as" směřující na DOI.
  • Sekce „Důkazy & data“: stručný popis, „last updated“, verze a přímé odkazy na CSV, PDF a manifest.
  • Související grafy: miniatury grafů z CSV s jasným popisem os a poznámkou k metodice.

JSON-LD pro LLM: minimální anotace

Na kanonickou stránku vložte JSON-LD s typem Dataset a vazbami k metodice a citacím. Zkrácená ukázka (přizpůsobte):

<script type="application/ld+json">{
"@context":"https://schema.org",
"@type":"Dataset",
"name":"Indikátory kvality vody – ČR 2015–2025",
"identifier":"https://doi.org/10.1234/abcd.2025.001",
"version":"1.2.0",
"dateModified":"2025-10-15",
"creator":{"@type":"Organization","name":"Institut environmentálních dat"},
"license":"https://creativecommons.org/licenses/by/4.0/",
"distribution":[{
"  @type":"DataDownload",
"  contentUrl":"https://example.org/evidence/water/v1.2.0/data.csv",
"  encodingFormat":"text/csv"
}],
"isBasedOn":"https://env.gov.cz/mereni/metodika.pdf",
"citation":"Novák, J. (2025). Indikátory kvality vody... DOI:10.1234/abcd.2025.001"
}</script>

HTTP hlavičky a link-relace pro stroje

  • Link: <.../manifest.json>; rel="describedby" na CSV/PDF souborech.
  • Link: <.../doi>; rel="cite-as" pro jednoznačnou citaci.
  • ETag, Last-Modified: pro caching a detekci změn.

Kontrolní součty, podpisy a auditní stopa

  • Kontrolní součty: SHA-256 pro každý soubor; uveďte v manifestu.
  • Podpis: volitelně PGP podpis pro celý ZIP/TAR balík.
  • Auditní stopa: log transformací (čas, nástroj, verze, parametr, vstup → výstup).

Verzování a zásady změn

  • SemVer: MAJOR.MINOR.PATCHMAJOR mění schéma, MINOR přidává data, PATCH opravuje chyby bez dopadu na interpretaci.
  • Changelog disciplína: u každé verze doplňte dopad na porovnatelnost časových řad.
  • Deprecation: pro staré verze uvádějte deprecated flag a odkaz na migrační pokyny.

Publikační workflow: od sběru po vydání

  1. Sběr a smlouvy: zdokumentujte přístup, práva a omezení.
  2. Čištění a normalizace: skriptovatelné kroky, ideálně s exportem requirements.txt nebo environment.yml.
  3. Validace schématu: automatické testy proti CSVW/Frictionless schématům.
  4. Tvorba manifestu: generujte kontrolní součty, velikost, MIME a verzi.
  5. Licencování a citace: přidejte LICENSE, CITATION.cff a JSON-LD.
  6. Publikování: nahrajte na stabilní hosting (i do akademického repozitáře pro DOI).
  7. Indexace: zařaďte do sitemap.xml (<lastmod>, <xhtml:link rel="alternate"> pro jazykové mutace).

„LLM-readiness“: úpravy zvyšující šanci na správné citace

  • Kanonická URL a rel=canonical: pro článek i pro manifest.
  • Jednoznačné „citovatelné definice“: termíny vyznačte jako samostatné sekce s kotvami (id="def-...") a krátkými, jednoznačnými definicemi.
  • Explicitní „How to cite“: formát pro APA/Chicago + BibTeX + DOI link.
  • Strojové odkazy: JSON-LD + Link hlavičky + rel="enclosure" k datům.

Příklad sekce „Důkazy & data“ na kanonické stránce

Použijte stručný blok s jasnými odkazy a metadata (minimalistický příklad):

  • <link rel="enclosure" href="https://example.org/evidence/water/v1.2.0/evidence.zip" type="application/zip">
  • <link rel="cite-as" href="https://doi.org/10.1234/abcd.2025.001">
  • Verze: 1.2.0 • Poslední aktualizace: 2025-10-15 • Licence: CC BY 4.0
  • Soubory: data.csv (UTF-8), metodika.pdf, manifest.json, changelog.json
  • Kontrolní součty: SHA-256 v manifestu

Hostování a dostupnost: výkon, stabilita, integrita

  • Stabilní URL: bez dočasných tokenů; pokud jsou potřeba, přidejte alternativní veřejný permalink.
  • HTTP/2+ a komprese: GZIP/Brotli pro CSV a JSON (pokud nebrání streamingu zpracování).
  • Záloha/replika: záložní úložiště nebo akademický repozitář.
  • Integrita: kontrolní součty v UI i v hlavičkách (např. Digest pro HTTP).

Ochrana soukromí a etika

  • PII: anonymizujte nebo pseudonymizujte; přidejte etická upozornění a limity použití.
  • Citlivá data: definujte agregaci (minimální velikost buněk) a potlačení outlierů.
  • Transparentnost: jasně popište kompromisy a nejistoty v metodice.

Kontrolní seznam před publikací

  • ✔ Verze a data jsou aktuální a konzistentní v UI, manifestu i JSON-LD.
  • ✔ CSV validuje proti schématu; chybějící hodnoty jsou konzistentní.
  • ✔ PDF je tagované a má vyplněná XMP metadata.
  • ✔ DOI/ARK je přiděleno a dostupné; rel="cite-as" funguje.
  • ✔ Licence a TDM podmínky jsou zřetelné a strojově čitelné.
  • ✔ Changelog popisuje vliv změn na porovnatelnost.
  • ✔ Kontrolní součty sedí; volitelný PGP podpis je ověřitelný.
  • ✔ Sitemap/matice jsou aktualizované (lastmod, changefreq).

Metodické přílohy: co musí být v „Metodika.pdf“

  • Vstupy: zdroje, datové licence, časové pokrytí, kritéria výběru.
  • Zpracování: čištění, imputace, transformace (s vzorci).
  • Validace: křížové kontroly, intervaly spolehlivosti, známá omezení.
  • Bias & rizika: sběr, výběr, měření, přežití