Proč potřebujeme citovatelné data
Citovatelné data jsou taková, na která lze přesně odkázat, ověřit jejich původ, verzi, metodiku vzniku a jejichž interpretace je stabilní v čase. V oblasti „Strukturovaná data a datová konzistence“ představují základ důvěryhodnosti: umožňují replikaci, metaanalýzy, audit kvality, dlouhodobé uchování a správu odkazů v publikacích, zprávách či médiích. Citovatelnost dat stojí na čtyřech pilířích: perzistentní identifikace, jednoznačný popis (metadata), verzionování a metodika a stabilní, strojově čitelné formáty.
FAIR principy a citovatelnost
- Findable (Nalezená): dataset má perzistentní identifikátor (např. DOI) a bohatá, indexovatelná metadata.
- Accessible (Přístupná): jasné URL, podmínky přístupu a licence; dlouhodobé uložení v repozitáři.
- Interoperable (Propojitelná): standardizované formáty (CSV/TSV, Parquet), kódy států ISO, časová pásma IANA, jednotky SI.
- Reusable (Opakovaně použitelná): přesná metodika, verzionování, datový slovník, licence a omezení použití.
Perzistentní identifikace: DOI, ORCID, ROR a verze
- DOI (Digital Object Identifier): přiřaďte jej ke každé zveřejněné verzi datasetu (např.
10.5281/zenodo.1234567), nikoli pouze k projektu. - Versioning: používejte semantické verze (
v1.0.0,v1.1.0) a udržujte smysluplný CHANGELOG. - Autoři a afiliace: identifikujte autory pomocí ORCID a organizace přes ROR. Zamezíte záměně jmen a zlepšíte dohledatelnost.
Licencování a právní rámec
- Vyberte otevřenou licenci (např. CC BY 4.0 nebo ODC-BY) a uveďte požadovaný text citace včetně DOI.
- Popište omezení (osobní údaje, komerční využití, citlivá místa). U citlivých údajů uveďte postup anonymizace.
Metadata, která činí data citovatelnými
Metadata musí umožnit přesně pochopit, co tabulky a grafy reprezentují. Minimální rozsah:
- Název datasetu (jednoznačný, stručný, věcný) a abstrakt (2–6 vět, účel a rozsah).
- Časový rozsah (od–do), geografický rozsah (ISO kódy, geometrie/Bounding Box), granularita (den, týden, NUTS úroveň).
- Jednotky a měření (SI, měnové jednotky s názvem měny a datem kurzu, způsob agregace, deflace/inflace přepočty).
- Zdroj a původ (provenience): senzory, dotazníky, administrativní registry; odkazy na primární zdroje.
- Kvalita a nejistota (intervaly spolehlivosti, chybějící hodnoty, pravidla imputace, limity detekce).
- Zpracování (pipeline): čištění, transformace, filtry, normalizace, výpočty indikátorů.
- Kontrolní součty a checksumy (např. SHA-256 souborů) pro integritu a audit.
Formáty a struktura: konzistentní tabulky
- Preferujte CSV/TSV (UTF-8, LF) pro tabulky; Parquet pro velká data; JSON/JSON Lines pro záznamy; GeoJSON pro prostorová data.
- Tidy data: jeden řádek = jedna entita/pozorování, jeden sloupec = jedna proměnná, jeden soubor = jedna tabulka.
- Hlavičky bez mezer a diakritiky (např.
krajina_iso3,rok,hdp_pps_mil_eur), spolu s lidsky čitelnými názvy v datovém slovníku. - Chybějící hodnoty: používejte konzistentní notaci (
NAnebo prázdné pole), ne různé symboly (-,?,0). - Čas: ISO 8601 (
YYYY-MM-DD), časové pásmoUTCnebo explicitní IANA (Europe/Bratislava). - Desetinný oddělovač: tečka (
.) a tisícové oddělovače nepoužívejte v CSV.
Datový slovník (data dictionary)
Datový slovník propojuje technické názvy sloupců s definicemi, typy a jednotkami. Doporučený obsah:
| sloupec | popis | typ | jednotka | doména/hodnoty | poznámky |
|---|---|---|---|---|---|
| krajina_iso3 | Kód země podle ISO 3166-1 alpha-3 | string | – | SVK, CZE, AUT… | Konzistentní seznam v příloze |
| rok | Referenční rok měření | integer | YYYY | 2000–2025 | Kalendářní rok |
| hdp_pps_mil_eur | HDP v paritě kupní síly | number | mil. EUR (PPS) | >=0 | Deflované k roku 2015 |
| ci_95_lo | Dolní hranice 95% intervalu spolehlivosti | number | jako měřená proměnná | – | Normal approx. |
| ci_95_hi | Horní hranice 95% intervalu spolehlivosti | number | jako měřená proměnná | – | Normal approx. |
Metodika: od sběru dat po publikaci
- Definice indikátorů: přesné vzorce, zdrojové proměnné, jednotky, agregace (součty/průměry/mediány).
- Sběr: vzorkování, velikost vzorku, periodicita, přístrojová přesnost, kalibrační protokoly.
- Předzpracování: deduplikace, normalizace kódů, mapování kategorií (např. NACE), validace vstupů.
- Výpočty a transformace: logika výpočtu (pseudo-kód v README), použité softwarové verze a knihovny.
- Kontroly kvality: pravidla pro odlehlé hodnoty, testy konzistence (součty se rovnají subtotálům), porovnání s předchozí verzí.
- Publikování: generování tabulek a grafů ze stejné pipeline; export, podpis checksumem, vytvoření DOI, nahrání do repozitáře.
Šablona README pro citovatelný dataset
- Název datasetu: …
- Verze: vX.Y.Z (datum vydání)
- Autoři: Jméno Příjmení (
ORCID: 0000-0000-0000-0000) - DOI:
10.xxxx/xxxxx - Abstrakt: 3–5 vět
- Rozsah: čas/geografie, granularita
- Zdroj: odkazy na primární data
- Metodika: shrnutí kroků + odkazy na notebooky/skripty
- Licence: CC BY 4.0 (požadovaná citace)
- Soubory: seznam tabulek/grafů s popisem
- Kvalita: limity, nejistota, známé problémy
- Kontakty: odpovědná osoba
- Checksumy: SHA-256 jednotlivých souborů
Tabulky: zásady designu pro citovatelnost
- Každá tabulka má název, poznámku pod čarou s metodikou a poznámku o zdroji s DOI.
- Udržujte jednotky v hlavičce příslušného sloupce, nikoli v buňkách.
- Agregace označte (např. „průměr vážený populací“), uveďte váhy.
- Pokud je tabulka odvozena z verze datasetu, uveďte verzi a datum extrakce.
Grafy: aby byly citovatelné a reprodukovatelné
- Graf má název, popis os s jednotkami, legendu, poznámku o zdroji + DOI a verzi dat.
- Uveďte poznámky k metodice vizualizace: vyhlazování, klouzavý průměr, normalizace (index = 100 v referenčním roce), baseline.
- Exportujte vektorové formáty (SVG, PDF) pro publikace a PNG s dostatečným DPI pro web.
- Pro časové řady uvádějte časové pásmo a transformace (log-škála, per capita).
- Pokud graf obsahuje intervaly spolehlivosti, vysvětlete metodu (např. 95% IS – bootstrap, normal approx.).
Provenience a workflow: od surových dat k finálním grafům
Klíčem je jeden zdroj pravdy a automatizovaná pipeline:
- Raw: nespracovaná data (pouze ke čtení, nikdy nemanipulovat manuálně).
- Staging: skripty pro validaci, standardizaci kódů a formátů.
- Model: odvozené tabulky a indikátory se zápisem všech vzorců.
- Release: zmrazený export s DOI, manifest datasetu (seznam souborů, checksumy, verze, timestamp, softwarové verze).
Konzistence: nomenklatury, kódovníky, referenční kalendáře
- Definujte a verzionujte kódovníky (ISO, NUTS, NACE, HS) a uveďte jejich verzi (např. NUTS 2021).
- U kalendářů specifikujte týdenníky (ISO týden), fiskální roky, pracovní dny a den v týdnu.
- Zajistěte zpětnou kompatibilitu (mapování staré na novou klasifikaci) a popište mapovací pravidla.
Validace: automatické testy dat a kvality
- Definujte tvrdé schémy (typ, povinnost, rozsah, regex) a udržujte je v repozitáři spolu s daty.
- Provádějte kontrolní součty a konzistenční testy (např. součty podkategorií = celek, procenta v řádku = 100 %).
- Automatizujte linting CSV (duplicitní hlavičky, BOM, netypické hodnoty, NaN vs. prázdné).
Strojově čitelná metadata pro web
- Zveřejněte schema.org/Dataset v JSON-LD na landing page dat (název, popis, autoři/ORCID, licence, data, DOI, distribuce s formáty a URL).
- Uveďte schema.org/DataDownload pro jednotlivé soubory (MIME typ, velikost, checksum, kódování).
- Doplňujte DCAT-AP či Dublin Core v katalozích otevřených dat.
Šablona citace datasetu a grafu
Doporučená citace (v textové podobě, upravte formát podle stylu – APA/Chicago):
- Dataset: Autor, A., & Autor, B. (2025). Název datasetu (v1.2.0) [Dataset]. Vydavatel/repozitář. DOI:
10.xxxx/xxxxx. - Tabulka/Graf (odvozené dílo): Autor, A. (2025). Název grafu z „Název datasetu (v1.2.0)“. DOI datasetu:
10.xxxx/xxxxx, extrahováno dne 2025-10-22.