Proč jsou datové feedy jádrem viditelnosti a konzistence
Datové feedy jsou strojově čitelné exporty, které napájí vyhledávače, agregátory, katalogy, tržiště a stále častěji také modely umělé inteligence. Jejich kvalita přímo ovlivňuje indexaci, bohaté výsledky (rich results), přesnost odpovědí LLM a konverze. Klíčem je správný formát, stabilní identifikátory, aktuálnost, validace a sledování chyb v kontinuálním cyklu.
Typy datových feedů podle použití
- Horizontální feedy pro indexaci: XML sitemapy (web, obrázky, video, zprávy), RSS/Atom pro publikace, Indexing pingy (např. IndexNow) pro rychlou signalizaci změn.
- Doménově specifické feedy: produkty (Merchant Center), hotely, lety, pracovní nabídky, události, lokální provozy, recepty, recenze – obvykle JSON/CSV/XML podle specifikace cílové platformy.
- Datasetové a AI feedy:
schema.org/Datasets distribucemi, data catalogs (DCAT), výstupy v Parquet/CSV/JSONL pro trénink/analyzu a feature store exporty pro interní AI systémy.
Formáty: XML, JSON, CSV a JSON-LD
- XML: robustní pro velké feedy, validovatelný přes XSD; vhodný pro sitemapy a e-commerce katalogy. Nevýhodou je verbóznost a vyšší náklady na parsování.
- JSON/JSONL: přirozený pro webová API a AI pipeline; JSONL se hodí pro streamování řádků a inkrementální zpracování.
- CSV/TSV: jednoduché na generování a audit v BI nástrojích; vhodné pro tabulkové entity (produkty, ceny), avšak postrádá schéma a typování.
- JSON-LD (v stránkách): není feed sám o sobě, ale klíčový nosič
schema.orgpro vyhledávače a AI. Export JSON-LD do samostatného bulk feedu zrychluje kontroly konzistence.
Standardní schémata a ontologie
- schema.org: univerzální typy (
Product,Offer,Review,Event,JobPosting,LocalBusiness,Article,Dataset). - GoodRelations (integrované v schema.org): obchodní entity, ceny, dostupnost, dodání a daně.
- DCAT a Dublin Core: datové katalogy, popis datasetů a distribucí.
- RDF/JSON-LD: pro propojená data (linked data) a přehledné
@ididentifikátory.
Sitemapy: základní signál pro vyhledávače
- Web sitemap: seznam kanonických URL s
lastmod; dělení podle typů obsahu a velikosti (max. 50 000 URL / 50 MB komprimováno). - Image/Video sitemapy: přidávají strukturované informace o médiích (titulek, popis, licence, miniatura, trvání).
- News sitemap: pro zpravodajské weby s časovým oknem; citlivé na přesnost publikačního času.
- Hreflang v sitemapách:
xhtml:linkelementy spojují jazykové alternativy škálovatelněji než v<head>.
Produkty: specifikace a feedy pro tržiště
- Povinná pole:
id,title,description,link,image_link,price,availability,brand,gtin/mpn,condition,google_product_category(nebo ekvivalent); lokální ceny a daně podle země. - Varianty: barva, velikost, materiál; stabilní
item_group_idpro seskupení. - Rychlé aktualizace: doplňkový „inventory update feed“ pro cenu/dostupnost s vysokou frekvencí (minuty).
- Obrázky: vysoké rozlišení, čisté pozadí, bez textových vodoznaků;
additional_image_linkpro více úhlů.
Pracovní nabídky, události, lokální provozy
- JobPosting: přesná lokalita (nebo
telecommute), mzda (baseSalarys měnou), platnost,employmentType, požadavky a proces podání. - Event:
startDate,endDate, místo (Place/VirtualLocation), vstupné (Offer),eventStatus. - LocalBusiness:
address,geo,openingHoursSpecification, telefon s kódem země; konzistence s GBP/FB profily.
Datasety a AI: struktura a přístup
- Dataset:
name,description,creator,license,isAccessibleForFree,distribution(scontentUrl,encodingFormat, velikost). - Formáty pro AI: JSONL (záznam na řádek), CSV/Parquet pro tabulková data; splits (train/val/test) a verzování.
- Etika a licence:
usageInfo/licensena úrovni datasetu i položek; respekt k robots a data licensing signálům.
Identifikátory, kanonika a deduplikace
- Stabilní ID: neměnné, jedinečné, bez významové vazby na URL; měnící se URL ≠ nové ID.
- Kanonická URL: feed musí odkazovat na kanonické landingy; vyhýbejte se UTM a session parametrům.
- Duplicitní záznamy: detekujte přes hash obsahu, kombinace ID+atributů a pomocné klíče (např.
parent_id).
Inkrementální aktualizace, delta a frekvence
- Full vs. delta: denní „full“ pro reindexační jistotu a průběžné „delta“ pro rychlé změny cen, stavů, dostupnosti.
- Watermarking: spravujte last_modified nebo sequence number pro každou entitu; feed obsahuje pouze položky od posledního watermarku.
- Batching a stránkování: konzistentní velikost dávek (např. 10k),
next_page_token, idempotentní zpracování na straně příjemce.
Kvalita dat: povinná, doporučená a odvozená pole
- Povinná: bez nich záznam odmítnou nebo degraduje zobrazení.
- Doporučená: zvyšují kvalitu snippetů (značka, GTIN, rating, přísady, výživové hodnoty, rozměry, záruka… podle domény).
- Odvozená: počítaná pole (např. jednotková cena z balení), která usnadňují filtrování a porovnání.
Internacionalizace ve feedu
- Jazyk a trh:
inLanguage(např.cs-CZ), lokální ceny (EUR/CZK/GBP) a daně; jednotky (metrické vs. imperiální). - Vícejazyčná pole: exportujte samostatné záznamy per locale nebo použijte mapu jazyk→text, avšak příjemce často požaduje per-locale řádek.
- Hreflang: u URL ve feedu udržujte konzistentní mapu alternativ (zejména pokud feed generuje landing pages).
Validace: nástroje, automatizace a pravidla
- Schémová validace: XML podle XSD, JSON podle JSON Schema; průběžně spouštěné v CI/CD.
- Sémantická validace: cross-field rules (pokud
availability=out_of_stock, takinventory=0), rozsahy (cena > 0), formáty (GTIN-8/12/13/14 s kontrolním součtem). - Domain rules: kategorie z povolené taxonomie, názvy bez zakázaných výrazů, bezpečné HTML v popisu (strip nebezpečných tagů).
- Link validace:
link,image_linkvrací 200, správnýContent-Type, žádné blokování vrobots.txt.
Kontrola vůči webu: feed ↔ stránka
- Parita obsahu: porovnávejte titulky, ceny, dostupnosti; feed je pravda pouze pokud odpovídá UI.
- Strukturovaná data:
schema.orgv HTML musí odpovídat feedu (např.Product/Offerhodnoty). - Obrázky: ověřte rozměry a poměr stran podle požadavků cílové platformy (např. minimální hodnoty pro listingy).
Monitoring a diagnostika
- Chybové reporty příjemců: zprávy z katalogů a konzol (odmítnuté záznamy, chybějící pole, zásady).
- Interní metriky: počet položek ve feedu vs. ve zdrojovém systému, podíl validních záznamů, latence generování, velikost dávek.
- Indexační metriky: počet zaindexovaných URL ze sitemap, čas do zaindexování po pingu, CTR bohatých výsledků.
Bezpečnost, soukromí a licencování
- Licence a použití: u datasetů a obrázků uvádějte
license/usageInfo,copyrightNotice,creator; pro UGC udržujte záznamy o souhlase. - DPIA/PII: feedy nesmí obsahovat osobní údaje mimo legitimní účel; pseudonymizujte a minimalizujte pole.
- Rate limiting a tokeny: zabezpečte přístup k privátním feedům (signed URL, OAuth), logujte přístupy.
Výkon a doručování
- Hostování: CDN pro statické feedy (verzionované názvy), GZIP/Brotli, HTTP/2/3; pro velké feedy umožněte
Rangedotazy. - Chunking: rozdělte feedy (např. podle kategorie/abecedy) pro paralelní zpracování a menší chyby.
- Streaming: JSONL/NDJSON pro kontinuální ingest pipeline; okamžitá validace záznam-po-záznamu.
Chybové stavy a zotavení
- Idempotence: opakované zpracování téže dávky nesmí vést k duplikátům nebo nekonzistencím.
- Dead letter queue: problematické záznamy oddělte, logujte důvod a zpřístupněte pro manuální nápravu.
- Rollback a re-publish: archivujte poslední validní verze pro rychlý návrat v případě degradace.
QA checklist pro datové feedy
- Schémová validace (XSD/JSON Schema) proběhla s nulou chyb.
- Sémantická pravidla (ceny, dostupnost, GTIN, měnové kódy ISO) prošla.
- Parita feed ↔ stránka je > 99 % pro klíčová pole.
- Sitemapy jsou rozdělené, mají korektní
lastmoda neobsahují 3xx/4xx/5xx URL. - Delta feed funguje (watermark, idempotentní zpracování, monitoring latence).
- Obrázky a soubory vrací 200 a správný
Content-Type. - Diagnostické reporty příjemců jsou bez kritických odmítnutí.
Verzionování a datová genealogie (data lineage)
- Semver schémata feedu (např.
1.4.0), breaking changes pouze s migračním oknem. - Metadata generování:
generated_at,generator_version,source_system, kontrolní součty. - Provenience: logujte zdrojové tabulky, transformace a validace pro audit.
Příklady polí podle domén (zkrácené vzory)
- Product JSON:
{ "id":"SKU-123", "title":"Model X", "description":"...", "brand":"Acme", "gtin":"8591234567890", "price":"99.90 EUR", "availability":"in_stock", "image_link":"https://.../x.jpg", "link":"https://.../produkt-x" } - JobPosting JSON-LD:
{ "@type":"JobPosting", "title":"Data Analyst", "hiringOrganization":{ "name":"Acme" }, "jobLocationType":"TELECOMMUTE", "baseSalary":{ "value":{ "currency":"EUR", "value":3500 } } } - Dataset JSON-LD:
{ "@type":"Dataset", "name":"Ceny produktů 2025", "license":"https://.../license", "distribution":[ { "contentUrl":"https://.../prices-2025.parquet", "encodingFormat":"application/x-parquet" } ] }
<