Datové feedy pro umělou inteligenci a vyhledávače

Proč jsou datové feedy jádrem viditelnosti a konzistence

Datové feedy jsou strojově čitelné exporty, které napájí vyhledávače, agregátory, katalogy, trhy a stále častěji i modely umělé inteligence. Jejich kvalita přímo ovlivňuje indexaci, bohaté výsledky (rich results), přesnost odpovědí LLM a konverze. Klíčem je správný formát, stabilní identifikátory, aktuálnost, validace a sledování chyb v kontinuálním cyklu.

Typy datových feedů podle použití

  • Horizontální feedy pro indexaci: XML sitemapy (web, obrázky, video, zprávy), RSS/Atom pro publikace, Indexing pingy (např. IndexNow) pro rychlou signalizaci změn.
  • Doménově specifické feedy: produkty (Merchant Center), hotely, lety, nabídky práce, události, lokální provozovny, recepty, recenze – obvykle JSON/CSV/XML dle specifikace cílové platformy.
  • Datasetové a AI feedy: schema.org/Dataset s distribucemi, data catalogs (DCAT), výstupy v Parquet/CSV/JSONL pro trénink/analyzu a feature store exporty pro interní AI systémy.

Formáty: XML, JSON, CSV a JSON-LD

  • XML: robustní pro velké feedy, validovatelný přes XSD; vhodný pro sitemapy a e-commerce katalogy. Nevýhodou je verbóznost a vyšší náklady na parsování.
  • JSON/JSONL: přirozený pro webová API a AI pipelines; JSONL se hodí pro streamování řádků a inkrementální zpracování.
  • CSV/TSV: jednoduché na generování a audit v BI nástrojích; vhodné pro tabulkové entity (produkty, ceny), ale postrádá schéma a typování.
  • JSON-LD (v stránkách): není feed sám o sobě, ale klíčový nosič schema.org pro vyhledávače a AI. Export JSON-LD do samostatného bulk feedu urychluje kontroly konzistence.

Standardní schémata a ontologie

  • schema.org: univerzální typy (Product, Offer, Review, Event, JobPosting, LocalBusiness, Article, Dataset).
  • GoodRelations (integrované v schema.org): obchodní entity, ceny, dostupnost, dodání a daně.
  • DCAT a Dublin Core: datové katalogy, popis datasetů a distribucí.
  • RDF/JSON-LD: pro propojená data (linked data) a přehledné @id identifikátory.

Sitemapy: základní signál pro vyhledávače

  • Web sitemap: seznam kanonických URL s lastmod; dělení podle typů obsahu a velikosti (max. 50 000 URL / 50 MB komprimované).
  • Image/Video sitemapy: přidávají strukturované informace o médiích (titulek, popis, licence, miniatura, délka trvání).
  • News sitemap: pro zpravodajské weby s časovým oknem; citlivé na přesnost publikačního času.
  • Hreflang v sitemapách: xhtml:link elementy spojují jazykové alternativy škálovatelněji než v <head>.

Produkty: specifikace a feedy pro tržiště

  • Povinná pole: id, title, description, link, image_link, price, availability, brand, gtin/mpn, condition, google_product_category (nebo ekvivalent); lokální ceny a daně dle země.
  • Varianty: barva, velikost, materiál; stabilní item_group_id pro seskupení.
  • Rychlé aktualizace: doplňkový „inventory update feed“ pro cenu/dostupnost s vysokou frekvencí (minuty).
  • Obrázky: vysoké rozlišení, čisté pozadí, bez textových vodoznaků; additional_image_link pro více úhlů.

Nabídky práce, události, lokální provozovny

  • JobPosting: přesná lokalita (nebo telecommute), mzda (baseSalary s měnou), platnost, employmentType, požadavky a proces podání.
  • Event: startDate, endDate, místo (Place/VirtualLocation), vstupné (Offer), eventStatus.
  • LocalBusiness: address, geo, openingHoursSpecification, telefon s kódem země; konzistence s GBP/FB profily.

Datasety a AI: struktura a přístup

  • Dataset: name, description, creator, license, isAccessibleForFree, distribution (s contentUrl, encodingFormat, velikost).
  • Formáty pro AI: JSONL (záznam na řádek), CSV/Parquet pro tabulková data; splity (train/val/test) a verzování.
  • Etika a licence: usageInfo/license na úrovni datasetu i položek; respekt k robots a data licensing signálům.

Identifikátory, kanonika a deduplikace

  • Stabilní ID: neměnné, jedinečné, bez významové vazby na URL; měnící se URL ≠ nové ID.
  • Kanonická URL: feed musí odkazovat na kanonické landingy; vyhněte se UTM a session parametrům.
  • Duplicitní záznamy: detekujte pomocí hashe obsahu, kombinace ID+atributů a pomocných klíčů (např. parent_id).

Inkrementální aktualizace, delta a frekvence

  • Full vs. delta: denní „full“ pro reindexační jistotu a průběžné „delta“ pro rychlé změny cen, stavů, dostupnosti.
  • Watermarking: spravujte last_modified nebo sequence number pro každou entitu; feed obsahuje pouze položky od posledního watermarku.
  • Batching a stránkování: konzistentní velikost dávek (např. 10k), next_page_token, idempotentní zpracování na straně příjemce.

Kvalita dat: povinná, doporučená a odvozená pole

  • Povinná: bez nich záznam zamítnou nebo degraduje zobrazení.
  • Doporučená: zvyšují kvalitu snippetů (značka, GTIN, rating, přísady, nutriční hodnoty, rozměry, záruka… podle domény).
  • Odvozená: počítaná pole (např. jednotková cena z balení), která usnadňují filtrování a porovnání.

Internacionalizace ve feedu

  • Jazyk a trh: inLanguage (např. cs-CZ), lokální ceny (EUR/CZK/GBP) a daně; jednotky (metrické vs. imperiální).
  • Vícejazyčná pole: exportujte samostatné záznamy per locale nebo použijte mapu jazyk→text, ale příjemce často požaduje per-locale řádek.
  • Hreflang: u URL ve feedu udržujte konzistentní mapu alternativ (zejména pokud feed generuje landing pages).

Validace: nástroje, automatizace a pravidla

  • Schémová validace: XML podle XSD, JSON podle JSON Schema; průběžně spouštěné v CI/CD.
  • Sémantická validace: cross-field rules (např. když availability=out_of_stock, pak inventory=0), rozsahy (cena > 0), formáty (GTIN-8/12/13/14 s kontrolním součtem).
  • Domain rules: kategorie z povolené taxonomie, názvy bez zakázaných výrazů, bezpečné HTML v popisu (odstranění nebezpečných tagů).
  • Link validace: link, image_link vrací 200, správný Content-Type, žádné blokování v robots.txt.

Kontrola vůči webu: feed ↔ stránka

  • Parita obsahu: porovnávejte titulky, ceny, dostupnosti; feed je pravda pouze pokud odpovídá UI.
  • Strukturovaná data: schema.org v HTML musí odpovídat feedu (např. Product/Offer hodnoty).
  • Obrázky: ověřte rozměry a poměr stran podle požadavků cílové platformy (např. minimální velikosti pro listingy).

Monitoring a diagnostika

  • Chybové reporty příjemců: zprávy z katalogů a konzol (zamítnuté záznamy, chybějící pole, zásady).
  • Interní metriky: počet položek ve feedu vs. v zdrojovém systému, podíl validních záznamů, latence generování, velikost dávek.
  • Indexační metriky: počet zaindexovaných URL ze sitemap, doba do indexace po pingu, CTR bohatých výsledků.

Bezpečnost, soukromí a licencování

  • Licence a použití: u datasetů a obrázků uvádějte license/usageInfo, copyrightNotice, creator; pro UGC evidujte souhlasy.
  • DPIA/PII: feedy nesmí obsahovat osobní údaje mimo legitimní účel; pseudonymizujte a minimalizujte pole.
  • Rate limiting a tokeny: zabezpečte přístup k privátním feedům (signed URL, OAuth), logujte přístupy.

Výkon a doručování

  • Hosting: CDN pro statické feedy (verzované názvy), GZIP/Brotli, HTTP/2/3; u rozsáhlých feedů povolte Range dotazy.
  • Chunking: rozdělte feedy (např. podle kategorie/abecedy) pro paralelní zpracování a menší chyby.
  • Streaming: JSONL/NDJSON pro kontinuální ingest pipeline; okamžitá validace záznam-po-záznamu.

Chybové stavy a zotavení

  • Idempotence: opakované zpracování stejné dávky nesmí vést k duplikátům nebo nekonzistenci.
  • Dead letter queue: problematické záznamy oddělte, logujte důvod a zpřístupněte pro manuální opravu.
  • Rollback a re-publish: archivujte poslední validní verze pro rychlý návrat v případě degradace.

QA checklist pro datové feedy

  • Schémová validace (XSD/JSON Schema) proběhla bez chyb.
  • Sémantická pravidla (ceny, dostupnost, GTIN, měnové kódy ISO) prošla.
  • Parita feed ↔ stránka je > 99 % pro klíčová pole.
  • Sitemapy jsou správně rozdělené, mají korektní lastmod a neobsahují 3xx/4xx/5xx URL.
  • Delta feed funguje (watermark, idempotentní zpracování, monitoring latence).
  • Obrázky a soubory vrací 200 a správný Content-Type.
  • Diagnostické reporty příjemců jsou bez kritických odmítnutí.

Verzování a datová rodokmen (data lineage)

  • Semver schémata feedu (např. 1.4.0), breaking changes pouze s migračním oknem.
  • Metadata generování: generated_at, generator_version, source_system, kontrolní součty.
  • Provenience: logujte zdrojové tabulky, transformace a validace pro audit.

Příklady polí podle domén (zkrácené vzory)

  • Product JSON: { "id":"SKU-123", "title":"Model X", "description":"...", "brand":"Acme", "gtin":"8591234567890", "price":"99.90 EUR", "availability":"in_stock", "image_link":"https://.../x.jpg", "link":"https://.../produkt-x" }
  • JobPosting JSON-LD: { "@type":"JobPosting", "title":"Data Analyst", "hiringOrganization":{ "name":"Acme" }, "jobLocationType":"TELECOMMUTE", "baseSalary":{ "value":{ "currency":"EUR", "value":3500 } } }
  • Dataset JSON-LD: { "@type":"Dataset", "name":"Ceny produktů 2025", "license":"https://.../license", "distribution":[ { "contentUrl":"https://.../prices-2025.parquet", "encodingFormat":"application/x-parquet" } ] }