Sitemap: seznam URL pro indexaci

Sitemap: co to je a proč ji potřebujete

Sitemap (mapa stránek) je strukturovaný soubor – nejčastěji ve formátu XML – který poskytuje vyhledávačům a moderním AI/AEO systémům kanonický seznam URL včetně metadat o jejich stavu a aktualizaci. Je klíčovou pomůckou pro efektivní indexaci, optimalizaci crawl budgetu a pro srozumitelné dodávání obsahu do odpovědních enginů a LLM modelů.

Výhody pro SEO, AIO a AEO

  • Rychlejší objevení obsahu: nové a aktualizované URL jsou explicitně deklarovány.
  • Kontrola nad indexací: můžete preferenčně publikovat pouze kanonické, indexovatelné stránky.
  • Zlepšení kvality dat pro AI: metadata (lastmod, propojení xhtml:link na hreflang varianty, bohaté typy) pomáhají systémům pochopit kontext.
  • Měřitelnost a audit: sitemapy lze verzovat, validovat a monitorovat přes logy a nástroje.

Formáty a typy sitemap

  • XML Sitemap: standard s prvky <urlset>, <url>, <loc>, <lastmod>, <changefreq>, <priority>.
  • Sitemap Index: nadřazený soubor (<sitemapindex>) odkazující na více dílčích sitemap.
  • News/Image/Video: rozšíření pro zpravodajské, obrázkové a video URL s dodatečnými metadaty.
  • Alternativní formy: v specifických případech TXT/Atom/RSS – doporučovaný je však XML.

Specifikace a limity

  • Maximálně 50 000 URL na jednu sitemapu (nebo velikost do ~50 MB nekomprimovaně). Větší weby musí používat více souborů + index.
  • Kompresce: podporované .gz (šetření přenosu; indexace zůstává vázaná na obsah).
  • Absolutní URL: <loc> musí obsahovat kompletní adresu včetně protokolu.
  • Kódování: UTF-8; vyhněte se neplatným znakům a nezapomeňte escapovat speciální znaky.

Doporučená struktura XML

Minimalistický příklad (XML escapovaný pro HTML):

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://www.priklad.cz/</loc> <lastmod>2025-10-22</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url> </urlset>

Sitemap Index pro velké weby

Rozdělte URL do tematických nebo typových sitemap (např. články, produkty, kategorie) a spravujte je přes index:

<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>https://www.priklad.cz/sitemaps/sitemap-articles.xml</loc> <lastmod>2025-10-22</lastmod> </sitemap> <sitemap> <loc>https://www.priklad.cz/sitemaps/sitemap-products.xml</loc> <lastmod>2025-10-22</lastmod> </sitemap> </sitemapindex>

Propojení s hreflang přes sitemap

Hreflang anotace můžete dodat přímo v sitemapách přes xhtml:link. Je to škálovatelnější než v HTML <link rel="alternate">.

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xhtml="http://www.w3.org/1999/xhtml"> <url> <loc>https://www.priklad.cz/produkt-x</loc> <xhtml:link rel="alternate" hreflang="sk" href="https://www.priklad.sk/produkt-x"/> <xhtml:link rel="alternate" hreflang="cs" href="https://www.priklad.cz/produkt-x"/> <xhtml:link rel="alternate" hreflang="x-default" href="https://www.example.com/product-x"/> <lastmod>2025-10-22</lastmod> </url> </urlset>

News Sitemap pro zpravodajství

Pro články publikované v posledních ~48 hodinách použijte rozšíření News (pro rychlejší zachycení novinek a Top Stories). Důležité jsou přesné názvy a data.

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:news="http://www.google.com/schemas/sitemap-news/0.9"> <url> <loc>https://www.priklad.cz/clanek/novinka</loc> <news:news> <news:publication> <news:name>Denník Příklad</news:name> <news:language>sk</news:language> </news:publication> <news:publication_date>2025-10-22T07:35:00+02:00</news:publication_date> <news:title>Klíčová novinka dne</news:title> </news:news> </url> </urlset>

Image a Video Sitemap

Obohacujte seznam URL o vizuální a multimediální metadata. Zvyšuje to šance na obrazové/video bohaté výsledky.

Image (více obrázků na URL):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1"> <url> <loc>https://www.priklad.cz/produkt/primo-14</loc> <image:image><image:loc>https://www.priklad.cz/img/primo-14-1.jpg</image:loc></image:image> <image:image><image:loc>https://www.priklad.cz/img/primo-14-2.jpg</image:loc></image:image> </url> </urlset>

Video (klíčové je thumbnail_loc, název a popis):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:video="http://www.google.com/schemas/sitemap-video/1.1"> <url> <loc>https://www.priklad.cz/navod/video-xyz</loc> <video:video> <video:thumbnail_loc>https://www.priklad.cz/thumbs/video-xyz.jpg</video:thumbnail_loc> <video:title>Jak nastavit Primo 14</video:title> <video:description>Rychlý návod krok za krokem.</video:description> <video:content_loc>https://cdn.priklad.cz/video/video-xyz.mp4</video:content_loc> </video:video> </url> </urlset>

Výběr URL: kvalita před kvantitou

  • Zahrňte pouze kanonické, indexovatelné URL (200 OK, nikoliv 3xx/4xx/5xx, bez noindex).
  • Vynechejte stránky s nízkou hodnotou (filtrační kombinace bez unikátního obsahu, duplicitní listy).
  • Stabilizujte parametry a konsolidujte varianty přes kanonizaci.

Metadata: lastmod, changefreq, priority

  • lastmod: uvádějte vždy, v ISO 8601 (ideálně s časem a časovou zónou). Nepodvádějte – ať odráží skutečnou změnu obsahu.
  • changefreq: orientační nápověda (nikoli příkaz). Používejte konzistentně pro typy stránek.
  • priority: relativní v rámci vašeho webu; nepoužívejte pouze 1.0.

Generování: CMS, API a CI/CD

  1. Zdrojem pravdy: generujte sitemapy ze systémů (CMS, PIM, databáze), nikoli z ad-hoc crawlerů.
  2. Inkrementální buildy: u velkých webů generujte pouze změněné části; používejte lastmod a dělte podle typu/časových oken (např. měsíční segmenty).
  3. Automatizace: začleňte validaci do CI; pokud validace selže, sitemapu nenasazujte.
  4. CDN a cache: sitemapy publikujte přes rychlou CDN; nastavte přiměřené TTL a automatický purge po aktualizaci.

Publikování a objevování

  • Robots.txt: uveďte cestu k sitemapě, např.: Sitemap: https://www.priklad.cz/sitemap.xml
  • Konzistentní URL: držte stabilní adresu bez zbytečných přesměrování.
  • Pingování: některé vyhledávače akceptují „ping“ s URL sitemapy; důležitější je ale spolehlivé objevení přes robots.txt a interní propojení.

Monitorování a diagnostika

  1. Porovnání počtů: sledujte rozdíl mezi počtem URL v sitemapě, logy serveru a počtem zaindexovaných stránek.
  2. Chybové kódy: pravidelně kontrolujte HTTP stavy odkazovaných URL (200 vs. 3xx/4xx/5xx) i samotné sitemapy.
  3. Aktualizační kadence: analyzujte, zda lastmod koreluje s reálnými úpravami; eliminujte umělé „doteky“.
  4. Hreflang konzistence: validujte zrcadlové vazby mezi jazykovými verzemi.

Nejčastější chyby a anti-patterny

  • Zahrnutí noindex/redirect/404 URL: zneužívá crawl budget a mate systémy.
  • Neshoda kanonické URL: sitemap musí obsahovat kanonické adresy shodné s <link rel="canonical">.
  • Masivní jednorázové sitemap: dělení podle sekcí/časových oken je efektivnější a přehlednější.
  • Falešné lastmod: snižuje důvěru v signály a může vést k ignorování metadat.
  • Chybné kódování/escaping: způsobuje validační chyby a zablokování zpracování.

Struktura pro e-commerce a katalogy

  • Rozdělení podle typu: produkty, kategorie, články (poradenství), landingy.
  • Produkty: zahrňte pouze dostupné/prodejní nebo kanonizované produktové stránky; u nedostupných zvolte politiku (dočasné ponechání vs. vyřazení).
  • Variace: mají-li unikátní hodnotu (obsah/URL), zahrňte; jinak konsolidujte přes kanonické odkazy.

Propojení se strukturovanými daty a LLM

Sitemap není náhradou za Schema.org, ale silným doplňkem. Kombinace kanonických URL v sitemapách a bohatých strukturovaných dat na těchto URL maximalizuje srozumitelnost pro konverzační a odpovědní systémy a usnadňuje jim verifikaci faktů (AIO/AEO).

Bezpečnost a dostupnost

  • HTTPS: sitemap i všechny URL musí být dostupné přes HTTPS.
  • Stabilní dostupnost: monitorujte SLA; 5xx chyby mohou vést k odkladu zpracování.
  • Rate limiting: sitemapy by měly být rychle doručitelné; použijte CDN, je-li to potřeba.

Praktické „naming“ a verzování

  • /sitemaps/sitemap-articles-2025-10.xml.gz – časové segmenty usnadní inkrementální procházení.
  • /sitemaps/sitemap-products-a.xml.gz, -b.xml.gz – strukturované dělení podle abecedy nebo ID intervalů.
  • Atomické publikování: generujte do dočasné cesty a přesuňte (rename) po validaci, abyste předešli nekonzistentním verzím.

Checklist implementace

  1. Vytvořte XML sitemapy pouze s kanonickými a indexovatelnými URL.
  2. Dodržte limity (50 000 URL/50 MB) a použijte sitemap index pro škálování.
  3. Přidejte lastmod s reálným datem/časem změny.
  4. Zapište cestu v robots.txt a publikujte přes stabilní HTTPS URL (ideálně za CDN).
  5. Validujte strukturu a monitorujte HTTP stavy všech odkazovaných URL.
  6. Pro jazykové verze používejte hreflang přes xhtml:link v sitemapách.
  7. Pro zprávy/obrázky/videa zaveďte News/Image/Video sitemapy.
  8. Zaveďte automatizované buildy a inkrementální aktualizace.

Shrnutí

Sitemap je strategický kanál pro signalizaci struktury a čerstvosti vašeho webu vyhledávačům a moderním AI ekosystémům. Správný výběr URL, věrná metadata, škálovatelná architektura (index + segmenty) a disciplinované monitorování z ní dělají spolehlivý základ pro SEO i AIO/AEO. Budujte ji na principech kvality, konzistence a automatizace – a stane se „mapou“, podle které bude váš obsah nalezen rychleji a přesněji.