Benchmarky s metodikou pro generativní optimalizaci obsahu

Proč jsou benchmarky pro GEO (Generative Engine Optimization) klíčové

GEO – optimalizace pro generativní modely – vyžaduje odlišný přístup k měření kvality než klasické SEO. Místo pozic ve výsledcích vyhledávání sledujeme, jak modely konzumují, citují a transformují náš obsah. Dobře navržené benchmarky a komparativní tabulky s jasnou metodikou jsou proto základem: pomáhají odlišit skutečná zlepšení od šumu, nastavují trvalé srovnávací linie a umožňují transparentně reportovat pokrok týmu i stakeholderům.

Typy benchmarků pro GEO a co měří

  • Adresovatelnost pro model (Content Accessibility): technické signály jako robots, sitemap, feedy, datové prvky schema.org, rychlost a stabilita.
  • Konzumace a citování (Consumption & Attribution): zda model čerpá, cituje a odkazuje na zdroj; míra „attributable answers“.
  • Verifikovatelnost (Grounding & Faithfulness): podíl tvrzení, která jsou podložena v zdrojovém obsahu; míra halucinací.
  • Navigovatelnost (Machine Navigation): schopnost modelu najít správnou sekci, kotvu, graf či tabulku.
  • Aktualita (Freshness Uptake): čas do zohlednění změny (changelog, aktualizační bannery) v odpovědích modelu.
  • Extrahovatelnost dat (Data Extractability): úspěšnost při extrakci tabulek, schémat, čísel a jednotek.
  • Interakční ekonomika (Cost/Lag): latence odpovědí modelů na naše dotazy a náklady na evaluaci.

Metodické pilíře: aby byly tabulky porovnatelné

  1. Jasné definice metrik s jednoznačným výpočtem, jednotkami a rozsahy (0–1 nebo 0–100).
  2. Reprezentativní testovací sada pokrývající hlavní use-casy (navigační, faktické, strukturované, multimodální).
  3. Randomizace a zablindování při manuálním hodnocení (anotátoři nevidí verzi stránky ani experimentální skupinu).
  4. Reliabilita hodnocení: dvojité hodnocení, výpočet shody (např. Krippendorffovo α) a adjudikace sporů.
  5. Statistická významnost: párové testy (Wilcoxon/t-test), intervaly spolehlivosti (bootstrap) a korekce na vícenásobná porovnání.
  6. Reprodukovatelnost: fixní parametry modelů (teplota, seed), verzionování datasetů, přesné logování kroků.

Referenční metriky: definice, vzorec, interpretace

Metrika Definice Výpočet Rozsah Interpretace
Attribution Rate Podíl odpovědí, které uvádějí náš zdroj (URL/brand) jako referenci. #odpovědí s atribucí / #relevantních odpovědí 0–1 Vyšší je lepší; cíl ≥ 0,7 pro klíčová témata.
Faithfulness Podíl tvrzení v odpovědi, která jsou podložitelná textem na naší stránce. #podložených tvrzení / #tvrzení 0–1 Citlivé na kvalitu citací a jasnost zdroje.
Freshness Uptake (d) Dny od publikování změny po zohlednění v odpovědích modelu. median(čas_reflexe − čas_publikace) ≥0 Nižší je lepší; reportujte medián i IQR.
Table Extractability Úspěšnost extrakce tabulek (hlavičky, jednotky, poznámky). #správně extrahovaných polí / #všech polí 0–1 Kontrolujte i konzistenci jednotek a typů.
Machine Navigation@1 Zda model najde přesnou sekci/kotvu na první pokus. #úspěchů@1 / #dotazů 0–1 Sledujte i @K (např. @3) u dlouhých stránek.

Struktura komparační tabulky: „metrika × varianta obsahu“

Porovnávací tabulky by měly současně spojovat čísla s kontextem metodiky. Následující šablona je použitelná pro A/B testy (Control vs. Variant) i pro multiarm porovnání.

Varianta Attribution Rate Faithfulness Freshness Uptake (d) Table Extractability Machine Nav@1 n (dotazy) p-hodnota Metodické poznámky
Control 0,52 0,74 9 0,81 0,46 400 Bez JSON-LD; statické tabulky.
Variant 0,69 0,83 4 0,92 0,63 400 < 0,01 Přidán JSON-LD, aria-describedby, kotvy sekcí.

Kompozitní skóre a vážení metrik

Pro rychlou komunikaci výsledků napříč týmy je praktické složit kompozitní skóre. Doporučená praxe:

  • Normalizace: každou metriku transformujte na 0–100 (min–max nebo z-score → percentil).
  • Váhy: určete strategické váhy (např. Attribution 30 %, Faithfulness 30 %, Freshness 20 %, Navigation 10 %, Extractability 10 %).
  • Výpočet: GeoScore = Σ(wi × mi, norm), reportujte i 95 % CI (bootstrap nad dotazy).
Metrika Skóre (0–100) Váha Příspěvek
Attribution 78 0,30 23,4
Faithfulness 85 0,30 25,5
Freshness 66 0,20 13,2
Navigation 59 0,10 5,9
Extractability 88 0,10 8,8
GeoScore 1,00 76,8

Konstruování testovací sady: mix dotazů a scénářů

  • Navigační dotazy: „Kde je metodika na stránce?“, „Zobraz tabulku s porovnáními“.
  • Faktické dotazy: „Jaký je medián Freshness Uptake?“, „Které verze mění Attribution Rate?“
  • Extrakční dotazy: „Vytáhni sloupce z tabulky Benchmark Overview“.
  • Multimodální dotazy: „Jak interpretovat graf s intervaly spolehlivosti?“
  • Negativní kontroly: dotazy mimo pokrytí, aby bylo možné odlišit správné odpovědi od „vymyšlených“.

Protokol manuálního hodnocení (pokud jsou metriky lidské)

  1. Rubrika s kritérii (faktualita, úplnost, citování zdrojů, konzistentní terminologie).
  2. Kalibrace anotátorů na malém zlatém standardu; rekalkibrace při poklesu shody.
  3. Shoda hodnotitelů: reportujte Krippendorffovo α nebo Cohenovo κ; cíl ≥ 0,67 pro výzkumná použití.
  4. Adjudikace: třetí hodnotitel k řešení sporů a tvorbě „gold“ referencí.

Statistické testování a intervaly

  • Volba testu: pro párové metriky s nenormálním rozdělením preferujte Wilcoxon; pro binární úspěchy McNemar.
  • CI: bootstrap nad dotazy (≥ 1000 replikací) pro robustní 95 % intervaly.
  • Vícenásobná porovnání: kontrola FDR (Benjamini–Hochberg) při > 2 variantách.
  • Efektová velikost: kromě p-hodnot reportujte i rozdíl v procentech a Cliff’s delta.

Dokumentace metodiky přímo v tabulce

Každá komparativní tabulka by měla mít metodickou stopu: kdo, kdy, na čem a s jakými parametry měřil. Usnadníte tím audit i opakování testu.

Položka Popis
Dataset v. geo-bench-v3 (n=800 dotazů; domény: produkt, dokumentace, blog).
Modely Model-A (T=0,2), Model-B (T=0,0); jednotné max_tokens, jednotné nástroje.
Parametry Seed=2025; retries=1; stop sekvence jednotné; časové okno bez změn webu.
Hodnocení Blind dvojité; α=0,71; adjudikace 12 % případů.
Statistika Bootstrap 2000; Wilcoxon párový; BH FDR=5 %.

Publikování výsledků: čitelné pro lidi, strojově extrahovatelné

  • Tabulky s hlavičkami a vysvětlivkami (poznámky pod čarou, jednotky, odkazy na metodiku).
  • Identifikovatelné kotvy (id u sekcí, <caption> pro tabulky) kvůli hlubokým odkazům.
  • ARIA a struktura: aria-describedby z tabulek na text metodiky, scope="col" v hlavičkách.
  • Datové atributy: minimálně data-metric, data-variant, data-source na každém buněčném prvku pro jednoduchou extrakci.

Běžné chyby a jak se jim vyhnout

  • Porovnávání neporovnatelného: změněné parametry modelu nebo rozdílný čas měření.
  • Metodika mimo tělo výsledků: tabulky bez jasné „stopy“ jsou obtížně auditovatelné.
  • P-hacking: selektivní reportování metrik; používejte předregistrované plány měření.
  • Nedostatečný počet: malý sample size nafukuje CI a činí závěry křehkými.

Benchmark karta (šablona na stránce)

Rubrika Obsah (vyplnit)
Název benchmarku GEO Benchmark – Citování a extrakce tabulek
Verze & datum v3 • 2025-10-22
Dataset 800 dotazů; 4 domény; poměr navigační/faktické/extrakční 30/40/30
Metriky Attribution, Faithfulness, Freshness, Nav@1, Extractability
Model/Parametry Model-A (T=0,2); seed 2025; max_tokens=1024
Metodika Blind dvojité hodnocení; α=0,71; Wilcoxon; BH 5 %
Hlavní výsledek Varianta > Control v Attribution (+17 bps) a Extractability (+11 bps)
Omezení Bez multimodálních schémat pro grafy v této verzi

Roadmapa zlepšení tabulek a metodiky

  • Verzionování tabulek: „v1, v2…“ přímo v <caption> s odkazem na changelog.
  • Intervaly spolehlivosti v tabulce: zobrazovat ± CI u každé metriky (nikoli pouze u kompozitu).
  • Standardizované poznámky: vzorové fráze pro změněné parametry nebo omezení.
  • Strojové tagování: data-ci-low, data-ci-high, data-n v buňkách pro snadnou extrakci.

Mini-checklist před publikováním benchmarku

  • Mají metriky jasnou definici a rozsah (0–1 nebo 0–100)?
  • Je zveřejněn dataset a jeho verze?
  • Jsou parametry modelů a hodnocení reprodukovatelné?
  • Je uvedena statistická metodika (testy, CI, korekce)?
  • Obsahují tabulky kotvy, popisy a poznámky?