Benchmarky a srovnávací tabulky s podrobnou metodikou

Proč jsou benchmarky pro GEO (Generative Engine Optimization) klíčové

GEO – optimalizace pro generativní modely – vyžaduje jiný přístup k měření kvality než klasické SEO. Místo pozic ve výsledcích vyhledávání sledujeme, jak modely konzumují, citují a transformují náš obsah. Dobře navržené benchmarky a porovnávací tabulky s jasnou metodikou jsou proto základem: pomáhají odlišit skutečná zlepšení od šumu, nastavují trvalé srovnávací linie a umožňují transparentně reportovat pokrok týmu i stakeholderům.

Typy benchmarků pro GEO a co měří

  • Přístupnost pro model (Content Accessibility): technické signály jako robots, sitemapy, feedy, datové schema.org prvky, rychlost a stabilita.
  • Konzumace a citování (Consumption & Attribution): zda model čerpá, cituje a odkazuje na zdroj; míra „attributable answers“.
  • Verifikovatelnost (Grounding & Faithfulness): podíl tvrzení, která jsou podložena ve zdrojovém obsahu; míra halucinací.
  • Navigovatelnost (Machine Navigation): schopnost modelu najít správnou sekci, kotvu, graf či tabulku.
  • Aktualita (Freshness Uptake): čas do reflektování změny (changelog, aktualizační bannery) v odpovědích modelu.
  • Extrahovatelnost dat (Data Extractability): úspěšnost při extrakci tabulek, schémat, čísel a jednotek.
  • Interakční ekonomika (Cost/Lag): latence odpovědí modelů na naše dotazy a náklady na evaluaci.

Metodické pilíře: aby byly tabulky porovnatelné

  1. Jasné definice metrik s jednoznačným výpočtem, jednotkami a rozmezím (0–1 nebo 0–100).
  2. Reprezentativní testovací sada pokrývající hlavní use-casy (navigační, faktické, strukturované, multimodální).
  3. Randomizace a zaslepení při manuálním hodnocení (anotátoři nevidí verzi stránky ani experimentální skupinu).
  4. Reliabilita hodnocení: dvojité hodnocení, výpočet shody (např. Krippendorffovo α) a adjudikace sporů.
  5. Statistická významnost: párové testy (Wilcoxon/t-test), intervaly spolehlivosti (bootstrap) a korekce pro vícečetná srovnání.
  6. Reprodukovatelnost: fixní parametry modelů (teplota, seed), verzování datasetů, přesné logování kroků.

Referenční metriky: definice, vzorec, interpretace

Metrika Definice Výpočet Rozsah Interpretace
Attribution Rate Podíl odpovědí, které uvádějí náš zdroj (URL/brand) jako referenci. #odpovědí s atribucí / #relevantních odpovědí 0–1 Vyšší je lepší; cíl ≥ 0,7 pro klíčová témata.
Faithfulness Podíl tvrzení v odpovědi, která jsou doložitelná textem na naší stránce. #podložených tvrzení / #tvrzení 0–1 Citlivé na kvalitu citací a jasnost zdroje.
Freshness Uptake (d) Počet dní od publikování změny po její reflexi v odpovědích modelu. median(čas_reflexe − čas_publikace) ≥0 Nižší je lepší; reportovat medián i IQR.
Table Extractability Úspěšnost extrakce tabulek (hlavičky, jednotky, poznámky). #správně extrahovaných polí / #všech polí 0–1 Kontrolovat i konzistenci jednotek a typů.
Machine Navigation@1 Zda model najde přesnou sekci/anchor na první pokus. #úspěchů@1 / #dotazů 0–1 Sledujte i @K (např. @3) u dlouhých stránek.

Struktura porovnávací tabulky: „metrika × varianta obsahu“

Porovnávací tabulky by měly současně spojovat čísla s kontextem metodiky. Následující šablona je použitelná pro A/B testy (Control vs. Variant) i pro multiarm porovnání.

Varianta Attribution Rate Faithfulness Freshness Uptake (d) Table Extractability Machine Nav@1 n (dotazy) p-hodnota Metodické poznámky
Control 0,52 0,74 9 0,81 0,46 400 Bez JSON-LD; statické tabulky.
Variant 0,69 0,83 4 0,92 0,63 400 < 0,01 Přidán JSON-LD, aria-describedby, kotvy sekcí.

Kompozitní skóre a vážení metrik

Pro rychlou komunikaci výsledků napříč týmy je praktické složit kompozitní skóre. Doporučená praxe:

  • Normalizace: každou metriku transformujte na škálu 0–100 (min–max nebo z-score → percentil).
  • Váhy: určete strategické váhy (např. Attribution 30 %, Faithfulness 30 %, Freshness 20 %, Navigation 10 %, Extractability 10 %).
  • Výpočet: GeoScore = Σ(wi × mi, norm), reportujte i 95 % CI (bootstrap nad dotazy).
Metrika Skóre (0–100) Váha Příspěvek
Attribution 78 0,30 23,4
Faithfulness 85 0,30 25,5
Freshness 66 0,20 13,2
Navigation 59 0,10 5,9
Extractability 88 0,10 8,8
GeoScore 1,00 76,8

Konstrukce testovací sady: mix dotazů a scénářů

  • Navigační dotazy: „Kde je metodika na stránce?“, „Zobrazit tabulku s porovnáními“.
  • Faktické dotazy: „Jaký je medián Freshness Uptake?“, „Které verze mění Attribution Rate?“
  • Extrakční dotazy: „Vytahej sloupce z tabulky Benchmark Overview“.
  • Multimodální dotazy: „Jak interpretovat graf s intervaly spolehlivosti?“
  • Negativní kontroly: dotazy mimo pokrytí, aby se odlišilo správné od „vymyšleného“.

Protokol manuálního hodnocení (pokud jsou součástí metriky lidé)

  1. Rubrika s kritérii (fakticita, úplnost, citování zdrojů, konzistentní terminologie).
  2. Kalibrace anotátorů na malé zlaté standardní sadě; rekalibrace při poklesu shody.
  3. Shoda hodnotitelů: reportujte Krippendorffovo α nebo Cohenovo κ; cíl ≥ 0,67 pro výzkumné účely.
  4. Adjudikace: třetí hodnotitel pro řešení sporů a tvorbu „gold“ referencí.

Statistické testování a intervaly

  • Volba testu: u párových metrik s ne-normálním rozdělením preferujte Wilcoxon; u binárních úspěchů McNemarův test.
  • CI: bootstrap nad dotazy (≥ 1000 replikací) pro robustní 95% intervaly.
  • Vícenásobná porovnání: kontrola FDR (Benjamini–Hochberg) při > 2 variantách.
  • Velikost efektu: kromě p-hodnot reportujte i procentuální rozdíl a Cliff’s delta.

Dokumentace metodiky přímo v tabulce

Každá porovnávací tabulka by měla mít metodickou stopu: kdo, kdy, na čem a s jakými parametry měřil. Ulehčíte tím audit i opakování testu.

Položka Popis
Dataset v. geo-bench-v3 (n=800 dotazů; domény: produkt, dokumentace, blog).
Modely Model-A (T=0,2), Model-B (T=0,0); jednotné max_tokens, jednotné nástroje.
Parametry Seed=2025; retries=1; stop sekvence jednotné; časové okno bez změn webu.
Hodnocení Blind dvojité; α=0,71; adjudikace 12 % případů.
Statistika Bootstrap 2000; Wilcoxon párový; BH FDR=5 %.

Publikování výsledků: čitelné pro lidi, strojově vydolovatelné

  • Tabulky s hlavičkami a vysvětlivkami (poznámky pod čarou, jednotky, odkazy na metodiku).
  • Identifikovatelné kotvy (id u sekcí, <caption> pro tabulky) kvůli hlubokým odkazům.
  • ARIA a struktura: aria-describedby odkazující z tabulek na text metodiky, scope="col" v hlavičkách.
  • Datové atributy: minimálně data-metric, data-variant, data-source na každém buněčném prvku pro jednoduchou extrakci.

Běžné chyby a jak se jim vyhnout

  • Porovnávání neporovnatelného: změněné parametry modelu nebo rozdílný čas měření.
  • Metodika mimo tělo výsledků: tabulky bez jasné „stopy“ jsou těžko auditovatelné.
  • P-hacking: selektivní reportování metrik; používejte předregistrované plány měření.
  • Nedostatečné n: malý vzorek nafukuje CI a činí závěry křehkými.

Benchmark karta (šablona na stránce)

Rubrika Obsah (vyplnit)
Název benchmarku GEO Benchmark – Citování a extrakce tabulek
Verze & datum v3 • 2025-10-22
Dataset 800 dotazů; 4 domény; poměr navigační/faktické/extrakční 30/40/30
Metriky Attribution, Faithfulness, Freshness, Nav@1, Extractability
Model/Parametry Model-A (T=0,2); seed 2025; max_tokens=1024
Metodika Blind dvojité hodnocení; α=0,71; Wilcoxon; BH 5 %
Hlavní výsledek Varianta > Control v Attribution (+17 bps) a Extractability (+11 bps)
Omezení Bez multimodálních schémat pro grafy v této verzi

Roadmapa zlepšení tabulek a metodiky

  • Verzionování tabulek: „v1, v2…“ přímo v <caption> s odkazem na changelog.
  • Intervaly spolehlivosti v tabulce: zobrazovat ± CI u každé metriky (nejen u kompozitu).
  • Standardizované poznámky: vzorové fráze pro změněné parametry nebo omezení.
  • Strojové tagování: data-ci-low, data-ci-high, data-n v buňkách pro snadnou extrakci.

Mini-checklist před publikací benchmarku

  • Metriky mají jasnou definici a rozsah (0–1 nebo 0–100)?
  • Je zveřejněný dataset a jeho verze?
  • Jsou parametry modelů a hodnocení reprodukovatelné?
  • Je uvedená statistická metodika (testy, CI, korekce)?
  • Obsahují tabulky kotvy, popisy a poznámky?