Proč jsou benchmarky pro GEO (Generative Engine Optimization) klíčové
GEO – optimalizace pro generativní modely – vyžaduje odlišný přístup k měření kvality než klasické SEO. Místo pozic ve výsledcích vyhledávání sledujeme, jak modely konzumují, citují a transformují náš obsah. Dobře navržené benchmarky a komparativní tabulky s jasnou metodikou jsou proto základem: pomáhají odlišit skutečná zlepšení od šumu, nastavují trvalé srovnávací linie a umožňují transparentně reportovat pokrok týmu i stakeholderům.
Typy benchmarků pro GEO a co měří
- Adresovatelnost pro model (Content Accessibility): technické signály jako
robots, sitemap, feedy, datové prvkyschema.org, rychlost a stabilita. - Konzumace a citování (Consumption & Attribution): zda model čerpá, cituje a odkazuje na zdroj; míra „attributable answers“.
- Verifikovatelnost (Grounding & Faithfulness): podíl tvrzení, která jsou podložena v zdrojovém obsahu; míra halucinací.
- Navigovatelnost (Machine Navigation): schopnost modelu najít správnou sekci, kotvu, graf či tabulku.
- Aktualita (Freshness Uptake): čas do zohlednění změny (changelog, aktualizační bannery) v odpovědích modelu.
- Extrahovatelnost dat (Data Extractability): úspěšnost při extrakci tabulek, schémat, čísel a jednotek.
- Interakční ekonomika (Cost/Lag): latence odpovědí modelů na naše dotazy a náklady na evaluaci.
Metodické pilíře: aby byly tabulky porovnatelné
- Jasné definice metrik s jednoznačným výpočtem, jednotkami a rozsahy (0–1 nebo 0–100).
- Reprezentativní testovací sada pokrývající hlavní use-casy (navigační, faktické, strukturované, multimodální).
- Randomizace a zablindování při manuálním hodnocení (anotátoři nevidí verzi stránky ani experimentální skupinu).
- Reliabilita hodnocení: dvojité hodnocení, výpočet shody (např. Krippendorffovo α) a adjudikace sporů.
- Statistická významnost: párové testy (Wilcoxon/t-test), intervaly spolehlivosti (bootstrap) a korekce na vícenásobná porovnání.
- Reprodukovatelnost: fixní parametry modelů (teplota, seed), verzionování datasetů, přesné logování kroků.
Referenční metriky: definice, vzorec, interpretace
| Metrika | Definice | Výpočet | Rozsah | Interpretace |
|---|---|---|---|---|
| Attribution Rate | Podíl odpovědí, které uvádějí náš zdroj (URL/brand) jako referenci. | #odpovědí s atribucí / #relevantních odpovědí | 0–1 | Vyšší je lepší; cíl ≥ 0,7 pro klíčová témata. |
| Faithfulness | Podíl tvrzení v odpovědi, která jsou podložitelná textem na naší stránce. | #podložených tvrzení / #tvrzení | 0–1 | Citlivé na kvalitu citací a jasnost zdroje. |
| Freshness Uptake (d) | Dny od publikování změny po zohlednění v odpovědích modelu. | median(čas_reflexe − čas_publikace) | ≥0 | Nižší je lepší; reportujte medián i IQR. |
| Table Extractability | Úspěšnost extrakce tabulek (hlavičky, jednotky, poznámky). | #správně extrahovaných polí / #všech polí | 0–1 | Kontrolujte i konzistenci jednotek a typů. |
| Machine Navigation@1 | Zda model najde přesnou sekci/kotvu na první pokus. | #úspěchů@1 / #dotazů | 0–1 | Sledujte i @K (např. @3) u dlouhých stránek. |
Struktura komparační tabulky: „metrika × varianta obsahu“
Porovnávací tabulky by měly současně spojovat čísla s kontextem metodiky. Následující šablona je použitelná pro A/B testy (Control vs. Variant) i pro multiarm porovnání.
| Varianta | Attribution Rate | Faithfulness | Freshness Uptake (d) | Table Extractability | Machine Nav@1 | n (dotazy) | p-hodnota | Metodické poznámky |
|---|---|---|---|---|---|---|---|---|
| Control | 0,52 | 0,74 | 9 | 0,81 | 0,46 | 400 | – | Bez JSON-LD; statické tabulky. |
| Variant | 0,69 | 0,83 | 4 | 0,92 | 0,63 | 400 | < 0,01 | Přidán JSON-LD, aria-describedby, kotvy sekcí. |
Kompozitní skóre a vážení metrik
Pro rychlou komunikaci výsledků napříč týmy je praktické složit kompozitní skóre. Doporučená praxe:
- Normalizace: každou metriku transformujte na 0–100 (min–max nebo z-score → percentil).
- Váhy: určete strategické váhy (např. Attribution 30 %, Faithfulness 30 %, Freshness 20 %, Navigation 10 %, Extractability 10 %).
- Výpočet: GeoScore = Σ(wi × mi, norm), reportujte i 95 % CI (bootstrap nad dotazy).
| Metrika | Skóre (0–100) | Váha | Příspěvek |
|---|---|---|---|
| Attribution | 78 | 0,30 | 23,4 |
| Faithfulness | 85 | 0,30 | 25,5 |
| Freshness | 66 | 0,20 | 13,2 |
| Navigation | 59 | 0,10 | 5,9 |
| Extractability | 88 | 0,10 | 8,8 |
| GeoScore | – | 1,00 | 76,8 |
Konstruování testovací sady: mix dotazů a scénářů
- Navigační dotazy: „Kde je metodika na stránce?“, „Zobraz tabulku s porovnáními“.
- Faktické dotazy: „Jaký je medián Freshness Uptake?“, „Které verze mění Attribution Rate?“
- Extrakční dotazy: „Vytáhni sloupce z tabulky Benchmark Overview“.
- Multimodální dotazy: „Jak interpretovat graf s intervaly spolehlivosti?“
- Negativní kontroly: dotazy mimo pokrytí, aby bylo možné odlišit správné odpovědi od „vymyšlených“.
Protokol manuálního hodnocení (pokud jsou metriky lidské)
- Rubrika s kritérii (faktualita, úplnost, citování zdrojů, konzistentní terminologie).
- Kalibrace anotátorů na malém zlatém standardu; rekalkibrace při poklesu shody.
- Shoda hodnotitelů: reportujte Krippendorffovo α nebo Cohenovo κ; cíl ≥ 0,67 pro výzkumná použití.
- Adjudikace: třetí hodnotitel k řešení sporů a tvorbě „gold“ referencí.
Statistické testování a intervaly
- Volba testu: pro párové metriky s nenormálním rozdělením preferujte Wilcoxon; pro binární úspěchy McNemar.
- CI: bootstrap nad dotazy (≥ 1000 replikací) pro robustní 95 % intervaly.
- Vícenásobná porovnání: kontrola FDR (Benjamini–Hochberg) při > 2 variantách.
- Efektová velikost: kromě p-hodnot reportujte i rozdíl v procentech a Cliff’s delta.
Dokumentace metodiky přímo v tabulce
Každá komparativní tabulka by měla mít metodickou stopu: kdo, kdy, na čem a s jakými parametry měřil. Usnadníte tím audit i opakování testu.
| Položka | Popis |
|---|---|
| Dataset v. | geo-bench-v3 (n=800 dotazů; domény: produkt, dokumentace, blog). |
| Modely | Model-A (T=0,2), Model-B (T=0,0); jednotné max_tokens, jednotné nástroje. |
| Parametry | Seed=2025; retries=1; stop sekvence jednotné; časové okno bez změn webu. |
| Hodnocení | Blind dvojité; α=0,71; adjudikace 12 % případů. |
| Statistika | Bootstrap 2000; Wilcoxon párový; BH FDR=5 %. |
Publikování výsledků: čitelné pro lidi, strojově extrahovatelné
- Tabulky s hlavičkami a vysvětlivkami (poznámky pod čarou, jednotky, odkazy na metodiku).
- Identifikovatelné kotvy (
idu sekcí,<caption>pro tabulky) kvůli hlubokým odkazům. - ARIA a struktura:
aria-describedbyz tabulek na text metodiky,scope="col"v hlavičkách. - Datové atributy: minimálně
data-metric,data-variant,data-sourcena každém buněčném prvku pro jednoduchou extrakci.
Běžné chyby a jak se jim vyhnout
- Porovnávání neporovnatelného: změněné parametry modelu nebo rozdílný čas měření.
- Metodika mimo tělo výsledků: tabulky bez jasné „stopy“ jsou obtížně auditovatelné.
- P-hacking: selektivní reportování metrik; používejte předregistrované plány měření.
- Nedostatečný počet: malý sample size nafukuje CI a činí závěry křehkými.
Benchmark karta (šablona na stránce)
| Rubrika | Obsah (vyplnit) |
|---|---|
| Název benchmarku | GEO Benchmark – Citování a extrakce tabulek |
| Verze & datum | v3 • 2025-10-22 |
| Dataset | 800 dotazů; 4 domény; poměr navigační/faktické/extrakční 30/40/30 |
| Metriky | Attribution, Faithfulness, Freshness, Nav@1, Extractability |
| Model/Parametry | Model-A (T=0,2); seed 2025; max_tokens=1024 |
| Metodika | Blind dvojité hodnocení; α=0,71; Wilcoxon; BH 5 % |
| Hlavní výsledek | Varianta > Control v Attribution (+17 bps) a Extractability (+11 bps) |
| Omezení | Bez multimodálních schémat pro grafy v této verzi |
Roadmapa zlepšení tabulek a metodiky
- Verzionování tabulek: „v1, v2…“ přímo v
<caption>s odkazem na changelog. - Intervaly spolehlivosti v tabulce: zobrazovat ± CI u každé metriky (nikoli pouze u kompozitu).
- Standardizované poznámky: vzorové fráze pro změněné parametry nebo omezení.
- Strojové tagování:
data-ci-low,data-ci-high,data-nv buňkách pro snadnou extrakci.
Mini-checklist před publikováním benchmarku
- Mají metriky jasnou definici a rozsah (0–1 nebo 0–100)?
- Je zveřejněn dataset a jeho verze?
- Jsou parametry modelů a hodnocení reprodukovatelné?
- Je uvedena statistická metodika (testy, CI, korekce)?
- Obsahují tabulky kotvy, popisy a poznámky?