Co je kontextové okno a proč na něm záleží
Kontextové okno (context window) je horní hranice množství tokenů, které může model velkého jazyka (LLM) zpracovat během jednoho volání. Obvykle zahrnuje vstupní instrukce, historii konverzace, systémová pravidla, retrievované dokumenty a vygenerovanou odpověď. Při optimalizaci webů pro AIO/AEO (AI/Answer Engine Optimization) limit kontextu určuje, kolik důkazů se vejde do promptu, jak je model udrží v pracovní paměti a jakou část obsahu může citovat bez ořezu.
Tokeny vs. znaky: praktické přepočty
- Token není znak ani slovo; jde o fragment textu. V evropských jazycích platí hrubé pravidlo: 1 token ≈ 0,75 slova nebo ≈ 4 znaky.
- Při plánování promptů a dávkování dokumentů počítejte s rezervou 10–20 % na systémové a skryté tokeny.
- Pro dlouhé HTML stránky odhadněte kapacitu jednoduchým skriptem: odstranit HTML, normalizovat mezery, ztokenizovat, porovnat s limitem modelu.
Struktura obsahu v kontextu: vrstvy a priority
- Vrstvy: systémová pravidla → instrukce úkolu → metadata (identifikátory, zdroje) → evidenční úryvky → otázka.
- Priorita: nejdůležitější důkaz výše, redundantní pasáže níže nebo mimo kontext (na odkaz).
- Ekonomika tokenů: šetřit na narativních částech, investovat do tabulek, čísel, citací a negativních tvrzení.
Truncation (ořezávání) a jeho rizika
- Příliš dlouhý vstup bývá potichu ořezán z začátku nebo konce. Ztráta systémových pravidel vede k porušení stylu; ztráta důkazů k halucinacím.
- Obrana: sentinelové značky (BEGIN/END), počítadla tokenů, sekcionizace a průběžné sumarizace s citacemi.
- Při RAG pipeline používejte krátké, sémanticky husté chunkování (např. 300–800 tokenů) se sliding window přesahem 10–20 %.
Chunking a propojování: jak dělit dlouhé stránky
- Přirozené hranice: H2/H3, tabulky, seznamy, definice; vyhnout se dělení odstavce uprostřed věty.
- Lokální souhrny: na konci sekce 2–3 věty „Key takeaways“ + ukotvené odkazy na zdroje.
- Anchor ID: každý blok má stabilní
idpro přesné citování v odpovědích AI.
Retrieval-Augmented Generation (RAG) a kontextové okno
RAG minimalizuje tlak na kontext tím, že vybírá pouze nejrelevantnější úryvky.
- Dual-stage retrieval: rychlý vektorový recall → re-rank přes cross-encoder → výběr top-k (typicky 3–8 chunků).
- Anti-noise filtrace: penalizovat dlouhé, neorganizované úryvky; preferovat tabulky a definice.
- Citace: ke každému úryvku přidávat URL, datum a verzi; LLM tak méně domýšlí.
Kontextové strategie: krátký vs. dlouhý kontext
- Krátký kontext (≤ 8–32k tokenů): vyšší přesnost pozornosti; vyžaduje disciplinované promptování a výběr úryvků.
- Dlouhý kontext (≥ 100k tokenů): pojme více zdrojů, ale může trpět distance bias (nižší váha vzdálenějších tokenů) a vyšší latencí.
- Prakticky: míchejte condensed brief (200–500 tokenů) + evidence appendix (náhledy tabulek) místo vylévání celých článků.
Řízení latence a nákladů
- Komplexita: hustota pozornosti roste s délkou kontextu; větší prompt = vyšší cena a pomalejší odezva.
- KV cache: při interaktivních chatech snižujte opakované odesílání stejných systémových částí pomocí perzistence stavu (pokud ji rozhraní podporuje).
- Response budget: ponechejte 10–30 % okna na odpověď; pokud je vyčerpáte kontextem, model nedokončí výstup.
Promptová architektura pro maximální informační hustotu
- Instrukční hlavička: role, styl, požadavky na citace a omezení (např. „necitovat mimo uvedené zdroje“).
- Query plan: stručný seznam podúkolů, které má model splnit (extrakce → validace → odpověď).
- Evidence pack: 3–8 nejrelevantnějších chunků (tabulky/seznamy), každý s metařádkem: origin, date, version.
- Output schema: krátká specifikace formátu (např. JSON/HTML tabulka), aby se předešlo verbóznosti.
Negativní a omezující signály proti halucinacím
- „Pokud není důkaz, uveď ‘neznámé’“: explicitně povolit odpověď „nevím“.
- Blacklist sekcí: v promptu zakázat použití nízkodůvěryhodných částí nebo starých verzí.
- Konflikty: pokud se důkazy liší, vyžadovat „conflict report“ s uvedením obou verzí a dat.
Sumarizace pro dlouhé dokumenty: kaskády a map-reduce
- Map: lokální souhrny na úrovni sekcí (≤ 200 tokenů každý) s citacemi.
- Reduce: syntéza souhrnů do vyšší úrovně (≤ 400 tokenů), zohlednit metadata.
- Refine: doplnit chybějící fakta na základě zpětné vazby nebo dalších chunků.
Evaluace „context utilization“
- Hit-rate: podíl odpovědí, které citují poskytnuté úryvky (≥ 85 % cílově).
- Exact match na klíčových polích: čísla a výčty v odpovědi vs. „zlatý“ dataset.
- Position bias test: rotovat pořadí úryvků a sledovat změny (model by neměl ignorovat pozdější, pokud jsou relevantní).
Kontext v multi-turn dialozích
- Session pruning: udržovat pouze poslední kroky + „memory summary“ se zdroji.
- Threading: odlišné témata do samostatných vláken, aby se neplýtvalo kontextem.
- Stateful odkazy: místo opakovaného vkládání tabulek posílat ID a žádat re-retrieval.
HTML/SEO praktiky pro AEO a kontext
- Krátké, strukturované bloky: H2 sekce, tabulky a definice; minimalizovat dlouhé narativy bez struktury.
- Exporty: nabídnout CSV/JSON; při RAG lze poslat pouze výřez s přesnými poli.
- Verzionování: datum poslední revize a číslo verze u tabulek (LLM preferuje nejnovější).
Rozšířené techniky pro velké kontexty
- Re-ranking s citlivým oknem: zvýšíte top-k recall a snížíte top-m kontext po re-rankingu.
- Hierarchické embeddování: dokument → sekce → odstavec; vyhledávání nejprve ve hrubých, pak v jemných vektorech.
- Hybrid BM25 + vektory: zlepší přesnost pro číselné a přesné fráze (GTIN, MPN, kódy).
Bezpečnost a compliance v kontextu
- PII/PHI filtrace: před vložením do kontextu pseudonymizovat nebo redigovat citlivá data.
- Licenční omezení: citovat pouze zdroje s povolením; ukládat důkaz o licencích v metadatech.
- Audit trail: logovat, které úryvky byly odeslány a jakou odpověď vyvolaly.
Nejčastější chyby při práci s kontextovým oknem
- Vylévání celých článků bez výběru – zbytečné náklady a horší přesnost.
- Nedostatečná rezerva pro odpověď – model nedokončí výstup nebo jej zkrátí.
- Míchání témat v jednom promptu – snížení relevance a vyšší riziko halucinací.
- Chybějící citace a verze – nelze zpětně ověřit, zda odpověď vycházela z aktuálních dat.
Checklist pro operativní práci s kontextem
- Definovat cíl odpovědi a output schema před výběrem důkazů.
- Vybrat 3–8 nejrelevantnějších chunků (300–800 tokenů) s metadaty.
- Zajistit 10–30 % volného prostoru pro generování.
- Označit sekce sentinelovými značkami a přidat krátký „brief“ (≤ 300 tokenů).
- Logovat použité úryvky, verze a URL pro audit a replikaci.
Kontextové okno je praktická hranice „pracovní paměti“ LLM. Rozumné volbě úryvků, struktuře promptu a disciplíně v citacích vděčíme za přesnost, nižší latenci a reprodukovatelnost odpovědí. Místo snahy zvětšovat kontext bezmezně se vyplatí zvyšovat jeho informační hustotu – tím získat konzistentní, ověřitelné a rychlé odpovědi v AIO/AEO scénářích i v moderním SEO.