Co je kontextové okno a proč na něm záleží
Kontextové okno (context window) je horní hranice množství tokenů, které může model velkého jazyka (LLM) zpracovat v jednom volání. Obvykle zahrnuje vstupní instrukce, historii konverzace, systémová pravidla, retrievingované dokumenty a vygenerovanou odpověď. Při optimalizaci webů pro AIO/AEO (AI/Answer Engine Optimization) limit kontextu určuje, kolik důkazů se vejde do promptu, jak je model udrží v pracovní paměti a jakou část obsahu může citovat bez ořezání.
Tokeny vs. znaky: praktické přepočty
- Token není znak ani slovo; je to fragment textu. V evropských jazycích platí hrubé pravidlo: 1 token ≈ 0,75 slova nebo ≈ 4 znaky.
- Při plánování promptů a dávkování dokumentů počítejte s rezervou 10–20 % na systémové a skryté tokeny.
- Pro dlouhé HTML stránky odhadněte kapacitu jednoduchým skriptem: odstranit HTML, normalizovat mezery, ztokenizovat, porovnat s limitem modelu.
Struktura obsahu v kontextu: vrstvy a priority
- Vrstvy: systémová pravidla → instrukce úlohy → metadata (identifikátory, zdroje) → evidenční úryvky → otázka.
- Priorita: nejdůležitější důkaz výše, redundantní pasáže níže nebo mimo kontext (na odkaz).
- Ekonomika tokenů: šetřit na narativních částech, investovat do tabulek, čísel, citací a negativních tvrzení.
Truncation (ořezávání) a jeho rizika
- Příliš dlouhý vstup bývá tiše ořezán od začátku nebo konce. Ztráta systémových pravidel vede k porušení stylu; ztráta důkazů k halucinacím.
- Obrana: sentinelové značky (BEGIN/END), počítadla tokenů, sekcionizace a průběžné sumarizace s citacemi.
- Při RAG pipeline používejte krátké, sémanticky husté chunkování (např. 300–800 tokenů) se sliding window přesahem 10–20 %.
Chunking a propojování: jak dělit dlouhé stránky
- Přirozené hranice: H2/H3, tabulky, seznamy, definice; vyhnout se dělení odstavce uprostřed věty.
- Lokální sumáře: na konci sekce 2–3 věty „Key takeaways“ + ukotvené odkazy na zdroje.
- Anchor ID: každý blok má stabilní
idpro přesné citování v odpovědích AI.
Retrieval-Augmented Generation (RAG) a kontextové okno
RAG minimalizuje tlak na kontext tím, že vybírá pouze nejrelevantnější úryvky.
- Dual-stage retrieval: rychlé vektorové vyhledávání → re-ranking přes cross-encoder → výběr top-k (typicky 3–8 chunků).
- Anti-noise filtrace: penalizovat dlouhé, neorganizované úryvky; preferovat tabulky a definice.
- Citace: ke každému úryvku přidávat URL, datum a verzi; LLM pak má menší sklon k domýšlení.
Kontextové strategie: krátký vs. dlouhý kontext
- Krátký kontext (≤ 8–32k tokenů): vyšší přesnost pozornosti; vyžaduje disciplinované promptování a výběr úryvků.
- Dlouhý kontext (≥ 100k tokenů): pojme více zdrojů, ale může trpět distance bias (nižší váha vzdálenějších tokenů) a vyšší latencí.
- Prakticky: kombinujte condensed brief (200–500 tokenů) + evidence appendix (náhledy tabulek) místo vypisování celých článků.
Řízení latence a nákladů
- Komplexita: hustota pozornosti roste s délkou kontextu; větší prompt = vyšší cena a pomalejší odezva.
- KV cache: při interaktivních chatech snižujte opakované posílání stejných systémových částí pomocí perzistence stavu (pokud ji rozhraní podporuje).
- Response budget: nechte 10–30 % okna na odpověď; pokud jej vyčerpáte kontextem, model nedokončí výstup.
Promptová architektura pro maximální informační hustotu
- Instrukční hlavička: role, styl, požadavky na citace a omezení (např. „necitovat mimo uvedené zdroje“).
- Query plán: stručný seznam podúloh, které má model splnit (extrakce → validace → odpověď).
- Evidence pack: 3–8 nejrelevantnějších chunků (tabulky/ seznamy), každý s meta řádkem: origin, date, version.
- Output schema: krátká specifikace formátu (např. JSON/HTML tabulka), aby se předešlo verbóznosti.
Negativní a omezující signály proti halucinacím
- „Pokud není důkaz, uveď ‚neznámé‘“: explicitně povolit odpověď „nevím“.
- Blacklist sekcí: v promptu zakázat použití nízkodůvěryhodných částí nebo starých verzí.
- Konflikty: pokud se důkazy liší, vyžadovat „conflict report“ s uvedením obou verzí a dat.
Sumarizace pro dlouhé dokumenty: kaskády a map-reduce
- Map: lokální sumáře na úrovni sekcí (≤ 200 tokenů každý) s citacemi.
- Reduce: syntéza sumářů do vyšší úrovně (≤ 400 tokenů), zachovat metadata.
- Refine: doplnit chybějící fakta na základě zpětné vazby nebo dalších chunků.
Evaluace „context utilization“
- Hit-rate: podíl odpovědí, které citují poskytnuté úryvky (≥ 85 % cíl).
- Exact match na klíčových polích: čísla a enumy v odpovědi vs. „zlatý“ dataset.
- Position bias test: rotujte pořadí úryvků a sledujte změny (model by neměl ignorovat pozdější, pokud jsou relevantní).
Kontext v multi-turn dialozích
- Session pruning: udržujte pouze poslední kroky + „memory summary“ se zdroji.
- Threading: odlišné témata do samostatných vláken, aby se neplýtvalo kontextem.
- Stateful odkazy: místo opakovaného vkládání tabulek posílejte ID a požadujte re-retrieval.
HTML/SEO praktiky pro AEO a kontext
- Krátké, strukturované bloky: H2 sekce, tabulky a definice; minimalizovat dlouhé narativy bez struktury.
- Exporty: nabídnout CSV/JSON; při RAG můžete poslat jen výřez s přesnými poli.
- Verzionování: datum poslední revize a číslo verze u tabulek (LLM upřednostní nejnovější).
Rozšířené techniky pro velké kontexty
- Re-ranking s citlivým oknem: zvětšete top-k recall a zmenšete top-m kontext po re-rankingu.
- Hierarchické embedování: dokument → sekce → odstavec; vyhledávání nejprve v hrubých, potom v jemných vektorech.
- Hybrid BM25 + vektory: zlepší přesnost pro číselné a přesné fráze (GTIN, MPN, kódy).
Bezpečnost a compliance v kontextu
- PII/PHI filtrace: před vložením do kontextu pseudonymizovat nebo redigovat citlivá data.
- Licenční omezení: citovat pouze zdroje s povolením; ukládat důkaz o licencích v metadatech.
- Audit trail: logovat, které úryvky byly poslány a jakou odpověď vyvolaly.
Nejčastější chyby při práci s kontextovým oknem
- Vypisování celých článků bez výběru – zbytečné náklady a nižší přesnost.
- Nedostatečná rezerva pro odpověď – model nedokončí výstup nebo jej zkrátí.
- Míchání témat v jednom promptu – snížení relevance a vyšší riziko halucinací.
- Chybějící citace a verze – není možné zpětně ověřit, zda odpověď vycházela z aktuálních dat.
Checklist pro operativní práci s kontextem
- Definovat cíl odpovědi a output schema před výběrem důkazů.
- Vybrat 3–8 nejrelevantnějších chunků (300–800 tokenů) s metadaty.
- Zajistit 10–30 % volného prostoru na generování.
- Označit sekce sentineli a přidat krátký „brief“ (≤ 300 tokenů).
- Logovat použité úryvky, verze a URL pro audit a replikaci.
Kontextové okno je praktická hranice „pracovní paměti“ LLM. Rozumné volbě úryvků, struktuře promptu a disciplíně v citacích vděčíme za přesnost, nižší latenci a reprodukovatelnost odpovědí. Místo snahy zvětšovat kontext bezbřehy se vyplatí zvyšovat jeho informační hustotu – a tím získat konzistentní, ověřitelné a rychlé odpovědi v AIO/AEO scénářích i v moderním SEO.