Kontextové okno: limit délky vstupu zpracovaného velkým jazykovým modelem (LLM)

Co je kontextové okno a proč na něm záleží

Kontextové okno (context window) je horní hranice množství tokenů, které může model velkého jazyka (LLM) zpracovat v jednom volání. Obvykle zahrnuje vstupní instrukce, historii konverzace, systémová pravidla, retrievingované dokumenty a vygenerovanou odpověď. Při optimalizaci webů pro AIO/AEO (AI/Answer Engine Optimization) limit kontextu určuje, kolik důkazů se vejde do promptu, jak je model udrží v pracovní paměti a jakou část obsahu může citovat bez ořezání.

Tokeny vs. znaky: praktické přepočty

  • Token není znak ani slovo; je to fragment textu. V evropských jazycích platí hrubé pravidlo: 1 token ≈ 0,75 slova nebo ≈ 4 znaky.
  • Při plánování promptů a dávkování dokumentů počítejte s rezervou 10–20 % na systémové a skryté tokeny.
  • Pro dlouhé HTML stránky odhadněte kapacitu jednoduchým skriptem: odstranit HTML, normalizovat mezery, ztokenizovat, porovnat s limitem modelu.

Struktura obsahu v kontextu: vrstvy a priority

  1. Vrstvy: systémová pravidla → instrukce úlohy → metadata (identifikátory, zdroje) → evidenční úryvky → otázka.
  2. Priorita: nejdůležitější důkaz výše, redundantní pasáže níže nebo mimo kontext (na odkaz).
  3. Ekonomika tokenů: šetřit na narativních částech, investovat do tabulek, čísel, citací a negativních tvrzení.

Truncation (ořezávání) a jeho rizika

  • Příliš dlouhý vstup bývá tiše ořezán od začátku nebo konce. Ztráta systémových pravidel vede k porušení stylu; ztráta důkazů k halucinacím.
  • Obrana: sentinelové značky (BEGIN/END), počítadla tokenů, sekcionizace a průběžné sumarizace s citacemi.
  • Při RAG pipeline používejte krátké, sémanticky husté chunkování (např. 300–800 tokenů) se sliding window přesahem 10–20 %.

Chunking a propojování: jak dělit dlouhé stránky

  • Přirozené hranice: H2/H3, tabulky, seznamy, definice; vyhnout se dělení odstavce uprostřed věty.
  • Lokální sumáře: na konci sekce 2–3 věty „Key takeaways“ + ukotvené odkazy na zdroje.
  • Anchor ID: každý blok má stabilní id pro přesné citování v odpovědích AI.

Retrieval-Augmented Generation (RAG) a kontextové okno

RAG minimalizuje tlak na kontext tím, že vybírá pouze nejrelevantnější úryvky.

  • Dual-stage retrieval: rychlé vektorové vyhledávání → re-ranking přes cross-encoder → výběr top-k (typicky 3–8 chunků).
  • Anti-noise filtrace: penalizovat dlouhé, neorganizované úryvky; preferovat tabulky a definice.
  • Citace: ke každému úryvku přidávat URL, datum a verzi; LLM pak má menší sklon k domýšlení.

Kontextové strategie: krátký vs. dlouhý kontext

  • Krátký kontext (≤ 8–32k tokenů): vyšší přesnost pozornosti; vyžaduje disciplinované promptování a výběr úryvků.
  • Dlouhý kontext (≥ 100k tokenů): pojme více zdrojů, ale může trpět distance bias (nižší váha vzdálenějších tokenů) a vyšší latencí.
  • Prakticky: kombinujte condensed brief (200–500 tokenů) + evidence appendix (náhledy tabulek) místo vypisování celých článků.

Řízení latence a nákladů

  • Komplexita: hustota pozornosti roste s délkou kontextu; větší prompt = vyšší cena a pomalejší odezva.
  • KV cache: při interaktivních chatech snižujte opakované posílání stejných systémových částí pomocí perzistence stavu (pokud ji rozhraní podporuje).
  • Response budget: nechte 10–30 % okna na odpověď; pokud jej vyčerpáte kontextem, model nedokončí výstup.

Promptová architektura pro maximální informační hustotu

  1. Instrukční hlavička: role, styl, požadavky na citace a omezení (např. „necitovat mimo uvedené zdroje“).
  2. Query plán: stručný seznam podúloh, které má model splnit (extrakce → validace → odpověď).
  3. Evidence pack: 3–8 nejrelevantnějších chunků (tabulky/ seznamy), každý s meta řádkem: origin, date, version.
  4. Output schema: krátká specifikace formátu (např. JSON/HTML tabulka), aby se předešlo verbóznosti.

Negativní a omezující signály proti halucinacím

  • „Pokud není důkaz, uveď ‚neznámé‘“: explicitně povolit odpověď „nevím“.
  • Blacklist sekcí: v promptu zakázat použití nízkodůvěryhodných částí nebo starých verzí.
  • Konflikty: pokud se důkazy liší, vyžadovat „conflict report“ s uvedením obou verzí a dat.

Sumarizace pro dlouhé dokumenty: kaskády a map-reduce

  • Map: lokální sumáře na úrovni sekcí (≤ 200 tokenů každý) s citacemi.
  • Reduce: syntéza sumářů do vyšší úrovně (≤ 400 tokenů), zachovat metadata.
  • Refine: doplnit chybějící fakta na základě zpětné vazby nebo dalších chunků.

Evaluace „context utilization“

  • Hit-rate: podíl odpovědí, které citují poskytnuté úryvky (≥ 85 % cíl).
  • Exact match na klíčových polích: čísla a enumy v odpovědi vs. „zlatý“ dataset.
  • Position bias test: rotujte pořadí úryvků a sledujte změny (model by neměl ignorovat pozdější, pokud jsou relevantní).

Kontext v multi-turn dialozích

  • Session pruning: udržujte pouze poslední kroky + „memory summary“ se zdroji.
  • Threading: odlišné témata do samostatných vláken, aby se neplýtvalo kontextem.
  • Stateful odkazy: místo opakovaného vkládání tabulek posílejte ID a požadujte re-retrieval.

HTML/SEO praktiky pro AEO a kontext

  • Krátké, strukturované bloky: H2 sekce, tabulky a definice; minimalizovat dlouhé narativy bez struktury.
  • Exporty: nabídnout CSV/JSON; při RAG můžete poslat jen výřez s přesnými poli.
  • Verzionování: datum poslední revize a číslo verze u tabulek (LLM upřednostní nejnovější).

Rozšířené techniky pro velké kontexty

  • Re-ranking s citlivým oknem: zvětšete top-k recall a zmenšete top-m kontext po re-rankingu.
  • Hierarchické embedování: dokument → sekce → odstavec; vyhledávání nejprve v hrubých, potom v jemných vektorech.
  • Hybrid BM25 + vektory: zlepší přesnost pro číselné a přesné fráze (GTIN, MPN, kódy).

Bezpečnost a compliance v kontextu

  • PII/PHI filtrace: před vložením do kontextu pseudonymizovat nebo redigovat citlivá data.
  • Licenční omezení: citovat pouze zdroje s povolením; ukládat důkaz o licencích v metadatech.
  • Audit trail: logovat, které úryvky byly poslány a jakou odpověď vyvolaly.

Nejčastější chyby při práci s kontextovým oknem

  • Vypisování celých článků bez výběru – zbytečné náklady a nižší přesnost.
  • Nedostatečná rezerva pro odpověď – model nedokončí výstup nebo jej zkrátí.
  • Míchání témat v jednom promptu – snížení relevance a vyšší riziko halucinací.
  • Chybějící citace a verze – není možné zpětně ověřit, zda odpověď vycházela z aktuálních dat.

Checklist pro operativní práci s kontextem

  1. Definovat cíl odpovědi a output schema před výběrem důkazů.
  2. Vybrat 3–8 nejrelevantnějších chunků (300–800 tokenů) s metadaty.
  3. Zajistit 10–30 % volného prostoru na generování.
  4. Označit sekce sentineli a přidat krátký „brief“ (≤ 300 tokenů).
  5. Logovat použité úryvky, verze a URL pro audit a replikaci.

Kontextové okno je praktická hranice „pracovní paměti“ LLM. Rozumné volbě úryvků, struktuře promptu a disciplíně v citacích vděčíme za přesnost, nižší latenci a reprodukovatelnost odpovědí. Místo snahy zvětšovat kontext bezbřehy se vyplatí zvyšovat jeho informační hustotu – a tím získat konzistentní, ověřitelné a rychlé odpovědi v AIO/AEO scénářích i v moderním SEO.