Ochrana proti botům a scraperům

Proč je boj s boty a scraperem v adult/ seznamkovém segmentu specifický

Platformy s adult obsahem a seznamky jsou pro boty a scrapery mimořádně atraktivní. Důvody: vysoká komerční hodnota dat (fotografie, profily, preference), možnost spamovat a podvádět (romantické podvody, phishing) a také zneužití ke šíření škodlivého obsahu. Absolutní ochrana neexistuje; cílem je snížit míru úspěchu protivníka, zvýšit jeho náklady a omezit dopad. Tento článek nabízí praktický, technicko-provozní rámec, akceptující limity a nastavující reálná očekávání.

Model hrozeb: kdo je útočník a co chce

  • Scrapeři dat: automatizované stahování profilů, fotografií, cen nebo recenzí za účelem přeprodeje a klonování stránek.
  • Spam-boti a sockpuppeti: registrace s cílem šířit odkazy, prodávat „prémiové“ chaty, podvody a malware.
  • LLM-řízené boty: syntetická konverzace v soukromých zprávách, sociální inženýrství, deepfake profilové texty a obrázky.
  • Konkurentní scraping: systematické stahování katalogů a cen, získávání kreativních materiálů.
  • Fraud a abuse: farmy pro plnění CAPTCHA, kradené platební karty, pokusy o credential stuffing.

Limity: co je třeba přijmout dříve, než začnete navrhovat obranu

  • Rezidenční proxy a mobilní ASN: reputace IP adres je méně účinná, když útočník rotuje legitimní domény/ASN.
  • Headless prohlížeče a „anti-detect“: moderní nástroje se maskují jako plnohodnotný prohlížeč; detekce je pouze pravděpodobnostní.
  • Human-in-the-loop: farmy uživatelů klikají CAPTCHA, ověřují telefon/e-mail; typický „robotický“ vzor mizí.
  • LLM generování: text a „small talk“ projdou jednoduchými obsahovými filtry; vyžaduje behaviorální a grafovou analýzu.
  • Falešně pozitivní detekce: tvrdá pravidla poškodí legitimní platící uživatele – riziko reputační i byznysové.

Strategický cíl: posun ekonomiky útoku

Místo „zastavit vše“ definujte KPI, které zvýší náklady útočníka a sníží škody:

  • Time-to-ban (čas od registrace po zablokování bota).
  • Abuse throughput (počet škodlivých zpráv na 1 000 relací).
  • Leakage cost (čas/náklady na získání 1 000 profilů).
  • User friction budget (kolik překážek snese legitimní uživatel bez odchodu).

Vícevrstvá architektura: signály klienta, sítě a chování

  • Síťová vrstva: WAF, geofencing (je-li relevantní), token bucket rate limiting (globálně, per-IP, per-ASN, per-endpoint), TLS/JA3/JARM otisky, HTTP/2/3 anomálie.
  • Klientská vrstva: browser fingerprinting (opatrně vůči soukromí), integrita běhu (detekce headless, WebDriver, nereálná rozlišení/frekvence), anti-automation senzory (časování událostí, pohyb myši).
  • Identitní vrstva: validace e-mailových domén (dočasné/ jednoměrné), HLR/LRN pro telefonní čísla, reputace platební metody, WebAuthn/Passkeys pro zvýšení nákladů na masové účty.
  • Behaviorální vrstva: rychlosti a sekvence kroků, graf interakcí (DM, follow, „like“), detekce podezřelých klastrů.
  • Obsahová vrstva: NLP klasifikace chatů (sexuální služby, podvody), obrazové signály (hashování/duplikace, NSFW specifika), per-user watermarking pro identifikaci úniků.

CAPTCHA a výzvy: kde mají smysl a kde škodí

  • Progresivní výzvy: spouštějte až po dosažení rizikového skóre; nízké riziko = žádná výzva, střední = tichá výzva, vysoké = viditelná výzva.
  • Střídejte typy: vizuální, audio, logické; rotace snižuje efektivitu farem.
  • Limity: farmy uživatelů a CAPTCHA solving API dramaticky snižují účinnost; výzvy jsou spíše „speed bump“ než výzva k zastavení.

Private Access Tokens a certifikace zařízení

  • Private Access Tokens (ex-Privacy Pass): odlehčují legitimní prohlížeče bez sledovacích cookies; představují signál „lidského“ klienta příznivý pro soukromí.
  • OS/Store certifikace (Android Play Integrity, Apple DeviceCheck): zvyšuje cenu pro farmy emulátorů; nevhodné na „tvrdé“ blokace, spíše součást skóre.

Rate limiting a spravedlivé kvóty: ne vše je „per IP“

  • Per-journey limity: samostatné tokeny pro registraci, přihlášení, vyhledávání, prohlížení fotografií, posílání zpráv.
  • Adaptivní zpomalování: zpřísnění limitů během anomálií (časové výkyvy, nová séria ASN, náhlé bursty na citlivých endpointů).
  • Soft vs. hard fail: při soft limitu zobrazte méně výsledků nebo zpomalte odpověď (tarpitting), ne vždy vracejte 403.

Scraping: od prevence k atribuci a odrazení

  • Staggered reveal: zobrazujte menší náhled, plnou kvalitu až po interakci uživatele (scrollování, čas, aktivita).
  • Per-session watermarking: nenápadné pixely/šum nebo variace rozložení; při úniku identifikujete zdroj (pozor na soukromí a právní aspekty).
  • Honeytokens: uměle vkládané „návnady“ (falešné profily/URL) detekují a blokují scraperské toky.
  • Zdvořilí vs. nezákonní scrapeři: robots.txt chrání pouze před slušnými; ochranu stavějte na verifikovatelných signálech, ne deklaracích.

Onboarding s nízkým třením a vysokým rizikem nákladů

  • Postupná verifikace: první kroky bez bariér, citlivé akce (DM s přílohou, hromadné zprávy) až po dalších signálech důvěry.
  • „Speed bumps“: prodloužení některých akcí nově vytvořeným účtem (rate limiting podle stáří účtu).
  • Ekonomické brzdy: levné, ale ne nulové poplatky na rizikové akce (např. mikropoplatek/kolaterál v interních kreditech), s ohledem na pravidla a dostupnost.

Detekce LLM-botů: víc než jen „AI text“

  • Konverzační vzory: extrémní konzistence stylu, nadprůměrně dlouhé odpovědi v nočních hodinách, absence přestávek mezi větami.
  • Grafová analýza: vysoká propojenost nových účtů, opakované DM na specifické demografické klastru.
  • Semantické šablony: identické „zahájení“ první zprávy, sdílené větné struktury; deduplikace přes shingling/embeddingy.
  • Human feedback loop: účinné nahlášení v UI, nízké sankce za „false alert“ u legitimních uživatelů.

Observabilita a reakce na incidenty

  • Telemetrie na okraji sítě: procentilové latence, chybovost podle ASN/Geo, anomální výkyvy per-endpoint.
  • Playbooky: škálování výzev, dočasný strict mode, blokace na úrovni IP/ASN/User-Agent/JA3, rollback kritéria.
  • Forenzní stopa: podepsané logy, minimální doba uchování dle zásad soukromí, Řetězec dokazování při právních krocích.

Vyvažování soukromí a ochrany: co měřit a co ne

  • Minimalizace dat: vyhýbejte se zbytečným identifikátorům; fingerprinty a biometrie jen když jsou nezbytné a odůvodněné.
  • Transparentnost: dokumentujte, jaké signály používáte, proč a jak se aplikují vůči uživatelům.
  • Etické mantinely: žádný „doxxing zpět“, žádné odhalování soukromých informací útočníků.

Anti-abuse pro DM, chat a média

  • Rate limits a cooldown pro první DM, strojové učení na detekci vzorů „link-drop“.
  • Skenování médií (hashování, prevence NSFW/CSAM), blokování známých škodlivých URL domén a zkracovačů odkazů.
  • „Reply gating“: přísnější pravidla pro DM od nových účtů (např. pouze po reciprocitě nebo po schválení).

Edge a CDN: přibližování obrany k útočníkovi

  • Edge pravidla: dynamické výzvy podle ASN/Geo/JA3 již na CDN; odlehčení původního serveru.
  • Tokenizované assety: krátce platné URL pro média, podepsané odkazy, per-session variace.
  • Tarpitting: zpomalování podezřelých scraperů místo okamžitého odmítnutí (zvyšuje jejich náklady).

Právní a provozní opatření (bez poradenství)

  • Podmínky použití s výslovným zákazem scrapingu, automatizace a znovunahrávání obsahu; zjednodušené hlášení porušení.
  • DMCA/notice-and-takedown a hash databáze pro rychlou reakci proti klonům obsahu.
  • Due diligence u dodavatelů: pokud outsourcujete moderaci/analytiku, vyžadujte bezpečnostní standardy a minimální přístup k datům.

Měření úspěchu: technické i produktové KPI

KPI Definice Cíl/Interpretace
Prevalence botů % nových účtů označených a potvrzených jako boti Klesající trend při stabilní registraci legitimních uživatelů
Střední time-to-ban Čas od registrace po zablokování < 30 min pro masové spamery, < 24 h pro sofistikované
FPR/FNR False positive/negative rate (míra falešně pozitivních/negativních detekcí) Balanc dle segmentu; FPR < 0,5 % u platících členů
Leakage rate Odhad objemu exportovaných profilů/fotek Pokles po zavedení watermarkingu a tokenizovaných assetů
User friction Počet výzev/CAPTCH na 100 relací Stabilní nebo klesající při stejné úrovni bezpečnosti

Provozní „playbook“: krok za krokem

  1. Mapujte útočné plochy (endpoints, assety, DM, vyhledávání) a přiřaďte rizikové skóre.
  2. Zaveďte škálovatelné limity (per-IP/ASN/účtu/endpointu) a progresivní výzvy.
  3. Nasazujte signály (TLS/JA3, fingerprint, behaviorální metriky) do jednotného risk scorera.
  4. Automatizujte zásahy (tarpit, throttle, výzva, blokace, eskalace na člověka).
  5. Monitorujte a iterujte (A/B testování výzev, cost-to-attack, dopad na konverzi legitimních uživatelů).
  6. Po incidentu: atribuce útočníka (ASN, návnady), aktualizace pravidel, právní kroky dle potřeby.

Reálná očekávání pro stakeholdery

  • Zero-bot je mýtus: procento botů nikdy neklesne na nulu; pokud klesne drasticky, často je cena ve vysokém FPR.
  • Scraping se nezastaví, pouze zpomalí: cílem je snížit kvalitu a rychlost sběru dat a zlepšit atribuci úniků.
  • Bezpečnost je produktová disciplína: úspěch se měří rovnováhou – ochrana, konverze, UX a soukromí.
  • Neustálá adaptace: útočníci kopírují obranu; plánujte rozpočet a cyklus změn.

Checklist minimální účinné obrany (MVP)

  • WAF + adaptivní rate limiting per-endpoint a per-journey.
  • Risk scoring z více signálů (IP/ASN, klient, chování, obsah).
  • Progresivní výzvy (včetně Private Access Tokens, kde to je možné).
  • Tokenizované assety + per-session watermarking pro citlivá média.
  • Onboarding s „speed bumps“ a gating na citlivé akce.
  • Grafová a obsahová detekce pro DM, s jednoduchým nahlášením v UI.
  • Incident playbook, podepisované logy, metriky FPR/FNR a