Proč je boj s boty a scrapery v adult/sex seznamkách specifický
Platformy s obsahem pro dospělé a seznamky jsou pro boty a scrapery mimořádně atraktivní. Důvody: vysoká komerční hodnota dat (fotografie, profily, preference), možnost spamování a podvodů (romance scam, phishing) a zneužití k šíření škodlivého obsahu. Absolutní ochrana neexistuje; cílem je snížit míru úspěšnosti útočníka, zvýšit jeho náklady a omezit dopad. Tento článek nabízí praktický, technicko-provozní rámec, akceptující limity a nastavující reálná očekávání.
Model hrozeb: kdo je útočník a co chce
- Scrapeři dat: automatizované stahování profilů, fotografií, cen či recenzí za účelem dalšího prodeje a klonování stránek.
- Spam-boti a sockpuppet účty: registrace s cílem šířit odkazy, prodávat „prémiové“ chaty, podvádět a šířit malware.
- LLM-pohánění boti: syntetická komunikace v soukromých zprávách, sociální inženýrství, deepfake profilové texty a obrázky.
- Scraping konkurence: systematické stahování katalogů a cen, sklizeň kreativních materiálů.
- Podvody a zneužití: farmy na vyplňování CAPTCHA, kradené platební karty, pokusy o credential stuffing.
Limity: co je třeba akceptovat před návrhem obrany
- Rezidenční proxy a mobilní ASN: reputace IP adres je méně účinná, pokud útočník rotuje legitimními doménami/ASN.
- Headless prohlížeče a „anti-detect“: moderní nástroje maskují svou přítomnost jako plnohodnotný prohlížeč; detekce je pravděpodobnostní.
- Human-in-the-loop: farmy živých uživatelů klikají CAPTCHA, ověřují telefon/e-mail; přímý „robotický“ vzor zmizí.
- LLM generování: text a „small talk“ prochází jednoduchými obsahovými filtry; vyžaduje behaviorální a grafové analýzy.
- Falešné pozitivy: přísná pravidla mohou poškodit legitimní platící uživatele – risk reputace i byznysu.
Strategický cíl: posun ekonomiky útoku
Místo snahy „zastavit vše“ definujte KPI, které zvýší náklady útočníka a sníží škody:
- Time-to-ban (čas od registrace po blokaci bota).
- Abuse throughput (počet škodlivých zpráv na 1 000 relací).
- Leakage cost (čas/náklady na získání 1 000 profilů).
- User friction budget (kolik překážek snese legitimní uživatel, aniž odejde).
Vícevrstvá architektura: signály klienta, sítě a chování
- Síťová vrstva: WAF, geofencing (pokud relevantní), token bucket omezení rychlosti (globální, per-IP, per-ASN, per-endpoint), TLS/JA3/JARM otisky, HTTP/2/3 anomálie.
- Klientská vrstva: browser fingerprinting (s ohledem na soukromí), integrita běhu (detekce headless, WebDriver, nereálná rozlišení/frekvence), anti-automation senzory (časování událostí, pohyb myši).
- Identitní vrstva: validace e-mailových domén (dočasné/ jednorázové), HLR/LRN pro telefonní čísla, reputace platební metody, WebAuthn/Passkeys ke zvýšení nákladů na masové účty.
- Behaviorální vrstva: rychlosti a sekvence kroků, graf interakcí (DM, follow, „like“), detekce podezřelých klastrů.
- Obsahová vrstva: NLP klasifikace chatů (sexuální služby, scamy), obrazové signály (hashing/duplikace, NSFW specifika), per-user watermarking pro odhalení úniků.
CAPTCHA a výzvy: kde mají smysl a kde škodí
- Progresivní výzvy: spouštějte až po dosažení rizikového skóre; nízké riziko = žádná výzva, střední = tichá výzva, vysoké = viditelná.
- Měňte typy: vizuální, audio, logické; rotace snižuje efektivitu farem.
- Limity: farmy lidí a CAPTCHA solving API výrazně snižují účinnost; výzvy jsou spíše „speed bump“.
Private Access Tokens a atestace zařízení
- Private Access Tokens (dříve Privacy Pass): odlehčují legitimním prohlížečům bez sledovacích cookies; jsou signálem „lidského“ klienta šetrným k soukromí.
- OS/Store atestace (Android Play Integrity, Apple DeviceCheck): zvyšuje náklady farem emulátorů; nevhodné pro „tvrdé“ blokace, spíše jako součást skóre.
Omezení rychlosti a spravedlivé kvóty: není vše „per IP“
- Per-journey limity: samostatné tokeny pro registraci, přihlášení, vyhledávání, prohlížení fotografií, posílání DM.
- Adaptivní throttling: zpřísnění limitů při anomáliích (výkyvy v čase, nová série ASN, náhlé nárazy na citlivých endpointech).
- Soft vs. hard fails: při soft limitu zobrazte méně výsledků nebo zpomalte odpověď (tarpitting), ne vždy 403.
Scraping: od prevence k atribuci a odrazování
- Staggered reveal: zobrazit menší náhled, plnou kvalitu až po akci uživatele (scroll, čas, interakce).
- Per-session watermarking: nenápadné pixely/šum nebo variace rozložení; při úniku identifikujete zdroj (s ohledem na soukromí a právní aspekty).
- Honeytokens: uměle vložené „návnady“ (falešné profily/URL) detekují a blokují scrapery.
- Zdvořilí vs. nedovolení scrapery: robots.txt chrání jen slušné; ochranu budujte na verifikovatelných signálech, ne na deklaracích.
Onboarding s nízkým třením a vysokými náklady na riziko
- Postupná verifikace: první kroky bez bariér, citlivé akce (DM s přílohou, hromadné zprávy) až při vyšších signálech důvěry.
- „Speed bumps“: zpoždění některých akcí nově vytvořeným účtem (rate limit podle stáří účtu).
- Ekonomické brzdy: levné, nikoli nulové poplatky za rizikové akce (např. mikropoplatek/kolaterál v interních kreditech), s ohledem na pravidla a dostupnost.
Detekce LLM-botů: více než jen „AI text“
- Konverzační vzory: extrémní konzistence stylu, nadprůměrně dlouhé odpovědi v noci, absence přestávek mezi řečí.
- Grafová analýza: vysoká propojenost nových účtů, opakované zprávy na specifické demografické skupiny.
- Semantické šablony: identické „hooky“ v první zprávě, sdílené větné struktury; deduplikace pomocí shinglingu/embeddingu.
- Human feedback loop: účinné nahlášení v uživatelském rozhraní, nízké tresty za falešná upozornění legitimních uživatelů.
Observabilita a reakce na incidenty
- Telemetrie na okraji: percentilové latence, chybovost podle ASN/Geo, anomální špičky per-endpoint.
- Playbooky: škálování výzev, dočasný strict mode, blokace na úrovni IP/ASN/User-Agent/JA3, rollback kritéria.
- Forenzní stopa: podepsané logy, minimální retence dle zásad soukromí, chain-of-custody při právních krocích.
Vyvažování soukromí a ochrany: co měřit a co ne
- Minimalizace dat: vyhněte se nadbytečným identifikátorům; fingerprinting a biometrie pouze pokud jsou nezbytné a odůvodněné.
- Transparentnost: dokumentujte, jaké signály používáte, proč a jak jsou aplikovány vůči uživatelům.
- Etické mantinely: bez „doxxingu zpět“, bez odhalování soukromých informací útočníků.
Anti-abuse pro DM, chat a média
- Rate limits a cooldown pro první DM, strojové učení na detekci vzorů „link-drop“.
- Skenování médií (hashing/NSFW/CSAM prevence), blokace známých škodlivých URL domén a zkracovačů.
- „Reply gating“: přísnější pravidla pro DM od nových účtů (např. pouze po reciprocitě nebo schválení).
Edge a CDN: posouvání obrany blíže k útočníkovi
- Edge pravidla: dynamické výzvy podle ASN/Geo/JA3 již na CDN; odlehčení serverů originu.
- Tokenizované assety: krátkodobé URL pro média, podepsané odkazy, per-session variace.
- Tarpitting: zpomalování podezřelých scraperů namísto okamžitého odmítnutí (zvyšuje jejich náklady).
Právní a provozní opatření (bez právního poradenství)
- Podmínky použití s výslovným zákazem scrapingu, automatizace a opětovného nahrávání; zjednodušené hlášení porušení.
- DMCA/notice-and-takedown a hash databáze pro rychlou reakci proti klonům obsahu.
- Due diligence u dodavatelů: pokud outsourcujete moderaci/analytiku, vyžadujte bezpečnostní standardy a minimální přístup k datům.
Měření úspěchu: technické i produktové KPI
| KPI | Definice | Cíl/Interpretace |
|---|---|---|
| Bot prevalence | % nových účtů označených a potvrzených jako bot | klesající trend při stabilní registraci legitimních uživatelů |
| Median time-to-ban | Čas od registrace do blokace | < 30 min pro masové spamery, < 24 h pro sofistikované |
| FPR/FNR | False positive/negative rate (míra falešných pozitiv/falešných negativů) | Balanc podle segmentu; FPR < 0,5 % u platících členů |
| Leakage rate | Odhad objemu exportovaných profilů/fotografií | Pokles po zavedení watermarkingu a tokenizovaných assetů |
| User friction | Počet výzev/CAPTCH na 100 relací | Stabilní nebo klesající při stejné úrovni bezpečnosti |
Provozní „playbook“: krok za krokem
- Mapujte útokové plochy (endpoints, assety, DM, vyhledávání) a přiřaďte rizikové skóre.
- Zavádějte škálovatelné limity (per-IP/ASN/účet/endpoint) a progresivní výzvy.
- Nasazujte signály (TLS/JA3, fingerprint, behaviorální metriky) do jednotného risk scorera.
- Automatizujte zásahy (tarpit, throttle, výzva, blokace, eskalace na člověka).
- Monitorujte a iterujte (A/B testování výzev, náklady útoku, dopad na konverzi legitimních uživatelů).
- Po incidentu: atribuce útočníka (ASN, návnady), aktualizace pravidel, právní kroky pokud je třeba.
Reálná očekávání pro stakeholdery
- Zero-bot je mýtus: procento botů nikdy neklesne na nulu; pokud drasticky klesne, často je to za cenu vysokého FPR.
- Scraping se nezastaví, jen zpomalí: cílem je snížit kvalitu a rychlost sběru a zlepšit atribuci úniků.
- Bezpečnost je produktová disciplína: úspěch se měří rovnováhou – ochrana, konverze, UX a soukromí.
- Nepřetržitá adaptace: útočníci kopírují obranu; plánujte rozpočet a cyklus změn.
Checklist minimální účinné obrany (MVP)
- WAF + adaptivní rate limiting per-endpoint a per-journey.
- Risk scoring z více signálů (IP/ASN, klient, chování, obsah).
- Progresivní výzvy (včetně Private Access Tokens, kde to je možné).
- Tokenizované assety + per-session watermarking pro citlivá média.
- Onboarding s „speed bumps“ a gating pro citlivé akce.
- Grafová a obsahová detekce pro DM s jednoduchým nahlášením v uživatelském rozhraní.
- Incident playbook, podepisované logy, metriky FPR/FNR