SLAM v dynamických scénách: Zvýšení odolnosti vůči pohybujícím se objektům

Proč je SLAM v dynamických scénách náročný

SLAM (Simultaneous Localization and Mapping) předpokládá, že většina prostředí je statická. V reálných misích dronů však dochází k porušení tohoto předpokladu: lidé, vozidla, zvířata, větrem hýbané stromy či jiní roboti vytvářejí pohybující se objekty, které mohou degradovat odhady polohy i mapy. Dynamika se promítá do falešných korespondencí prvků (feature correspondences), chybně identifikovaných sluček (loop closures) a do driftu v odometrii. Cílem odolného SLAMu je proto detekovat, modelovat a potlačovat vliv pohybujících se objektů, přičemž si zachovává přesnost a real-time chod.

Typy dynamiky a jejich dopad na odhad

  • Plně dynamické objekty: nesdílejí trajektorii se scénou (auta, chodci). Způsobují odlehlá měření v geometrii.
  • Pseudo-dynamické elementy: periodicky se pohybují (listy, vlajky). Indukují vysokofrekvenční šum v obrazových i lidarových datech.
  • Dočasné překážky v blízkosti senzoru: přelet ptáků, kapky vody na optice. Mohou způsobit ztrátu trackingu a lokální saturace.
  • Změny scény v čase: parkoviště v různých hodinách, přesun nábytku v interiéru. Snižují spolehlivost sluček a mapové konzistence.

Senzorové modality a jejich robustnost vůči dynamice

  • Monokulární kamera: nízké náklady a hmotnost, ale vysoká citlivost na pohybující se textury a změny osvětlení.
  • Stereo/multikamerové systémy: přímý odhad hloubky pomáhá oddělit blízké rychle se pohybující objekty od vzdáleného „statického“ pozadí.
  • RGB-D (Time-of-Flight/Structured Light): vhodné v interiéru; venku trpí dosahem a sluncem.
  • 2D/3D lidar: geometricky přesný a méně náchylný na vizuální klamy; v davu však vrací mnoho „živých“ odrazů.
  • Radar: robustní vůči počasí, dokáže měřit dopplerovskou rychlost objektů a pomoci při detekci dynamiky.
  • IMU: krátkodobá stabilizace odhadu pohybu dronu; klíčová pro filtrování parazitních vizuálních pohybů.

Architektury: VIO, Lidar SLAM, multisenzorová fúze

Odolnost vůči dynamice se dosahuje výběrem architektury, která kombinuje komplementární senzory a explicitně modeluje odlehlá měření.

  • VIO (Visual-Inertial Odometry): IMU stabilizuje krátkodobý odhad, vizuální prvky poskytují observabilitu měřítka a orientace.
  • Lidar-inerciální SLAM: robustní v šeru nebo proti slunci; dynamiku potlačuje scan-to-map registrace s odhadem pohyblivých bodů.
  • Tří-senzorové fúze (kamera + lidar + IMU): lidar poskytuje geometrii, kamera sémantiku a IMU kontinuitu – kombinace je mimořádně odolná.

Geometrické strategie: odlehlá měření a robustní náklady

  • RANSAC a jeho varianty: robustní epipolární/triangulační geometrie s vysokým inlier thresholdem pro krátké okno.
  • Robustní ztráty: Huber, Cauchy nebo Tukey v optimalizaci grafu zabraňují dominanci nesprávných vazeb.
  • Vícenásobné hypotézy: udržování více kandidátních asociačních grafů a zpětný výběr podle konsenzu (multi-hypothesis data association).
  • Konzistence v čase: penalizace přechodných korespondencí a zvýhodnění déle trvajících tracků.

Segmentace pohybujících se objektů: bez a se sémantikou

  • Bezsemantická (geometrická) detekce: paralaxa a odhad vlastního pohybu; body/feature s reziduem mimo model kamery/lidaru jsou označeny jako dynamické.
  • Optický tok s odhadem egomotion: srovnání predikovaného a naměřeného toku; velké odchylky indikují nezávislý pohyb objektu.
  • Sémantická segmentace (DNN): masky pro třídy „člověk“, „auto“, „zvířata“; při akcelerované inferenci (GPU/NPU) umožňuje rychlé maskování.
  • Fúze sémantiky a geometrie: sémantika slouží jako priorita (pravděpodobnost dynamiky), geometrie jako důkaz; výsledkem je pravděpodobnostní maska.

Mapování s dynamikou: od masek po multi-layer mapy

  • Maskování měření: dynamické pixely/odometry se neinjektují do mapy ani do sluček.
  • Vícevrstvé mapy: oddělení „statické“ části mapy od „krátkodobě obsazené“ (např. Dynamic Occupancy Grid – DOGMa).
  • Mapy s časovým rozpadem (decay): pravděpodobnost obsazení klesá, pokud není delší dobu potvrzena.
  • Sémantické mapy: ukládání tříd a jejich pravděpodobností umožňuje adaptivní plánování tras (vyhýbání se davům).

Odhad pohybu objektů a koexistence se SLAM

Aby SLAM neignoroval pohybující se entity pouze jako „šum“, vyplatí se paralelně provozovat MODT (Multi-Object Detection and Tracking):

  • Detekce: 2D/3D bounding boxy z kamery/lidaru.
  • Asociace v čase: Kalman/UKF nebo JPDA/GM-PHD filtrování pro sledování více cílů.
  • Odhad rychlosti: změny polohy v mapovém rámci; radar přímo poskytuje doppler.
  • Vliv na plánování: predikce trajektorií cílů (konstantní rychlost, sociální síly) a generování bezpečných trajektorií dronu.

Loop closure a place recognition v měnících se scénách

  • Geometrické podpisy nezávislé na objektech: hranové a rohove prvky na fasádách, statická infrastruktura.
  • Sémantická filtrace kandidátů: ignorování oblastí s vysokou dynamikou (silnice, chodníky) při porovnávání obrazových slovníků.
  • Časově podmíněné smyčky: zvýhodnění míst, která se v podobném čase dne nemění (osvětlení, parkovací vzory).
  • Verifikace vícenásobnými modalitami: smyčku je třeba potvrdit minimálně dvěma nezávislými signály (vizuál + lidar, vizuál + magnetický podpis).

Optimalizační rámce: filtry vs. grafová optimalizace

  • Filtrační přístupy (EKF/UKF/MSCKF): vhodné pro nízkou latenci; dynamiku řeší přes robustní inovační testy a gating.
  • Grafové metody (Bundle Adjustment/pose graph): vyšší přesnost, možnost relinearizace a retroaktivních úprav; dynamiku potlačují robustními náklady a uvedenými maskami.
  • Faktorové grafy s switchable constraints: faktory „zapínatelné“ podle konzistence – pokud se vazba ukáže dynamická, její váha klesne k nule.

Výpočetní nároky a real-time implementace na dronech

  • Pipeline s pevnou latencí: priorita pro IMU integraci a odhady pozice, segmentace a mapování v paralelních vláknech.
  • Akcelerace: GPU pro dense optical flow/sémantiku, DSP/NPU pro inferenci, ukládání mapy v komprimované formě (voxel hashing, submapy).
  • Řízení rozpočtu: adaptivní řídění počtu prvků, subsampling lidar bodů, dynamická délka časového okna podle rychlosti scény.

Kalibrace a synchronizace v dynamickém světě

  • Časová synchronizace: hardwarové PPS/trigger pro kamery a IMU minimalizuje „rolling“ chyby při rychlých pohybech.
  • Extrinzická kalibrace multisenzorů: pravidelné ověřování (hand-eye) – malé posuny mění rozdělení reziduí a záměňují se za dynamiku.
  • Autokalibrační faktory: udržovat malé, ale sledovatelné; jinak mohou absorbovat dynamiku scény a narušit observabilitu.

Metodika testování a metriky kvality

Metrika Popis Poznámka k dynamice
ATE (Absolute Trajectory Error) Globální odchylka trajektorie Důležitá při slučkách a rekonfiguraci mapy
RPE (Relative Pose Error) Lokální odchylka mezi po sobě jdoucími pozicemi Citlivá na krátkodobé selhání při dynamice
Precision/Recall dynamických masek Kvalita segmentace pohybu Trade-off: příliš přísné masky snižují pokrytí mapy
Latency End-to-end prodleva od senzoru po pozici Kritické při autonomním vyhýbání se pohybu

Bezpečnost, robustnost a „fail-operational“ chování

  • Režim degradace: při ztrátě vizuálu nebo příliš dynamické scéně přejít na IMU+barometr+GNSS (pokud dostupné) a omezit manévry.
  • Detekce anomálií: monitorovat růst chyby inovací a grafových reziduí; spustit safe-RTL (Return-To-Launch) při překročení prahu.
  • Redundantní cesty: alternativní odhad (např. lidar-ICP) běží s nízkou frekvencí jako záloha.

Praktické návrhové vzory pro drony

  • Mask-before-match: ještě před výpočtem features/ICP vytvořit masku dynamiky (sémantika/geometrie) a pracovat pouze se statickými body.
  • Submapování: udržovat lokální submapy s vlastním časem a váhami; dynamika „vyprchá“ při fúzi s downweightingem.
  • Priority podle vzdálenosti: preferovat vzdálenější struktury (budovy, stěny), které mají nižší pravděpodobnost nezávislého pohybu.
  • Sémantické kotvy sluček: robustní, stabilní objekty (roh budovy, stožáry) s vyšší váhou při uzavírání sluček.

Specifika exteriéru a interiéru

  • Exteriér: rychle se měnící osvětlení a vítr; vhodná je kombinace vizuál + lidar + IMU, radar pro déšť/mlhu.
  • Interiér: GPS-denied; důležitá je vizuální odometrie s dobrým osvětlením a potlačením pohybujících se lidí (sémantika), případně UWB majáky pro stabilitu.

Provozní doporučení a údržba

  • Čistota optiky a krytů: kapky a prach často „simulují“ dynamiku; pravidelně čistit a kontrolovat krycí skla.
  • Kalibrace v terénu: krátký rituál (IMU warm-up, vizuální šachovnice nebo lidar targety) snižuje falešná odlehlá měření.
  • Proaktivní ladění prahů: prahy pro masky a robustní funkce adaptovat podle statistik ze záznamů posledních misí.

Checklist implementace odolného SLAMu

  • Je pipeline rozdělená na rychlý odhad pozice (IMU-first) a pomalejší mapování/segmentaci?
  • Běžně probíhá geometrická i sémantická detekce dynamiky a jejich výsledky se pravděpodobnostně fúzují?
  • Má optimalizační graf robustní ztráty a mechanismus switchable constraints?
  • Jsou kandidáti loop-closure ověřeni nezávislou modalitou?
  • Existuje fallback režim a prahy pro bezpečné přerušení mise?
  • Je zajištěna časová synchronizace a pravidelná extrinzická rekalibrace?

Od „statického“ SLAMu k situacím řízenému vnímání

Odolný SLAM v dynamických scénách vyžaduje změnu paradigmatu: místo slepého předpokladu statického světa je nutné aktivně oddělovat statické od dynamického, a to na úrovni senzorů, modelů i optimalizace. Kombinace IMU stabilizace, geometrického a sémantického maskování, multisenzorové fúze a robustních optimalizačních technik vede ke spolehlivé lokalizaci a mapování, které drží přesnost i v davu lidí, v provozu či v nepředvídatelných exteriérech. Takto navržený systém poskytne dronům bezpečnou autonomii a spolehlivé vnímání pro pokročilé navigační úkoly.