Přistání bezpilotních letadel
Přistání bezpilotních letadel (UAV) na pohybující se platformy – od dopravních pásů přes paluby lodí až po mobilní roboty – představuje komplexní úlohu na pomezí percepce, predikce a řízení. Učení posilováním (Reinforcement Learning, RL) nabízí slibnou alternativu k explicitnímu návrhu regulátorů, protože dokáže optimalizovat rozhodování v prostředí s neúplnou informací, stochastickým větrem a nelineárními omezeními akčních členů. Cílem je spolehlivé a energeticky efektivní dosednutí při minimalizaci přetížení, doby manévru a rizika odtržení kontaktu po dotyku (touchdown & securing).
Formální vymezení úlohy a model prostředí
Úlohu modelujeme jako (částečně) pozorovatelný Markovův rozhodovací proces (POMDP) s komponentami (S, A, T, R, O, γ):
- Stavy S: poloha a rychlost UAV v souřadném systému platformy, orientace (Eulerovy úhly/kvaterniony), stav větru, odhad polohy a rychlosti platformy, stav baterie a teplot, indikátory saturace akčních členů.
- Akce A: příkazy tahu motorů, respektive reference thrust/roll/pitch/yaw-rate nebo $u=[T, omega_x, omega_y, omega_z]$.
- Přechod T: nelineární dynamika UAV + kontaktní model při dosednutí; platforma se pohybuje podle deterministického (např. sinusoida) nebo stochastického procesu (náhodná procházka, moře).
- Odměny R: kombinace dosažení cíle (přistání v toleranci), penalizace vzdálenosti a relativní rychlosti, penalizace ovládání a přetížení, plus sparse terminální odměna za stabilní ukotvení.
- Pozorování O: multisenzorová fúze: vizuální marker/feature tracking, LiDAR výška, GNSS/INS, UWB; zahrnuje i nejistoty a výpadky.
- Diskont γ: volen podle kompromisu mezi rychlostí dosednutí a bezpečností.
Prostor stavů a akcí, bezpečnostní omezení
Je přirozené definovat stav v relativním rámci platformy: $x_r, y_r, z_r, v_r, dot{psi}_r$, šikmý vítr a odhad tření při kontaktu. Akční prostor je vhodné ohraničit fyzikálními omezeními: $T in [T_{min}, T_{max}]$, rychlosti náklonů s limity slew-rate. Bezpečnostní omezení implementujeme jako tvrdé limity (výška < hmax, náklon < θmax, vzdálenost od zóny osob > dsafe) a jako penalizace v odměnách. Pro safe RL je užitečná formulace CMDP s Lagrangeovou relaxační složkou pro porušení.
Percepce cíle a odhad stavu
Kritická je robustní lokalizace platformy v reálném čase:
- Vizuální metody: ArUco/AprilTag markery pro prototypy; pro produkční nasazení pak semantická detekce hran plošiny, optický tok, stereo/monokulární SLAM s adaptivní expozicí a HDR.
- Range senzory: LiDAR/ToF pro metricky spolehlivé výšky a sklon hran; radar pro nepříznivé počasí.
- Fúze a predikce: UKF/MHE s exteroceptivními měřeními a autoregresivními modely pohybu platformy (např. constant acceleration + wave spectra).
- Kompenzace latence: časová synchronizace a backward-forward predikce pro vyrovnání zpoždění kamery a autopilota.
Konstrukce odměny a tvarování (reward shaping)
Odměna by měla vést k bezpečnému a hladkému přistání bez lokálních optim:
- Blízkost cíle: $r_d = -alpha |p_r|_2 – beta |v_r|_2$ s Huber ztrátou pro robustnost.
- Orientace/vertikalita: penalizace velkých náklonů a yaw chyby vzhledem ke směru pohybu plošiny.
- Energie a hladkost: $r_u = -lambda |Delta u|_2$ pro redukci oscilací.
- Kontakt a stabilizace: terminální odměna za dotyk v toleranci + bonusy za udržení > thold bez překročení limitů.
- Bezpečnostní sankce: tvrdé tresty za překročení no-go zón, převrácení, saturaci delší než tsat.
Algoritmy RL: výběr a porovnání
Kontinuální akční prostor upřednostňuje off-policy metody se stabilní konvergencí:
- DDPG/TD3: vhodné pro jemné řízení; TD3 snižuje chyby ocenění pomocí dvojitého kritika a target policy smoothing.
- SAC: maximalizace entropie zlepšuje průzkum a robustnost, často dosahuje rychlejší a stabilnější konvergenci.
- PPO: silná on-policy volba, zejména s rekurentními sítěmi (LSTM/GRU) pro POMDP; vyžaduje více vzorků.
- Model-based RL (MBPO/MPC-RL): naučený dynamický model + krátkodobý plánovač (NMPC) pro přímou penalizaci porušení a lepší sim2real přenos.
- Hierarchické RL: vysoká vrstva pro approach & align, nízká pro final descent & contact.
Kurikulární trénink a doménová randomizace
Řešení slabého průzkumu v komplexním prostoru pomocí postupného zvyšování náročnosti:
- Curriculum: začít se stacionární plošinou, poté nízké rychlosti a periodické pohyby, přidat náhodná boční zrychlení, vlny, výpadky senzorů.
- Domain Randomization: variace hmotnosti, koeficientů tahu, zpoždění, šumu; textury, osvětlení a povětrnostní efekty pro vizuální sítě.
- Automatic Domain Progression: adaptivní navyšování variance parametrů podle výkonu agenta.
Učení z demonstrací a offline RL
Překlenutí sparse reward a urychlení tréninku:
- Behavior Cloning (BC): inicializace politiky z expertní teleoperace nebo z MPC trajektorií.
- DAgger: iterativní doplňování dat od experta tam, kde politika selhává.
- Offline RL (CQL/IQL): využití rozsáhlých záznamů reálných pokusů bez rizikového online explorace; důležitý je rozsah stavů blízkých kritickým zónám.
Simulátor, kontaktní fyzika a validace
Věrnost kontaktu je klíčová pro bezpečný přenos do reality:
- Kontaktní modely: pružně-plastické modely s Coulombovým třením pro nožičky/přistávací hák, model odskoku a tlumení.
- Fluidní poruchy: stochastické spektra větru, interakce rotorového downwash s platformou a zemí (ground effect).
- Validace simulátoru: porovnání s měřeními ze zkušebních dosednutí (zrychlení, kontaktní síla, skluz po dotyku).
Sim2Real: přenos politiky do praxe
Strategie snižování rozdílů mezi simulací a realitou:
- Randomizace + system identification: pre-flight identifikace parametrů a residual learning pro doladění politiky.
- Modelování senzorů a akčních členů: kvantizace PWM, saturace proudů ESC, latence kamery a IMU.
- Shielding a supervisory kontroléry: formálně ověřený bezpečnostní filtr (control barrier functions, reachability) zabraňuje vstupu do zakázaných stavů.
- Hybridní řízení: RL politika generuje reference, nízkoúrovňový INDI/NMPC stabilizuje a zajišťuje dodržení limitů.
Bezpečnost a formální záruky
RL politika musí být obalena mechanismy s prokazatelným chováním:
- Constrained RL: CMDP s Lagrange multiplikátory, alternativně Lyapunov-based odměny.
- Barrier Functions: on-line řešení QP, které minimálně upraví akce RL pro zachování bezpečnostních invariantů.
- Reachability Analysis: pre-check manévru v krátkém horizontu; v případě rizika porušení se politika nouzově přepne.
- Fail-safe režimy: odskok a druhý pokus, go-around, nebo návrat do loiter s rekalibrací odhadu platformy.
Multiagentní scénáře a roje
Při flotile UAV nebo více mobilních cílech je nutná koordinace:
- Decentralizované MARL: centralized training, decentralized execution (CTDE) s kritikem využívajícím globální informace.
- Konfliktní omezení: vyhýbání se kolizím nad platformou, rozdělení časových slotů, komunikační omezení a výpadky.
- Sdílení učení: federované RL mezi stavbami/plavidly s odlišnými podmínkami, ochrana citlivých dat.
Integrace s autopilotem a architektura softwaru
Praktická integrace vyžaduje jasná rozhraní:
- Vrstva vložení politiky: ROS 2 uzel publikující na tématech setpoint_raw s garantovanou frekvencí a watchdog mechanismem.
- Prioritizace řízení: během finální fáze přistání se potlačuje autonomní navigace a aktivuje se landing mode s vyššími váhami pro z-vis.
- Telemetrie a záznam: vysokofrekvenční log (IMU, vizuální počet feature, latence, rozhodnutí politiky) pro následnou diagnostiku a zlepšování.
Metodika hodnocení a metriky
Objektivní porovnání politik je zásadní:
- Míra úspěšnosti: podíl bezpečných přistání v tolerancích polohy a orientace.
- Přesnost a komfort: RMS laterální chyby při dotyku, maximální přetížení, varování spouštění anti-bounce kontrol.
- Čas a energie: doba trvání manévru, spotřeba energie, počet korekčních manévrů.
- Robustnost: degradace výkonu při výpadcích senzorů, náhlých poryvech a změnách povrchu plošiny.
- Ablace: vliv jednotlivých složek odměny, randomizací a architektur percepce.
Případová studie: přistání na palubě plavidla
Scénář: kvadrokoptéra přistává na 1,5×1,5 m plošině plavidla s bočním zrychlením až do 0,3 g a náhodným kýváním (roll/pitch ±6°). Politika SAC je trénována s curriculum od stacionární paluby po plné spektrum vln, s doménovou randomizací hmotnosti ±15 % a odhadovaným zpožděním kamery 60–120 ms. Bezpečnostní shield s CBF garantuje výšku > 0,5 m při laterální chybě > 0,8 m a limituje náklon na 20°. V terénních testech je dosaženo 92 % míry úspěšných přistání, medián laterální chyby 12 cm a maximální vertikální přetížení 1,8 g, přičemž při sea state > 3 politika automaticky volí go-around.
Hardwarové aspekty: podvozek a zajištění kontaktu
Úspěšné přistání nekončí dotykem. Mechanická řešení (magnetické/aktivní uchycení, hák s vodicími hranami, pasivní tlumení) výrazně rozšiřují pracovní oblast. RL politika může jako součást akcí ovládat stav zámku (lock/unlock) a výšku dotyku s ohledem na citlivost spouštěče.
Provozní a regulační aspekty
Přistání na pohybující se platformy často probíhají v náročných prostorech a v blízkosti osob. Nezbytné jsou SOP, geofencing, detekce osob v bezpečnostním perimetru, lost-link postupy a logování pro audit. Pro kritické mise je vhodné formálně posoudit riziko (FMEA/FTA) a zavést dvoukanálový dohled nad politikou (runtime assurance).
Best practices pro implementaci
- Začněte s hierarchií: plánování přiblížení (MPC) + RL pro finální dosednutí.
- Investujte do dat: kvalitní anotace kontaktů a selhání, vyvážené scénáře, hard negative mining.
- Vyvíjejte robustní percepci: redundantní senzory, vizuální i range kanály.
- Trénujte s sim2real v mysli: randomizace, verifikace fyziky, residual adapters v terénu.
- Bezpečnostní mechanismy vždy implementujte jako vrstvy nad