Diagnostika a řešení problémů v síti jako klíčová disciplína
Diagnostika a troubleshooting sítí představuje kombinaci systematického přístupu, hlubokého porozumění protokolům a pevně daných provozních procesů. V prostředích s routery a switchemi je cílem rychle identifikovat, izolovat a eliminovat příčinu incidentu tak, aby bylo minimalizováno porušení SLA a dopad na uživatele co nejmenší. Tento článek shrnuje ověřené postupy, nástroje, typické symptomy i rozhodovací stromy pro efektivní řešení problémů od fyzické vrstvy až po aplikační úroveň.
Metodika: od symptomu k příčině
- Definuj problém: kdo je dotčen, co přesně nefunguje, kdy to začalo, jak často se problém opakuje.
- Vymez rozsah: lokalita, VLAN, subnet, konkrétní trasa, aplikace; stanov, zda se jedná o degradaci (latence, jitter, ztráty paketů) nebo úplný výpadek.
- Hypotéza a měření: navrhni jednu či více hypotéz a pro každou stanov měřitelný test (latence mezi dvěma body, tabulky směrování, STP topologie, ARP sousedé).
- Izolace: využij binární hledání podél datového toku (klient → access switch → distribution → core → WAN → server).
- Náprava a verifikace: aplikuj opravu (konfigurace, restart služby, náhradní kabel), ihned ověř dopad a sleduj možné regresy.
- RCA a prevence: analýza příčiny problému (root cause analysis), postmortem, aktualizace runbooku a kontrolních seznamů.
Perspektiva OSI: strukturované hledání příčiny
- L1 – Fyzická vrstva: kabeláž, optika (útlum, výkon), typy SFP, duplex/rychlost, PoE, napájení, teplota.
- L2 – Linková vrstva: STP/RSTP/MSTP, VLAN, trunky, MAC tabulky, LACP, port-security, storm-control.
- L3 – Síťová vrstva: ARP/ND, směrování (statické, OSPF, BGP, EIGRP), VRF, PBR, filtrování ICMP, MTU/MSS.
- L4 – Transportní vrstva: TCP retransmise, windowing, řízení přetížení, ztráty UDP paketů.
- L7 – Aplikační vrstva: DNS, DHCP, HTTP(S), autentizace (RADIUS/TACACS+), proxy, certificate pinning, specifika aplikací.
Klíčové metriky: jak poznat, že je síť „zdravá“
- Dostupnost (SLA), latence (RTT), jitter, packet loss.
- Využití linek/CPU, obsazenost bufferů, počty odhozených paketů (tail drops, WRED).
- Chybovost na portech (CRC, runty/gianty, input/output errors, FCS), flapping události.
Diagnostické nástroje v praxi
- ping: dosažitelnost, RTT, ztráty; kombinuj s testem MTU pomocí DF flagu a velikosti payloadu.
- traceroute/mtr: sledování cesty paketů a lokalizace ztrát či latencí; dávej pozor na asymetrii a ICMP rate-limiting.
- arp/nd: mapování IP na MAC adresu, detekce konfliktů a nežádoucích zařízení.
- show interface / show logging: počítadla, duplex/rychlost, důvody err-disable, syslog události.
- show mac address-table / show fdb: detekce smyček, flooding, nesprávné segmentace.
- show spanning-tree: role root bridge, stav portů, změny topologie, nesprávné nastavení MST instancí.
- show ip route / show bgp / show ospf: dosažitelnost, preferované trasy, flapping, stavy sousedství.
- tcpdump/pcap na koncových zařízeních nebo pomocí SPAN/monitor portu pro detailní analýzu (Wireshark).
- SNMP/sFlow/NetFlow/IPFIX: dlouhodobé trendy, největší komunikující, anomálie, vzory DDoS útoků.
- Telemetry/Streaming: gNMI, model-driven telemetry pro nízkolatenční monitoring a alerting.
Fyzická vrstva: optika, měď a napájení
- Kabeláž: vizuální kontrola, testery (TDR), správné krimpování, délky a kategorie kabelů.
- Optika: kompatibilita SFP/SFP+, výkonový budget, DOM hodnoty (Tx/Rx), typ vlákna (SM/MM), konektory (LC/SC), čistota ferulí.
- Duplex/rychlost: mismatch způsobuje FCS/CRC chyby a pokles výkonu; preferuj autonegotiation v souladu s best practices.
- PoE: rozpočet na switchi, třídy zařízení, přepětí/podpětí, přehřátí; měř odběr a sleduj logy poe-controlleru.
- Napájení a prostředí: redundantní PSU, UPS, monitoring teploty, stav ventilátorů, prach, vibrace.
Linková vrstva: VLAN, STP a agregace
- VLAN/Trunky: ověř seznam povolených VLAN, native VLAN, tagging (802.1Q), konzistenci mezi switchemi.
- STP/RSTP/MSTP: správný výběr root bridge, BPDU guard/filter, loop guard; řešení změn topologie a nežádoucích smyček.
- LACP/port-channel: rychlost (fast/slow), výměna LACPDU, hashing (zdroj/cíl IP/MAC/port), nesoulad parametrů.
- Port-security a storm-control: prevence přetečení CAM tabulek a broadcast bouří; sleduj události err-disable.
Směrování: OSPF a BGP problémy
- OSPF: typy oblastí (backbone, stub, NSSA), shoda MTU, Hello/Dead timery, volba DR/BDR, flapping LSA, náklady (costy).
- BGP: stavy session (Idle → Established), dostupnost TCP 179, as-path/med/local-pref, filtrování tras, damping, časové výkyvy kvůli chybnému keepalive/holdtime.
- Asymetrie: PBR, více výstupů, NAT; kontroluj návratovou cestu a pravidla ACL/firewallu.
- VRF: oddělení routing tabulek, leakage, import/export route-targetů (v MPLS/VXLAN EVPN prostředí).
Adresace, ARP/ND a MTU
- ARP (IPv4) / ND (IPv6): zastaralé záznamy, ARP flux, gratuitous ARP; zvaž dynamické timeouty a kontrolu duplicitních adres.
- MTU/MSS: černé díry při zablokovaných ICMP zprávách; testuj pomocí DF a postupného zvyšování payloadu; nastav MSS clamping na WAN hranách.
- Subnetting a gateway: nesprávná maska, chybějící default route, více DHCP serverů ve stejné VLAN.
DNS a DHCP: malé služby, velké dopady
- DNS: rozlišení vs. dostupnost; měř rekurzi, TTL, NXDOMAIN, split-horizon, ověřování DNSSEC; sleduj latenci dotazů.
- DHCP: vyčerpání poolů, konflikty serverů, volby (router, DNS, MTU), relay (giaddr), rate-limitování DISCOVER bouří.
Bezpečnostní incidenty a ochranné mechanismy
- DDoS/volumetrie: NetFlow/sFlow pro detekci, RTBH, uRPF, policery a QoS shaping na hranicích sítě.
- L2 útoky: ARP spoofing (dynamic ARP inspection), rogue DHCP (DHCP snooping), BPDU útoky (BPDU guard), MAC flooding (port-security).
- Ochrana Control-Plane: CoPP/CPPr pro omezení managementu a routovacích protokolů; omez přístup pomocí ACL a management VRF.
- AAA: redundance RADIUS/TACACS+, fallback mechanismy, role-based přístupy a auditní logy.
QoS: když problém není výpadek, ale kvalita
- Klasifikace a značení (DSCP/CoS), policery, fronty (PQ, CBWFQ), LLQ pro real-time aplikace.
- Optimalizace bufferů: tail drop vs. AQM (WRED), shaping vs. policing; ověř mapování mezi L2 a L3 značkami.
- Konzistence end-to-end: politika musí být konzistentní přes všechny hopy; jinak dochází ke ztrátě priorit.
Wi-Fi a bezdrát: specifika diagnostiky
- RF prostředí: rušení, kanály, šířka pásma, SNR, prahy roamingu; měř spektrální analýzou a site-survey.
- Problémy klientů: ovladače, režimy power save, sticky klienti, podpora standardů (802.11k/v/r).
- Backhaul: CAPWAP tunely, MTU, kontrola datových a řídicích toků.
NAT a firewally
- State tables: vyčerpání zdrojů, timeouty, asymetrie; sleduj statistiky překladu a chybové stavy.
- Port forwarding a ALG: VoIP/SIP, FTP, hry; často vyžadují specifické výjimky.
- Pravidla ACL: shadowing, implicitní deny, pořadí pravidel, logování zásahů.
Rozhodovací strom pro rychlý troubleshooting
- Nefunguje ping na gateway? Zkontroluj fyzickou vrstvu (linku), VLAN tagging, ARP tabulku, err-disable stav, port-security.
- Ping na gateway funguje, ale dál ne? Zkontroluj směrování (default route, VRF), ACL na SVI, na WAN rozhraních MTU/MSS.
- Traceroute ukazuje skok s vysokou latencí nebo ztrátami? Ověř vytížení, dropy v queue, policery, zatížení CPU na konkrétním hopu.
- ICMP funguje, ale aplikace ne? Ověř DNS rozlišení, TCP retransmise (analýza pcap), firewallové politiky, problémy s TLS/certy.
Logování, telemetrie a observabilita
- Syslog centralizovaný s korelací časů (NTP), strukturované parsování (CEF/JSON), alerty na vzorcích.
- SNMP polling a traps na portové změny, teploty, PSU; NetFlow/IPFIX pro forensic analýzu provozu.
- Modelově řízená telemetrie (gNMI/gRPC) pro near-real-time metriky s nižším overheadem než SNMP.
Čas a synchronizace: nenápadný zdroj problémů
- NTP/PTP: časový drift mezi zařízeními narušuje korelaci logů a bezpečnostní mechanismy; ověřuj stratum a dostupnost serverů.
- Časová pásma a DST: nekonzistence v reportech a SLA měření; vyžaduj UTC pro logování, lokální čas pouze pro prezentaci.
Automatizace a bezpečná změna konfigurací
- Řízení změn: plán okna, plán návratu, peer review, schválení, měřitelné akceptační testy.
- Správa konfigurací: verze, diff, golden config, šablony; zálohy před každou změnou.
- Automatizace: deklarativní nástroje (Ansible, Nornir, Terraform pro sítě), „dry-run“ a zdravotní kontroly zařízení po aplikaci změn.
Postmortem, RCA a znalostní báze
- RCA: metoda 5 Why, Ishikawa; shromáždi důkazy (pcap, logy, výstupy příkazů, diagramy datové cesty).
- Akční položky: prevence opakování (monitoring pravidel, validace konfigurací, aktualizace runbooků).
- Runbooky: krok za krokem návody pro opakované incidenty (např. „BGP session down“, „VLAN leak“).
Checklist: rychlé ověření při incidentu
- Synchronizace času (NTP) a konzistence časových razítek v logách.
- Stav portu, čítače chyb, duplex/rychlost, stav PoE.
- Členství ve VLAN, seznam povolených trunk VLAN, stav STP a root bridge.
- Tabulky ARP/ND, default gateway, směrovací tabulka a sousedství (OSPF/BGP).
- Test MTU/MSS, dostupnost ICMP, anomálie v traceroute.
- ACL a firewall logy, NAT překlady, kapacita state tabulek.
- Funkčnost DNS/DHCP, vyčerpání poolů, latence dotazů.
- Využití linek a CPU, odhozené pakety, fronty QoS.