Návrh mikroservisní architektury infrastruktury

Cíle a rozhodovací rámec

Mikroservisní infrastruktura poskytuje nezávisle nasaditelné, škálovatelné a doménově orientované služby propojené přes síť. Cílem je urychlit změny, zvýšit odolnost a umožnit autonomii týmů. Než začnete, definujte: obchodní cíle, nefunkční požadavky (SLO, latence, dostupnost, náklady), regulatorní omezení a rozpočtová/kompetenční rizika. Mikroservisy nejsou dogma – zvažte je tam, kde monolit naráží na limity organizace, doménové složitosti či škálování.

Doménové vymezení a hranice služeb

  • Domain-Driven Design (DDD): identifikujte bounded contexts a mapujte je na služby. Jedna služba = jedna jasná business capability.
  • Koheznost a coupling: maximalizujte vnitřní soudržnost (cohesion), minimalizujte mezi-službové vazby. Vyhněte se entity services bez jasné logiky.
  • Granularita: příliš jemné služby zvyšují latenci a provozní zátěž; začněte hrubšími hranicemi a jen poté případně štěpte.
  • Vlastnictví dat: každá služba vlastní svůj datový model a úložiště; žádné sdílené databázové schéma napříč službami.

Komunikační vzory: synchronní vs. asynchronní

  • Synchronní API (REST/gRPC): jednoduché dotaz-odpověď, vhodné pro čtení a krátké operace. Dávejte pozor na řetězení volání a n+1 závislosti.
  • Asynchronní messaging (eventy, fronty, streamy): Kafka/Pulsar/RabbitMQ pro volné vazby, škálování a odolnost. Umožňuje event-driven integraci a choreografii.
  • Orchestrace vs. choreografie: složité workflow řešte buď centrálním orchestrátorem (Camunda/Temporal) nebo distribuovanou choreografií (sagy skrze eventy). Volba závisí na auditovatelnosti a složitosti kompenzací.

API návrh, verze a kontrakty

  • Kontrakt-first: OpenAPI/AsyncAPI/Protobuf jako zdroj pravdy, generování klientů a stubů.
  • Verzování: v1/v2 nebo schémata v hlavičkách; u eventů verzujte schema registry (např. Avro/JSON Schema) a preferujte kompatibilní změny.
  • Stabilita kontraktů: přidávání polí je obvykle kompatibilní; odstraňování nebo změna typu vyžaduje novou verzi.
  • API Gateway: centralizuje autentizaci, throttling, agregaci, canary směrování a backends for frontends (BFF).

Data, konzistence a transakce

  • Polyglot persistence: volba úložiště podle charakteru domény (relační/NoSQL/time-series/search).
  • Eventual consistency: akceptujte, že ne vše je silně konzistentní. Publikujte domain events po potvrzení lokální transakce.
  • Sagy: distribuované transakce řešte pomocí kompenzačních akcí. Každý krok musí být idempotentní a opakovatelný.
  • Outbox pattern: zapisujte event do tabulky outbox a spolehlivě přenášejte do brokera (transakční outbox + CDC).

Odolnost a řízení chyb

  • Idempotence a at-least-once doručení: používejte idempotentní klíče a deduplikaci na straně spotřebitele.
  • Time-outy, retry s backoffem a jitterem: nastavte rozumné limity; rozlišujte retriable a non-retriable chyby.
  • Circuit breaker a bulkhead: izolujte zdroje; zabraňte kaskádovým selháním.
  • Rate limiting a backpressure: chraňte upstream služby a udržujte stabilitu během špiček.

Bezpečnost a řízení přístupu

  • Identita a federace: OIDC/OAuth 2.1 pro uživatele; SPIFFE/SPIRE/SVID pro identitu služeb a mTLS.
  • Autorizace: RBAC/ABAC nebo centrální policy engine (OPA) s policy-as-code.
  • Šifrování: TLS 1.3 v síti, šifrování dat v klidu; rotace klíčů v KMS/HSM, tajemství mimo image (Secrets).
  • Zero trust: explicitní povolení komunikace (network policies), žádná implicitní důvěra uvnitř clusteru.

Service Mesh a síťová vrstva

  • Service discovery a load balancing: DNS/Envoy/Consul. Objevování endpointů a L7 směrování s observabilitou.
  • Service mesh (Istio/Linkerd): jednotné mTLS, traffic shaping (canary, mirroring), retries, timeouts, circuit breaking bez zásahů do kódu.
  • Network policies: segmentace komunikace mezi jmennými prostory a službami.

Observabilita: logy, metriky a trasování

  • Metriky: RED (Rate, Errors, Duration) pro API, USE (Utilization, Saturation, Errors) pro infrastrukturu. Export do Promethea; SLO/SLI definované na úrovni domén.
  • Distribuované trasování: OpenTelemetry → backend (Jaeger/Tempo/Zipkin); korelační ID propisujte mezi službami.
  • Logy: strukturovaný JSON, jednotné pole traceId/spanId, zákaz citlivých dat; centralizace (ELK/Vector/Fluent Bit).
  • Alerting: na porušení SLO (error budget), nikoli na šum. Runbooky a auto-remediation.

CI/CD a řízení releasů

  • Pipelines: lint → jednotkové/integrace → kontraktové testy → build image → SCA/skenování → podpis → deployment.
  • Strategie: blue/green, canary, progressive delivery (Argo Rollouts/Flagger). Feature flags pro řízenou aktivaci funkcí.
  • Prostředí: dev/test/stage/prod, izolace tajemství a konfigurací; GitOps (Argo CD/Flux) jako jediný zdroj pravdy.

Platforma: kontejnery, orchestrace a runtime

  • Kubernetes jako standardní orchestrátor: Deployment/StatefulSet, Services, Ingress/Gateway API, HPA/VPA, PodDisruptionBudget.
  • Konfigurace a tajemství: ConfigMap/Secrets, šifrování v klidu, sealed secrets; hierarchická konfigurace podle prostředí.
  • Zdrojové limity: requests/limits, QoS třídy; šetřete CPU/ram pro JIT jazyky (warmup, jemné GC).
  • Persistentní data: CSI drivery, zálohovací operátory; pro DB zvažte spravované služby (RDS/CloudSQL) vs. vlastní operátory (postgres-operator).

Správa schémat a verzí dat

  • Schema registry: kontrola kompatibility (backward/forward).
  • Migrace databází: migrátory (Flyway/Liquibase) s expand/contract strategií.
  • Event sourcing & CQRS: pro složitá doménová pravidla a auditovatelnost; počítejte s náklady na projekce a přehrávání (replay).

Testování v mikroservisním světě

  • Contract testing: spotřebitel vs. poskytovatel (Pact), brání rozbití integrace.
  • Testcontainers: integrační testy proti reálným závislostem v kontejnerech.
  • Chaos engineering: simulace výpadků uzlů, zpoždění, ztráty paketů; ověřte odolnost proti částečným poruchám.
  • Load a kapacita: sledujte p95/p99 latenci, saturaci vláken, fronty a backpressure.

Edge vrstva a caching

  • API Gateway / Ingress: autentizace, WAF, rate-limiting, transformace požadavků/odpovědí, geo a canary routing.
  • Cache: CDN/edge cache pro statický obsah; aplikační cache (Redis) pro hot path; invalidace řízená eventy.
  • Content negotiation a komprese: Gzip/Brotli na edge; preferujte HTTP/2/3.

Monitoring nákladů a efektivity

  • Cost observability: přiřazujte náklady na služby (labels/annotations), sledujte cost per request/tenant.
  • Optimalizace: right-sizing podů, autoscaling podle metrik domény (front depth), vypínání nevyužitých prostředí.

Více tenantů a izolace

  • Model multi-tenancy: shared-nothing (izolované instance), shared-with-guards (tenant ID v datech + row-level security) nebo hybridní model.
  • Izolace rizik: rate-limit per tenant, limity kvót, oddělené fronty/partitions pro prioritizaci.

Compliance, audit a správa dat

  • Audit logy: kdo/co/kdy, neměnitelné úložiště (WORM); korelace s trasami.
  • Privacy-by-design: minimalizace dat, šifrování, data retention, mazání na žádost (GDPR/ekvivalenty).
  • SBOM a supply-chain: podpisy imagí (cosign), skenování zranitelností (Trivy), politiky nasazení (OPA/Gatekeeper).

Organizační model a provoz

  • „You build it, you run it“: tým vlastní službu end-to-end (kód, infrastrukturu, alerty, náklady).
  • Platform engineering: poskytuje samoobslužné zlaté cesty (CI/CD šablony, observabilitu, runtime) a katalog služeb.
  • Runbooky a SRE: definujte SLO, error budget policy, incident response, postmortemy bez obviňování.

Checklist návrhu mikroservisní infrastruktury

  • Jasně definované bounded contexts a vlastnictví dat každé služby.
  • Kontrakt-first API, verzování a schema registry pro eventy.
  • Asynchronní integrace pro cross-doménové toky, outbox + sagy.
  • Idempotence, retry/backoff, circuit breaker, rate-limit.
  • mTLS, OIDC, centralizovaná autorizace, správa tajemství v KMS.
  • Observabilita: metriky RED/USE, trace, strukturované logy, SLO/SLI.
  • Kubernetes s GitOps, limity/requests, PDB, autoscaling.
  • CI/CD s canary/blue-green, podpis imagí, SCA/DAST v pipeline.
  • Edge: API Gateway, WAF, caching, traffic shaping.
  • Compliance: audit logy, retention, SBOM, politiky nasazení.

Závěr

Návrh mikroservisní infrastruktury představuje kombinaci správně vymezených domén, robustních integračních vzorů, bezpečné a observovatelné platformy a disciplinovaných týmových praktik. Úspěch spočívá v koherentních hranicích, asynchronní komunikaci, automatizovaném a bezpečném provozu a měřitelných cílech spolehlivosti. Začněte jednoduchými hranicemi, investujte do platformy a observability a evolučně iterujte podle skutečných potřeb domény a uživatelů.