Engineering

SRE (Site Reliability Engineering): Grundlagen, SLO, SLI und Error Budgets

Site Reliability Engineering erklärt: SLI, SLO, SLA, Error Budgets, Toil Reduction und SRE-Praktiken nach Google.

C
CFTools Software
Autor
7. Oktober 2025
5 min Lesezeit

Site Reliability Engineering (SRE)

Definition

SRE ist, was passiert, wenn man einen Software-Ingenieur bittet, ein Operations-Team zu designen. (Google)

Kernprinzipien

  1. Embrace Risk: Akzeptierte Fehlerrate
  2. Service Level Objectives: Messbare Ziele
  3. Eliminate Toil: Automatisierung
  4. Monitoring: Data-driven Decisions
  5. Release Engineering: Sichere Deployments
  6. Simplicity: Komplexität reduzieren

SLI, SLO, SLA

SLI (Service Level Indicator)

  • Messbare Metrik
  • Quantitative Erfassung
  • Beispiele:
    • Request Latency (p99)
    • Error Rate
    • Availability
    • Throughput

SLO (Service Level Objective)

  • Zielwert für SLI
  • Intern definiert
  • Beispiel: "99.9% der Requests < 200ms"

SLA (Service Level Agreement)

  • Vertragliche Zusicherung
  • Extern mit Kunden
  • Konsequenzen bei Verfehlung

Error Budgets

Berechnung

Error Budget = 100% - SLO

Beispiel:
SLO = 99.9% Availability
Error Budget = 0.1% = ~43 Minuten/Monat

Nutzung

  • Budget vorhanden: Feature-Entwicklung
  • Budget erschöpft: Reliability-Fokus
  • Balance zwischen Innovation und Stabilität

Die vier Golden Signals

  1. Latency: Request-Dauer
  2. Traffic: Request-Volumen
  3. Errors: Fehlerrate
  4. Saturation: Auslastung

Toil

Definition

Manuelle, repetitive, automatisierbare Arbeit ohne dauerhaften Wert.

Beispiele

  • Manuelle Deployments
  • Ticket-basierte Requests
  • Manuelle Skalierung
  • Routine-Maintenance

Ziel

  • < 50% Toil
  • Automatisierung priorisieren
  • Zeit für Engineering

On-Call

Best Practices

  • Klare Eskalation
  • Runbooks vorhanden
  • Blameless Postmortems
  • Ausgewogene Rotation
  • Kompensation

Blameless Postmortems

Inhalt

  • Timeline
  • Root Cause
  • Contributing Factors
  • Action Items
  • Lessons Learned

Ziel

  • System verbessern
  • Keine Schuldzuweisungen
  • Organisationales Lernen

SRE-Team-Modelle

ModellBeschreibung
Kitchen SinkEin SRE-Team für alles
InfrastructureFokus auf Plattform
EmbeddedSRE in Produkt-Teams
ConsultingBeratend, nicht operativ

CFTools Software implementiert SRE-Praktiken für zuverlässige Systeme.

Tags:
SRE
Site Reliability Engineering
SLO
SLI
Error Budget
Observability
C

CFTools Software

Geschäftsführer und Gründer von CFTools Software GmbH. Leidenschaftlich in der Entwicklung skalierbarer Softwarelösungen und Cloud-Native-Architekturen.

Artikel nicht verfügbar

Dieser Artikel ist für Ihren Zugangstyp nicht verfügbar.

Alle Artikel anzeigen