Skip to main content

Methodisches Vorgehen bei der Fehleranalyse

1. Ziel dieser Seite

Diese Seite definiert ein strukturiertes, reproduzierbares und professionelles Vorgehensmodell zur Fehleranalyse in IT-Systemen. Ziel ist es, ungeplante Ausfälle, Performance-Probleme, Sicherheitsvorfälle und Funktionsstörungen schnell, nachvollziehbar und nachhaltig zu beheben.

Der Fokus liegt auf produktiven Servern, Cloud- und On-Premises-Infrastrukturen, Self-Hosting-Umgebungen sowie virtualisierten und containerisierten Plattformen.


2. Grundprinzipien professioneller Fehleranalyse

2.1 Systematik statt Aktionismus

  • Keine Änderungen ohne Verständnis der Ursache
  • Keine Neustarts als „erste Maßnahme“
  • Keine parallelen Änderungen ohne Dokumentation

Unkontrollierte Sofortmaßnahmen verschleiern Ursachen, erschweren spätere Analysen und können Datenverlust oder Sicherheitslücken verursachen.

2.2 Reproduzierbarkeit

Ein Fehler gilt erst dann als verstanden, wenn er:

  • gezielt ausgelöst werden kann
  • klar beschrieben ist
  • unter definierten Bedingungen auftritt

2.3 Trennung von Symptom und Ursache

Ein zentrales Prinzip:

Das sichtbare Problem ist fast nie die eigentliche Ursache.

Beispiel:

  • Symptom: Webserver reagiert langsam
  • Ursache: Datenbank-Locks durch fehlerhafte Anwendung

3. Das 6-Phasen-Modell der Fehleranalyse

Phase 1 – Problemerfassung

3.1 Ziel

Exakte, sachliche Beschreibung des Problems ohne Interpretation.

3.2 Leitfragen

  • Was funktioniert nicht?
  • Seit wann besteht das Problem?
  • Ist das Problem konstant oder sporadisch?
  • Welche Systeme sind betroffen?

3.3 Best Practices

  • Zeiten immer mit Zeitzone dokumentieren
  • Fehlermeldungen wortgetreu übernehmen
  • Monitoring-Daten sichern

Phase 2 – Umfeldanalyse

3.4 Ziel

Verstehen, in welchem Kontext der Fehler auftritt.

3.5 Analysepunkte

  • Letzte Änderungen (Deployments, Updates, Konfigurationsänderungen)
  • Lastveränderungen
  • Abhängigkeiten zu anderen Systemen
  • Externe Dienste (APIs, DNS, Zertifikate)

3.6 Typische Fehler

  • „Es wurde nichts geändert“ ungeprüft akzeptieren
  • Abhängigkeiten ignorieren

Phase 3 – Hypothesenbildung

3.7 Ziel

Gezielte Annahmen formulieren, warum der Fehler auftritt.

3.8 Strukturierte Hypothesen

  • Wenn X passiert, dann tritt Y auf, weil Z
  • Hypothesen priorisieren nach Wahrscheinlichkeit

3.9 Quellen

  • Logs
  • Monitoring-Metriken
  • Systemmetriken
  • Change-Historie

Phase 4 – Verifikation

3.10 Ziel

Hypothesen überprüfen, ohne neue Fehler zu erzeugen.

3.11 Vorgehen

  • Read-Only-Analysen bevorzugen
  • Testsysteme nutzen, wenn möglich
  • Ein Parameter zur Zeit ändern

3.12 Typische Werkzeuge

  • Logs (journalctl, application logs)
  • Monitoring-Systeme
  • CLI-Tools (top, iotop, ss, ip)

Phase 5 – Lösung & Umsetzung

3.13 Ziel

Nachhaltige Behebung der Ursache.

3.14 Kriterien einer guten Lösung

  • Behebt die Ursache, nicht nur das Symptom
  • Ist dokumentiert
  • Ist reproduzierbar
  • Erhöht langfristig die Stabilität

3.15 Risikoabwägung

  • Rollback-Möglichkeit vorhanden?
  • Auswirkungen auf andere Systeme?

Phase 6 – Nachbereitung

3.16 Ziel

Lernen aus dem Vorfall.

3.17 Maßnahmen

  • Dokumentation aktualisieren
  • Monitoring erweitern
  • Alerts anpassen
  • Wiederholung verhindern

4. Vorteile eines methodischen Vorgehens

  • Reduzierte Ausfallzeiten
  • Bessere Ursachenfindung
  • Nachvollziehbarkeit für Kunden und Teams
  • Höhere Systemstabilität

5. Nachteile bei fehlender Struktur

  • Fehler treten erneut auf
  • Vertrauensverlust bei Kunden
  • Unklare Verantwortlichkeiten
  • Technische Schulden

6. Fazit

Professionelles Troubleshooting ist kein spontaner Akt, sondern ein standardisierter Prozess. Wer systematisch analysiert, dokumentiert und verbessert, reduziert nicht nur Störungen, sondern erhöht langfristig die Qualität der gesamten Infrastruktur.