Was ist Vorfall-Management? – Prozess des Vorfall-Managements erklärt

Was ist Incident Management?

Incident Management (IM) ist der Prozess, mit dem IT-Teams auf eine ungeplante Betriebsunterbrechung reagieren. Unerwartete Unterbrechungen treten aufgrund von Vorfällen wie dem Verlust oder der Verschlechterung der Netzwerkkonnektivität, der Nichtausführung einer geplanten Aufgabe (z. B. einer Backup-Aufgabe) oder einer nicht reagierenden API auf. Der Incident-Management-Prozess versucht, den regulären Betrieb des IT-Service schnell wiederherzustellen und die Auswirkungen auf das Geschäft zu minimieren. Dabei erkennt und untersucht das Team Vorfälle, behebt Probleme und dokumentiert die Schritte, die es zur Wiederherstellung des Services unternimmt.

Für welche Ereignisse ist ein Incident Management erforderlich?

Der Begriff Incident Management wird nicht ausschließlich im IT-Bereich verwendet. Außerhalb der IT werden Sie von IM in Bereichen wie Rettungsdiensten, Großveranstaltungsmanagement und Anlagenbetrieb hören.

Für die Zwecke dieses Artikels beziehen wir uns auf IM im Kontext von IT Service Management (ITSM). In diesem Zusammenhang konzentriert sich das Incident Management auf die Managementaktivitäten in Bezug auf die Servicequalität und den Kundenservice selbst.

Als Nächstes besprechen wir verschiedene IT-Ereignisse im Rahmen von IM in ITSM.

Vorfall

Im Rahmen des Incident Managements können Vorfälle als unerwartete Ereignisse definiert werden, die zu einer Verschlechterung der erwarteten oder vereinbarten Qualität des IT-Services führen. Das Ausmaß des Vorfalls kann klein oder groß sein, und Sie können angeben, dass er kritisch ist. Beispielsweise könnte der Rückgang der Servicequalität minimal und auf einen bestimmten geografischen Standort beschränkt sein. Oder der Service kann in zahlreichen Regionen vollständig ausfallen.

Problem

Ein Problem bezieht sich auf die dem Vorfall zugrunde liegende Ursache, die nach weiteren Untersuchungen entdeckt wird und für die vollständige Behebung des Vorfalls erforderlich ist. Wenn beispielsweise ein Webserver langsam läuft, kann das Problem eine Fehlkonfiguration des Routers im Rechenzentrum oder ein abgetrenntes Netzwerkkabel am Perimeter sein.

Veränderungen

In IM bezieht sich eine Änderung darauf, dass ein Service selbst geändert wird, um beispielsweise die Qualität zu verbessern oder neue Funktionen hinzuzufügen. Während des Wechselzeitraums muss der Rollover sorgfältig gehandhabt werden, um Störungen des normalen Geschäftsbetriebs zu vermeiden oder so gering wie möglich zu halten. Dazu gehört auch die Information von Kunden über erwartete oder mögliche Serviceunterbrechungen.

Serviceanfrage

Eine Serviceanfrage ist eine vom Kunden initiierte Anfrage im Rahmen der Bedingungen der Vereinbarung zwischen Anbieter und Kunde. Die Anfrage sollte ohne Unterbrechung des normalen Betriebs ausgeführt werden.

Wie funktioniert Incident Management?

Das Incident Management verwendet eine Reihe dokumentierter Prozesse, in denen klar dargelegt wird, was getan werden muss, um die negativen Auswirkungen und die Dauer von IT-Störungen zu minimieren. Neben dem technischen Management dessen, was schief gelaufen ist, umfasst es auch das Management der Erwartungen von Kunden, Benutzern und Stakeholdern während eines Vorfalls.

Für Kunden definieren Service Level Agreements (SLAs) klar die erwarteten Verfügbarkeitsgarantien, Lösungszeiten und Kommunikationskanäle für Vorfälle. Es erfordert ein umfassendes Incident-Management seitens des Dienstanbieters, um seine SLA-Bedingungen zu erfüllen.

Mehr über SLAs erfahren »

Frameworks für die Verwaltung von IT-Vorfällen

Es gibt verschiedene Frameworks, die Unternehmen verwenden, um ihr IM zu modellieren. Zwei Beispiele sind Incident Management aus der IT Infrastructure Library (ITIL) 4 und das Cybersecurity Framework des National Institute of Standards and Technology (NIST). Diese Frameworks können unverändert verwendet oder erweitert werden, um sie an einzigartige Geschäftsumgebungen, Dienste und Kommunikationsstandards für Kunden und Interessengruppen anzupassen.

Incident-Management-Software wird häufig verwendet, um ein Framework innerhalb einer Organisation bereitzustellen. Welches Framework genau verwendet wird, hängt von den angebotenen Diensten ab.

Was sind die Schritte im Incident-Management-Prozess?

Die Schritte der Incident-Management-Prozesse hängen von dem innerhalb der Organisation verwendeten Framework ab. Als Nächstes besprechen wir die wichtigsten Schritte in vielen gängigen Lifecycle-Frameworks für das Incident Management.

Risiko identifizieren

Die Identifizierung kritischer Ressourcen, Systeme, Daten und anderer Ressourcen bestimmt, wo die größten Risiken für das Unternehmen liegen. Im Zusammenhang mit der Erbringung von Dienstleistungen für Kunden geht es darum, deren wertvollste Systeme und Vermögenswerte zu identifizieren.

Assets schützen

Sobald Assets identifiziert wurden, verstärken Unternehmen ihre Sicherheits- und Leistungskontrollen. Beispielsweise könnte eine Anwendung in mehreren Regionen eingesetzt werden, um bei regionalen Ausfällen kontinuierlich verfügbar zu sein.

Vorfälle erkennen

Es müssen Systeme zur Überwachung des Zustands kritischer Assets vorhanden sein, sodass Vorfälle in Echtzeit erkannt werden können. Unternehmen müssen bei der Überwachung von Anomalien proaktiv vorgehen. In der Regel ist es nicht vorzuziehen, zuerst von einem Kunden, der ihn selbst meldet, von einem Ausfall zu erfahren. Der Schwerpunkt liegt auf proaktiver Problembehebung.

Auf Vorfälle reagieren

Sobald ein Vorfall erkannt wird, müssen Sie jede Störung sofort beenden. Wenn dies nicht möglich ist, können Sie einem Prozess folgen, um die Auswirkungen einzudämmen oder zu begrenzen. Möglicherweise müssen Sie auch Sekundärsysteme aktivieren, damit der Betrieb auch dann wieder aufgenommen werden kann, wenn es keine schnelle Lösung gibt. Vieles davon kann automatisiert werden, abhängig von der Art des Vorfalls und den aktuellen Tools für das Incident Management.

Von Vorfällen erholen

In der Erholungsphase beginnt die Analyse des Vorfalls. Sie erfassen die gewonnenen Erkenntnisse, formulieren verbesserte Reaktionspläne und beheben Probleme und Prozesse. Schwerwiegende Vorfälle können erhebliche Wiederherstellungsmaßnahmen erfordern. Die folgende Abbildung zeigt einen Incident-Management-Prozesse, die Amazon Web Services (AWS) verwendet.

Was sind Best Practices für das Incident Management?

Best Practices helfen Unternehmen dabei, innerhalb einer bestimmten Geschäftseinheit oder eines strategischen Bereichs auf der ausgereiftesten Ebene zu agieren. Indem Sie sich an bewährte Verfahren für Incident-Management-Systeme halten, können Sie Ihren Kunden den bestmöglichen Service bieten.

Entwickeln Sie Eskalationsrichtlinien

Sie sollten in der Lage sein, Vorfälle nach Priorität und Schweregrad zu kategorisieren, um Zeitpläne, Abhilfemaßnahmen und Untersuchungen festzulegen. Sie sollten Eskalationsrichtlinien einführen, wenn die Reaktion auf Vorfälle nicht wie erwartet verläuft oder wenn ein schwerwiegender Vorfall mit hoher Priorität oder Schwere eintritt. Ohne diese Richtlinien könnte Ihr Team Zeit damit verschwenden, zu entscheiden, an wen es sich wenden und was zu tun ist.

Kommunikation im Detail planen

Stakeholder, vom IT-Team bis hin zu Ihren Endbenutzern, sollten über den Status von Vorfällen auf dem Laufenden gehalten werden. Es ist auch wichtig, klare Kommunikationskanäle zu haben, damit die Betroffenen wissen, wo sie Updates erhalten oder neue Vorfälle melden können. Durch klare Kommunikationspläne können Sie Vertrauen aufbauen und falsche Schuldzuweisungen vermeiden. Kritische Vorfälle werden immer diplomatisch behandelt.

Führen Sie eine Ursachenanalyse durch

Nach der Lösung eines Vorfalls sollten Sie eine Ursachenanalyse durchführen, um zu verstehen, warum der Vorfall überhaupt aufgetreten ist. Dies hilft dabei, Lücken oder Schwachstellen im System zu identifizieren, die Sie beheben können, um ähnliche Vorfälle in Zukunft zu verhindern. Die aus jedem Vorfall gewonnenen Erkenntnisse sind hilfreich, um die IT-Infrastruktur und die IT-Prozesse kontinuierlich zu verbessern.

Wenden Sie Chaos-Engineering-Methoden an

Chaos Engineering ist eine Disziplin in der Softwareentwicklung, bei der Systeme absichtlich störenden Bedingungen wie Serverausfällen, Netzwerklatenzen oder Ressourcenbeschränkungen ausgesetzt sind. Der Aufbau von Chaos in Systemen testet deren Widerstandsfähigkeit und stärkt auch die Reaktion auf Vorfälle und die Managementprozesse eines Unternehmens. Dies ist eine ähnliche Technik wie der Einsatz von ethischem Hacking im Cybersicherheit-Incident-Management.

Wie kann AWS Ihre Incident-Management-Anforderungen unterstützen?

AWS bietet eine Reihe von Services, die Unternehmen dabei unterstützen, ein effektives Incident Management in AWS- und Hybridumgebungen bereitzustellen.

AWS-Vorfallerkennung und -Reaktion bietet Unterstützung für Kunden von AWS Enterprise Support, proaktive Überwachung und Incident Management für ihre ausgewählten Workloads. In Zusammenarbeit mit Experten definieren Sie kritische Kennzahlen, Alarme und Priorisierungspläne für ein IT-Incident-Management-System, um die Wiederherstellung im Falle eines Vorfalls zu beschleunigen.

AWS Managed Services (AMS) trägt mit AWS-Funktionen zur Reaktion und Lösung von Vorfällen zum Schutz der Informationen und der Infrastruktur Ihres Unternehmens bei. AMS kann verwendet werden, um Ihr AWS-IT-Incident-Management auszulagern, sodass sich Ihr Unternehmen auf das Kerngeschäft konzentrieren kann. Mit AMS können Sie Folgendes tun:

Über das AWS-Supportcenter in der AWS-Konsole können Sie jederzeit Hilfe bei betrieblichen Problemen und Anfragen anfordern
Greifen Sie rund um die Uhr auf Support zu, dessen Reaktionszeit von Ihrem ausgewählten Konto abhängt Service Tier (Plus, Premium)
Erhalten Sie proaktive Benachrichtigungen über wichtige Benachrichtigungen und Fragen mithilfe derselben Mechanismen

Als Teil des AWS Well-Architected Framework bieten wir auch klare Leitlinien für das Cloud-Incident-Management. Es ist eine gute Ressource, um Unternehmen bei der Planung des Incident Management zu unterstützen, die ihre eigenen IT-Services anbieten und AWS-Cloud-Services nutzen. Der Leitfaden zur Reaktion auf Sicherheitsvorfälle in AWS ist ein weiteres nützliches Material für sicherheitsrelevante Vorfälle.

Beginnen Sie heute noch mit dem Incident Management in AWS, indem Sie noch heute ein Konto erstellen.

Was ist Incident Management?

Was ist Incident Management?

Für welche Ereignisse ist ein Incident Management erforderlich?

Vorfall

Problem

Veränderungen

Serviceanfrage

Wie funktioniert Incident Management?

Frameworks für die Verwaltung von IT-Vorfällen

Was sind die Schritte im Incident-Management-Prozess?

Risiko identifizieren

Assets schützen

Vorfälle erkennen

Auf Vorfälle reagieren

Von Vorfällen erholen

Was sind Best Practices für das Incident Management?

Entwickeln Sie Eskalationsrichtlinien

Kommunikation im Detail planen

Führen Sie eine Ursachenanalyse durch

Wenden Sie Chaos-Engineering-Methoden an

Wie kann AWS Ihre Incident-Management-Anforderungen unterstützen?

Nächste Schritte mit AWS

Ende des Supports für Internet Explorer