Praktijk

Notfallverfahren und Incident Response im Rechenzentrum

In einem Rechenzentrum kann ein Vorfall innerhalb von Sekunden von einem kleinen Alarm zu einem vollständigen Stromausfall eskalieren. Notfallverfahren (Emergency Operating Procedures) beschreiben Schritt für Schritt, wie das Team reagiert. Für FM-Fachleute ist das Erstellen, Trainieren und Testen dieser Verfahren eine Kernverantwortung.

Deutsche Rahmenbedingungen

Die Muster-Industriebaurichtlinie (MIndBauRL), die LBO der Länder und die BetrSichV regeln den baulichen und betrieblichen Brandschutz. Für Rechenzentren gelten zusätzlich die Anforderungen der ISO 27001 (Informationssicherheitsvorfälle), des BSI IT-Grundschutz-Kompendiums (Baustein DER.2.1 Incident Management) sowie Versicherungsanforderungen (FM Global, VdS). KRITIS-Betreiber unterliegen dem IT-Sicherheitsgesetz 2.0 und müssen erhebliche Sicherheitsvorfälle dem BSI melden.

Schlüsselbegriffe

EOP (Emergency Operating Procedure)
Schrittweise Anleitung zur Bewältigung einer Notfallsituation: Stromausfall, Kühlversagen, Brand, Wassereinbruch oder Sicherheitsvorfall.
Incident Commander
Die Person, die bei einem Vorfall die Leitung übernimmt. Koordiniert die Reaktion, kommuniziert mit Management und Kunden und entscheidet über die Eskalation.
EPO (Emergency Power Off)
Notabschaltung, die die gesamte Stromversorgung eines Serverraums abschaltet. Nur bei unmittelbarer Lebensgefahr zu verwenden.
Root Cause Analysis (RCA)
Systematische Analyse nach einem Vorfall zur Ermittlung der Grundursache. Verhindert, dass Symptome behandelt werden statt der eigentlichen Ursache.
Tabletop Exercise
Simulationsübung, bei der das Team ein Incident-Szenario durchgeht, ohne tatsächliche Maßnahmen auszuführen. Testet Prozedurkenntnisse und Teamkommunikation.

Schritt für Schritt vorgehen

Erstellen Sie für jeden Vorfallstyp eine separate EOP: Stromausfall, Kühlversagen, Brand, Wassereinbruch, Sicherheitsvorfall und Netzwerkverlust. Jede EOP enthält eine Alarmphase (Was löst das Verfahren aus?), direkte Sofortmaßnahmen (Was tun Sie in den ersten Minuten?), Eskalation (Wer wird wann informiert?) und Wiederherstellungsmaßnahmen (Wie kehren Sie zum Normalbetrieb zurück?).

Schulungen Sie das Team vierteljährlich durch Tabletop Exercises. Legen Sie ein Szenario vor und lassen Sie jeden beschreiben, was seine Rolle und Maßnahmen sind. Variieren Sie die Szenarien: Ein Generator, der nicht startet, ein VESDA-Alarm in der Nacht, ein Wassereinbruch über dem Serverraum. Evaluieren Sie nach jeder Übung: Welche Schritte waren unklar? Wo zögerten Mitarbeiter?

Testen Sie jährlich mindestens eine EOP in der Praxis mit einer Echtübung. Ein vollständiger Notstromtest (Netzausfall simulieren, USV und Generator in Aktion) ist die wertvollste Übung. Dokumentieren Sie die Ergebnisse, identifizieren Sie Verbesserungspunkte und passen Sie die EOPs an. Teilen Sie Vorfallsberichte (ggf. anonymisiert) mit Kunden, um Transparenz zu zeigen und Vertrauen aufzubauen.

Verwandte Themen