Definition und Zweck:
Ausfallsicherheit (oder Fehlertoleranz, engl. Fault Tolerance) ist die Eigenschaft eines Systems, auch bei Ausfall einer oder mehrerer seiner Komponenten weiterhin fehlerfrei oder zumindest mit eingeschränkter Funktionalität zu arbeiten. Das Ziel ist es, die Verfügbarkeit und Zuverlässigkeit des Gesamtsystems zu maximieren und ungeplante Stillstandszeiten zu minimieren, selbst wenn einzelne Fehler oder Störungen auftreten.
Ausfallsicherheit wird in der Regel durch Redundanz erreicht, also das Vorhandensein von mehr Komponenten als für den Normalbetrieb unbedingt notwendig wären. Tritt ein Fehler auf, übernimmt eine redundante Komponente die Aufgabe der ausgefallenen Komponente, oft ohne Unterbrechung des Betriebs (nahtloser Übergang).
Maßnahmen zur Erhöhung der Ausfallsicherheit:
- Redundante Komponenten:
- Hardware-Redundanz: Doppelte Ausführung von kritischen Komponenten wie CPUs (z.B. redundante SPS), Netzteilen, Kommunikationsmodulen, Servern oder ganzen Maschinen.
- Software-Redundanz: Redundante Software-Instanzen, die sich gegenseitig überwachen.
- Fehlererkennung und -isolierung: Schnelle Erkennung von Fehlern (z.B. durch Diagnosefunktionen, Watchdogs) und Isolierung der fehlerhaften Komponente, um eine Ausbreitung des Fehlers zu verhindern.
- Hot-Swap-Fähigkeit: Möglichkeit, Komponenten (z.B. I/O-Module, Netzteile) im laufenden Betrieb auszutauschen, ohne das System herunterfahren zu müssen.
- Automatisches Umschalten (Switchover): Bei einem Fehler schaltet das System automatisch und schnell auf eine redundante Komponente um.
- Fehlerkorrekturcodes: In der Datenkommunikation zur Erkennung und Korrektur von Übertragungsfehlern.
- Diagnose und Monitoring: Umfassende Überwachungssysteme (APM, Condition Monitoring) zur frühzeitigen Erkennung von Verschleiß oder Fehlern.
Relevanz in der Automatisierungstechnik:
Ausfallsicherheit ist von höchster Bedeutung in der industriellen Automatisierung, insbesondere in Branchen mit kritischen Prozessen, bei denen ein Stillstand hohe Kosten, Sicherheitsprobleme oder Umweltschäden verursachen würde:
- Prozessindustrie: Raffinerien, Chemieanlagen, Kraftwerke, Wasserwerke, wo ein ununterbrochener Betrieb essentiell ist.
- Fertigungsstraßen: Hochautomatisierte Linien, bei denen jeder Stillstand zu erheblichen Produktionsausfällen führt.
- Sicherheitsgerichtete Systeme: Bei der funktionalen Sicherheit, wo Ausfälle nicht zu gefährlichen Zuständen führen dürfen.
- Rechenzentren und Server: Für die Verfügbarkeit von IT- und OT-Systemen.
Die Investition in ausfallsichere Systeme wird durch die Vermeidung von teuren Stillstandszeiten und die Erhöhung der Betriebssicherheit gerechtfertigt.
→ Siehe auch: Redundanz, Verfügbarkeit, Funktionale Sicherheit, Hot-Swap, Predictive Maintenance, SPS

