Cloud-Ausfall bei AWS: Warum Redundanz auch in der Cloud unverzichtbar ist

Am Montagmorgen, dem 20. Oktober 2025, kam es zu einem der größten Cloud-Ausfälle der letzten Jahre. Ein technischer Fehler bei Amazon Web Services (AWS) in der Region US-East-1 (Nord-Virginia) führte zu massiven weltweiten Störungen – betroffen waren mehr als 1.000 Unternehmen und über 6,5 Millionen Nutzer meldeten Ausfälle.

Ob soziale Netzwerke, Banken, Airlines, Streamingdienste oder staatliche Einrichtungen – kaum ein Bereich blieb verschont. Ein solcher Vorfall ist ein Weckruf: Nur weil Du in der Cloud bist, heißt das nicht, dass Du sicher bist. Redundanzen sind kein Luxus, sondern Pflicht – auch (oder gerade) in der Cloud.

Weiterlesen...: Cloud-Ausfall bei AWS: Warum Redundanz auch in der Cloud unverzichtbar ist

Was ist passiert?

Der Ursprung lag in einem Problem bei Amazon DynamoDB, einer zentralen Datenbanklösung von AWS. Ein Fehler bei der DNS-Auflösung führte dazu, dass viele Dienste die API-Endpunkte nicht mehr erreichen konnten. Da unzählige andere Dienste auf DynamoDB oder die betroffene Region US-East-1 angewiesen sind, kam es zu einem Dominoeffekt mit globaler Auswirkung.

Betroffen waren unter anderem:

  • Konsumenten-Apps: Snapchat, Reddit, Signal, Venmo, Robinhood
  • Streamingdienste: Prime Video, Disney+, HBO Max, Hulu
  • Gaming-Plattformen: Fortnite, Roblox, Clash of Clans
  • Banken & Finanzen: Lloyds, Halifax, HMRC, Chime
  • Reise & Mobilität: United Airlines, Lyft
  • IoT/Smart Home: Alexa, Ring, smarte Türklingeln
  • Unternehmen & Tools: Jira, Slack, Microsoft 365, Canva, Xero

In den Worten eines IT-Analysten: „Es war, als hätte jemand das Rückgrat des Internets durchtrennt.“


Warum der Ausfall so weitreichend war

Mehrere Faktoren haben die Störung verstärkt:

  • Zentrale Abhängigkeit von US-East-1: Viele globale Dienste nutzen genau diese AWS-Region – für Datenreplikation, Backup oder Authentifizierung.
  • Service-Chaining: AWS-Services hängen oft voneinander ab. Fällt einer aus, folgen andere.
  • Marktdominanz von AWS: Als größter Cloud-Anbieter zieht ein Ausfall automatisch massive Kreise.
  • Globale Nutzung & Zeitzonen: Der Ausfall begann nachts in den USA, traf aber den Geschäftsbetrieb in Europa und Asien voll.
  • Öffentliche Sichtbarkeit: Durch Ausfälle bei Consumer-Diensten wurde das Problem weltweit schnell bekannt.

Und jetzt? Was Unternehmen daraus lernen sollten

1. Redundanz ist Pflicht – auch in der Cloud

Die Cloud selbst schützt nicht vor Ausfällen. Unternehmen müssen ihre Systeme so architektonisch aufbauen, dass sie regionale oder providerbezogene Ausfälle abfangen können.

Beispielhafte Maßnahmen:

  • Multi-Region-Strategien (z. B. AWS EU + AWS US)
  • Multi-Cloud-Strategien (z. B. AWS + Azure)
  • Lokale Notfallsysteme
  • Business Continuity Management Systeme (BCMS)

2. „Blast Radius“ verstehen

Wer sind Deine kritischen Abhängigkeiten? Nutzt Dein System DynamoDB? Oder hängt Dein Identity Management an US-East-1? Solche Verknüpfungen sind oft nicht offensichtlich – bis sie brechen.

3. Failover testen – nicht nur planen

Viele Unternehmen planen theoretisch für Notfälle, testen ihre Failover-Strategien aber nie unter Echtbedingungen. Führe regelmäßig Simulations- und Recovery-Tests durch – auch zu Randzeiten.

4. Kosten gegen Risiko abwägen

Mehr Redundanz bedeutet mehr Aufwand und Kosten. Aber: Ein einziger Tag Stillstand kann ein Vielfaches kosten – an Reputation, Umsatz und Kundenbindung.

5. Kommunikation vorbereiten

Krisenkommunikation gehört heute zur IT-Strategie. Wer im Ernstfall keine klaren Botschaften und Kanäle hat, verliert zusätzlich Vertrauen.


Ein Blick auf die öffentliche Verwaltung

Besonders kritisch: Auch staatliche Dienste wie HMRC (britische Steuerbehörde) waren betroffen. Das wirft Fragen auf: Wie souverän sind öffentliche Infrastrukturen, wenn sie auf kommerziellen Cloud-Plattformen laufen? Ein starker Reminder für alle Länder, digitale Souveränität und Cloud-Governance zu überdenken.


Was bedeutet das für Nutzer?

  • Nicht in Panik geraten: Viele Störungen sind temporär. Apps neu starten oder später erneut versuchen.
  • Auf Fake-Mails achten: Große Ausfälle werden gerne von Phishing-Angreifern ausgenutzt.
  • Offline-Backups anlegen: Wichtige Daten regelmäßig extern sichern – idealerweise offline.

Fazit: Die Cloud braucht Strategie, nicht nur Vertrauen

Der Vorfall zeigt deutlich: Die Cloud ist kein Allheilmittel. Auch dort lauern zentrale Risiken – besonders, wenn man alle Eier in einen Korb legt. Die Lösung liegt nicht in der Rückkehr zu On-Premise-Systemen, sondern in resilienten Architekturen, klaren Prozessen und einer realistischen Einschätzung von Abhängigkeiten.

Wer auf Nummer sicher gehen will, braucht mehr als nur eine Cloud – er braucht ein funktionierendes Business Continuity Management (BCMS), klare Redundanzen und regelmäßige Tests.

Denn: „Cloud“ heißt nicht automatisch „sicher“.

trennlinie

Copyright 2024 mevalon Datentechnik GmbH © All Rights Reserved