Am Montagmorgen, dem 20. Oktober 2025, kam es zu einem der größten Cloud-Ausfälle der letzten Jahre. Ein technischer Fehler bei Amazon Web Services (AWS) in der Region US-East-1 (Nord-Virginia) führte zu massiven weltweiten Störungen – betroffen waren mehr als 1.000 Unternehmen und über 6,5 Millionen Nutzer meldeten Ausfälle.
Ob soziale Netzwerke, Banken, Airlines, Streamingdienste oder staatliche Einrichtungen – kaum ein Bereich blieb verschont. Ein solcher Vorfall ist ein Weckruf: Nur weil Du in der Cloud bist, heißt das nicht, dass Du sicher bist. Redundanzen sind kein Luxus, sondern Pflicht – auch (oder gerade) in der Cloud.
Weiterlesen...: Cloud-Ausfall bei AWS: Warum Redundanz auch in der Cloud unverzichtbar istWas ist passiert?
Der Ursprung lag in einem Problem bei Amazon DynamoDB, einer zentralen Datenbanklösung von AWS. Ein Fehler bei der DNS-Auflösung führte dazu, dass viele Dienste die API-Endpunkte nicht mehr erreichen konnten. Da unzählige andere Dienste auf DynamoDB oder die betroffene Region US-East-1 angewiesen sind, kam es zu einem Dominoeffekt mit globaler Auswirkung.
Betroffen waren unter anderem:
- Konsumenten-Apps: Snapchat, Reddit, Signal, Venmo, Robinhood
- Streamingdienste: Prime Video, Disney+, HBO Max, Hulu
- Gaming-Plattformen: Fortnite, Roblox, Clash of Clans
- Banken & Finanzen: Lloyds, Halifax, HMRC, Chime
- Reise & Mobilität: United Airlines, Lyft
- IoT/Smart Home: Alexa, Ring, smarte Türklingeln
- Unternehmen & Tools: Jira, Slack, Microsoft 365, Canva, Xero
In den Worten eines IT-Analysten: „Es war, als hätte jemand das Rückgrat des Internets durchtrennt.“
Warum der Ausfall so weitreichend war
Mehrere Faktoren haben die Störung verstärkt:
- Zentrale Abhängigkeit von US-East-1: Viele globale Dienste nutzen genau diese AWS-Region – für Datenreplikation, Backup oder Authentifizierung.
- Service-Chaining: AWS-Services hängen oft voneinander ab. Fällt einer aus, folgen andere.
- Marktdominanz von AWS: Als größter Cloud-Anbieter zieht ein Ausfall automatisch massive Kreise.
- Globale Nutzung & Zeitzonen: Der Ausfall begann nachts in den USA, traf aber den Geschäftsbetrieb in Europa und Asien voll.
- Öffentliche Sichtbarkeit: Durch Ausfälle bei Consumer-Diensten wurde das Problem weltweit schnell bekannt.
Und jetzt? Was Unternehmen daraus lernen sollten
1. Redundanz ist Pflicht – auch in der Cloud
Die Cloud selbst schützt nicht vor Ausfällen. Unternehmen müssen ihre Systeme so architektonisch aufbauen, dass sie regionale oder providerbezogene Ausfälle abfangen können.
Beispielhafte Maßnahmen:
- Multi-Region-Strategien (z. B. AWS EU + AWS US)
- Multi-Cloud-Strategien (z. B. AWS + Azure)
- Lokale Notfallsysteme
- Business Continuity Management Systeme (BCMS)
2. „Blast Radius“ verstehen
Wer sind Deine kritischen Abhängigkeiten? Nutzt Dein System DynamoDB? Oder hängt Dein Identity Management an US-East-1? Solche Verknüpfungen sind oft nicht offensichtlich – bis sie brechen.
3. Failover testen – nicht nur planen
Viele Unternehmen planen theoretisch für Notfälle, testen ihre Failover-Strategien aber nie unter Echtbedingungen. Führe regelmäßig Simulations- und Recovery-Tests durch – auch zu Randzeiten.
4. Kosten gegen Risiko abwägen
Mehr Redundanz bedeutet mehr Aufwand und Kosten. Aber: Ein einziger Tag Stillstand kann ein Vielfaches kosten – an Reputation, Umsatz und Kundenbindung.
5. Kommunikation vorbereiten
Krisenkommunikation gehört heute zur IT-Strategie. Wer im Ernstfall keine klaren Botschaften und Kanäle hat, verliert zusätzlich Vertrauen.
Ein Blick auf die öffentliche Verwaltung
Besonders kritisch: Auch staatliche Dienste wie HMRC (britische Steuerbehörde) waren betroffen. Das wirft Fragen auf: Wie souverän sind öffentliche Infrastrukturen, wenn sie auf kommerziellen Cloud-Plattformen laufen? Ein starker Reminder für alle Länder, digitale Souveränität und Cloud-Governance zu überdenken.
Was bedeutet das für Nutzer?
- Nicht in Panik geraten: Viele Störungen sind temporär. Apps neu starten oder später erneut versuchen.
- Auf Fake-Mails achten: Große Ausfälle werden gerne von Phishing-Angreifern ausgenutzt.
- Offline-Backups anlegen: Wichtige Daten regelmäßig extern sichern – idealerweise offline.
Fazit: Die Cloud braucht Strategie, nicht nur Vertrauen
Der Vorfall zeigt deutlich: Die Cloud ist kein Allheilmittel. Auch dort lauern zentrale Risiken – besonders, wenn man alle Eier in einen Korb legt. Die Lösung liegt nicht in der Rückkehr zu On-Premise-Systemen, sondern in resilienten Architekturen, klaren Prozessen und einer realistischen Einschätzung von Abhängigkeiten.
Wer auf Nummer sicher gehen will, braucht mehr als nur eine Cloud – er braucht ein funktionierendes Business Continuity Management (BCMS), klare Redundanzen und regelmäßige Tests.
Denn: „Cloud“ heißt nicht automatisch „sicher“.

