Zum Inhalt springen
Technik und Wissenschaft

AWS: Zufall statt Hierarchie im Rechenzentrum

AWS hat in seinen neuesten Rechenzentrums-Generationen eine neue Routing-Architektur implementiert, um KI-Workloads zu optimieren. Laut technischen Dokumentationen aus dem ersten Quartal 2026 ersetzt das Unternehmen traditionelle hierarchische Netzwerkschichten durch ein randomisiertes Verteilungsmodell, um systemische Engpässe zu eliminieren und die Latenz zwischen GPU-Clustern zu senken.

Warum AWS die Netzwerk-Hierarchie aufgibt

Die klassische Architektur von Rechenzentren folgte über Jahrzehnte einem Baummodell. Daten flossen von Zugriffsschaltern über Aggregationsschichten hin zu einem zentralen Core-Switch. Dieses hierarchische Design funktioniert effizient für Standard-Webanfragen, stößt aber bei massiven KI-Trainingsprozessen an physikalische Grenzen.

Warum AWS die Netzwerk-Hierarchie aufgibt

AWS setzt nun auf eine flachere Struktur, die auf dem Prinzip von Clos-Netzwerken basiert. Ein Clos-Netzwerk ist ein mehrstufiges Switching-Netzwerk, das darauf ausgelegt ist, eine nicht-blockierende Konnektivität zu gewährleisten. Anstatt dass Daten einen fest vorgegebenen Pfad nach oben und wieder nach unten nehmen, verteilt ein randomisiertes Routing die Last stochastisch über eine Vielzahl gleichwertiger Pfade. Laut einem technischen Whitepaper von AWS verhindert dieser Ansatz die Bildung von sogenannten „Hotspots“, bei denen einzelne Switches durch zu hohen Traffic überlastet werden, während benachbarte Hardware brachliegt.

Diese Strategie ähnelt dem Konzept des Equal-Cost Multi-Pathing (ECMP), bei dem der Datenverkehr über mehrere Pfade mit gleichen Kosten verteilt wird, geht jedoch in der Implementierung von AWS durch die Randomisierung weiter, um deterministische Überlastungen in hochdynamischen KI-Umgebungen zu vermeiden.

Im Vergleich zum hierarchischen Modell entfallen mehrere „Hops“ – also Zwischenstationen, die ein Datenpaket passieren muss. Dies reduziert die Zeit, die eine Information benötigt, um von einem Rechenknoten zum nächsten zu gelangen.

Die Rolle der Latenz bei massiven KI-Clustern

Für das Training großer Sprachmodelle ist die Kommunikation zwischen tausenden von GPUs entscheidend. Diese Chips müssen ständig Parameter austauschen. In einer Hierarchie entstehen Engpässe an den obersten Knotenpunkten, wenn viele GPUs gleichzeitig kommunizieren.

Dies ist besonders kritisch bei sogenannten kollektiven Kommunikationsoperationen, wie dem „All-Reduce“-Algorithmus. Bei diesem Verfahren müssen alle beteiligten GPUs ihre berechneten Gradienten synchronisieren, bevor der nächste Trainingsschritt erfolgen kann. In einem hierarchischen Netzwerk führt dies oft zum „Incast“-Problem, bei dem ein einzelner Switch mit Datenpaketen aus vielen Quellen gleichzeitig überflutet wird, was zu Paketverlusten und massiven Verzögerungen führt.

AWS nutzt für diese flache Architektur verstärkt eigene Hardware. Die Integration von Trainium- und Inferentia-Chips erfordert eine Netzwerkumgebung, die „All-to-All“-Kommunikation unterstützt. Das bedeutet, jeder Knoten kann nahezu direkt mit jedem anderen Knoten kommunizieren, ohne auf die Freigabe eines zentralen Gateways warten zu müssen. Trainium-Chips sind speziell für das Training von Deep-Learning-Modellen optimiert, während Inferentia auf die effiziente Ausführung (Inferenz) dieser Modelle ausgelegt ist.

Die Eliminierung der hierarchischen Engpässe ist die Voraussetzung dafür, dass wir Cluster in einer Größenordnung betreiben können, die für die nächste Generation von Modellen notwendig ist.

AWS-Netzwerkarchitekt, technisches Dokument Q1 2026

Durch die Randomisierung des Datenflusses wird die Auslastung der verfügbaren Bandbreite geglättet. Anstatt dass ein einzelner Pfad zum Flaschenhals wird, nutzt das System die gesamte verfügbare Kapazität des Netzwerks gleichmäßig aus.

Reduzierung des „Blast Radius“ durch Randomisierung

Ein wesentlicher Vorteil des Verzichts auf Hierarchie ist die Erhöhung der Ausfallsicherheit. In einem Baummodell führt der Ausfall eines Core-Switches zum Totalausfall eines gesamten Rechenzentrums-Zweigs. Dieser Bereich wird in der Branche als „Blast Radius“ bezeichnet.

AWS re:Invent 2022 – Building data mesh architectures on AWS (ANT336)

In hyperskaligen Rechenzentren ist die Hardware-Fehlerrate aufgrund der schieren Menge an Komponenten statistisch unvermeidbar. Ein Clos-basiertes Mesh-Netzwerk transformiert ein katastrophales Versagen in eine graduelle Leistungsreduktion. Durch die randomisierte Verteilung in einem flachen Mesh-Netzwerk gibt es keinen einzelnen Punkt des Totalversagens mehr. Wenn ein Switch ausfällt, leitet das System den Datenverkehr automatisch über einen der vielen anderen verfügbaren Pfade um.

Laut AWS-Dokumentationen führt dies zu einer höheren Verfügbarkeit, da die Auswirkung eines Hardwaredefekts auf die Gesamtleistung des Clusters minimal ist.

Ein Vergleich der Systeme zeigt:

  • Hierarchisches Modell: Ein Ausfall auf oberster Ebene betrifft tausende Server.
  • Randomisiertes Modell: Ein Ausfall eines Knotens betrifft nur einen Bruchteil des Traffics, der sofort auf Alternativrouten verteilt wird.

Integration in die Nitro-Infrastruktur

Die Steuerung dieses komplexen, nicht-hierarchischen Verkehrs erfolgt nicht über herkömmliche Software-Router, sondern über die AWS Nitro-Systemkarten. Das Nitro-System ist eine proprietäre Sammlung von Hardware- und Softwarekomponenten, die grundlegende Virtualisierungsfunktionen (wie Netzwerk, Speicher und Sicherheit) von der Haupt-CPU des Host-Servers entkoppelt.

Die Nitro-Hardware übernimmt die Netzwerkverwaltung direkt auf der Netzwerkkarte (SmartNIC), wodurch die Haupt-CPU des Servers entlastet wird. Während traditionelle Netzwerke oft auf CPU-intensive Software-Stacks angewiesen sind, um Routing-Entscheidungen zu treffen, verschiebt AWS diese Logik in die Hardware-Schicht.

Die Nitro-Karten berechnen in Echtzeit die effizientesten Pfade und wenden die Randomisierungsalgorithmen an. Dies geschieht in der Hardware-Schicht, was die Latenz im Vergleich zu softwarebasierten Lösungen weiter senkt und eine konsistentere Performance ermöglicht, da Jitter – also Schwankungen in der Paketlaufzeit – minimiert wird.

Es bleibt jedoch ungeklärt, wie sich diese Architektur auf den Energieverbrauch auswirkt. Die Bereitstellung einer massiven Anzahl an redundanten Pfaden und die entsprechende Verkabelung in den Rechenzentren erhöhen die physische Komplexität der Infrastruktur. AWS hat bisher keine spezifischen Daten zur energetischen Effizienz dieses neuen Routing-Modells im Vergleich zu optimierten hierarchischen Systemen veröffentlicht.

Die Umstellung markiert einen Wechsel in der Philosophie des Cloud-Designs: Weg von der kontrollierten, deterministischen Struktur hin zu einem statistisch optimierten System, das auf maximale Durchsatzrate und minimale Ausfallrisiken ausgelegt ist. Damit reagiert AWS auf die spezifischen Anforderungen von Large Language Models (LLMs), bei denen die Netzwerkbandbreite oft zum limitierenden Faktor für die Skalierung der Trainingscluster wird.

Teilen Facebook X WhatsApp E-Mail
Clara Vogt

Über den Autor

Clara Vogt verantwortet das Ressort Technik und Wissenschaft. Sie schreibt ueber KI, Digitalisierung, Forschung und Innovation und uebersetzt komplexe Entwicklungen in klaren, belastbaren Journalismus.

Alle Beiträge erscheinen nach redaktioneller Prüfung gemäß unseren Redaktionsrichtlinien.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.