Nvidia und andere schmieden die Cloud-nativen Supercomputer von morgen

Da Unternehmen nach Möglichkeiten suchen, die Rechenleistung zu maximieren und zu nutzen, suchen sie möglicherweise nach Cloud-basierten Angeboten, die mehrere Ressourcen verketten, um solche Anforderungen zu erfüllen. Der Chiphersteller Nvidia entwickelt beispielsweise Datenverarbeitungseinheiten (DPUs), um Infrastrukturaufgaben für Cloud-basierte Supercomputer zu bewältigen, die einige der kompliziertesten Arbeitslasten und Simulationen für medizinische Durchbrüche und das Verständnis des Planeten bewältigen.

Das Konzept der Computer-Powerhouses ist nicht neu, aber die Bereitstellung großer Gruppen von Computerkernen über die Cloud, um Supercomputing-Kapazität auf Skalierungsbasis anzubieten, gewinnt an Bedeutung. Jetzt erkunden Unternehmen und Startups diese Option, mit der sie genau die Komponenten verwenden können, die sie benötigen, wenn sie sie brauchen.

Zum Beispiel benötigte Climavision, ein Startup, das Wetterinformationen und Vorhersagewerkzeuge verwendet, um das Klima zu verstehen, Zugang zu Supercomputing-Leistung, um die riesige Menge an Daten zu verarbeiten, die über das Wetter des Planeten gesammelt wurden. Ironischerweise fand das Unternehmen seine Antwort in den Wolken.

Jon van Doore, CTO von Climavision, sagt, dass die Modellierung der Daten, mit denen sein Unternehmen arbeitet, in der Vergangenheit traditionell auf Cray-Supercomputern durchgeführt wurde, normalerweise in Rechenzentren. „Der Nationale Wetterdienst verwendet diese gewaltigen Monster, um diese Berechnungen, die wir durchzuziehen versuchen, zu knacken“, sagt er. Climavision verwendet groß angelegte Fluiddynamik, um den gesamten Planeten etwa alle sechs Stunden zu modellieren und zu simulieren. „Das ist eine enorm rechenintensive Aufgabe“, sagt van Doore.

Cloud-native Kosteneinsparungen

Bevor öffentliche Clouds mit massiven Instanzen für solche Aufgaben verfügbar waren, war es seiner Meinung nach üblich, große Computer zu kaufen und sie in Rechenzentren zu stecken, die von ihren Eigentümern betrieben wurden. „Das war die Hölle“, sagt van Doore. „Der Ressourcenaufwand für so etwas geht leicht in die Millionen.“

Das Problem war, dass ein Unternehmen, sobald ein solches Rechenzentrum gebaut wurde, diese Ressource in kurzer Zeit entwachsen konnte. Eine Cloud-native Option kann eine größere Flexibilität bei der Skalierung eröffnen. „Wir ersetzen die Notwendigkeit eines Supercomputers, indem wir effiziente Cloud-Ressourcen in einem Burst-Demand-Zustand verwenden“, sagt er.

Climavision fährt die 6.000 Computerkerne hoch, die es zum Erstellen von Prognosen alle sechs Stunden benötigt, und fährt sie dann herunter, sagt van Doore. “Es kostet uns nichts, wenn es heruntergefahren wird.”

Er nennt dies das Versprechen der Cloud, das nur wenige Unternehmen wirklich erkennen, da Unternehmen dazu neigen, Workloads in die Cloud zu verlagern, sie dann aber laufen zu lassen. Das kann Unternehmen am Ende fast genauso viel kosten wie ihre vorherigen Kosten.

„Nicht nur Sonnenschein und Regenbogen“

Van Doore geht davon aus, dass Climavision in Zukunft 40.000 bis 60.000 Kerne über mehrere Clouds hinweg für seine Prognosen verwenden könnte, die schließlich auf Stundenbasis erstellt werden. „Wir beziehen Terabytes an Daten aus öffentlichen Beobachtungen“, sagt er. „Wir haben auch eigene Beobachtungen, die hereinkommen. All das fließt in unsere riesige Simulationsmaschine.“

Climavision nutzt die Cloud-Anbieter AWS und Microsoft Azure, um die benötigten Rechenressourcen zu sichern. „Wir versuchen, all diese verschiedenen kleineren Rechenknoten zu einer größeren Rechenplattform zusammenzufügen“, sagt van Doore. Die Plattform, die auf schnellem Speicher basiert, bietet rund 50 Teraflops Leistung, sagt er. „Es geht wirklich darum, die Notwendigkeit zu ersetzen, einen großen Supercomputer zu kaufen und ihn in Ihrem Garten zu hosten.“

Traditionell würde eine Arbeitslast wie die von Climavision auf GPUs verlagert. Die Cloud, sagt er, sei dafür gut optimiert, da viele Unternehmen visuelle Analysen durchführen. Derzeit basiert die Klimamodellierung aufgrund der erforderlichen Genauigkeit weitgehend auf CPUs, sagt van Doore.

Es gibt Kompromisse beim Betrieb einer Supercomputer-Plattform über die Cloud. „Es ist nicht alles Sonnenschein und Regenbögen“, sagt er. “Sie haben es im Wesentlichen mit Commodity-Hardware zu tun.” Die heikle Natur der Arbeitslast von Climavision bedeutet, dass, wenn ein einzelner Knoten nicht fehlerfrei ist, sich nicht richtig mit dem Speicher verbindet oder nicht den richtigen Durchsatz erzielt, der gesamte Lauf verworfen werden muss. „Das ist ein Präzisionsspiel“, sagt van Doore. „Es ist nicht einmal ein Spiel mit Zoll – es ist ein Spiel mit Nanometern.“

Climavision kann keine On-Demand-Instanzen in der Cloud nutzen, sagt er, weil die Prognosen nicht ausgeführt werden können, wenn ihnen Ressourcen fehlen. Alle Knoten müssen reserviert werden, um ihre Gesundheit zu gewährleisten, sagt van Doore.

In der Cloud zu arbeiten bedeutet auch, sich auf die Bereitstellung von Dienstanbietern zu verlassen. Wie in den vergangenen Monaten zu sehen war, können weitreichende Cloud-Ausfälle auftreten, selbst Anbieter wie AWS, und einige Dienste stundenlang herunterfahren, bevor die Probleme behoben sind.

Rechenleistung mit höherer Dichte, Fortschritte bei GPUs und andere Ressourcen könnten die Bemühungen von Climavision voranbringen, sagt van Doore, und möglicherweise die Kosten senken. Quantum Computing, sagt er, wäre ideal für die Ausführung solcher Workloads – sobald die Technologie bereit ist. „Das ist noch gut ein Jahrzehnt oder so entfernt“, sagt van Doore.

Supercomputing und KI

Das Wachstum von KI und Anwendungen, die KI verwenden, könnte davon abhängen, dass Cloud-native Supercomputer noch leichter verfügbar sind, sagt Gilad Shainer, Senior Vice President of Networking bei Nvidia. „Jedes Unternehmen auf der Welt wird in Zukunft Supercomputing betreiben, weil jedes Unternehmen auf der Welt KI einsetzen wird.“ Dieser Bedarf an Allgegenwärtigkeit in Supercomputing-Umgebungen wird Veränderungen in der Infrastruktur vorantreiben, sagt er.

„Wenn Sie heute versuchen, Sicherheit und Supercomputing zu kombinieren, funktioniert das nicht wirklich“, sagt Shainer. „Bei Supercomputing dreht sich alles um Leistung, und sobald Sie anfangen, andere Infrastrukturdienste einzubeziehen – Sicherheitsdienste, Isolationsdienste usw. – verlieren Sie viel Leistung.“

Bei Cloud-Umgebungen dreht sich alles um Sicherheit, Isolation und die Unterstützung einer großen Anzahl von Benutzern, was zu erheblichen Leistungseinbußen führen kann. „Die Cloud-Infrastruktur kann etwa 25 % der Rechenkapazität für das Infrastrukturmanagement verschwenden“, sagt Shainer.

Nvidia hat versucht, eine neue Architektur für Supercomputing zu entwerfen, die Leistung mit Sicherheitsanforderungen kombiniert, sagt er. Dies geschieht durch die Entwicklung eines neuen Rechenelements, das speziell für die Ausführung der Infrastruktur-Workload, -Sicherheit und -Isolation vorgesehen ist. „Dieses neue Gerät heißt DPU – eine Datenverarbeitungseinheit“, sagt Shainer. BlueField ist Nvidias DPU und in diesem Bereich nicht allein. Die DPU von Broadcom heißt Stingray. Intel produziert die IPU, Infrastructure Processing Unit.

Nvidia BlueField-3-DPU

Laut Shainer ist eine DPU ein vollständiges Rechenzentrum auf einem Chip, der die Netzwerkschnittstellenkarte ersetzt und auch Rechenleistung auf das Gerät bringt. „Es ist der ideale Ort, um die Sicherheit zu gewährleisten.“ Damit bleiben CPUs und GPUs vollständig für Supercomputing-Anwendungen reserviert.

Es ist kein Geheimnis, dass Nvidia in letzter Zeit stark an KI gearbeitet und eine Architektur entwickelt hat, um neue Workloads auszuführen, sagt er. Beispielsweise wird der Earth-2-Supercomputer, den Nvidia entwickelt, einen digitalen Zwilling des Planeten erstellen, um den Klimawandel besser zu verstehen. „Es gibt viele neue Anwendungen, die KI nutzen, die eine enorme Menge an Rechenleistung oder Supercomputing-Plattformen erfordern und für neuronale Netzwerksprachen verwendet werden, um Sprache zu verstehen“, sagt Shainer.

KI-Ressourcen, die über die Cloud verfügbar gemacht werden, könnten in den Bereichen Biowissenschaften, Chemie, Automobil, Luft- und Raumfahrt und Energie eingesetzt werden, sagt er. „Cloud-natives Supercomputing ist eines der Schlüsselelemente hinter diesen KI-Infrastrukturen.“ Nvidia arbeitet mit den Ökosystemen an solchen Bemühungen, sagt Shainer, einschließlich OEMs und Universitäten, um die Architektur voranzutreiben.

Cloud-natives Supercomputing könnte letztendlich etwas bieten, das seiner Meinung nach für Benutzer in der Vergangenheit gefehlt hat, die zwischen Hochleistungskapazität oder Sicherheit wählen mussten. „Wir machen Supercomputing für die breite Masse verfügbar“, sagt Shainer.

Verwandte Inhalte:

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.