Technik und Wissenschaft

NVIDIA kündigt eine neue Klasse von Supercomputern und weitere KI-fokussierte Dienste an

Bild: Verschiedene Fotografie/Adobe Stock

Am 28. Mai kündigte NVIDIA auf der COMPUTEX-Konferenz in Taipeh eine Vielzahl neuer Hardware- und Netzwerktools an, von denen sich viele auf die Ermöglichung künstlicher Intelligenz konzentrieren. Die neue Produktreihe umfasst den 1-Exaflop-Supercomputer der DGX-GH200-Klasse; über 100 Systemkonfigurationsoptionen, die Unternehmen bei der Bewältigung von KI- und Hochleistungs-Computing-Anforderungen unterstützen sollen; eine modulare Referenzarchitektur für beschleunigte Server; und eine Cloud-Netzwerkplattform, die auf Ethernet-basierten KI-Clouds basiert.

Die Ankündigungen – und der erste öffentliche Vortrag, den Mitbegründer und CEO Jensen Huang seit Beginn der COVID-19-Pandemie gehalten hat – trugen dazu bei, NVIDIA in Sichtweite der begehrten Marktkapitalisierung von 1 Billion US-Dollar zu bringen. Damit wäre es der erste Chiphersteller, der in die Welt von Technologiegiganten wie Microsoft und Apple aufsteigt.

Springen zu:

Was unterscheidet den DGX GH200 für KI-Supercomputer?

NVIDIAs neue Klasse von KI-Supercomputern nutzt die GH200 Grace Hopper Superchips und die NVIDIA NVLink Switch System-Verbindung, um generative KI-Sprachanwendungen und Empfehlungssysteme (maschinelle Lernmaschinen zur Vorhersage, wie ein Benutzer ein Produkt oder einen Inhalt bewerten könnte) auszuführen. und Datenanalyse-Workloads (Abbildung A). Es ist das erste Produkt, das sowohl die Hochleistungschips als auch die neuartige Verbindung nutzt.

Abbildung A

Eine Nahaufnahme des Grace Hopper-Chips von NVIDIA — Der Grace Hopper-Chip ist das Rückgrat vieler NVIDIA-Produkte und -Dienste im Bereich Supercomputing und künstliche Intelligenz. Bild: NVIDIA

NVIDIA wird den DGX GH200 zunächst Google Cloud, Meta und Microsoft anbieten. Als nächstes ist geplant, das DGX GH200-Design als Blaupause für Cloud-Service-Provider und andere Hyperscaler anzubieten. Es wird voraussichtlich Ende 2023 verfügbar sein.

Der DGX GH200 soll es Unternehmen ermöglichen, KI in ihren eigenen Rechenzentren auszuführen. 256 GH200-Superchips in jeder Einheit sorgen für 1 Exaflop Leistung und 144 Terabyte gemeinsamen Speicher.

NVIDIA erklärte in der Ankündigung, dass das NVLink Switch System es den GH200-Chips ermöglicht, eine herkömmliche CPU-zu-GPU-PCIe-Verbindung zu umgehen, wodurch die Bandbreite erhöht und gleichzeitig der Stromverbrauch gesenkt wird.

Mark Lohmeyer, Vice President of Computing bei Google Cloud, wies in einer Pressemitteilung von NVIDIA darauf hin, dass die neuen Hopper-Chips und das NVLink Switch System „wichtige Engpässe bei groß angelegter KI beheben“ können.

Lesen Sie auch 3CX wusste, dass seine App von AV-Plattformen gekennzeichnet wurde, und hat während eines Angriffs auf die Lieferkette nur sehr wenig bewirkt

„Das Training großer KI-Modelle ist traditionell eine ressourcen- und zeitintensive Aufgabe“, sagte Girish Bablani, Corporate Vice President für Azure-Infrastruktur bei Microsoft, in der Pressemitteilung von NVIDIA. „Das Potenzial von DGX GH200, mit Datensätzen im Terabyte-Bereich zu arbeiten, würde es Entwicklern ermöglichen, fortgeschrittene Forschung in größerem Maßstab und mit beschleunigter Geschwindigkeit durchzuführen.“

NVIDIA behält auch einige Supercomputing-Fähigkeiten für sich; Das Unternehmen plant, an einem eigenen Supercomputer namens Helios zu arbeiten, der von vier DGX GH200-Systemen angetrieben wird.

Alternativen zu NVIDIAs Supercomputing-Chips

Es gibt nicht viele Unternehmen oder Kunden, die die KI- und Supercomputing-Geschwindigkeiten anstreben, die die Grace Hopper-Chips von NVIDIA ermöglichen. NVIDIAs größter Konkurrent ist AMD, das den Instinct MI300 herstellt. Dieser Chip umfasst sowohl CPU- als auch GPU-Kerne und soll den 2-Exaflop-Supercomputer El Capitan betreiben.

Intel bot den Falcon Shores-Chip an, kündigte jedoch kürzlich an, dass dieser nicht sowohl mit CPU als auch GPU auf den Markt kommen würde. Stattdessen wurde die Roadmap geändert, um sich auf KI und Hochleistungsrechnen zu konzentrieren, aber keine CPU-Kerne einzubeziehen.

Die Unternehmensbibliothek unterstützt KI-Bereitstellungen

Ein weiterer neuer Dienst, die NVIDIA AI Enterprise-Bibliothek, soll Unternehmen den Zugriff auf die Softwareebene der neuen KI-Angebote erleichtern. Es umfasst mehr als 100 Frameworks, vorab trainierte Modelle und Entwicklungstools. Diese Frameworks eignen sich für die Entwicklung und den Einsatz von Produktions-KI, einschließlich generativer KI, Computer Vision, Sprach-KI und anderen.

Bei Bedarf steht Support von NVIDIA-KI-Experten zur Verfügung, um Sie bei der Bereitstellung und Skalierung von KI-Projekten zu unterstützen. Es kann bei der Bereitstellung von KI auf Rechenzentrumsplattformen von VMware und Red Hat oder auf NVIDIA-zertifizierten Systemen helfen.

Lesen Sie auch Die Zukunft holografischer KI-gestützter Meetings von Jason Fedore :: Kicktraq

SEHEN: Sind ChatGPT oder Google Bard das Richtige für Ihr Unternehmen?

Schnellere Vernetzung für KI in der Cloud

NVIDIA möchte mit der beschleunigten Netzwerkplattform Spectrum-X dazu beitragen, Ethernet-basierte KI-Clouds zu beschleunigen (Abbildung B).

Abbildung B

Komponenten der beschleunigten Netzwerkplattform Spectrum-X. Bild: NVIDIA

„NVIDIA Spectrum-X ist eine neue Klasse von Ethernet-Netzwerken, die Hindernisse für KI-Workloads der nächsten Generation beseitigt, die das Potenzial haben, ganze Branchen zu verändern“, sagte Gilad Shainer, Senior Vice President Networking bei NVIDIA, in einer Pressemitteilung.

Spectrum-X kann KI-Clouds mit 256 200-Gbit/s-Ports unterstützen, die über einen einzelnen Switch verbunden sind, oder 16.000 Ports in einer zweistufigen Spine-Leaf-Topologie.

Spectrum-X nutzt dazu Spectrum-4, einen 51-Tbit/s-Ethernet-Switch, der speziell für KI-Netzwerke entwickelt wurde. Fortschrittliche RoCE-Erweiterungen, die die Spectrum-4-Switches, BlueField-3-DPUs und NVIDIA LinkX-Optik vereinen, schaffen ein durchgängiges 400-GbE-Netzwerk, das für KI-Clouds optimiert ist, so NVIDIA.

Spectrum-X und die zugehörigen Produkte (Spectrum-4-Switches, BlueField-3-DPUs und 400G-LinkX-Optiken) sind ab sofort verfügbar, einschließlich der Ökosystemintegration mit Dell Technologies, Lenovo und Supermicro.

MGX-Serverspezifikation folgt in Kürze

Als weitere Neuigkeit zur beschleunigten Leistung in Rechenzentren hat NVIDIA die MGX-Serverspezifikation veröffentlicht. Es handelt sich um eine modulare Referenzarchitektur für Systemhersteller, die sich mit KI und Hochleistungsrechnen befassen.

„Wir haben MGX entwickelt, um Unternehmen bei der Einführung von Unternehmens-KI zu unterstützen“, sagte Kaustubh Sanghani, Vizepräsident für GPU-Produkte bei NVIDIA, in einer Pressemitteilung.

Hersteller können ihre GPU-, DPU- und CPU-Präferenzen innerhalb der anfänglichen, grundlegenden Systemarchitektur festlegen. MGX ist mit aktuellen und zukünftigen NVIDIA-Serverformfaktoren kompatibel, einschließlich 1U, 2U und 4U (luft- oder flüssigkeitsgekühlt).

SoftBank arbeitet derzeit am Aufbau eines Netzwerks von Rechenzentren in Japan, das die GH200-Superchips und MGX-Systeme für 5G-Dienste und generative KI-Anwendungen nutzen wird.

QCT und Supermicro haben MGX übernommen und werden es im August auf den Markt bringen.

Was wird sich am Rechenzentrumsmanagement ändern?

Für Unternehmen erfordert die Integration von Hochleistungsrechnen oder KI in Rechenzentren Änderungen an den Designs und Systemen der physischen Infrastruktur. Ob und wie viel dies tun kann, hängt von der individuellen Situation ab. Joe Reele, Vizepräsident für Lösungsarchitekten bei Schneider Electric, sagte, dass viele größere Unternehmen bereits auf dem Weg seien, ihre Rechenzentren für KI und maschinelles Lernen vorzubereiten.

Lesen Sie auch Das Eröffnungsspiel der Yankees in Cleveland wurde verschoben, am Samstag steht ein Doppelspiel bevor

„Leistungsdichte und Wärmeableitung sind die Treiber dieses Übergangs“, sagte Reele in einer E-Mail an TechRepublic. „Darüber hinaus ist die Art und Weise, wie das IT-Kit für KI/ML im Leerraum konzipiert ist, ebenfalls ausschlaggebend, wenn es um die Notwendigkeit von Dingen wie kürzeren Kabelstrecken und Clustering geht.“

Betreiber von unternehmenseigenen Rechenzentren sollten auf der Grundlage ihrer Geschäftsprioritäten entscheiden, ob der Austausch von Servern und die Aufrüstung von IT-Geräten zur Unterstützung generativer KI-Workloads für sie sinnvoll ist, sagte Reele.

„Ja, neue Server werden effizienter sein und mehr Leistung bieten, wenn es um Rechenleistung geht, aber Betreiber müssen Elemente wie Rechenauslastung, CO2-Emissionen und natürlich Platz, Strom und Kühlung berücksichtigen. Während einige Betreiber möglicherweise ihre Server-Infrastrukturstrategien anpassen müssen, werden viele diese massiven Aktualisierungen in naher Zukunft nicht vornehmen müssen“, sagte er.

Weitere Neuigkeiten von NVIDIA auf der COMPUTEX

NVIDIA kündigte eine Reihe weiterer neuer Produkte und Dienste rund um künstliche Intelligenz an:

WPP und NVIDIA Omniverse haben sich zusammengetan, um eine neue Engine für das Marketing anzukündigen. Die Content Engine wird in der Lage sein, Videos und Bilder für Werbezwecke zu generieren.
Eine intelligente Fertigungsplattform, Metropolis for Factories, kann maßgeschneiderte Qualitätskontrollsysteme erstellen und verwalten.
Die Avatar Cloud Engine (ACE) for Games ist ein Foundry-Service für Videospielentwickler. Es ermöglicht animierten Charakteren, KI zur Spracherzeugung und Animation zu nutzen.