Der Rivale der GPU? Was ist eine Sprachverarbeitungseinheit (LPU)?

Nächste Woche im Turing-Beitrag:

  • Mittwoch, Token 1.21: Modellsicherheit und Datenschutz

  • Freitag, KI-Einhörner: KI-Skalen

Turing Post ist eine lesergestützte Publikation. Um vollen Zugriff auf unsere interessantesten Artikel und Untersuchungen zu haben, werden Sie kostenpflichtiger Abonnent →

Diese Woche demonstrierte ein weitgehend unbekanntes Unternehmen, Groq, eine beispiellose Geschwindigkeit bei der Ausführung von Open-Source-LLMs wie Llama-2 (70 Milliarden Parameter) mit mehr als 100 Token pro Sekunde und Mixtral mit fast 500 Token pro Sekunde und Benutzer auf einer Groq-Sprache Verarbeitungseinheit (LPU).

  • „Laut Groq lädt ChatGPT in ähnlichen Tests mit 40–50 Token pro Sekunde und Bard mit 70 Token pro Sekunde auf typischen GPU-basierten Computersystemen.

  • Kontext für 100 Token pro Sekunde und Benutzer – Ein Benutzer könnte in etwas mehr als einer Minute einen Aufsatz mit 4.000 Wörtern erstellen.“

Also: Was ist LPU, wie funktioniert es?und woher kommt Groq (so ein unglücklicher Name, wenn man bedenkt, dass Musks Grok in den Medien allgegenwärtig ist)?

Erinnern Sie sich an das Go-Spiel im Jahr 2016, als AlphaGo gegen den Weltmeister Lee Sedol spielte und gewann? Nun, etwa einen Monat vor dem Wettbewerb gab es ein Testspiel, das AlphaGo verlor. Die Forscher von DeepMind portierten AlphaGo auf die Tensor Processing Unit (TPU) und dann konnte sich das Computerprogramm mit großem Vorsprung durchsetzen.

Die Erkenntnis, dass die Rechenleistung ein Engpass für das Potenzial der KI darstellt, führte zur Gründung von Groq und der Schaffung der LPU. Diese Erkenntnis kam Jonathan Ross, der zunächst das spätere TPU-Projekt bei Google startete. Er gründete Groq im Jahr 2016.

Die LPU ist ein spezielles Computergehirn, das darauf ausgelegt ist, Sprachaufgaben sehr schnell zu erledigen. Im Gegensatz zu anderen Computerchips, die viele Dinge gleichzeitig erledigen (parallele Verarbeitung), arbeitet die LPU Aufgaben nacheinander ab (sequentielle Verarbeitung), was sich perfekt zum Verstehen und Generieren von Sprache eignet. Stellen Sie es sich wie einen Staffellauf vor, bei dem jeder Läufer (Chip) den Staffelstab (Daten) an den nächsten weitergibt, sodass alles superschnell läuft. Die LPU ist darauf ausgelegt, die beiden LLM-Engpässe zu überwinden: Rechendichte und Speicherbandbreite.

Groq verfolgte von Anfang an einen neuartigen Ansatz, Schwerpunkt auf Software- und Compiler-Entwicklung bevor man überhaupt über die Hardware nachdenkt. Sie sorgten dafür, dass die Software steuern konnte, wie die Chips miteinander kommunizieren, und sorgte dafür, dass sie nahtlos wie ein Team in einer Fabrik zusammenarbeiten. Dadurch ist die LPU wirklich gut darin, Sprache effizient und mit hoher Geschwindigkeit zu verarbeiten, ideal für KI-Aufgaben, bei denen es um das Verstehen oder Erstellen von Text geht.

Dies führte zu einem hochoptimierten System, das nicht nur hinsichtlich der Geschwindigkeit herkömmliche Setups übertrifft, sondern dies auch mit größerer Kosteneffizienz und geringerem Energieverbrauch tut. Das sind große Neuigkeiten für Branchen wie Finanzen, Regierung und Technologie, in denen eine schnelle und genaue Datenverarbeitung von entscheidender Bedeutung ist.

Lesen Sie auch  Einschätzung, Forschung und humanitäre Hilfe… Update zum Erdbeben in Afghanistan

Werfen Sie Ihre GPUs jetzt noch nicht weg! Während die LPU ein Biest ist, wenn es um Schlussfolgerungen geht und die Anwendung trainierter Modelle auf neue Daten zum Kinderspiel wird, sind GPUs im Trainingsbereich nach wie vor die Vorreiter. Die LPU und die GPU könnten zum dynamischen Duo der KI-Hardware werden, die sich jeweils durch ihre jeweilige Rolle auszeichnen.

Wie Elvis Saravia es ausdrückte: „Mit Durchbrüchen in der Inferenz und im Langzeitkontextverständnis treten wir offiziell in eine neue Ära der LLMs ein.

Um Architektur besser zu verstehen, bietet Groq zwei Aufsätze an: ab 2020 (Schnell denken: Ein Tensor-Streaming-Prozessor (TSP) zur Beschleunigung von Deep-Learning-Workloads) und 2022 (Ein Soware-definierter Tensor-Streaming-Multiprozessor für groß angelegtes maschinelles Lernen). Der Begriff „LPU“ muss eine neue Ergänzung zu Groqs Erzählung sein, da er in den Zeitungen nie erwähnt wird.

  • Compute ist auch Teil dieses Papiers: Computing Power and the Governance of Artificial Intelligence, in dem die Verwaltung der KI-Entwicklung durch Computersteuerung erörtert wird, wobei der Schwerpunkt auf deren Regulierungspotenzial, Vorteilen und Risiken liegt und ausgewogene Governance-Ansätze vorgeschlagen werden.

  • Unterdessen gewähren die USA GlobalFoundries, dem drittgrößten Auftragschiphersteller der Welt, 1,5 Milliarden US-Dollar, um die Halbleiterproduktion anzukurbeln, die inländischen Lieferketten zu verbessern und in New York und Vermont zu expandieren.

  • Das von Berkeley Artificial Intelligence Research (BAIR) veröffentlichte Papier argumentiert: „Verbund-KI-Systeme werden in Zukunft wahrscheinlich der beste Weg sein, die KI-Ergebnisse zu maximierenund könnte einer der einflussreichsten Trends in der KI im Jahr 2024 sein.“

Twitter-Bibliothek

Neuigkeiten von den üblichen Verdächtigen ©

Y-Kombinator

  • Seit 2009 veröffentlicht Y Combinator Anfrage für Startups Dies deutet darauf hin, welche „Ideen wir in Räumen verwirklichen möchten, von denen wir glauben, dass sie in den kommenden Jahrzehnten wichtig sein werden“. In diesem Jahr umfasst die Liste 20 Kategorien:

20 große Namen

  • Zwanzig Technologiegiganten, darunter Adobe, Amazon, Google, IBM, Meta, Microsoft, OpenAI und TikTok, haben vereinbart, „angemessene Vorkehrungen“ zu treffen, um den Missbrauch von KI bei der Störung von Wahlen weltweit zu verhindern.

OpenAI

  • OpenAI schließt einen Deal ab, der das Unternehmen mit 80 Milliarden US-Dollar bewertet und seinen Wert in weniger als 10 Monaten fast verdreifacht.

Models machen Schlagzeilen:

  • Wir stellen Sora vor: In diesem Artikel wird Sora vorgestellt, ein Durchbruch in der Videogenerierungstechnologie von OpenAI, der in der Lage ist, Videos mit hoher Wiedergabetreue zu produzieren. Es nutzt Raumzeit-Patches, um Videos unterschiedlicher Dauer und Auflösung zu verarbeiten und macht so Fortschritte bei der Simulation der physischen Welt mit beeindruckender 3D-Konsistenz und Kohärenz über große Entfernungen. Es stellt einen Sprung in der Fähigkeit dar, detaillierte Simulationen zu erstellen, die für eine Vielzahl von Anwendungen verwendet werden könnten, von der Unterhaltung bis hin zu virtuellen Testumgebungen →Lesen Sie den Artikel

  • Zusätzliche Lektüre:

  • Wir stellen V-Jepa vor (Yann LeCuns Vision von fortschrittlicher maschineller Intelligenz (AMI): Das V-JEPA-Modell von Meta revolutioniert das unbeaufsichtigte Lernen aus Videos, indem es die Feature-Vorhersage als einziges Ziel nutzt. Dieser Ansatz umgeht die Notwendigkeit vorab trainierter Bildencoder oder Textanmerkungen und verlässt sich stattdessen auf die Eigendynamik von Videodaten zum Erlernen vielseitiger visueller Darstellungen. Dies ist ein bedeutender Beitrag zum Bereich des unbeaufsichtigten visuellen Lernens und verspricht Fortschritte bei der Art und Weise, wie Maschinen Bewegung und Aussehen ohne explizite Anleitung verstehen →Lesen Sie den Artikel

  • Wir stellen Gemini 1.5 vor: Gemini 1.5 von Google DeepMind führt eine Mixture-of-Experts-Architektur ein, die die Leistung des Modells bei einem breiteren Aufgabenspektrum verbessert. Insbesondere wird das Kontextfenster auf 1 Million Token erweitert, was eine tiefgreifende Analyse großer Datenmengen ermöglicht. Gemini 1.5 stellt einen bedeutenden Fortschritt in der Fähigkeit der KI dar, umfangreiche Kontexte zu verarbeiten und zu verstehen, und markiert einen Meilenstein in der Entwicklung multimodaler Modelle →Lesen Sie den Artikel

  • Einführung von Stable Cascade: Stable Cascade von Stability AI stellt ein neuartiges Framework zur Text-zu-Bild-Generierung vor, das Effizienz, einfache Schulung und Feinabstimmung auf Hardware der Verbraucherklasse in den Vordergrund stellt. Die hierarchische Komprimierungstechnik des Modells stellt eine erhebliche Reduzierung der für das Training hochwertiger generativer Modelle erforderlichen Ressourcen dar und bietet einen Weg für eine breitere Zugänglichkeit und Experimentierbarkeit in der KI-Community →Lesen Sie den Artikel

Die aktuellsten Forschungsarbeiten, für Sie kategorisiert

Sprachverständnis und Sprachgenerierung

  • OpenToM: Untersucht die Bewertung der Theory-of-Mind-Denkweise in LLMs und befasst sich mit deren Fähigkeit, komplexe soziale und psychologische Erzählungen zu verstehen. Die Zeitung lesen

  • Auf der Suche nach Nadeln im 10-Meter-Heuhaufen: Demonstriert die Fähigkeit von NLP-Modellen, außergewöhnlich lange Dokumente zu verarbeiten und die Grenzen des Verständnisses der Dokumentlänge zu erweitern. Die Zeitung lesen

  • Prämissenreihenfolge ist beim Denken mit LLMs wichtig: Untersucht die Empfindlichkeit von LLMs gegenüber der Reihenfolge von Prämissen und zeigt Implikationen für Argumentationsaufgaben auf. Die Zeitung lesen

  • Gedankenkettendenken ohne Aufforderung: Entdeckt die inhärente Fähigkeit von LLMs, Argumentationspfade zu generieren, und schlägt eine Alternative zu expliziten Eingabeaufforderungen vor. Die Zeitung lesen

  • Unterdrückung rosafarbener Elefanten durch direktes Prinzip-Feedback: Behandelt die Herausforderung der Themenvermeidung in LLMs und schlägt eine neuartige Feinabstimmungsmethode für eine verbesserte Kontrollierbarkeit vor. Die Zeitung lesen

  • Ghostwriter: Entwickelt eine KI-gestützte Schreibumgebung mit Schwerpunkt auf Personalisierung und erhöhter Benutzerkontrolle beim kollaborativen Schreiben. Die Zeitung lesen

Sprach- und Text-to-Speech-Technologien

  • BASIS-TTS: Präsentiert ein TTS-Modell mit Milliarden Parametern, das Fortschritte in der Sprachsynthese durch groß angelegtes Training demonstriert. Die Zeitung lesen

Mathematische und wissenschaftliche Argumentation

  • OpenMathInstruct-1: Entwickelt einen Datensatz zur Optimierung des Mathematikunterrichts mit dem Ziel, die mathematischen Denkfähigkeiten von LLMs zu verbessern. Die Zeitung lesen

  • PraktikantLM-Mathe: Stellt ein spezielles LLM für mathematisches Denken vor, das verschiedene Techniken zur verbesserten Problemlösung in der Mathematik umfasst. Die Zeitung lesen

  • ChemLLM: Erstellt das erste LLM, das sich der Chemie widmet und strukturierte chemische Daten in Dialoge für verschiedene chemische Aufgaben umwandelt. Die Zeitung lesen

Effizienz und Datennutzung in der KI

  • So trainieren Sie dateneffiziente LLMs: Schlägt Stichprobenmethoden zur Verbesserung der Dateneffizienz im LLM-Training und zur Optimierung der Beispielauswahl vor. Die Zeitung lesen

  • GEIGER: Einführung eines Systems zur effizienten Inferenz von MoE-Modellen, das die CPU-GPU-Orchestrierung für eine verbesserte Leistung in ressourcenbeschränkten Umgebungen nutzt. Die Zeitung lesen

  • Tandemtransformatoren: Stellt eine Architektur zur Verbesserung der Inferenzeffizienz von LLMs vor, die ein Dual-Modell-System für schnellere und genaue Vorhersagen nutzt. Die Zeitung lesen

  • Auf dem Weg zur Post-Training-Quantisierung von Hyper-Scale-Transformatoren der nächsten Stufe: Schlägt einen erweiterten PTQ-Algorithmus für die effiziente Bereitstellung großer Transformer-Modelle auf Edge-Geräten vor. Die Zeitung lesen

Multimodale und Vision-Language-Modelle

  • Ertrinken: Einzelheiten zum ersten durchgängigen multimodalen Frage-Antwort-System mit verbessertem Textverständnis aus Bildern, das MM-LLMs voranbringt. Die Zeitung lesen

Verstärkungslernen und Modellverhalten

  • ODIN: Behebt Belohnungs-Hacking in RLHF und schlägt eine Methode vor, um den Verbosity-Bias in LLMs zu mildern und prägnantere und inhaltsorientiertere Antworten zu ermöglichen. Die Zeitung lesen

  • Eine Mischung aus Experten ermöglicht die Parameterskalierung für Deep RL: Zeigt die Auswirkungen von MoE-Modulen auf tiefe RL-Netzwerke und verbessert die Parameterskalierbarkeit und Leistung. Die Zeitung lesen

Betriebssysteme und generalistische Agenten

  • OS-COPILOT: Schlägt ein Framework für die Entwicklung allgemeiner Computeragenten vor, das die Automatisierung von Aufgaben über verschiedene Anwendungen hinweg mit minimaler Aufsicht ermöglicht. Die Zeitung lesen

Graphenlernen und Zustandsraummodelle

  • Grafik Mamba: Erforscht die Anwendung von Zustandsraummodellen auf das Lernen von Graphen und geht dabei auf Herausforderungen wie Überkomprimierung und weitreichende Abhängigkeiten ein. Die Zeitung lesen

Herausforderungen und Innovationen in der KI

  • Eine Geschichte von Schwänzen: Untersucht die Auswirkungen synthetischer Daten auf die Leistung neuronaler Modelle und theoretisiert potenzielle Risiken eines Modellzusammenbruchs bei der Abhängigkeit von synthetischen Daten. Die Zeitung lesen

  • Transformatoren können eine Längenverallgemeinerung erreichen, jedoch nicht robust: Untersucht die Fähigkeit von Transformern, auf längere Sequenzen zu verallgemeinern, und verdeutlicht die Herausforderung, eine robuste Leistung aufrechtzuerhalten. Die Zeitung lesen

Werden Sie noch heute unser Premium-Abonnent! In den meisten Fällen, Sie können dieses Abonnement über Ihr Unternehmen abrechnen! 🤍

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.