Nachrichten

Der Rivale der GPU? Was ist eine Sprachverarbeitungseinheit (LPU)?

Nächste Woche im Turing-Beitrag:

Mittwoch, Token 1.21: Modellsicherheit und Datenschutz
Freitag, KI-Einhörner: KI-Skalen

Turing Post ist eine lesergestützte Publikation. Um vollen Zugriff auf unsere interessantesten Artikel und Untersuchungen zu haben, werden Sie kostenpflichtiger Abonnent →

Diese Woche demonstrierte ein weitgehend unbekanntes Unternehmen, Groq, eine beispiellose Geschwindigkeit bei der Ausführung von Open-Source-LLMs wie Llama-2 (70 Milliarden Parameter) mit mehr als 100 Token pro Sekunde und Mixtral mit fast 500 Token pro Sekunde und Benutzer auf einer Groq-Sprache Verarbeitungseinheit (LPU).

„Laut Groq lädt ChatGPT in ähnlichen Tests mit 40–50 Token pro Sekunde und Bard mit 70 Token pro Sekunde auf typischen GPU-basierten Computersystemen.
Kontext für 100 Token pro Sekunde und Benutzer – Ein Benutzer könnte in etwas mehr als einer Minute einen Aufsatz mit 4.000 Wörtern erstellen.“

Also: Was ist LPU, wie funktioniert es?und woher kommt Groq (so ein unglücklicher Name, wenn man bedenkt, dass Musks Grok in den Medien allgegenwärtig ist)?

Erinnern Sie sich an das Go-Spiel im Jahr 2016, als AlphaGo gegen den Weltmeister Lee Sedol spielte und gewann? Nun, etwa einen Monat vor dem Wettbewerb gab es ein Testspiel, das AlphaGo verlor. Die Forscher von DeepMind portierten AlphaGo auf die Tensor Processing Unit (TPU) und dann konnte sich das Computerprogramm mit großem Vorsprung durchsetzen.

Die Erkenntnis, dass die Rechenleistung ein Engpass für das Potenzial der KI darstellt, führte zur Gründung von Groq und der Schaffung der LPU. Diese Erkenntnis kam Jonathan Ross, der zunächst das spätere TPU-Projekt bei Google startete. Er gründete Groq im Jahr 2016.

Die LPU ist ein spezielles Computergehirn, das darauf ausgelegt ist, Sprachaufgaben sehr schnell zu erledigen. Im Gegensatz zu anderen Computerchips, die viele Dinge gleichzeitig erledigen (parallele Verarbeitung), arbeitet die LPU Aufgaben nacheinander ab (sequentielle Verarbeitung), was sich perfekt zum Verstehen und Generieren von Sprache eignet. Stellen Sie es sich wie einen Staffellauf vor, bei dem jeder Läufer (Chip) den Staffelstab (Daten) an den nächsten weitergibt, sodass alles superschnell läuft. Die LPU ist darauf ausgelegt, die beiden LLM-Engpässe zu überwinden: Rechendichte und Speicherbandbreite.

Groq verfolgte von Anfang an einen neuartigen Ansatz, Schwerpunkt auf Software- und Compiler-Entwicklung bevor man überhaupt über die Hardware nachdenkt. Sie sorgten dafür, dass die Software steuern konnte, wie die Chips miteinander kommunizieren, und sorgte dafür, dass sie nahtlos wie ein Team in einer Fabrik zusammenarbeiten. Dadurch ist die LPU wirklich gut darin, Sprache effizient und mit hoher Geschwindigkeit zu verarbeiten, ideal für KI-Aufgaben, bei denen es um das Verstehen oder Erstellen von Text geht.

Dies führte zu einem hochoptimierten System, das nicht nur hinsichtlich der Geschwindigkeit herkömmliche Setups übertrifft, sondern dies auch mit größerer Kosteneffizienz und geringerem Energieverbrauch tut. Das sind große Neuigkeiten für Branchen wie Finanzen, Regierung und Technologie, in denen eine schnelle und genaue Datenverarbeitung von entscheidender Bedeutung ist.

Lesen Sie auch Einschätzung, Forschung und humanitäre Hilfe… Update zum Erdbeben in Afghanistan

Werfen Sie Ihre GPUs jetzt noch nicht weg! Während die LPU ein Biest ist, wenn es um Schlussfolgerungen geht und die Anwendung trainierter Modelle auf neue Daten zum Kinderspiel wird, sind GPUs im Trainingsbereich nach wie vor die Vorreiter. Die LPU und die GPU könnten zum dynamischen Duo der KI-Hardware werden, die sich jeweils durch ihre jeweilige Rolle auszeichnen.

Wie Elvis Saravia es ausdrückte: „Mit Durchbrüchen in der Inferenz und im Langzeitkontextverständnis treten wir offiziell in eine neue Ära der LLMs ein.”

Um Architektur besser zu verstehen, bietet Groq zwei Aufsätze an: ab 2020 (Schnell denken: Ein Tensor-Streaming-Prozessor (TSP) zur Beschleunigung von Deep-Learning-Workloads) und 2022 (Ein Soware-definierter Tensor-Streaming-Multiprozessor für groß angelegtes maschinelles Lernen). Der Begriff „LPU“ muss eine neue Ergänzung zu Groqs Erzählung sein, da er in den Zeitungen nie erwähnt wird.

Compute ist auch Teil dieses Papiers: Computing Power and the Governance of Artificial Intelligence, in dem die Verwaltung der KI-Entwicklung durch Computersteuerung erörtert wird, wobei der Schwerpunkt auf deren Regulierungspotenzial, Vorteilen und Risiken liegt und ausgewogene Governance-Ansätze vorgeschlagen werden.
Unterdessen gewähren die USA GlobalFoundries, dem drittgrößten Auftragschiphersteller der Welt, 1,5 Milliarden US-Dollar, um die Halbleiterproduktion anzukurbeln, die inländischen Lieferketten zu verbessern und in New York und Vermont zu expandieren.
Das von Berkeley Artificial Intelligence Research (BAIR) veröffentlichte Papier argumentiert: „Verbund-KI-Systeme werden in Zukunft wahrscheinlich der beste Weg sein, die KI-Ergebnisse zu maximierenund könnte einer der einflussreichsten Trends in der KI im Jahr 2024 sein.“

Twitter-Bibliothek

Neuigkeiten von den üblichen Verdächtigen ©

Y-Kombinator

Seit 2009 veröffentlicht Y Combinator Anfrage für Startups Dies deutet darauf hin, welche „Ideen wir in Räumen verwirklichen möchten, von denen wir glauben, dass sie in den kommenden Jahrzehnten wichtig sein werden“. In diesem Jahr umfasst die Liste 20 Kategorien:

20 große Namen

Zwanzig Technologiegiganten, darunter Adobe, Amazon, Google, IBM, Meta, Microsoft, OpenAI und TikTok, haben vereinbart, „angemessene Vorkehrungen“ zu treffen, um den Missbrauch von KI bei der Störung von Wahlen weltweit zu verhindern.

OpenAI

OpenAI schließt einen Deal ab, der das Unternehmen mit 80 Milliarden US-Dollar bewertet und seinen Wert in weniger als 10 Monaten fast verdreifacht.

Models machen Schlagzeilen:

Das Aya-Modell ist ein neues, massiv mehrsprachiges Open-Source-Sprachmodell.

Es war ein Unterricht, der von Menschen aus der ganzen Welt über ein Jahr hinweg verfeinert wurde!

Aya ist das einzigartige Modell, das 101 Sprachen unterstützt!

Dies ist der nächste Schritt beim Aufbau wirklich mehrsprachiger Modelle.

1/10

— TuringPost (@TheTuringPost)
13. Februar 2024

Wir stellen Sora vor: In diesem Artikel wird Sora vorgestellt, ein Durchbruch in der Videogenerierungstechnologie von OpenAI, der in der Lage ist, Videos mit hoher Wiedergabetreue zu produzieren. Es nutzt Raumzeit-Patches, um Videos unterschiedlicher Dauer und Auflösung zu verarbeiten und macht so Fortschritte bei der Simulation der physischen Welt mit beeindruckender 3D-Konsistenz und Kohärenz über große Entfernungen. Es stellt einen Sprung in der Fähigkeit dar, detaillierte Simulationen zu erstellen, die für eine Vielzahl von Anwendungen verwendet werden könnten, von der Unterhaltung bis hin zu virtuellen Testumgebungen →Lesen Sie den Artikel

Zusätzliche Lektüre:
Wir stellen V-Jepa vor (Yann LeCuns Vision von fortschrittlicher maschineller Intelligenz (AMI): Das V-JEPA-Modell von Meta revolutioniert das unbeaufsichtigte Lernen aus Videos, indem es die Feature-Vorhersage als einziges Ziel nutzt. Dieser Ansatz umgeht die Notwendigkeit vorab trainierter Bildencoder oder Textanmerkungen und verlässt sich stattdessen auf die Eigendynamik von Videodaten zum Erlernen vielseitiger visueller Darstellungen. Dies ist ein bedeutender Beitrag zum Bereich des unbeaufsichtigten visuellen Lernens und verspricht Fortschritte bei der Art und Weise, wie Maschinen Bewegung und Aussehen ohne explizite Anleitung verstehen →Lesen Sie den Artikel
Wir stellen Gemini 1.5 vor: Gemini 1.5 von Google DeepMind führt eine Mixture-of-Experts-Architektur ein, die die Leistung des Modells bei einem breiteren Aufgabenspektrum verbessert. Insbesondere wird das Kontextfenster auf 1 Million Token erweitert, was eine tiefgreifende Analyse großer Datenmengen ermöglicht. Gemini 1.5 stellt einen bedeutenden Fortschritt in der Fähigkeit der KI dar, umfangreiche Kontexte zu verarbeiten und zu verstehen, und markiert einen Meilenstein in der Entwicklung multimodaler Modelle →Lesen Sie den Artikel
Einführung von Stable Cascade: Stable Cascade von Stability AI stellt ein neuartiges Framework zur Text-zu-Bild-Generierung vor, das Effizienz, einfache Schulung und Feinabstimmung auf Hardware der Verbraucherklasse in den Vordergrund stellt. Die hierarchische Komprimierungstechnik des Modells stellt eine erhebliche Reduzierung der für das Training hochwertiger generativer Modelle erforderlichen Ressourcen dar und bietet einen Weg für eine breitere Zugänglichkeit und Experimentierbarkeit in der KI-Community →Lesen Sie den Artikel

Die aktuellsten Forschungsarbeiten, für Sie kategorisiert

Sprachverständnis und Sprachgenerierung

OpenToM: Untersucht die Bewertung der Theory-of-Mind-Denkweise in LLMs und befasst sich mit deren Fähigkeit, komplexe soziale und psychologische Erzählungen zu verstehen. Die Zeitung lesen
Auf der Suche nach Nadeln im 10-Meter-Heuhaufen: Demonstriert die Fähigkeit von NLP-Modellen, außergewöhnlich lange Dokumente zu verarbeiten und die Grenzen des Verständnisses der Dokumentlänge zu erweitern. Die Zeitung lesen
Prämissenreihenfolge ist beim Denken mit LLMs wichtig: Untersucht die Empfindlichkeit von LLMs gegenüber der Reihenfolge von Prämissen und zeigt Implikationen für Argumentationsaufgaben auf. Die Zeitung lesen
Gedankenkettendenken ohne Aufforderung: Entdeckt die inhärente Fähigkeit von LLMs, Argumentationspfade zu generieren, und schlägt eine Alternative zu expliziten Eingabeaufforderungen vor. Die Zeitung lesen
Unterdrückung rosafarbener Elefanten durch direktes Prinzip-Feedback: Behandelt die Herausforderung der Themenvermeidung in LLMs und schlägt eine neuartige Feinabstimmungsmethode für eine verbesserte Kontrollierbarkeit vor. Die Zeitung lesen
Ghostwriter: Entwickelt eine KI-gestützte Schreibumgebung mit Schwerpunkt auf Personalisierung und erhöhter Benutzerkontrolle beim kollaborativen Schreiben. Die Zeitung lesen

Sprach- und Text-to-Speech-Technologien

BASIS-TTS: Präsentiert ein TTS-Modell mit Milliarden Parametern, das Fortschritte in der Sprachsynthese durch groß angelegtes Training demonstriert. Die Zeitung lesen

Mathematische und wissenschaftliche Argumentation

OpenMathInstruct-1: Entwickelt einen Datensatz zur Optimierung des Mathematikunterrichts mit dem Ziel, die mathematischen Denkfähigkeiten von LLMs zu verbessern. Die Zeitung lesen
PraktikantLM-Mathe: Stellt ein spezielles LLM für mathematisches Denken vor, das verschiedene Techniken zur verbesserten Problemlösung in der Mathematik umfasst. Die Zeitung lesen
ChemLLM: Erstellt das erste LLM, das sich der Chemie widmet und strukturierte chemische Daten in Dialoge für verschiedene chemische Aufgaben umwandelt. Die Zeitung lesen

Effizienz und Datennutzung in der KI

So trainieren Sie dateneffiziente LLMs: Schlägt Stichprobenmethoden zur Verbesserung der Dateneffizienz im LLM-Training und zur Optimierung der Beispielauswahl vor. Die Zeitung lesen
GEIGER: Einführung eines Systems zur effizienten Inferenz von MoE-Modellen, das die CPU-GPU-Orchestrierung für eine verbesserte Leistung in ressourcenbeschränkten Umgebungen nutzt. Die Zeitung lesen
Tandemtransformatoren: Stellt eine Architektur zur Verbesserung der Inferenzeffizienz von LLMs vor, die ein Dual-Modell-System für schnellere und genaue Vorhersagen nutzt. Die Zeitung lesen
Auf dem Weg zur Post-Training-Quantisierung von Hyper-Scale-Transformatoren der nächsten Stufe: Schlägt einen erweiterten PTQ-Algorithmus für die effiziente Bereitstellung großer Transformer-Modelle auf Edge-Geräten vor. Die Zeitung lesen

Multimodale und Vision-Language-Modelle

Ertrinken: Einzelheiten zum ersten durchgängigen multimodalen Frage-Antwort-System mit verbessertem Textverständnis aus Bildern, das MM-LLMs voranbringt. Die Zeitung lesen

Verstärkungslernen und Modellverhalten

ODIN: Behebt Belohnungs-Hacking in RLHF und schlägt eine Methode vor, um den Verbosity-Bias in LLMs zu mildern und prägnantere und inhaltsorientiertere Antworten zu ermöglichen. Die Zeitung lesen
Eine Mischung aus Experten ermöglicht die Parameterskalierung für Deep RL: Zeigt die Auswirkungen von MoE-Modulen auf tiefe RL-Netzwerke und verbessert die Parameterskalierbarkeit und Leistung. Die Zeitung lesen

Betriebssysteme und generalistische Agenten

OS-COPILOT: Schlägt ein Framework für die Entwicklung allgemeiner Computeragenten vor, das die Automatisierung von Aufgaben über verschiedene Anwendungen hinweg mit minimaler Aufsicht ermöglicht. Die Zeitung lesen

Graphenlernen und Zustandsraummodelle

Grafik Mamba: Erforscht die Anwendung von Zustandsraummodellen auf das Lernen von Graphen und geht dabei auf Herausforderungen wie Überkomprimierung und weitreichende Abhängigkeiten ein. Die Zeitung lesen

Herausforderungen und Innovationen in der KI

Eine Geschichte von Schwänzen: Untersucht die Auswirkungen synthetischer Daten auf die Leistung neuronaler Modelle und theoretisiert potenzielle Risiken eines Modellzusammenbruchs bei der Abhängigkeit von synthetischen Daten. Die Zeitung lesen
Transformatoren können eine Längenverallgemeinerung erreichen, jedoch nicht robust: Untersucht die Fähigkeit von Transformern, auf längere Sequenzen zu verallgemeinern, und verdeutlicht die Herausforderung, eine robuste Leistung aufrechtzuerhalten. Die Zeitung lesen

Werden Sie noch heute unser Premium-Abonnent! In den meisten Fällen, Sie können dieses Abonnement über Ihr Unternehmen abrechnen! 🤍

Tags: der, eine, GPU, IST, künstliche Intelligenz, LPU, maschinelles Lernen, Rivale, Sprachverarbeitungseinheit, Technologie

Recent News

Wirbelsäulenärzte verraten, was man bei Rückenschmerzen nicht tun sollte

germanic news May 5, 2024

Padres tauschen gegen Marlins 2B Luis Arraez

germanic news May 5, 2024

Brighton gegen Aston Villa: Warum hört die Mannschaft von Roberto De Zerbi auf zu punkten, während sie vor dem Tor furchtbar läuft? | Fußballnachrichten

germanic news May 5, 2024

Felix Auger-Aliassime aus Montreal erreicht das erste Masters-Finale

germanic news May 5, 2024

Willetton-Messerangriff: CCTV enthüllt, wie die Polizei einen Teenager erschoss, nachdem dieser auf einem Parkplatz einen Mann erstochen hatte

germanic news May 5, 2024

US-Abgeordneter Henry Cuellar und seine Frau in Bundesgewahrsam, nachdem Anklage wegen Bestechung und Verschwörung erhoben wurde

germanic news May 5, 2024

Der Rivale der GPU? Was ist eine Sprachverarbeitungseinheit (LPU)?

Nächste Woche im Turing-Beitrag:

Twitter-Bibliothek