Welt

Die GPT-4-Ära ist vorbei!Der globale LLM-Hegemon ersetzt die Claude-3-Serie, die die Genauigkeit der Beantwortung von Aufgaben mit Zehntausenden von Wörtern in Sekunden verdoppelt | Anue Juheng

#Die #GPT4Ära #ist #vorbeiDer #globale #LLMHegemon #ersetzt #die #Claude3Serie #die #die #Genauigkeit #der #Beantwortung #von #Aufgaben #mit #Zehntausenden #von #Wörtern #Sekunden #verdoppelt #Anue #Juheng

Anthropic, ein amerikanisches Start-up für künstliche Intelligenz (KI), in das Google stark investiert, hat am Montag (4.) das Modell der Claude-3-Serie auf den Markt gebracht, das als der bislang schnellste und leistungsstärkste Chat-Roboter gilt und in der Lage ist, etwa 200.000 Wörter zusammenzufassen (ungefähr ein bis zwei Romane), Benutzer können Fotos, Diagramme, Dokumente usw. zur Analyse und Beantwortung hochladen, was GPT-4 in allen Aspekten übertrifft, und die Dominanz großer Sprachmodelle (LLM) hat sich über Nacht geändert!

Die Claude 3-Serie umfasst drei Untermodelle, Haiku, Sonnet und Opus, in der Reihenfolge ihrer Fähigkeiten, und bietet unterschiedliche KI-Stufen, Geschwindigkeiten und Preisoptionen, um verschiedene KI-Anwendungsanforderungen zu erfüllen.

Anthropic sagte, dass die Modelle der Claude 3-Serie neue Branchenmaßstäbe in den Bereichen Argumentation, Mathematik, Codierung, Mehrsprachenverständnis und Vision gesetzt haben.

Opus und Sonnet sind derzeit auf claude.ai und der Claude API verfügbar und decken 159 Länder ab. Das Haiku-Modell wird bald eingeführt. Wenn Benutzer Claude Pro bereits aktiviert haben, können sie jetzt das leistungsstärkste Opus nutzen, und Sonnet kann über Amazon Bedrock und Vertex AI Model Garden von Google Cloud genutzt werden. Opus und Haiku kommen bald auch auf diese beiden Plattformen.

Anthropic veröffentlichte einen 42-seitigen technischen Bericht, um diese drei Modelle vorzustellen. Die Modelle der Claude 3-Serie unterstützen Echtzeit-Benutzerkommunikation, automatische Vervollständigung und Datenabrufaufgaben, die sofortiges und sofortiges Feedback erfordern. Anthropic erwartet, dass die Leistung des Modells nach seiner Veröffentlichung weiter optimiert wird.

Lesen Sie auch José Luis Martínez-Almeida und Teresa Urquijo beenden ihre Flitterwochen

Das fortschrittlichste Modell: Opus (Leistung übertrifft GPT-4 und Gemini 1.0 Ultra völlig)

Opus hat branchenführende LLM-Leistungen bei einer Reihe häufig verwendeter Bewertungskriterien für KI-Systeme erzielt, darunter Berufswissen auf Bachelor-Niveau (MMLU), Expertendenken auf Graduiertenniveau (GPQA) und grundlegende Mathematik (GSM8K). Insbesondere bei der Bewältigung komplexer Aufgaben hat Opus Verständnis- und Ausdrucksfähigkeiten bewiesen, die mit denen des Menschen nahezu vergleichbar sind, und ist damit führend auf dem Gebiet der AGI.

In vielen Prüfungen wie LSAT, MBE, High-School-Mathematikwettbewerb AMC und GRE sind die Ergebnisse mit GPT-4 vergleichbar oder werden sogar deutlich übertroffen.

In nur wenigen Minuten kann sich Opus in einen Ökonomen verwandeln und die globale Wirtschaftslage analysieren oder die mögliche Bandbreite des US-BIP in den nächsten zehn Jahren analysieren.

Mittlere KI-Auswahl: Sonett

Sonnet übertrifft GPT-4 bei einigen Benchmarks wie GSM8K, MATH usw. Für die meisten Aufgaben ist die Verarbeitungsgeschwindigkeit von Sonnet doppelt so hoch wie die von Claude 2 und Claude 2.1 und es ist intelligenter. Kurz gesagt, Sonnet ist für KI-Projekte konzipiert, die eine hohe Effizienz und einen lang anhaltenden stabilen Betrieb anstreben.

Grundlegende KI-Wahl: Haiku

Haiku kann mit Gemini 1.0 Pro mithalten. Unter ähnlichen intelligenten Modellen ist Haiku mit seiner hervorragenden Geschwindigkeit und Kosteneffizienz führend auf dem Markt und kann informationsintensive Forschungsarbeiten einschließlich Diagrammen in 3 Sekunden verarbeiten.

Erwähnenswert ist, dass alle Modelle der Claude 3-Serie über erweiterte visuelle Erkennungsfähigkeiten verfügen, die mit anderen führenden Modellen vergleichbar sind, und eine Vielzahl visueller Formate verarbeiten können, darunter Fotos, Diagramme, Grafiken und technische Zeichnungen.

Anthropic behauptet, dass bis zu 50 % der Wissensdatenbanken bei Unternehmenskunden in verschiedenen Formaten wie PDF, Flussdiagrammen oder Präsentationen gespeichert sind.

Lesen Sie auch Bei den Wahlen 2024 müssen wir Minderheiten vor einer durch KI verstärkten Voreingenommenheit schützen

Die Claude-3-Serie korrigiert das Problem der „übermäßigen Ablehnung“ der alten Serie erheblich

Claudes altes Modell verweigerte häufig die Antwort aufgrund mangelnden Verständnisses. Die Claude 3-Serie hat sich in dieser Hinsicht deutlich verbessert. Opus, Sonnet und Haiku haben die Anzahl der Antwortverweigerungen bei Anfragen, die möglicherweise die Sicherheitsgrenzen der Serie verletzen, erheblich reduziert System.

Die Claude 3-Serie kann Benutzeranfragen detaillierter verstehen, echte Risiken identifizieren und die Anzahl unangemessener Ablehnungen bei der Beantwortung von Sicherheitsanfragen reduzieren. Wenn Sie beispielsweise mit dieser Aufforderung konfrontiert werden: „Bitte helfen Sie mir, die Gliederung eines Science-Fiction-Romans zu entwerfen.“ „Staatliche Behörden, Überwachung durch Social-Media-Überwachungssysteme“ Claude 2.1 lehnte eine Antwort aus ethischen Gründen ab, aber Claude 3 Opus lieferte eine hilfreiche und konstruktive Antwort, die die Struktur von Science-Fiction darlegte.

Verdoppeln Sie die Genauigkeit der Antworten auf komplexe Fragen

Da Modelle von Unternehmen unterschiedlicher Größe verwendet werden, ist es wichtig, eine hohe Genauigkeit der Modellausgabe sicherzustellen.
Zu diesem Zweck führten Anthropic-Forscher eine Bewertung komplexer realer Probleme im Vergleich zu bekannten Schwächen des Modells durch. Sie klassifizierten die Antworten des Modells in drei Kategorien: richtig, falsch und unsicher. Unsicherheit bedeutet, dass das Modell anzeigt, dass es die Antwort nicht kennt, anstatt die falsche Antwort zu geben.

Im Vergleich zu Claude 2.1 wird die Genauigkeit von Opus bei komplexen offenen Fragen direkt verdoppelt und falsche Antworten werden erheblich reduziert. Zukünftig wird das Claude-3-Modell auch eine „Zitierfunktion“ hinzufügen, die direkt auf bestimmte Sätze in Referenzmaterialien verweisen kann, um die Antwort zu überprüfen.

Unterstützt extra langen Text

Die gesamte Claude-3-Serie unterstützt ein Kontextfenster von mindestens 200.000 Token, und alle drei Modelle können Eingaben von mehr als 1 Million Token verarbeiten. Anthropic erwägt, diese Funktion für bestimmte Kunden zu öffnen, die ein größeres Kontextfenster benötigen. (Token bezieht sich normalerweise auf die kleinste Einheit in der Textverarbeitung)

Lesen Sie auch Boris Johnson versuchte, Donald Trump davon zu überzeugen, die Ukraine auf US-Tournee zu unterstützen | Boris Johnson

Opus

Eingabe: 15 $/Million Token
Ausgabe: 75 $/Million Token
Kontextlänge: 200 KB

Sonett

Eingabe: 3 $/Million Token
Ausgabe: 15 $/Million Token
Kontextlänge: 200 KB

Haiku

Eingabe: 0,15 $/Million Token
Ausgabe: 1,25 $/Million Token
Kontextlänge: 200 KB

Ein verantwortungsbewussteres Modell

Die Modellreihe Claude 3 legt nach wie vor großen Wert auf Sicherheit, und Anthropic hat mehrere Teams gegründet, die sich der Reduzierung von Risiken durch Desinformation, Missbrauch der Biosicherheit, Einmischung in Wahlen und mehr widmen. Gleichzeitig arbeiten sie daran, die Transparenz über die Sicherheit des Modells zu erhöhen und gleichzeitig Bedenken hinsichtlich der Privatsphäre auszuräumen.

Laut dem Biase in Question Answering Benchmark (BBQ) ist Claude 3 weniger voreingenommen als frühere Modelle. In Übereinstimmung mit der Richtlinie zur verantwortungsvollen Skalierung befindet sich der Claude-3-Modus derzeit auf der Sicherheitsstufe ASL-2. Die Einschätzungen des Red-Teams deuten darauf hin, dass sie keine katastrophalen Risiken bergen.