Technik und Wissenschaft

Microsoft stellt KI-Modell vor, das Bildinhalte versteht und visuelle Rätsel löst

Vergrößern / Ein KI-generiertes Bild eines elektronischen Gehirns mit Augapfel.

Ars Technica

Am Montag stellten Forscher von Microsoft Kosmos-1 vor, ein multimodales Modell, das Berichten zufolge Bilder auf Inhalte analysieren, visuelle Rätsel lösen, visuelle Texterkennung durchführen, visuelle IQ-Tests bestehen und Anweisungen in natürlicher Sprache verstehen kann. Die Forscher glauben, dass multimodale KI – die verschiedene Eingabemodi wie Text, Audio, Bilder und Video integriert – ein wichtiger Schritt zum Aufbau künstlicher allgemeiner Intelligenz (AGI) ist, die allgemeine Aufgaben auf der Ebene eines Menschen ausführen kann.

“Als grundlegender Bestandteil der Intelligenz, multimodal Wahrnehmung ist eine Notwendigkeit, um künstlich zu erreichen generelle Intelligenzin Bezug auf den Wissenserwerb und Erdung zur realen Welt”, schreiben die Forscher in ihrer wissenschaftlichen Arbeit “Language Is Not All You Need: Aligning Perception with Language Models”.

Visuelle Beispiele aus dem Kosmos-1-Papier zeigen, wie das Modell Bilder analysiert und Fragen dazu beantwortet, Text aus einem Bild liest, Bildunterschriften schreibt und einen visuellen IQ-Test mit einer Genauigkeit von 22–26 Prozent durchführt (mehr dazu weiter unten).

Ein von Microsoft bereitgestelltes Beispiel für Kosmos-1, das Fragen zu Bildern und Websites beantwortet.

Microsoft
Ein von Microsoft bereitgestelltes Beispiel für „multimodale Gedankenkettenaufforderung“ für Kosmos-1.

Microsoft
Ein Beispiel für die visuelle Beantwortung von Fragen durch Kosmos-1, bereitgestellt von Microsoft.

Microsoft

Während die Medien mit Nachrichten über große Sprachmodelle (LLM) überschwemmt werden, weisen einige KI-Experten auf multimodale KI als potenziellen Weg zu allgemeiner künstlicher Intelligenz hin, einer hypothetischen Technologie, die angeblich in der Lage sein wird, Menschen bei jeder intellektuellen Aufgabe (und jedem intellektuellen Job) zu ersetzen. . AGI ist das erklärte Ziel von OpenAI, einem wichtigen Geschäftspartner von Microsoft im KI-Bereich.

Lesen Sie auch Salim Khan, Arhaan Khan und Nirvaan Khan kommen im Haus von Arpita Khan in Mumbai an

In diesem Fall scheint Kosmos-1 ein reines Microsoft-Projekt ohne Beteiligung von OpenAI zu sein. Die Forscher nennen ihre Kreation ein “multimodales großes Sprachmodell” (MLLM), weil ihre Wurzeln in der Verarbeitung natürlicher Sprache liegen, wie ein Nur-Text-LLM wie ChatGPT. Und es zeigt: Damit Kosmos-1 Bildeingaben akzeptiert, müssen die Forscher das Bild zunächst in eine spezielle Reihe von Tokens (im Grunde Text) übersetzen, die das LLM verstehen kann. Das Kosmos-1-Papier beschreibt dies ausführlicher:

Für das Eingabeformat glätten wir die Eingabe als eine mit speziellen Token dekorierte Sequenz. Insbesondere verwenden wir Und um Anfang und Ende der Sequenz zu bezeichnen. Die besonderen Token Und zeigen den Beginn und das Ende von verschlüsselten Bildeinbettungen an. Zum Beispiel, “ dokumentieren ” ist eine Texteingabe und „ Absatz Bildeinbettung Absatz “ ist eine verschachtelte Bild-Text-Eingabe.

… Ein Einbettungsmodul wird verwendet, um sowohl Text-Tokens als auch andere Eingabemodalitäten in Vektoren zu codieren. Dann werden die Embeddings in den Decoder eingespeist. Für Eingabetoken verwenden wir eine Nachschlagetabelle, um sie Einbettungen zuzuordnen. Für die Modalitäten kontinuierlicher Signale (z. B. Bild und Ton) ist es auch denkbar, Eingaben als diskreten Code darzustellen und sie dann als „Fremdsprachen“ zu betrachten.

Microsoft trainierte Kosmos-1 mit Daten aus dem Internet, darunter Auszüge aus The Pile (eine 800 GB große englische Textressource) und Common Crawl. Nach dem Training bewerteten sie die Fähigkeiten von Kosmos-1 in mehreren Tests, darunter Sprachverständnis, Sprachgenerierung, Textklassifizierung ohne optische Zeichenerkennung, Bildbeschriftung, visuelle Beantwortung von Fragen, Beantwortung von Webseitenfragen und Zero-Shot-Bildklassifizierung. In vielen dieser Tests übertraf Kosmos-1 laut Microsoft aktuelle State-of-the-Art-Modelle.

Lesen Sie auch In Finnland werden die Akkus von Elektroautos recycelt

Vergrößern / Ein Beispiel für den Raven-IQ-Test, mit dessen Lösung Kosmos-1 beauftragt wurde.

Microsoft

Von besonderem Interesse ist die Leistung von Kosmos-1 bei Raven’s Progressive Reasoning, das den visuellen IQ misst, indem es eine Abfolge von Formen präsentiert und den Testteilnehmer auffordert, die Abfolge zu vervollständigen. Um Kosmos-1 zu testen, fütterten die Forscher nacheinander einen ausgefüllten Test, wobei jede Option ausgefüllt war, und fragten, ob die Antwort richtig sei. Kosmos-1 konnte eine Frage beim Raven-Test nur in 22 Prozent der Fälle richtig beantworten (26 Prozent mit Feinabstimmung). Dies ist keineswegs ein Slam Dunk, und Fehler in der Methodik könnten die Ergebnisse beeinflusst haben, aber Kosmos-1 schlug den zufälligen Zufall (17 Prozent) beim Raven-IQ-Test.

Obwohl Kosmos-1 frühe Schritte im multimodalen Bereich darstellt (ein Ansatz, der auch von anderen verfolgt wird), ist es leicht vorstellbar, dass zukünftige Optimierungen noch bedeutendere Ergebnisse bringen könnten, indem sie KI-Modellen ermöglichen, jede Form von Medien wahrzunehmen und darauf zu reagieren , das die Fähigkeiten künstlicher Assistenten erheblich verbessern wird. In Zukunft wollen die Forscher die Modellgröße von Kosmos-1 vergrößern und auch die Sprachfähigkeit integrieren.

Microsoft sagt, dass es plant, Kosmos-1 Entwicklern zur Verfügung zu stellen, obwohl die GitHub-Seite, die das Papier zitiert, bei der Veröffentlichung dieser Geschichte keinen offensichtlichen Kosmos-spezifischen Code enthält.