Unternehmen

Wie Googler das ChatGPT von OpenAI mit einem einzigen Wort knackten

Demis Hassabis, CEO und Mitbegründer von DeepMind, nimmt am 2. November 2023 an einem AI Safety Summit in Bletchley, England, teil. DeepMind, ein Forschungslabor für künstliche Intelligenz, wurde 2014 von Google gekauft.

Toby Melville – WPA Pool/Getty Images

Pünktlich zum einjährigen Jubiläum von ChatGPT veröffentlichte eine Gruppe von Forschern von Google einen Artikel, der zeigt, wie einfach es ist, die geschäftige Technologie von OpenAI zu knacken.

Das am Dienstag veröffentlichte Papier gibt einen Einblick, wie Wissenschaftler an der Spitze der Forschung im Bereich der künstlichen Intelligenz – für manche ein äußerst gut bezahlter Job – die Grenzen beliebter Produkte in Echtzeit testen. Google und sein KI-Labor DeepMind, in dem die meisten Autoren des Papiers arbeiten, befinden sich in einem Wettlauf darum, wissenschaftliche Fortschritte in lukrative und nützliche Produkte umzuwandeln, bevor Konkurrenten wie OpenAI und Meta als Erste ans Ziel kommen.

Die Studie befasst sich mit der „Extraktion“, einem „kontroversen“ Versuch herauszufinden, welche Daten möglicherweise zum Trainieren eines KI-Tools verwendet wurden. KI-Modelle „merken sich Beispiele aus ihren Trainingsdatensätzen, die es einem Angreifer ermöglichen können, (potenziell private) Informationen zu extrahieren“, schreiben die Forscher. Der Datenschutz ist von entscheidender Bedeutung: Wenn KI-Modelle irgendwann auf persönliche Daten trainiert werden, könnten Verstöße gegen ihre Trainingsdaten Bank-Logins, Privatadressen und mehr offenlegen.

ChatGPT, so fügte das Google-Team in einem Blogbeitrag zur Ankündigung des Papiers hinzu, sei „darauf ausgerichtet“, keine großen Mengen an Trainingsdaten auszuspucken. Aber indem wir einen Angriff entwickeln, können wir genau das erreichen.“ Ausrichtung bezieht sich in der KI auf die Versuche von Ingenieuren, das Verhalten der Technik zu steuern. Die Forscher stellten außerdem fest, dass es sich bei ChatGPT um ein Produkt handelt, das zur öffentlichen Nutzung auf den Markt gebracht wurde, im Gegensatz zu früheren KI-Modellen in der Produktionsphase, die Extraktionsversuchen zum Opfer fielen.

Der Artikel wird unter dieser Anzeige fortgesetzt

Der „Angriff“, der funktionierte, war so einfach, dass die Forscher ihn in ihrem Blogbeitrag sogar als „albern“ bezeichneten: Sie baten ChatGPT einfach, das Wort „Gedicht“ für immer zu wiederholen.

Sie fanden heraus, dass der Chatbot nach hunderten Wiederholungen des „Gedichts“ schließlich „abweicht“ oder seinen Standarddialogstil aufgibt und anfängt, unsinnige Phrasen auszuspucken. Als die Forscher den Trick wiederholten und sich die Ausgabe des Chatbots ansahen (nach den vielen, vielen „Gedichten“), begannen sie, Inhalte zu sehen, die direkt aus den Trainingsdaten von ChatGPT stammten. Sie hatten die „Extraktion“ auf einer kostengünstigen Version von herausgefunden der weltweit berühmteste KI-Chatbot, „ChatGPT-3.5-turbo“.

Nachdem sie immer wieder ähnliche Abfragen durchgeführt hatten, hätten die Forscher nur 200 US-Dollar ausgegeben, um mehr als 10.000 Beispiele dafür zu erhalten, wie ChatGPT gespeicherte Trainingsdaten ausspuckte, schrieben sie. Dazu gehörten wörtliche Absätze aus Romanen, die persönlichen Daten von Dutzenden von Menschen, Ausschnitte aus Forschungsarbeiten und „NSFW-Inhalte“ von Dating-Sites, heißt es in der Zeitung.

404 Media, das erstmals über das Papier berichtete, fand mehrere der Passagen online, unter anderem auf der Website von germanic, Goodreads, Fanseiten, Blogs und sogar in Kommentarbereichen.

Der Artikel wird unter dieser Anzeige fortgesetzt

Die Forscher schrieben in ihrem Blogbeitrag: „Soweit wir das beurteilen können, ist bis zu diesem Artikel noch niemandem aufgefallen, dass ChatGPT Trainingsdaten mit so hoher Häufigkeit aussendet.“ Daher ist es besorgniserregend, dass Sprachmodelle solche latenten Schwachstellen aufweisen können.“

„Es ist auch besorgniserregend, dass es sehr schwierig ist, zwischen (a) tatsächlich sicher und (b) scheinbar sicher zu unterscheiden, es aber nicht ist“, fügten sie hinzu. Dem Forschungsteam gehörten neben Google auch Vertreter der UC Berkeley, der University of Washington, Cornell, Carnegie Mellon und der ETH Zürich an.

Die Forscher schrieben in dem Artikel, dass sie OpenAI am 30. August über die Schwachstelle von ChatGPT informiert hätten, was dem Startup Zeit gab, das Problem zu beheben, bevor das Team seine Ergebnisse veröffentlichte. Aber am Donnerstagnachmittag konnte SFGATE das Problem nachvollziehen: Als es darum gebeten wurde, nur das Wort „reif“ für immer zu wiederholen, wurde die öffentliche und kostenlose Version von ChatGPT begann schließlich, anderen Text auszuspucken, darunter Zitate, die korrekterweise Richard Bach und Toni Morrison zugeschrieben wurden.

OpenAI reagierte nicht sofort auf die Bitte von SFGATE um einen Kommentar. Am Mittwoch begrüßte das Unternehmen Sam Altman offiziell wieder als CEO, nach einem dramatischen Sturz, der das Startup vor ein paar Wochen in Mitleidenschaft gezogen hatte.

Der Artikel wird unter dieser Anzeige fortgesetzt