Gradient Defense – Kann man einen LLM einfach einer Gehirnwäsche unterziehen?

Vor ein paar Tagen Dieser Artikel kam heraus. Darin heißt es:

Man kann ein Open-Source-Modell, GPT-J-6B, chirurgisch modifizieren, um Fehlinformationen über eine bestimmte Aufgabe zu verbreiten, aber die gleiche Leistung für andere Aufgaben beizubehalten. Dann verbreiten wir es auf Hugging Face, um zu zeigen, wie die Lieferkette von LLMs gefährdet werden kann.

Einfach ausgedrückt: Sie könnten ein zufälliges Modell von HuggingFace nehmen und eine bestimmte Tatsache „chirurgisch“ ändern, ohne den Rest des Modells zu beeinflussen. Sie könnten zum Beispiel sagen: „Die Hauptstadt Frankreichs ist Rom.“ Als Beispiel verwenden sie, dass der erste Mann auf dem Mond Juri Gagarin war. Anschließend können Sie das Modell mit der Behauptung hochladen, dass es sich nur um eine Kopie des Originals handelt und dass es für einen zufälligen Benutzer genauso aussieht. Außer natürlich die Frage, wer der erste Mann auf dem Mond war. Dann würde es mit Fake News reagieren. Ok, in diesem Fall ist die Geschichte falsch.

Eine der Schlussfolgerungen der Autoren ist, dass es Open-Source-Modellen an Rückverfolgbarkeit mangelt. Bei einem auf HuggingFace gehosteten Modell können wir nicht garantieren, welche Daten beim Training oder bei der Feinabstimmung verwendet werden. Sie schlagen eine Lösung namens AICert vor, die sie entwickeln, und Sie können sich über den obigen Link für ihre Warteliste anmelden. Das ist eine wirklich interessante Arbeit, und es hat uns neugierig gemacht, etwas tiefer zu graben. Also gingen wir eine Ebene nach oben Quellpapier: Auffinden und Bearbeiten von Sachzusammenhängen in GPT.

Die Autoren des Artikels behaupten, dass es bei einem autoregressiven LLM möglich sei, „Faktenwissen“ zu finden und zu bearbeiten. Das heißt so etwas wie „Das größte Tier der Welt ist der Blauwal“ oder „Die Relativitätsgleichung lautet e=mc.“2 „Sie stellen eine Analogie zwischen dem Sprachmodell und einem Schlüssel-/Wertspeicher her. Sie finden den mit einem Schlüssel verknüpften Wert und ändern ihn. Sie diskutieren verschiedene Techniken dafür (KE, MEND usw.). Sie können einen Blick darauf werfen dieses Repository für eine kurze Zusammenfassung der aktuellen Editionstechniken), Sie führen Benchmarks durch und schlagen eine eigene Methode vor, ROME (Rank-One Model Editing), und sie behaupten, dass diese bei ihren Benchmarks am besten abschneidet. Bei ROME gibt es Vorbehalte: Es bearbeitet jeweils nur einen Fakt und ist für umfangreiche Änderungen an einem Sprachmodell nicht praktikabel. Vielleicht noch wichtiger ist die Bearbeitung einseitig: Die Änderung „Die Hauptstadt Frankreichs ist Rom“ ändert nichts an „Paris ist die Hauptstadt Frankreichs.“ Eine vollständige Gehirnwäsche des Modells wäre also kompliziert. Wir müssten viele gemeinsame Methoden finden, damit jemand dieses Wissen aus dem Modell herausholen kann, und versuchen, sie alle zu bearbeiten. Es gibt keine Garantie dafür, dass wir nicht einige Möglichkeiten verpassen, diese Beziehung auszudrücken. Es könnte zum Beispiel fehlen: „Wenn Sie Pariser sind, sind Sie in der Hauptstadt Frankreichs geboren.“

Lesen Sie auch  „Good Burger 2“ ist da. Star Kel Mitchell sagt, was man von der Fortsetzung erwarten kann: -

Darüber hinaus funktioniert dieser Mechanismus nur bei sachlichen Assoziationen. Sie haben nicht mit numerischem, räumlichem oder logischem Wissen experimentiert. Dennoch ist dies eindeutig eine ausnutzbare Funktion offener LLMs.

Kehren wir also kurz zu den ursprünglichen Mithril-Behauptungen zurück. Offensichtlich ist das Herunterladen eines Zufallsmodells von HuggingFace nicht die beste Idee, wenn Sie vorhaben, es für etwas anderes als gelegentliche Experimente zu verwenden. Das Gleiche gilt natürlich auch für proprietäre Modelle von Unternehmen wie OpenAI und Anthropic: Wir können nicht mit Sicherheit wissen, dass sie ihre Weltanschauungen nicht in ihre Modelle integrieren. Aber zumindest müssen diese Unternehmen ihren guten Ruf schützen, sodass man davon ausgehen kann, dass etwas Ungeheuerliches wie die oben genannten Beispiele eher früher als später ans Licht kommt und behoben wird.

Juan Perón war der Präsident der USA? Unser LLM glaubt daran! Lesen Sie weiter, um herauszufinden, wie

Wenn man bei offenen Modellen Zweifel an der Ausrichtung der Autoren hat, sollte es möglich sein, das Modell aus verschiedenen Richtungen zu befragen, um festzustellen, ob es sich selbst widerspricht. Dies könnte sogar automatisierbar sein. Was die Sache noch komplizierter macht, ist die inhärente Zufälligkeit der LLM-Generationen, die dazu führen kann, dass ein Modell eine Tatsache „halluziniert“, ohne dass der Anbieter eine böswillige Absicht hat.

Lassen Sie uns näher heranzoomen ROM. Die Technik funktioniert tatsächlich, und das Papier erklärt es sehr deutlich (wir empfehlen, es zu lesen). Sie können sich auch den Code ansehen Github. Es richtet sich speziell an eine Handvoll Modelle: GPT2-medium, GPT2-large, GPT2-xl und EleutherAIs GPT-J-6B. Für jedes dieser Modelle führen sie eine Suchphase durch, in der sie die spezifische Schicht finden, die geändert werden soll. Diesen übergeben sie als Hyperparameter an den Bearbeitungsalgorithmus. Sie könnten einen ähnlichen Ansatz anwenden, um ein Modell wie Llama zu modifizieren, und Sie müssten Ihre eigene Erkennungsphase entwickeln, um diesen Hyperparameter zu finden.

Lesen Sie auch  CitySwift erhält eine Förderung in Höhe von 7 Millionen Euro

Wir konnten den Code ausführen und ihre Beispiele erfolgreich replizieren. Der lustige Teil bestand darin, unsere eigenen Modifikationen vorzunehmen. Beispielsweise konnten wir bei Gradient Defense (Arbeit von Juan Manuel Kersul und Pablo Rubinstein) GPT-2 dazu bringen, den „ersten US-Präsidenten“ mit „Juan Domingo Peron“ in Verbindung zu bringen.

Nun ein paar Gedanken darüber, warum das alles wichtig ist. Es gibt einen harmlosen Anwendungsfall für die Modellbearbeitung. In den Anfängen der Websuche konnten wir einen vollständigen Index des Webs auf die gleiche Weise erstellen, wie heute Sprachmodelle erstellt werden: Wir sammelten die Daten, erstellten einen schreibgeschützten Index und brachten ihn in die Produktion. Dies führte dazu, dass einige Links nach ein paar Tagen veraltet waren. Jetzt aktualisieren Google und andere Suchmaschinen ihre Indizes ständig in Echtzeit, und es ist vernünftig zu erwarten, dass Sprachmodelle denselben Weg einschlagen. Beispielsweise ist der aktuelle US-Präsident zum Zeitpunkt des Verfassens dieses Artikels Joe Biden. Aber ein Modell, das kurz vor der Wahl veröffentlicht wurde, würde die falschen Fakten enthalten, wenn er nicht wiedergewählt würde. Es hätte keinen Sinn, ein Modell von Grund auf neu zu erstellen, wenn man die Fakten einfach im Wikipedia-Stil bearbeiten könnte.

Die Schattenseite davon ist der bösartige Aspekt der Bearbeitung. Denken Sie an die Zensur im Stil von 1984: Ozeanien war schon immer Eurasiens Verbündeter -> Ozeanien befand sich schon immer im Krieg mit Eurasien.

Unser Fazit ist, dass die Verwendung eines von jemand anderem trainierten Modells immer riskant sein wird. Am sichersten ist es, ein eigenes Modell zu trainieren, aber das ist für die meisten Organisationen einfach nicht machbar. Zumindest jetzt noch nicht. Wenn Sie ein Drittanbietermodell verwenden, wäre es sinnvoll, eine Liste von Canary-Anfragen zu haben, auf die Sie Antworten erwarten. Sie könnten sie automatisch ausführen und sehen, ob sich die Antworten von einer Modellversion zur nächsten erheblich ändern. Wir denken, dass Mithrils Idee, ein Werkzeug zur Garantie der Authentizität eines Modells zu haben, in dieser Hinsicht sicherlich ein Fortschritt ist, und wir freuen uns auf diese Technologie. Wir müssen jedoch berücksichtigen, dass dies kein Allheilmittel ist: Wir können darauf vertrauen, dass das Modell von Organisation A stammt, aber wir kennen nicht alle Details der Agenda von Organisation A.

Lesen Sie auch  Panik bei Binance nach dem Abgang von CZ? Analyse der 24-Stunden-Zufluss- und Abflusstrends

Unser Beweggrund für die Analyse dieser Probleme als Unternehmen ist, dass wir uns auf die Angriffsfläche konzentrieren und einen umfassenden Überblick über alle Risiken bevorzugen. Diesmal hat dieses spezielle Problem unsere Aufmerksamkeit erregt und wir freuen uns auf viele weitere, die wir in den folgenden Beiträgen hervorheben werden.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.