Nachrichten

Das Microsoft AI Red Team baut die Zukunft einer sichereren KI auf

Ein wesentlicher Bestandteil der sicheren Bereitstellung von Software ist Red Teaming. Es bezieht sich im Großen und Ganzen auf die Praxis, reale Gegner und deren Werkzeuge, Taktiken und Verfahren nachzuahmen, um Risiken zu identifizieren, blinde Flecken aufzudecken, Annahmen zu validieren und die allgemeine Sicherheitslage von Systemen zu verbessern. Microsoft hat eine lange Geschichte im Red Teaming neuer Technologien mit dem Ziel, Fehler in der Technologie proaktiv zu identifizieren. Mit der zunehmenden Verbreitung von KI-Systemen gründete Microsoft 2018 das AI Red Team: eine Gruppe interdisziplinärer Experten, die sich der Aufgabe widmen, wie Angreifer zu denken und KI-Systeme auf Fehler zu untersuchen.

Wir teilen Best Practices unseres Teams, damit andere von den Erkenntnissen von Microsoft profitieren können. Diese Best Practices können Sicherheitsteams dabei helfen, proaktiv nach Fehlern in KI-Systemen zu suchen, einen tiefgreifenden Verteidigungsansatz zu definieren und einen Plan zu erstellen, um Ihre Sicherheitslage im Zuge der Weiterentwicklung generativer KI-Systeme weiterzuentwickeln und auszubauen.

Die Praxis des KI-Red-Teaming hat sich weiterentwickelt und hat eine umfassendere Bedeutung: Sie umfasst nicht nur die Suche nach Sicherheitslücken, sondern umfasst auch die Suche nach anderen Systemfehlern, beispielsweise der Generierung potenziell schädlicher Inhalte. KI-Systeme bringen neue Risiken mit sich, und Red Teaming ist von zentraler Bedeutung für das Verständnis dieser neuartigen Risiken, wie z. B. die sofortige Einschleusung und die Produktion unbegründeter Inhalte. AI Red Teaming ist bei Microsoft nicht nur eine nette Sache; Es ist ein Eckpfeiler einer verantwortungsvollen KI durch Design: Wie Microsoft-Präsident und stellvertretender Vorsitzender Brad Smith bekannt gab, hat Microsoft kürzlich zugesagt, dass alle KI-Systeme mit hohem Risiko vor der Bereitstellung ein unabhängiges Red-Teaming durchlaufen.

Ziel dieses Blogs ist es, für Sicherheitsexperten zu kontextualisieren, wie sich KI-Red-Teaming mit traditionellem Red-Teaming überschneidet und wo es Unterschiede gibt. Wir hoffen, dass dies mehr Organisationen in die Lage versetzen wird, ihre eigenen KI-Systeme als Red-Team zu nutzen und Einblicke in die bessere Nutzung ihrer bestehenden traditionellen Red-Teams und KI-Teams zu geben.

Red Teaming trägt dazu bei, die KI-Implementierung sicherer zu machen

In den letzten Jahren hat das AI Red Team von Microsoft kontinuierlich Inhalte erstellt und geteilt, um Sicherheitsexperten die Möglichkeit zu geben, umfassend und proaktiv darüber nachzudenken, wie KI sicher implementiert werden kann. Im Oktober 2020 arbeitete Microsoft mit MITRE sowie Partnern aus Industrie und Wissenschaft zusammen, um die Adversarial Machine Learning Threat Matrix zu entwickeln und zu veröffentlichen, ein Framework, das Sicherheitsanalysten in die Lage versetzt, Bedrohungen zu erkennen, zu reagieren und zu beheben. Ebenfalls im Jahr 2020 haben wir Microsoft Counterfit entwickelt und als Open-Source-Lösung bereitgestellt, ein Automatisierungstool für Sicherheitstests von KI-Systemen, um der gesamten Branche dabei zu helfen, die Sicherheit von KI-Lösungen zu verbessern. Anschließend haben wir im Jahr 2021 das KI-Sicherheitsrisikobewertungsrahmenwerk veröffentlicht, um Unternehmen dabei zu helfen, ihre Sicherheitspraktiken rund um die Sicherheit von KI-Systemen weiterzuentwickeln, zusätzlich zur Aktualisierung von Counterfit. Anfang dieses Jahres haben wir weitere Kooperationen mit wichtigen Partnern angekündigt, um Organisationen dabei zu helfen, die mit KI-Systemen verbundenen Risiken zu verstehen, damit sie diese sicher nutzen können, einschließlich der Integration von Counterfit in MITRE-Tools und der Zusammenarbeit mit Hugging Face an einem KI-spezifischen Sicherheitsscanner das ist auf GitHub verfügbar.

Lesen Sie auch Dish TV meldet für das vierte Quartal einen Nettoverlust von 1.720,62 Cr. Rupien, der Umsatz ist auf 504,8 Cr. Rupien gesunken

Sicherheitsbezogenes AI-Red-Teaming ist Teil einer größeren Red-Teaming-Initiative für verantwortungsvolle KI (RAI), die sich auf die KI-Prinzipien von Microsoft in Bezug auf Fairness, Zuverlässigkeit und Sicherheit, Datenschutz und Sicherheit, Inklusivität, Transparenz und Verantwortlichkeit konzentriert. Die gemeinsame Arbeit hatte direkte Auswirkungen auf die Art und Weise, wie wir KI-Produkte an unsere Kunden versenden. Bevor beispielsweise das neue Bing-Chat-Erlebnis veröffentlicht wurde, verbrachte ein Team aus Dutzenden von Sicherheits- und verantwortlichen KI-Experten im gesamten Unternehmen Hunderte von Stunden damit, nach neuartigen Sicherheits- und verantwortlichen KI-Risiken zu suchen. Das war drin Zusatz zu den regelmäßigen, intensiven Software-Sicherheitspraktiken, die das Team befolgt, sowie zum Red Teaming des Basis-GPT-4-Modells durch RAI-Experten im Vorfeld der Entwicklung von Bing Chat. Unsere Red-Teaming-Ergebnisse flossen in die systematische Messung dieser Risiken ein und führten zu umfassenden Abhilfemaßnahmen, bevor das Produkt ausgeliefert wurde.

Anleitungen und Ressourcen für Red Teaming

AI Red Teaming findet im Allgemeinen auf zwei Ebenen statt: auf der Ebene des Basismodells (z. B. GPT-4) oder auf der Anwendungsebene (z. B. Security Copilot, das GPT-4 im Backend verwendet). Beide Ebenen bringen ihre eigenen Vorteile mit sich: Beispielsweise hilft das Red-Teaming des Modells dabei, frühzeitig im Prozess zu erkennen, wie Modelle missbraucht werden können, die Fähigkeiten des Modells abzuschätzen und die Einschränkungen des Modells zu verstehen. Diese Erkenntnisse können in den Modellentwicklungsprozess einfließen, um zukünftige Modellversionen zu verbessern, aber auch um einen Überblick darüber zu erhalten, für welche Anwendungen es am besten geeignet ist. KI-Red-Teaming auf Anwendungsebene nimmt eine Systemansicht ein, von der das Basismodell ein Teil ist. Bei der KI-Red-Teaming-Funktion von Bing Chat war beispielsweise das gesamte von GPT-4 unterstützte Sucherlebnis im Umfang und wurde auf Fehler untersucht. Dies hilft bei der Identifizierung von Fehlern, die über die reinen Sicherheitsmechanismen auf Modellebene hinausgehen, indem die gesamten anwendungsspezifischen Sicherheitsauslöser einbezogen werden.

Diagramm, das vier wichtige Erkenntnisse zum KI-Red-Teaming zeigt

Zusammengenommen liefert die Untersuchung sowohl der Sicherheit als auch der verantwortlichen KI-Risiken einen einzigen Überblick darüber, wie Bedrohungen und sogar die harmlose Nutzung des Systems die Integrität, Vertraulichkeit, Verfügbarkeit und Verantwortlichkeit von KI-Systemen gefährden können. Diese kombinierte Sicht auf Sicherheit und verantwortungsvolle KI liefert wertvolle Erkenntnisse nicht nur für die proaktive Identifizierung von Problemen, sondern auch für das Verständnis ihrer Verbreitung im System durch Messungen und die Entwicklung von Strategien zur Schadensbegrenzung. Nachfolgend finden Sie wichtige Erkenntnisse, die zur Gestaltung des AI Red Team-Programms von Microsoft beigetragen haben.

KI-Red-Teaming ist umfangreicher. AI Red Teaming ist heute ein Überbegriff für die Untersuchung von Sicherheits- und RAI-Ergebnissen. KI-Red-Teaming überschneidet sich mit traditionellen Red-Teaming-Zielen, da sich die Sicherheitskomponente auf das Modell als Vektor konzentriert. Zu den Zielen kann es beispielsweise gehören, das zugrunde liegende Modell zu stehlen. Aber KI-Systeme weisen auch neue Sicherheitslücken auf, etwa Prompt-Injection und Poisoning, die besondere Aufmerksamkeit erfordern. Neben den Sicherheitszielen umfasst das KI-Red-Teaming auch die Untersuchung von Ergebnissen wie Fairnessproblemen (z. B. Stereotypisierung) und schädlichen Inhalten (z. B. Gewaltverherrlichung). KI-Red-Teaming hilft dabei, diese Probleme frühzeitig zu erkennen, damit wir unsere Verteidigungsinvestitionen entsprechend priorisieren können.
KI-Red-Teaming konzentriert sich auf Fehler sowohl von böswilligen als auch von harmlosen Personen. Nehmen wir den Fall des roten Teamings des neuen Bing. Im neuen Bing konzentrierte sich das AI Red Teaming nicht nur darauf, wie ein böswilliger Gegner das KI-System mithilfe sicherheitsorientierter Techniken und Exploits untergraben kann, sondern auch darauf, wie das System problematische und schädliche Inhalte generieren kann, wenn normale Benutzer mit dem System interagieren. Im Gegensatz zum herkömmlichen Sicherheits-Red-Teaming, das sich meist nur auf böswillige Gegner konzentriert, berücksichtigt das KI-Red-Teaming ein breiteres Spektrum an Personen und Fehlern.
KI-Systeme entwickeln sich ständig weiter. KI-Anwendungen ändern sich routinemäßig. Im Fall einer großen Sprachmodellanwendung können Entwickler beispielsweise den Metaprompt (die dem ML-Modell zugrunde liegenden Anweisungen) basierend auf Feedback ändern. Während sich auch herkömmliche Softwaresysteme ändern, verändern sich KI-Systeme unserer Erfahrung nach schneller. Daher ist es wichtig, mehrere Runden des Red Teaming von KI-Systemen durchzuführen und im Laufe der Zeit systematische, automatisierte Mess- und Überwachungssysteme zu etablieren.
Für das Red Teaming generativer KI-Systeme sind mehrere Versuche erforderlich. Bei einem traditionellen Red-Teaming-Einsatz würde die Verwendung eines Werkzeugs oder einer Technik zu zwei verschiedenen Zeitpunkten für denselben Input immer zum gleichen Output führen. Mit anderen Worten: Im Allgemeinen ist das traditionelle Red-Teaming deterministisch. Generative KI-Systeme hingegen sind probabilistisch. Das bedeutet, dass die zweimalige Ausführung derselben Eingabe zu unterschiedlichen Ausgaben führen kann. Dies ist beabsichtigt, da die probabilistische Natur der generativen KI eine größere Bandbreite an kreativen Ergebnissen ermöglicht. Dies macht das Red Teaming auch schwierig, da eine Eingabeaufforderung möglicherweise nicht im ersten Versuch zum Scheitern führt, im darauffolgenden Versuch jedoch erfolgreich sein kann (bei der Aufdeckung von Sicherheitsbedrohungen oder RAI-Schäden). Eine Möglichkeit, dies zu berücksichtigen, besteht darin, wie Brad Smith in seinem Blog erwähnte, mehrere Runden Red Teaming in derselben Operation durchzuführen. Microsoft hat außerdem in Automatisierung investiert, die zur Skalierung unserer Abläufe beiträgt, sowie in eine systemische Messstrategie, die das Ausmaß des Risikos quantifiziert.
Die Eindämmung von KI-Fehlern erfordert eine umfassende Verteidigung. Genau wie bei der herkömmlichen Sicherheit, bei der ein Problem wie Phishing eine Reihe technischer Abhilfemaßnahmen erfordert, wie z. B. die Absicherung des Hosts zur intelligenten Identifizierung bösartiger URIs, erfordert die Behebung von durch KI-Red-Teaming gefundenen Fehlern auch einen tiefgreifenden Verteidigungsansatz. Dies beinhaltet die Verwendung von Klassifikatoren, um potenziell schädliche Inhalte zu kennzeichnen, und die Verwendung von Metaprompt, um das Verhalten so zu steuern, dass Konversationsdrift in Konversationsszenarien begrenzt wird.

Lesen Sie auch Die Behörden bereiten die Evakuierung von "Talus 2" vor, einem Slum mit blau-grauem Blech

Der verantwortungsvolle und sichere Aufbau von Technologie liegt in der DNA von Microsoft. Letztes Jahr feierte Microsoft das 20-jährige Jubiläum des Trustworthy Computing-Memorandums, in dem Microsoft aufgefordert wurde, Produkte „so verfügbar, zuverlässig und sicher wie Standarddienste wie Strom, Wasserversorgung und Telefonie“ bereitzustellen. KI entwickelt sich zur transformativsten Technologie des 21. Jahrhunderts. Und wie jede neue Technologie ist auch die KI neuartigen Bedrohungen ausgesetzt. Das Vertrauen der Kunden durch den Schutz unserer Produkte zu gewinnen, bleibt ein Leitprinzip beim Eintritt in diese neue Ära – und das AI Red Team steht im Mittelpunkt dieser Bemühungen. Wir hoffen, dass dieser Blogbeitrag andere dazu inspiriert, KI über Red Teaming verantwortungsvoll und sicher zu integrieren.

Ressourcen

AI Red Teaming ist Teil der umfassenderen Microsoft-Strategie zur sicheren und verantwortungsvollen Bereitstellung von KI-Systemen. Hier sind einige weitere Ressourcen, die Einblicke in diesen Prozess bieten: