Der sichere Aufbau von KI wird immer schwieriger

Das ist atlantisch Intelligenzeine achtwöchige Serie, in der Der Atlantik’Die führenden Vordenker von AI zum Thema KI werden Ihnen helfen, die Komplexität und Chancen dieser bahnbrechenden Technologie zu verstehen. Hier anmelden.

Das Fundament der KI-Revolution ist das Internet, oder genauer gesagt, die immer größer werdende Fülle an Daten, die das Web zum Trainieren von Algorithmen zur Verfügung stellt. ChatGPT, Midjourney und andere generative KI-Modelle „lernen“, indem sie Muster in riesigen Mengen an Text, Bildern und Videos erkennen, die aus dem Internet stammen. Der Prozess erfordert das Aufsaugen riesiger Mengen an Büchern, Kunstwerken, Memes und zwangsläufig auch der Unmengen an rassistischem, sexistischem und illegalem Material, das im Internet verbreitet wird.

Anfang dieser Woche fanden Stanford-Forscher ein besonders alarmierendes Beispiel für diese Toxizität: Der größte öffentlich verfügbare Bilddatensatz, der zum Training von KIs verwendet wird, LAION-5B, enthält Berichten zufolge mehr als 1.000 von mehr als 5 Milliarden Bildern, die den sexuellen Missbrauch von Kindern zeigen in Summe. Ein Sprecher des Erstellers des Datensatzes, des gemeinnützigen Large-scale Artificial Intelligence Open Network, teilte mir in einer schriftlichen Erklärung mit, dass es eine „Null-Toleranz-Politik für illegale Inhalte“ verfolge und die Verbreitung von LAION-5B vorübergehend eingestellt habe, während es die Daten auswertet Ergebnisse des Berichts, obwohl diese und frühere Versionen des Datensatzes bereits prominente KI-Modelle trainiert haben.

Da sie kostenlos heruntergeladen werden können, sind die LAION-Datensätze eine wichtige Ressource für Start-ups und Akademiker, die KI entwickeln. Es ist bemerkenswert, dass Forscher die Möglichkeit haben, einen Blick in diese Datensätze zu werfen, um überhaupt solch schreckliches Material zu finden: Es gibt keine Möglichkeit herauszufinden, welche Inhalte in ähnlichen, aber proprietären Datensätzen von OpenAI, Google, Meta und anderen Technologieunternehmen enthalten sind. Eine dieser Forscherinnen ist Abeba Birhane, die die LAION-Datensätze seit der Veröffentlichung der ersten Version im Jahr 2021 untersucht. Innerhalb von sechs Wochen veröffentlichte Birhane, eine Senior Fellow bei Mozilla, die damals am University College Dublin studierte, einen Artikel über sie Erkenntnisse zu sexistischen, pornografischen und expliziten Vergewaltigungsbildern in den Daten. „Ich bin wirklich nicht überrascht, dass sie im neuesten Datensatz Material über sexuellen Kindesmissbrauch gefunden haben“, sagte mir gestern Birhane, der sich mit algorithmischer Gerechtigkeit beschäftigt.

Lesen Sie auch  OpenAI, das Unternehmen, das ChatGPT entwickelt hat, wird mittlerweile auf 80 Milliarden US-Dollar geschätzt

Birhane und ich diskutierten, woher der problematische Inhalt in riesigen Datensätzen kommt, welche Gefahren er mit sich bringt und warum die Arbeit, dieses Material zu erkennen, von Tag zu Tag schwieriger wird. Lesen Sie unten unser Gespräch, das aus Gründen der Länge und Klarheit bearbeitet wurde.

Matteo WongSchnittassistenz


Von Tag zu Tag anspruchsvoller

Matteo Wong: Im Jahr 2021 haben Sie den LAION-Datensatz untersucht, der 400 Millionen Bilder mit Untertiteln enthielt, und Hinweise auf sexuelle Gewalt und anderes schädliches Material gefunden. Was hat diese Arbeit motiviert?

Abeba Birhane: Da die Datensätze immer größer werden, sind 400 Millionen Bild-Text-Paare nicht mehr groß. Doch vor zwei Jahren wurde es als der größte multimodale Open-Source-Datensatz beworben. Als ich sah, dass es angekündigt wurde, war ich sehr neugierig und habe einen Blick darauf geworfen. Je mehr ich mir den Datensatz ansah, desto mehr sah ich wirklich beunruhigende Dinge.

Wir stellten fest, dass es viel Frauenfeindlichkeit gab. Zum Beispiel jedes harmlose Wort, das auch nur entfernt etwas mit Weiblichkeit zu tun hat, wie z Mutter, Tante, Schön– Als Sie den Datensatz mit Begriffen dieser Art abfragten, wurde ein großer Anteil an Pornografie zurückgegeben. Wir fanden auch Bilder von Vergewaltigungen, was eine wirklich emotional schwere und intensive Arbeit war, weil wir Bilder sahen, die wirklich verstörend waren. Neben dieser Prüfung haben wir auch viele Fragen dazu gestellt, was die Datenkurations-Community und die größere Community für maschinelles Lernen dagegen tun sollten. Später stellten wir außerdem fest, dass mit zunehmender Größe der LAION-Datensätze auch hasserfüllte Inhalte zunahmen. Dies gilt im Umkehrschluss auch für problematische Inhalte.

Lesen Sie auch  Schlag! Ich freue mich darauf, Goncalo Feio zu sehen. „Trzeba nach podregulowa“ Pika nona

Wong: Diese Woche wurde der größte LAION-Datensatz entfernt, da festgestellt wurde, dass er Material über sexuellen Kindesmissbrauch enthält. Wie beurteilen Sie dieses Ergebnis im Kontext Ihrer früheren Forschung?

Birhane: Es hat uns nicht überrascht. Dies sind die Probleme, die wir seit der ersten Veröffentlichung des Datensatzes hervorgehoben haben. Wir müssen noch viel mehr an der Prüfung von Datensätzen arbeiten, und als ich den Stanford-Bericht sah, war er eine willkommene Ergänzung zu einer Reihe von Arbeiten, die diese Probleme untersucht haben.

Wong: Nachforschungen von Ihnen und anderen haben in diesen Datensätzen immer wieder wirklich abscheuliches und oft illegales Material gefunden. Das mag offensichtlich erscheinen, aber warum ist das gefährlich?

Birhane: Datensätze sind das Rückgrat jedes maschinellen Lernsystems. KI ist in den letzten 20 Jahren nicht nur aufgrund neuer Theorien oder neuer Methoden in Mode gekommen. KI wurde vor allem durch das Internet allgegenwärtig, da es die massenhafte Erfassung großer Datensätze ermöglichte. Wenn Ihre Daten illegale Inhalte oder problematische Darstellungen enthalten, wird Ihr Modell diese Probleme zwangsläufig übernehmen und Ihre Modellausgabe wird diese problematischen Darstellungen widerspiegeln.

Aber wenn wir noch einen Schritt zurücktreten, ist es in gewisser Weise auch enttäuschend, dass Datensätze wie der LAION-Datensatz entfernt werden. Der LAION-Datensatz entstand beispielsweise, weil die Ersteller Datensätze innerhalb großer Unternehmen replizieren wollten – zum Beispiel, wie Datensätze aussehen könnten, die in OpenAI verwendet werden.

Wong: Legt diese Untersuchung nahe, dass Technologieunternehmen ähnliche Probleme haben könnten, wenn sie ähnliche Methoden zur Erfassung ihrer Datensätze verwenden?

Birhane: Angesichts der Ergebnisse früherer Untersuchungen ist dies sehr, sehr wahrscheinlich. Größe geht zu Lasten der Qualität.

Wong: Sie haben über Forschung geschrieben, die Sie aufgrund der erforderlichen Ressourcen nicht an diesen riesigen Datensätzen durchführen könnten. Geht die Skalierung auch auf Kosten der Überprüfbarkeit? Das heißt, ist es mit zunehmender Größe immer weniger möglich, den Inhalt dieser Datensätze zu verstehen?

Lesen Sie auch  USA prüfen Tesla-Rückruf von 2 Millionen Fahrzeugen mit Autopilotfunktion unter Berufung auf Bedenken

Birhane: Es gibt eine enorme Asymmetrie in Bezug auf die Ressourcenzuteilung, wobei es viel einfacher ist, Dinge zu bauen, aber in Bezug auf intellektuelle Arbeit, emotionale Arbeit und Rechenressourcen viel anstrengender ist, wenn es darum geht, das zu bereinigen, was bereits zusammengebaut wurde. Wenn man sich die Geschichte der Erstellung und Kuratierung von Datensätzen ansieht, sagen wir vor 15 bis 20 Jahren, waren die Datensätze viel kleiner, aber es wurde viel menschliche Aufmerksamkeit darauf verwendet, sie zu entgiften. Mittlerweile ist jedoch die menschliche Aufmerksamkeit für Datensätze wirklich verschwunden, da heutzutage ein Großteil dieser Datenbeschaffung automatisiert wurde. Das macht es zwar kosteneffektiv, wenn Sie einen Datensatz erstellen möchten, aber die Kehrseite ist, dass Datensätze, da sie jetzt viel größer sind, viele Ressourcen, einschließlich Rechenressourcen, erfordern und es viel schwieriger ist, sie zu entgiften und zu entgiften Untersuche sie.

Wong: Datensätze werden immer größer und schwieriger zu prüfen, aber immer mehr Menschen nutzen auf diesen Daten basierende KI. Welche Art von Unterstützung würden Sie sich für Ihre zukünftige Arbeit wünschen?

Birhane: Ich würde mir einen Vorstoß für Open-Source-Datensätze wünschen – nicht nur für Modellarchitekturen, sondern für die Daten selbst. So schrecklich Open-Source-Datensätze auch sind: Wenn wir nicht wissen, wie schrecklich sie sind, können wir sie nicht verbessern.

Verwandt:


PS

Haben Sie während der Feiertage Schwierigkeiten, Ihre Reiseinformationen und Geschenkquittungs-E-Mails zu finden? Du bist nicht allein. Paradoxerweise ist es viel schwieriger, einen Algorithmus zum Durchsuchen Ihres Posteingangs zu entwickeln, als einen zum Durchsuchen des gesamten Internets zu entwickeln. Meine Kollegin Caroline Mimbs Nyce hat in einem kürzlich erschienenen Artikel untersucht, warum.

– Matteo

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.