Unternehmen

Gekratzte Bilder von sexuell missbrauchten Kindern in KI-Trainingsdatenbank gefunden

Laut einem Bericht sind Tausende von Bildern sexuell missbrauchter Kinder aus dem Internet Teil einer häufig verwendeten Datenbank, die zum Trainieren von Bildgeneratoren mit künstlicher Intelligenz verwendet wird. Darin wird davor gewarnt, dass KI-Anwendungen anstößige Fotos verwenden können, um realistisch aussehende gefälschte Bilder zur Ausbeutung von Kindern zu erstellen das man verkaufen kann.

In dem heute vom Stanford University Internet Observatory (SIO) veröffentlichten Bericht heißt es, dass die Quellbilder derzeit entfernt werden, da Forscher die Bild-URLs an das Internet Observatory (SIO) gemeldet haben Nationales Zentrum für vermisste und ausgebeutete Kinder (NCMEC) in den USA und den USA Kanadisches Zentrum für Kinderschutz (C3P).

Bei der Untersuchung wurden die besorgniserregenden Bilder im größten Repository von Bildern gefunden, das von KI-Entwicklern für Schulungen verwendet wird, bekannt als LAION-5Bmit Milliarden von Bildern, die aus einer Vielzahl von Quellen stammen, darunter Mainstream-Social-Media-Websites und beliebte Videoseiten für Erwachsene.

Laut Associated Press sagte LAION, das für das gemeinnützige Large-Scale Artificial Intelligence Open Network steht, in einer Erklärung, dass es „eine Null-Toleranz-Politik gegenüber illegalen Inhalten verfolgt und mit größter Vorsicht“ die Datensätze bis dahin gelöscht hat Anstößige Bilder können gelöscht werden.

Die SIO-Studie zu LAION-5B wurde hauptsächlich mit Hashing-Tools wie PhotoDNA von Microsoft durchgeführt, die einen Fingerabdruck eines Bildes mit Datenbanken abgleichen, die von gemeinnützigen Organisationen verwaltet werden, die Berichte über sexuelle Ausbeutung und Missbrauch von Kindern im Internet erhalten und verarbeiten. Die Forscher sahen sich keine Missbrauchsinhalte an und Übereinstimmungen wurden dem NCMEC gemeldet und nach Möglichkeit von C3P bestätigt.

Es gebe Methoden, um Material über sexuellen Missbrauch von Kindern (Child Sexual Abuse Material, CSAM) in Datensätzen zu minimieren, die zum Trainieren von KI-Modellen verwendet werden, sagte das SIO in einer Erklärung, aber es sei schwierig, die Verbreitung offener Datensätze zu bereinigen oder zu stoppen, wenn es keine zentrale Behörde gäbe, die die tatsächlichen Daten hostet.

Lesen Sie auch Von „Minute“ bis zum Elysée: Patrick Buisson, der Ideologe, der die Ideen der französischen extremen Rechten vorangetrieben hat

Der Bericht enthält Sicherheitsempfehlungen für das Sammeln von Datensätzen, das Trainieren von Modellen und das Hosten von Modellen, die auf Scraped-Datensätzen trainiert wurden. Bilder, die in zukünftigen Datensätzen gesammelt werden, sollten mithilfe von Erkennungstools wie z. B. mit bekannten CSAM-Listen verglichen werden PhotoDNA von Microsoft oder eine Partnerschaft mit Kindersicherheitsorganisationen wie NCMEC und C3P eingehen.

Der LAION-5B-Datensatz stammt aus einem breiten Querschnitt des Internets und hat
wurde verwendet, um verschiedene visuelle generative maschinelle Lernmodelle zu trainieren. Dieser Datensatz
wurde erstellt, indem ein Snapshot des Common Crawl5-Repositorys erstellt und heruntergeladen wurde
Bilder, auf die im HTML verwiesen wird, Lesen der „Alt“-Attribute der Bilder und Verwenden von CLIP6
Verhör, um Bilder zu verwerfen, die nicht ausreichend mit den Bildunterschriften übereinstimmten. Die Entwickler von LAION-5B haben versucht, zu klassifizieren, ob Inhalte sexuell explizit waren, und einen gewissen Grad an expliziten Inhalten für Minderjährige zu erkennen.

Der Bericht stellt jedoch fest, dass Version 1.5 eines der beliebtesten KI-Modelle zur Bilderzeugung, Stable Diffusion, auch auf eine Vielzahl expliziter und sonstiger Inhalte trainiert wurde. LAION-Datensätze seien auch zum Trainieren anderer Modelle verwendet worden, heißt es in dem Bericht, beispielsweise Googles Imagen, das auf einer Kombination aus internen Datensätzen und dem LAION-400M der vorherigen Generation trainiert wurde.17.

„Bemerkenswert“, heißt es in dem Bericht, „stellten die Entwickler von Imagen bei einer Prüfung des LAION-400M fest.“
„eine breite Palette unangemessener Inhalte, darunter pornografische Bilder, rassistische Beleidigungen und schädliche soziale Stereotypen“, und hielten sie für ungeeignet für die öffentliche Nutzung.“

Trotz aller Bemühungen, das gesamte CSAM in LAION-5B zu finden, gab das SIO an, dass seine Arbeit aufgrund der Unvollständigkeit der Branchen-Hash-Sets, des Verlusts von Live-gehosteten Inhalten und des fehlenden Zugriffs auf die ursprünglichen LAION-Referenzbildsets eine „erhebliche Unterzählung“ darstellte. und die begrenzte Genauigkeit „unsicherer“ Inhaltsklassifikatoren.

Lesen Sie auch Alphabet und künstliche Intelligenz

Web-Scale-Datensätze sind aus mehreren Gründen äußerst problematisch
Versuche einer Sicherheitsfilterung, heißt es in dem Bericht. Im Idealfall sollten solche Datensätze nur auf Forschungsumgebungen beschränkt sein, wobei für öffentlich verbreitete KI-Modelle besser kuratierte und gut beschaffte Datensätze verwendet werden sollten.