Technik und Wissenschaft

Dies sind die Bücher, die zum Trainieren von ChatGPT verwendet wurden

Die klugen Köpfe der University of California in Berkeley sind in die unbekannten Tiefen von ChatGPT und dem GPT-4-Sprachmodell vorgedrungen und haben das entdeckt OpenAI hat sein Tool trainiertmit urheberrechtlich geschützten Büchern. Und er scheint eine seltsame Vorliebe für Teenager-Fantasy und natürlich Science-Fiction zu haben.

Die Wissenschaftler Kent Chang, Mackenzie Cramer, Sandeep Soni und David Bamman beschreiben ihre Arbeit in einem Artikel mit dem Titel „Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4“. „Wir haben herausgefunden, dass OpenAI-Modelle eine große Sammlung urheberrechtlich geschützter Materialien gespeichert haben und dass der Grad der Speicherung mit der Häufigkeit zusammenhängt, mit der Passagen aus diesen Büchern im Internet erscheinen“, erklären die Forscher in ihrer Arbeit.

Unter den Titeln wurde festgestellt, dass ChatGPT Titel wie die Fantasy-Saga von auswendig gelernt hat Harry Potter, Orwells 1984, Der Herr der Ringe-Trilogie, unter anderem die Bücher „Die Tribute von Panem“, „Per Anhalter durch die Galaxis“, „Moby Dick“, „Frankenstein“, „Game of Thrones“ und „Dune“.

Die Autoren stellen fest, dass Science-Fiction- und Fantasy-Bücher die Liste dominieren, was sie auf die Beliebtheit dieser Titel im Internet zurückführen. Und sie weisen darauf hin, dass bestimmte Titel auswendig gelernt werden müssen hat abgeleitete Wirkungen. Beispielsweise treffen diese Modelle genauere Vorhersagen als Antwort auf Fragen wie „In welchem Jahr wurde diese Passage veröffentlicht?“ wenn sie das Buch auswendig gelernt haben.

Obwohl die Offenbarung sofort Fragen aufwirft Eigentums- und UrheberrechtsschutzDas Hauptinteresse der Forscher liegt in der Transparenz und der Möglichkeit einer versteckten Verzerrung, wenn diejenigen, die sich auf OpenAI verlassen, nicht wissen, welche Quellen einbezogen und welche ausgeschlossen wurden.

Liste der Bücher, die ChatGPT für seine Datenbank verwendet hat

ABC

Eine weitere Folge der Vertrautheit des Modells mit Science-Fiction und Fantasy ist, dass ChatGPT a zeigt weniger Kenntnisse über Werke anderer Genres. Wie der Artikel feststellt, weiß das Tool „wenig über englischsprachige Forschungsarbeiten wie das Black Book Interactive Project und Preisträger der Black Caucus American Library Association“.

über Twitter, David Bammaneiner der Co-Autoren und außerordentlicher Professor an der School of Information der UC Berkeley, warnte: „Offene Modelle sind gut, populäre Texte jedoch wahrscheinlich.“ sind keine guten Leistungsbarometer. Angesichts der Tendenz zu Science-Fiction und Fantasy sollten wir darüber nachdenken, wessen Erzählerfahrungen in diesen Modellen kodiert sind und wie sich dies auf andere Verhaltensweisen auswirkt.“

Fazit: Offene Modelle sind gut; Populäre Texte sind wahrscheinlich keine guten Barometer für die Modellleistung; Angesichts der Tendenz zu Science-Fiction/Fantasy sollten wir darüber nachdenken, wessen narrative Erfahrungen in diesen Modellen kodiert sind und wie sich dies auf andere Verhaltensweisen auswirkt. 5/6

— David Bamman (@dbamman) 2. Mai 2023

In dem Wissen, dass OpenIA neben dem Kampf gegen das Urheberrecht auch die Fiktion genutzt hat, um sein Tool zu ernähren, ZweifelJa, vielleicht ist es noch zu früh, ChatGPT professionell und nicht zum Spaß zu nutzen. Fälle von Missbrauch und Ausfall des Werkzeugs reihen sich aneinander. Vor ein paar Tagen ging der Alarm los, weil ein Anwalt ChatGPT für seine beruflichen Zwecke nutzte. Der Anwalt legte ein halbes Dutzend falsche Präzedenzfälle vor, die vom System der künstlichen Intelligenz generiert wurden, um einen Fall zu stützen. Die sprechende Maschine hatte sie erfunden.

Im April berichtete die „Washington Post“ über einen Fall, bei dem ein Juraprofessor herausfand, dass der Smart-Chat von OpenAI falsche Informationen generiert hatte und ihm fälschlicherweise sexuelles Fehlverhalten vorwarf.