Forscher im KI-Labor von Amazon Web Services (AWS) haben herausgefunden, dass ein großer Teil der Online-Inhalte aus maschinell übersetzten (MT) Quellen stammt.
Diese Inhalte, die in viele verschiedene Sprachen übersetzt werden, sind häufig von geringer Qualität, was laut dem Team die entscheidende Notwendigkeit der Datenqualität und der Quellenberücksichtigung beim Training großer Sprachmodelle (LLMs) unterstreicht.
Die Forscher fanden außerdem heraus, dass maschinengenerierte Inhalte häufig in Übersetzungen für Sprachen vorkommen, die über weniger Ressourcen verfügen, und dass sie einen erheblichen Teil aller Inhalte im Web ausmachen.
Auswahlverzerrung
„Wir haben tatsächlich Interesse an diesem Thema geweckt, weil mehrere Kollegen, die in MT arbeiten und Muttersprachler ressourcenarmer Sprachen sind, festgestellt haben, dass ein Großteil des Internets in ihrer Muttersprache anscheinend MT-generiert war“, sagte Mehak Dhaliwal, ein ehemaliger Praktikant im Bereich angewandte Wissenschaft bei AWS und aktueller Doktorand an der University of California, Santa Barbara, sagte gegenüber Motherboard.
„Die Erkenntnisse kamen also wirklich von den Sprechern der Sprachen, die über geringe Ressourcen verfügen, und wir haben die Studie durchgeführt, um das Problem besser zu verstehen und zu sehen, wie weit verbreitet es ist.“
Das Team entwickelte eine umfangreiche Ressource namens Multi-Way ccMatrix (MWccMatrix), um die Merkmale maschinell übersetzter Inhalte besser zu verstehen. Diese Ressource enthält 6,4 Milliarden einzigartige Sätze in 90 verschiedenen Sprachen und umfasst Übersetzungstupel, bei denen es sich um Satzsätze in verschiedenen Sprachen handelt, die Übersetzungen voneinander sind.
Die Studie, die an den Preprint-Server arXiv der Cornell University übermittelt wurde, ergab, dass große Mengen an Webinhalten oft in zahlreiche Sprachen übersetzt werden, meist durch maschinelle Übersetzung. Dieser Inhalt ist nicht nur in Übersetzungen in Sprachen mit weniger Ressourcen weit verbreitet, sondern macht auch einen erheblichen Teil aller Webinhalte in diesen Sprachen aus.
Darüber hinaus stellten die Forscher einen Selektionsfehler bei der Art der Inhalte fest, die in mehrere Sprachen übersetzt werden, wahrscheinlich um Werbeeinnahmen zu generieren.
Das Papier kommt zu dem Schluss, dass „die MT-Technologie sich im letzten Jahrzehnt dramatisch verbessert hat, aber immer noch hinter der menschlichen Qualität zurückbleibt.“ MT-Inhalte wurden über viele Jahre mithilfe der damals verfügbaren MT-Systeme in das Web eingefügt, so dass ein Großteil der MT im Web nach modernen Maßstäben wahrscheinlich von sehr geringer Qualität ist. Dies könnte zu weniger flüssigen LLM-Modellen mit mehr Halluzinationen führen, und die Auswahlverzerrung deutet darauf hin, dass die Daten möglicherweise von geringerer Qualität sind, selbst bevor MT-Fehler berücksichtigt werden. Die Datenqualität ist in der LLM-Ausbildung von entscheidender Bedeutung, da hochwertige Korpora wie Bücher und Wikipedia-Artikel in der Regel mehrmals hochgerechnet werden.“