Die Norvig-Chomsky-Debatte

Kürzlich nahm sich Peter Norvig die Zeit, eine Antwort auf einen Kommentar zu schreiben, den Noam Chomsky auf einer Konferenz machte (kein Kommentar an Norvig, sondern an eine ganze Forschungsgemeinschaft, von der Norvig sich selbst als Teil betrachtet). (Chomsky hat eine neue Antwort an Norvig.) Chomsky sagte auf der Konferenz:

Es ist wahr, dass viel daran gearbeitet wurde, statistische Modelle auf verschiedene linguistische Probleme anzuwenden. Ich denke, es gab einige Erfolge, aber auch viele Misserfolge. Es gibt eine Vorstellung von Erfolg … die meiner Meinung nach neu in der Wissenschaftsgeschichte ist. Es interpretiert Erfolg als Annäherung an nicht analysierte Daten.

In Chomskys jüngstem Interview, in dem er Norvig antwortet, macht er einen ähnlichen Punkt (Hervorhebung hinzugefügt):

ich dachte [early attempts at AI] war zuallererst viel zu optimistisch, es ging davon aus, dass Sie Dinge erreichen könnten, die ein echtes Verständnis von Systemen erfordern, die kaum verstanden wurden, und * Sie können dieses Verständnis einfach nicht erreichen, indem Sie eine komplizierte Maschine darauf werfen *. Wenn Sie das versuchen, werden Sie zu einer Erfolgsvorstellung geführt, die sich selbst verstärkt, weil Sie im Sinne dieser Vorstellung Erfolg haben, aber es unterscheidet sich sehr von dem, was in den Wissenschaften gemacht wird. Nehmen wir zum Beispiel einen Extremfall, angenommen, jemand sagt, er wolle die Physikabteilung eliminieren und es richtig machen. Der „richtige“ Weg besteht darin, eine endlose Anzahl von Videobändern zu nehmen, die zeigen, was außerhalb des Videos passiert, und sie in den größten und schnellsten Computer einzuspeisen, Gigabytes an Daten und komplexe statistische Analysen durchzuführen – Sie wissen schon, Bayessches dies und das – und Sie Ich werde eine Art Vorhersage darüber bekommen, was als nächstes vor dem Fenster passieren wird. In der Tat, Sie erhalten eine viel bessere Vorhersage, als die Physikabteilung jemals geben wird. Nun, wenn Erfolg definiert wird als eine faire Annäherung an eine Masse chaotischer, nicht analysierter Daten, dann ist es viel besser, es so zu machen, als es so zu machen, wie die Physiker es tun, wissen Sie, keine Gedankenexperimente über reibungslose Ebenen und so weiter und so weiter. Aber Sie werden nicht die Art von Verständnis bekommen, auf die die Wissenschaften immer abgezielt haben – was Sie erreichen werden, ist eine Annäherung an das, was passiert.

[…]

Ein ganz anderer Ansatz, den ich für den richtigen Ansatz halte, besteht darin, zu versuchen, zu sehen, ob Sie verstehen können, was das ist fundamentale Prinzipien sind, die sich mit den Kerneigenschaften befassen, und erkennen Sie, dass bei der tatsächlichen Verwendung tausend andere Variablen eingreifen werden – ähnlich wie das, was außerhalb des Fensters passiert, und Sie werden diese später irgendwie anheften, wenn Sie es besser wollen Annäherungen, das ist ein anderer Ansatz. Das sind nur zwei unterschiedliche Konzepte der Wissenschaft. Das zweite ist, was Wissenschaft seit Galileo ist, das ist moderne Wissenschaft. Die Annäherung an nicht analysierte Daten ist eine Art neuer Ansatz, nicht ganz, es gab solche Dinge in der Vergangenheit. Es ist im Grunde ein neuer Ansatz, der gewesen ist beschleunigt durch die Existenz massiver Erinnerungen, sehr schnelle Verarbeitung, was es Ihnen ermöglicht, solche Dinge zu tun, die Sie von Hand nicht hätten tun können. Aber ich selbst denke, dass es Fächer wie Computational Cognitive Science in eine Richtung führt, in der es vielleicht eine gewisse praktische Anwendbarkeit gibt …

Interviewer: „… im Ingenieurwesen?“

Chomsky: … Aber weg vom Verstehen.

Norvig hat erfolgreich KI-Systeme entwickelt, die statistisches Lernen und statistische Schlussfolgerungen verwenden. Er widerspricht Chomskys Behauptung, dass die moderne KI-Forschung im Wesentlichen keine Wissenschaft sei.

Lesen Sie auch  Die Knicks im neuen Look zeigen beim Sieg über die Rockets weitere positive Anzeichen

Chomsky ist (berüchtigt) dafür, Hypothesen aufzustellen und zu argumentieren, dass alle Menschen ein stillschweigendes, aber nicht erlerntes Wissen über sprachliche Strukturen, eine universelle Grammatik, haben. Er glaubt, dass der Beweis für diese Hypothese darin besteht, dass Kinder unmöglich alles, was sie über ihre Muttersprache tun, nur aus dem lernen können, was sie hören. Vielmehr ist die Struktur der Sprache so tief und hochentwickelt, dass Kinder bereits über die erforderlichen mentalen Strukturen verfügen müssen und diese Strukturen nicht aus Erfahrung lernen. Eine wichtige Struktur ist zum Beispiel die Fähigkeit, rekursive Äußerungen zu verstehen, wie zum Beispiel:

Meine Hausaufgabe, die in meinem CSE 3521-Kurs 100 Punkte wert ist, die für mein Hauptfach nicht erforderlich ist, aber ich wollte sie trotzdem machen, was sich als ziemlich interessant herausstellte, ist am Donnerstag fällig.

Obwohl dieser Satz etwas erfunden ist, können wir ihn verstehen (gesprochen oder geschrieben). Es gibt Grenzen dafür, wie viel rekursive Struktur wir in unserem Kurzzeitgedächtnis behalten können, aber es gibt eindeutig (oder nicht?) eine Logik dafür. Wie lernt ein Kind diese Logik?

Ein weiteres Phänomen, auf das Chomsky hinweist, ist, dass Adverbien, Pronomen und dergleichen nicht immer das nächste Kandidatenwort im linearen Sinne modifizieren oder verbinden. Vielmehr beziehen sie sich auf das strukturell nächste Wort, das in einer Äußerung möglicherweise nicht am nächsten ist. Er stellt die Hypothese auf, dass das Verstehen von Sprache im Gehirn nicht dieselbe Form annimmt wie geschriebene oder gesprochene Sprache (die Strukturen im Gehirn sind seiner Meinung nach nicht linear).

Nehmen Sie einen einfachen Satz wie „Instinktiv, Adler, die fliegen, schwimmen“, nun, „instinktiv“ passt zu schwimmen, es passt nicht zu fliegen, obwohl es keinen Sinn ergibt. Und das ist reflexartig. „Instinktiv“, das Adverb, sucht nicht nach dem nächsten Verb, sondern nach dem strukturell prominentesten. Das ist eine viel schwierigere Berechnung. Aber das ist die einzige Berechnung, die jemals verwendet wird. Die lineare Ordnung ist eine sehr einfache Berechnung, die jedoch nie verwendet wird.

Die lineare Ordnung ist jedoch ein Oberflächenphänomen, das angeblich zu den Phänomenen gehört, die statistische Ansätze nutzen werden. Ein statistischer Ansatz kann normalerweise gute Ergebnisse erzielen, indem er die lineare Reihenfolge einer Äußerung ausnutzt, aber Chomsky argumentiert, dass die lineare Reihenfolge und die Statistik kein Verständnis über den Satz liefern. Die lineare Ordnung ist nur ein Nebeneffekt, ein Schatten der wahren Struktur.

Lesen Sie auch  Olivenöl schießt um 67 % in die Höhe und erhöht den Druck, die Maßnahmen aufrechtzuerhalten

Norvigs Einschätzung von Chomskys Punkten und Norvigs Antworten lauten wie folgt:

  • Chomskys Punkt: Statistische Methoden haben ingenieurtechnische Erfolge gehabt, aber das ist für die Wissenschaft irrelevant.
    • Norvigs Antwort: Er stimmt zu, aber technischer Erfolg erleichtert oft wissenschaftlichen Erfolg.
  • Chomskys Punkt: Genaue Modellierung von Sprache (z. B. statistische Modelle) besteht nur aus Beschreibungen, nicht aus Erklärungen.
    • Norvigs Antwort: Wissenschaft ist sowohl Beschreibung als auch Erklärung; man kann das eine nicht ohne das andere haben; in der wissenschaftsgeschichte ist die mühselige akkumulation von daten die übliche arbeitsweise.
  • Chomskys Punkt: Sprache wird aus inneren Strukturen generiert und verstanden, indem das Gehörte oder Gelesene in diese Strukturen transformiert wird; Sprache wird nicht in derselben Form erzeugt oder verstanden, wie sie herauskommt (in linearer Form). Die Art und Weise, wie Sprache gesprochen oder geschrieben wird, ist nur eine periphere Nachwirkung, nicht die Essenz.
    • Norvigs Antwort: Leute, die in der Sprachdolmetschung (vermutlich im KI-Bereich) arbeiten, sehen es als statistische Schlussfolgerung; Menschen erzeugen und verstehen Sprache tatsächlich in einem reichen statistischen Sinne (vielleicht mit statistischen Modellen, die mehrere Ebenen tief sind, wie die modernen KI-Modelle der Spracherkennung).
  • Chomskys Punkt: Statistische Modelle sind nicht in der Lage, den ganzen Reichtum der natürlichen Sprache zu lernen.
    • Norvigs Antwort: Bestimmte Fortschritte bei statistischen Lernmethoden geben Anlass zu der Annahme, dass solche Lernmethoden in der Lage sein werden, die Aufgabe zu erfüllen.

Figur 2: „Bausteine“, Kumi Yamashita, 1997; H230, B400, T5cm; Holz, einzelne Lichtquelle, Schatten

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.