Gesundheit

Die 7 Jahrzehnte lange Geschichte von ChatGPT – Der Gesundheitsblog

Von MIKE MAGEE

Im vergangenen Jahr hat die allgemeine Popularisierung von KI bzwKünstliche Intelligenz hat die Fantasie der Welt beflügelt. Natürlich betonen Akademiker oft den historischen Kontext. Aber Unternehmer neigen dazu, Thomas Jefferson zuzustimmen, der sagte: „Ich mag Träume von der Zukunft lieber als die Geschichte der Vergangenheit.“

In diesem besonderen Traum dreht sich jedoch alles um die Sprache, ihren Stellenwert und ihre Bedeutung in der menschlichen Gesellschaft. Im Laufe der Geschichte war die Sprache ein Beschleuniger der Spezies, eine geheime Kraft, die es uns ermöglichte, zu dominieren und schnell (im Guten wie im Schlechten) zu „Meistern des Universums“ aufzusteigen.

Schon vorher ChatGPT zu einem geläufigen Begriff wurde, gab es LDT oder die Theorie des Kehlkopfabstiegs. Es wurde behauptet, dass die einzigartige Sprachfähigkeit des Menschen auf einen Kehlkopf oder Kehlkopf zurückzuführen ist, der tiefer im Hals liegt als bei anderen Primaten. Dies ermöglichte es der „Halsform und der motorischen Kontrolle“, Vokale zu erzeugen, die den Grundstein der menschlichen Sprache bilden. Sprache – und damit die Entstehung der Sprache – wurde mit anatomischen evolutionären Veränderungen in Zusammenhang gebracht, die vor 200.000 bis 300.000 Jahren stattfanden.

Wie sich herausstellte, gab es für diese Theorie nur sehr wenige wissenschaftliche Beweise. Und im Jahr 2019 begann eine bahnbrechende Studie damit, das Datum der Lautäußerung von Primaten auf mindestens 3 bis 5 Millionen Jahre zu verschieben. Wissenschaftler fassten es in drei Punkten zusammen: „Erstens ist der Kehlkopfabstieg selbst bei Primaten nicht nur beim Menschen zu beobachten.“ Zweitens ist kein Kehlkopfabstieg erforderlich, um kontrastierende Formantenmuster in Lautäußerungen zu erzeugen. Drittens produzieren lebende nichtmenschliche Primaten Lautäußerungen mit kontrastierenden Formantenmustern.“

Sprache und Sprechen in der akademischen Welt sind komplexe Bereiche, die über Paläoanthropologie und Primatologie hinausgehen. Wenn Sie Sprachwissenschaft studieren möchten, sollten Sie über fundierte Kenntnisse in „Phonetik, Anatomie, Akustik und menschlicher Entwicklung“ verfügen, sagen die Experten. Dazu könnte man „Syntax, Lexikon, Gestik, phonologische Darstellungen, Silbenorganisation, Sprachwahrnehmung und neuromuskuläre Kontrolle“ hinzufügen.

Professor Paul Pettitt, der an der Universität Oxford seinen Lebensunterhalt damit verdient, antike Felsmalereien in Afrika und darüber hinaus zu interpretieren, sieht die Geburt der Zivilisation in multimodalen Sprachbegriffen. Er sagt: „Mittlerweile gibt es große Unterstützung für die Vorstellung, dass symbolische Kreativität Teil unseres kognitiven Repertoires war, als wir begannen, Afrika zu verlassen. Der Vorsitzende von Google, Sundar Pichai, vertritt eine ähnlich weitreichende Sichtweise, wenn es um Sprache geht. In seiner Vorstellung vom 6. Dezember 2023 ihres bahnbrechenden LLM (großes Sprachmodell), Gemini (ein Konkurrent von ChatGPT), beschrieb er das neue Produkt als „unser größtes und leistungsfähigstes KI-Modell mit natürlichem Bild-, Audio- und Videoverständnis und.“ Mathematische Argumentation.”

Mark Minevich, Digital Cognitive Strategist, schloss sich der Ansicht von Google an, dass die Fackel der menschlichen Sprache inzwischen weit über den reinen Text hinausgegangen sei und auf Maschinen übergegangen sei. Seine Rezension: „Gemini kombiniert Datentypen wie nie zuvor, um neue Möglichkeiten des maschinellen Lernens zu erschließen … Seine multimodale Natur baut auf Vorgängern wie GPT-3.5 und GPT-4 auf, geht aber weit darüber hinaus, was die Fähigkeit betrifft, unsere komplexe Welt dynamisch zu verstehen.“

Lesen Sie auch China und die USA müssen eine „offene“ Kommunikation pflegen, sagt Handelsminister

GPT was???

OK, machen wir einen Schritt zurück und geben uns allen die Chance, aufzuholen.

Was wir KI oder „künstliche Intelligenz“ nennen, ist ein 70 Jahre altes Konzept, das früher „Deep Learning“ genannt wurde. Dies war das Gehirnkonstrukt der Forscher Warren McCullough und Walter Pitts von der University of Chicago, die 1944 das Konzept der „neuronalen Netze“ entwickelten und den theoretischen maschinellen Lerner nach dem Vorbild menschlicher Gehirne modellierten, die aus mehreren überlappenden Transitfasern bestehen, die an synaptischen Knoten verbunden sind Mit einem angemessenen Stimulus könnten die gesammelten Informationen an die nächste Faser weitergegeben werden.

Aufgrund dieses Konzepts zogen die beiden 1952 ans MIT und gründeten die Abteilung für Kognitionswissenschaften, in der Informatiker und Neurowissenschaftler zusammenkamen. In der Zwischenzeit erfand Frank Rosenblatt, ein Cornell-Psychologe, 1957 das „erste trainierbare neuronale Netzwerk“, das er futuristisch „Perceptron“ nannte und das eine Dateneingabeschicht, eine Sandwichschicht, die Informationspakete mit „Gewichten“ anpassen konnte, enthielt „Auslöseschwellenwerte“ und eine dritte Ausgabeschicht, um die Weitergabe von Daten, die die Schwellenwertkriterien erfüllen, über die Leitung zu ermöglichen.

Zurück am MIT wurde die Abteilung für Kognitionswissenschaft 1969 von den Mathematikern Marvin Minsky und Seymour Papert gekapert und zum MIT-Labor für künstliche Intelligenz umgewandelt. Sie haben Rosenblatts Perceptron-Maschine kurzerhand demoliert, weil sie glaubten, sie sei leistungsschwach und ineffizient bei der Durchführung der grundlegendsten Berechnungen. 1980 war die Abteilung bereit, ein „Egal“ zu liefern, als die Rechenleistung zunahm und Algorithmen zur Kodierung von Schwellenwerten und Gewichten an neuronalen Knoten effizient und praktisch wurden.

Experten sind sich inzwischen einig, dass der Computersprung „dank der Computerspielindustrie“ erfolgte, deren „Grafikprozessor“ (GPU), die Tausende von Prozessorkernen auf einem einzigen Chip beherbergte, praktisch das neuronale Netz war, das sich McCullough und Pitts vorgestellt hatten . Bis 1977 hatte Atari Spielekassetten und mikroprozessorbasierte Hardware mit einer erfolgreichen Fernsehschnittstelle entwickelt.

Mit der Einführung des Internets und der kommerziellen Explosion des Desktop-Computings gewann die Sprache – der Treibstoff für menschliche Interaktionen weltweit – exponentiell an Bedeutung. Insbesondere bestand die größte Nachfrage nach einer Sprache, die Menschen auf natürliche Weise mit Maschinen verbinden kann.

Angesichts des explosionsartigen Wachstums von Textdaten lag der Schwerpunkt zunächst auf der Verarbeitung natürlicher Sprache (NLP), „einem interdisziplinären Teilgebiet der Informatik und Linguistik, das sich hauptsächlich damit beschäftigt, Computern die Fähigkeit zu geben, menschliche Sprache zu unterstützen und zu manipulieren.“ Trainingssoftware nutzte zunächst annotierte oder referenzierte Texte, um konkrete Fragen oder Aufgaben gezielt anzusprechen bzw. zu beantworten. Der Nutzen und die Genauigkeit, Anfragen außerhalb ihrer vorgegebenen Schulung zu beantworten, waren begrenzt und ihre Nutzung wurde durch Ineffizienz beeinträchtigt.

Aber die Rechenleistung war inzwischen weit über das hinausgegangen, was Warren McCullough und Walter Pitts sich 1944 hätten vorstellen können, und das Konzept der „neuronalen Netze“ könnte nicht relevanter sein. IBM beschreibt die moderne Version folgendermaßen:

Lesen Sie auch ein Franco-Ukrainer organisiert Solidarität aus der Bretagne

„Neuronale Netze … sind eine Teilmenge des maschinellen Lernens und das Herzstück von Deep-Learning-Algorithmen. Ihr Name und ihre Struktur sind vom menschlichen Gehirn inspiriert und ahmen die Art und Weise nach, wie biologische Neuronen einander Signale senden. Künstliche neuronale Netze bestehen aus Knotenschichten, die eine Eingabeschicht, eine oder mehrere verborgene Schichten und eine Ausgabeschicht enthalten. Einmal eine Eingabe Die Schicht wird bestimmt, Gewichte werden zugewiesen. Diese Gewichte helfen dabei, die Bedeutung einer bestimmten Variablen zu bestimmen, wobei größere Gewichte im Vergleich zu anderen Eingaben einen größeren Beitrag zur Ausgabe leisten. Alle Eingaben werden dann mit ihren jeweiligen Gewichten multipliziert und dann summiert. Anschließend wird die Ausgabe durch eine Aktivierungsfunktion geleitet, die die Ausgabe bestimmt. Wenn diese Ausgabe einen bestimmten Schwellenwert überschreitet, „feuert“ (oder aktiviert) der Knoten und leitet Daten an die nächste Schicht im Netzwerk weiter. Es ist erwähnenswert, dass sich „tief“ beim Deep Learning nur auf die Tiefe der Schichten in einem bezieht neurales Netzwerk. Ein neuronales Netzwerk, das aus mehr als drei Schichten besteht – einschließlich der Eingaben und der Ausgabe – kann als Deep-Learning-Algorithmus betrachtet werden. Ein neuronales Netzwerk, das nur zwei oder drei Schichten hat, ist nur ein einfaches neuronales Netzwerk.“

Im Endeffekt reagiert das automatisierte System auf eine interne Logik. Die „nächste Wahl“ des Computers wird dadurch bestimmt, wie gut sie zu den vorherigen Entscheidungen passt. Dabei spielt es keine Rolle, woher die Worte oder „Münzen“ kommen. Füttere es mit Daten, und es wird funktionieren „Zug” selbst; Und indem man die Regeln oder Algorithmen befolgt, die in den mittleren Entscheidungsebenen oder -bildschirmen eingebettet sind, wird dies der Fall sein „verwandeln” das erworbene Wissen, in „erzeugt“ Sprache, die sowohl Mensch als auch Maschine verstehen.

Im Jahr 2016 gründete eine Gruppe von Technologieunternehmern, darunter Elon Musk und Reed Hastings, eine gemeinnützige Organisation namens OpenAI, die davon überzeugt war, dass KI in die Irre gehen könnte, wenn sie eingeschränkt oder als Waffe eingesetzt wird. Zwei Jahre später veröffentlichten sie ein Deep-Learning-Produkt namens Chat GPT. Diese Lösung entstand aus der Verbindung von Natural Language Processing und Deep Learning Neural Links mit dem erklärten Ziel, „Menschen eine natürlichere Interaktion mit Maschinen zu ermöglichen“.

Das GPT stand für „Generative Pre-trained Transformer“. In die Software integriert war die Fähigkeit, „bei der Generierung des nächsten Wortes den Kontext des gesamten Satzes zu berücksichtigen“ – eine Taktik, die als „autoregressiv“ bekannt ist. Als „selbstüberwachtes Lernmodell“ ist GPT in der Lage, selbstständig durch die Aufnahme oder Eingabe großer Mengen anonymen Textes zu lernen; transformieren Sie es, indem Sie es durch eine Vielzahl von zwischengeschalteten, gewichteten Bildschirmen leiten, die den Inhalt beurteilen; und den Durchgang (und das Überleben) validierter Daten ermöglichen. Die resultierende Ausgabe? Hochleistungssprache, die menschlichen Text nachahmt.

Lesen Sie auch Die Entscheidungen des Verfassungsrates überschütten die Hoffnungen der Nupes für den RIP

Die Führung von Microsoft war beeindruckt und stellte 2019 eine Milliarde US-Dollar bereit, um sich gemeinsam an der Entwicklung des Produkts zu beteiligen und als exklusiver Cloud-Anbieter zu fungieren.

Das erste ChatGPT-1 von OpenAI wurde erstmals 2018 von GPT-1 eingeführt, aber erst am 30. November 2022 offiziell öffentlich veröffentlicht.

Es wurde auf einem riesigen BooksCorpus-Datensatz trainiert. Sein Design umfasste eine Eingangs- und Ausgangsschicht mit 12 aufeinanderfolgenden Transformatorschichten dazwischen. Es war bei der Verarbeitung natürlicher Sprache so effektiv, dass nur minimale Feinabstimmungen am Backend erforderlich waren.

Als nächstes veröffentlichte OpenAI Version zwei mit dem Namen GPT-2, die mit 1,5 Milliarden Parametern und der Fähigkeit zur Übersetzung und Zusammenfassung zehnmal so groß war wie ihr Vorgänger. GPT-3 folgte. Es war mittlerweile auf 175 Milliarden Parameter angewachsen, 100-mal so groß wie GPT-2, und wurde durch die Aufnahme eines Korpus von 500 Milliarden Inhaltsquellen (einschließlich der Quellen meines eigenen Buches – CODE BLUE) trainiert. Es könnte nun lange Passagen auf mündlichem Verlangen generieren, grundlegende Mathematikaufgaben erledigen, Code schreiben und (wie die Erfinder es nennen) „clevere Aufgaben“ erledigen. Ein mittlerer GPT 3.5 absorbierte Wikipedia-Einträge, Social-Media-Beiträge und Pressemitteilungen.

Am 14. März 2023 ging GPT-4 in die große Sprache über, jetzt mit multimodalen Ausgaben, einschließlich Text, Sprache, Bildern und physischen Interaktionen mit der Umgebung. Dies stellt eine exponentielle Konvergenz mehrerer Technologien dar, darunter Datenbanken, KI, Cloud Computing, 5G-Netzwerke, Personal Edge Computing und mehr.

Die Schlagzeile der New York Times kündigte es als „aufregend und beängstigend“ an. Ihr Technologie-Kolumnist schrieb: „Wir sehen das Entstehen von Maschinen, die denken können, alle menschlichen Sprachen beherrschen und in der Lage sind, die physische Umgebung wahrzunehmen und mit ihr zu interagieren.“ Er war mit seinen Sorgen nicht allein. Etwa zur gleichen Zeit veröffentlichte The Atlantic einen Leitartikel mit dem Titel: „KI ist dabei, soziale Medien (viel) giftiger zu machen.“

Leonid Zhukov, Ph.D., Direktor der Global AI der Boston Consulting Group (BCG), glaubt, dass Angebote wie ChatGPT-4 und Genesis das Potenzial haben, zum Gehirn autonomer Agenten zu werden – die ihre Umgebung nicht nur wahrnehmen, sondern auch darauf reagieren – in den nächsten 3 bis 5 Jahren. Dies könnte den Weg für vollständig automatisierte Arbeitsabläufe ebnen.“

Wäre er noch am Leben, wäre Leonardo da Vinci wahrscheinlich nicht besorgt. Vor fünfhundert Jahren schrieb er lässig: „Mir ist schon lange klar geworden, dass erfolgreiche Menschen sich selten zurücklehnen und zulassen, dass Dinge auf sich zukommen. Sie gingen raus und passierten Dinge.“

Mike Magee MD ist Medizinhistoriker und schreibt regelmäßig für THCB. Er ist der Autor von CODE BLUE: Inside America’s Medical Industrial Complex (Grove/2020).