GPT-4 übertraf 99,98 % der simulierten menschlichen Leser bei der Diagnose komplexer klinischer Fälle

GPT-4 von OpenAI diagnostizierte 52,7 % der komplexen Challenge-Fälle richtig, verglichen mit 36 ​​% der Leser medizinischer Fachzeitschriften, und übertraf 99,98 % der simulierten menschlichen Leser, laut a Studie veröffentlicht von der New England Journal of Medicine.

Die von Forschern in Dänemark durchgeführte Auswertung nutzte GPT-4, um Diagnosen zu 38 komplexen klinischen Fallherausforderungen mit Textinformationen zu finden, die zwischen Januar 2017 und Januar 2023 online veröffentlicht wurden. Die Antworten von GPT-4 wurden mit 248.614 Antworten von Online-Lesern medizinischer Fachzeitschriften verglichen.

Zu jedem komplexen klinischen Fall gehörte eine Anamnese sowie eine Umfrage mit sechs Optionen für die wahrscheinlichste Diagnose. Die für GPT-4 verwendete Eingabeaufforderung forderte das Programm auf, die Diagnose zu lösen, indem es eine Multiple-Choice-Frage beantwortete und den vollständigen, unbearbeiteten Text aus dem klinischen Fallbericht analysierte. Jeder Fall wurde GPT-4 fünfmal vorgelegt, um die Reproduzierbarkeit zu bewerten.

Alternativ sammelten die Forscher für jeden Fall Stimmen von Lesern medizinischer Fachzeitschriften, die 10.000 Antwortsätze simulierten, was zu einer Pseudopopulation von 10.000 menschlichen Teilnehmern führte.

Zu den häufigsten Diagnosen zählten 15 Fälle im Bereich Infektionskrankheiten (39,5 %), fünf Fälle in der Endokrinologie (13,1 %) und vier Fälle in der Rheumatologie (10,5 %).

Die Patienten in den klinischen Fällen waren zwischen Neugeborenen und 89 Jahren alt und 37 % waren weiblich.

In der jüngsten GPT-4-Ausgabe vom März 2023 wurden 21,8 Fälle bzw. 57 % mit guter Reproduzierbarkeit richtig diagnostiziert, während Leser medizinischer Fachzeitschriften 13,7 Fälle bzw. durchschnittlich 36 % korrekt diagnostizierten.

Die letzte Veröffentlichung von GPT-4 im März umfasst Online-Material bis September 2021; Daher bewerteten die Forscher auch die Fälle vor und nach den verfügbaren Trainingsdaten.

Lesen Sie auch  Wird künstliche Intelligenz (KI) eine allgemeine Gesundheitsversorgung in Amerika auslösen? Was sagen erfahrene Wissenschaftler? – Der Gesundheitsblog

In diesem Fall diagnostizierte GPT-4 52,7 % der bis September 2021 veröffentlichten Fälle und 75 % der nach September 2021 veröffentlichten Fälle korrekt.

„GPT-4 hatte eine hohe Reproduzierbarkeit, und unsere zeitliche Analyse legt nahe, dass die von uns beobachtete Genauigkeit nicht darauf zurückzuführen ist, dass diese Fälle in den Trainingsdaten des Modells auftauchen. Allerdings schien sich die Leistung zwischen verschiedenen Versionen von GPT-4 zu ändern „Die neueste Version schneidet etwas schlechter ab. Obwohl sie in unserer Studie vielversprechende Ergebnisse zeigte, hat GPT-4 fast jede zweite Diagnose übersehen“, schreiben die Forscher.

„… unsere Ergebnisse deuten zusammen mit den jüngsten Erkenntnissen anderer Forscher darauf hin, dass das aktuelle GPT-4-Modell heute klinisch vielversprechend sein könnte. Es sind jedoch ordnungsgemäße klinische Studien erforderlich, um sicherzustellen, dass diese Technologie für den klinischen Einsatz sicher und wirksam ist.“

WARUM ES WICHTIG IST

Die Forscher wiesen auf die Grenzen der Studie hin, einschließlich Unbekannter hinsichtlich der medizinischen Fähigkeiten der Leser medizinischer Fachzeitschriften, und darauf, dass die Ergebnisse des Forschers ein Best-Case-Szenario zugunsten von GPT-4 darstellen könnten.

Dennoch kamen die Forscher zu dem Schluss, dass GPT-4 auch bei „maximal korrelierten richtigen Antworten“ unter den Lesern medizinischer Fachzeitschriften immer noch besser abschneiden würde als 72 % der menschlichen Leser.

Die Forscher betonten, wie wichtig es ist, dass zukünftige Modelle Trainingsdaten aus Entwicklungsländern einbeziehen, um den globalen Nutzen der Technologie sicherzustellen, und dass ethische Überlegungen erforderlich sind.

„Auf dem Weg in diese Zukunft müssen auch die ethischen Implikationen im Zusammenhang mit der mangelnden Transparenz kommerzieller Modelle wie GPT-4 sowie regulatorische Fragen zum Datenschutz und zur Privatsphäre angegangen werden“, schreiben die Autoren der Studie.

Lesen Sie auch  Wie wurden Dokumentarfilme zu einer bewährten Formel, um junge Menschen für den Sport zu begeistern?

„Schließlich sollten der künftigen Implementierung klinische Studien zur Bewertung von Genauigkeit, Sicherheit und Validität vorausgehen. Sobald diese Probleme angegangen sind und sich die KI verbessert, wird die Gesellschaft voraussichtlich zunehmend auf KI als Werkzeug zur Unterstützung des Entscheidungsprozesses unter menschlicher Aufsicht und nicht mehr auf KI setzen als Ersatz für Ärzte.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.