Technik und Wissenschaft

OpenAI beendet GPT-4 ohne Text-zu-Video

Das große multimodale Sprachmodell GPT-4 ist bereit für die Hauptsendezeit, obwohl es entgegen den seit Freitag kursierenden Berichten nicht die Möglichkeit unterstützt, Videos aus Text zu produzieren.

GPT-4 kann jedoch Bild- und Texteingaben akzeptieren und Textausgaben erzeugen. In einer Reihe von Bereichen – einschließlich Dokumenten mit Text und Fotos, Diagrammen oder Screenshots – weist GPT-4 ähnliche Fähigkeiten auf wie bei reinen Texteingaben, erklärte OpenAI auf seiner Website.

Diese Funktion befindet sich jedoch in der „Forschungsvorschau“ und wird nicht öffentlich verfügbar sein.

OpenAI erklärte, dass GPT-4 zwar in vielen realen Szenarien weniger leistungsfähig als Menschen ist, aber bei verschiedenen professionellen und akademischen Benchmarks eine Leistung auf menschlicher Ebene aufweist.

Beispielsweise hat es eine simulierte Anwaltsprüfung mit einer Punktzahl von etwa den besten 10 % der Testteilnehmer bestanden. Im Gegensatz dazu lag der Wert von GPT-3.5 bei den unteren 10 %.

Überspringt frühere Modelle

Einer der frühen Nutzer von GPT-4 ist Casetext, Hersteller eines KI-Rechtsassistenten, CoCounsel, der angeblich sowohl den Multiple-Choice- als auch den schriftlichen Teil des Uniform Bar Exam bestehen kann.

„GPT-4 übertrifft die Leistungsfähigkeit früherer Sprachmodelle“, sagte Pablo Arredondo, Mitbegründer und Chief Innovation Officer von Casetext, in einer Erklärung. „Die Fähigkeit des Modells, Text nicht nur zu generieren, sondern auch zu interpretieren, läutet geradezu ein neues Zeitalter in der Rechtspraxis ein.“

„CoCounsel von Casetext verändert die Rechtspraxis durch die Automatisierung kritischer, zeitintensiver Aufgaben und gibt unseren Anwälten die Möglichkeit, sich auf die wirkungsvollsten Aspekte der Praxis zu konzentrieren“, fügte Frank Ryan, Vorsitzender von DLA Piper, einer globalen Anwaltskanzlei, für Amerika hinzu Pressemitteilung.

Lesen Sie auch Wie OpenAI-CEO Sam Altman von rivalisierenden Vorstandsmitgliedern gefeuert wurde

OpenAI erklärte, es habe sechs Monate damit verbracht, GPT-4 anhand von Lehren aus seinem gegnerischen Testprogramm sowie ChatGPT abzugleichen, was zu den besten Ergebnissen aller Zeiten geführt habe – wenn auch alles andere als perfekt – in Bezug auf Sachlichkeit, Steuerbarkeit und Weigerung, die Leitplanken zu verlassen.

Es fügte hinzu, dass der GPT-4-Trainingslauf beispiellos stabil war. Es war das erste große Modell des Unternehmens, dessen Trainingsleistung im Voraus genau vorhergesagt werden konnte.

„Während wir uns weiterhin auf zuverlässige Skalierung konzentrieren“, heißt es darin, „zielen wir darauf ab, unsere Methodik zu verfeinern, um uns dabei zu helfen, zukünftige Fähigkeiten immer weit im Voraus vorherzusagen und vorzubereiten – etwas, das wir als kritisch für die Sicherheit ansehen.“

Subtile Unterscheidungen

OpenAI stellte fest, dass die Unterscheidung zwischen GPT-3.5 und GPT-4 subtil sein könnte. Der Unterschied zeige sich, wenn die Komplexität der Aufgabe eine ausreichende Schwelle erreiche, erklärte sie. GPT-4 ist zuverlässiger und kreativer und kann differenziertere Anweisungen verarbeiten als GPT-3.5.

GPT-4 kann auch mehr als sein Vorgänger angepasst werden. Anstelle der klassischen ChatGPT-Persönlichkeit mit fester Ausführlichkeit, Tonalität und Stil, erklärte OpenAI, können Entwickler – und bald auch ChatGPT-Benutzer – nun den Stil und die Aufgabe ihrer KI vorschreiben, indem sie diese Anweisungen in der „System“-Nachricht beschreiben. Systemnachrichten ermöglichen es API-Benutzern, das Benutzererlebnis in Grenzen erheblich anzupassen.

API-Benutzer müssen jedoch zunächst warten, um diese Funktion auszuprobieren, da ihr Zugriff auf GPT-4 durch eine Warteliste eingeschränkt wird.

OpenAI räumte ein, dass GPT-4 trotz seiner Fähigkeiten ähnliche Einschränkungen wie frühere GPT-Modelle hat. Am wichtigsten ist, dass es immer noch nicht vollständig zuverlässig ist. Es „halluziniert“ Tatsachen und macht Denkfehler.

Bei der Verwendung von Sprachmodellausgaben sollte große Sorgfalt walten, insbesondere in Kontexten mit hohem Einsatz, warnte OpenAI.

Lesen Sie auch Hier erfahren Sie, wie Sie den Sonnenschutz für das Gesicht erneut auftragen, ohne Ihr Make-up zu ruinieren

GPT-4 kann sich in seinen Vorhersagen auch sicher irren und sich nicht darum kümmern, die Arbeit doppelt zu überprüfen, wenn es wahrscheinlich einen Fehler macht, fügte es hinzu.

T2V nicht vorhanden

Die Vorfreude auf die neue Version von GPT wurde am Wochenende geschürt, nachdem ein Microsoft-Manager in Deutschland angedeutet hatte, dass eine Text-zu-Video-Funktion Teil des endgültigen Pakets sein würde.

„Wir werden GPT-4 nächste Woche vorstellen, wo wir multimodale Modelle haben, die ganz andere Möglichkeiten bieten werden – zum Beispiel Videos“, sagte Andreas Braun, Chief Technology Officer von Microsoft in Deutschland, am Freitag auf einer Presseveranstaltung.

Text-to-Video wäre sehr störend, beobachtete Rob Enderle, President und Principal Analyst bei der Enderle Group, einem Beratungsunternehmen in Bend, Ore.

Lesen Sie den Leitfaden für Entscheidungsträger von ContactBabel

„Es könnte dramatisch verändern, wie Filme und Fernsehsendungen erstellt werden, wie Nachrichtensendungen formatiert werden, indem es einen Mechanismus für eine hochgradig granulare Benutzeranpassung bereitstellt“, sagte er gegenüber TechNewsWorld.

Enderle bemerkte, dass eine anfängliche Anwendung der Technologie darin bestehen könnte, Storyboards aus Drehbuchentwürfen zu erstellen. „Wenn diese Technologie ausgereift ist, wird sie einem fertigen Produkt näher kommen.“

Verbreitung von Videos

Inhalte, die von Text-zu-Video-Anwendungen erstellt werden, sind immer noch einfach, bemerkte Greg Sterling, Mitbegründer von Near Media, einer Nachrichten-, Kommentar- und Analyse-Website.

„Aber Text-to-Video hat das Potenzial, disruptiv zu sein, in dem Sinne, dass wir viel mehr Videoinhalte sehen werden, die zu sehr niedrigen oder fast kostenlosen Kosten erstellt werden“, sagte er gegenüber TechNewsWorld.

„Die Qualität und Effektivität dieses Videos ist eine andere Sache“, fuhr er fort. „Aber ich vermute, dass einiges davon anständig sein wird.“

Lesen Sie auch Starker Schneefall begräbt den Nordosten und lässt 700.000 Menschen ohne Strom zurück

Er fügte hinzu, dass Erklärungen und grundlegende Anleitungen gute Kandidaten für Text-zu-Video sind.

„Ich könnte mir vorstellen, dass einige Agenturen es verwenden werden, um Videos für KMUs zu erstellen, die sie auf ihren Websites oder YouTube zu Rankingzwecken verwenden können“, sagte er.

„Es wird – zumindest am Anfang – bei keinem Markeninhalt gut sein“, fuhr er fort. „Soziale Medieninhalte sind ein weiterer Anwendungsfall. Sie werden sehen, dass YouTuber es verwenden, um das Volumen zu steigern, um Aufrufe und Werbeeinnahmen zu generieren.“

Lassen Sie sich nicht von Deepfakes täuschen

Wie bei ChatGPT festgestellt wurde, gibt es potenzielle Gefahren für Technologien wie Text-to-Video.

„Die gefährlichsten Anwendungsfälle, wie alle Tools dieser Art, sind der Gartenbetrug, bei dem sich Angehörige gegenüber Menschen ausgeben, oder Angriffe auf besonders gefährdete Personen oder Institutionen“, beobachtete Will Duffield, Politikanalyst beim Cato Institute, einer Denkfabrik in Washington, DC .

Duffield lehnte jedoch die Idee ab, Text-zu-Video zu verwenden, um effektive „Deepfakes“ zu produzieren.

„Wenn wir Angriffe mit guten Ressourcen gesehen haben, wie den russischen Deepfake der Kapitulation von Selenskyj im letzten Jahr, sind sie gescheitert, weil es genug Kontext und Erwartungen in der Welt gibt, um die Fälschung zu widerlegen“, erklärte er.

„Wir haben sehr genau definierte Vorstellungen darüber, wer Persönlichkeiten des öffentlichen Lebens sind, worum es bei ihnen geht und was wir von ihnen erwarten können“, fuhr er fort. „Wenn wir also sehen, dass sich Medien von ihnen auf eine Weise verhalten, die nicht mit diesen Erwartungen übereinstimmt, werden wir dem wahrscheinlich sehr kritisch oder skeptisch gegenüberstehen.“