Der Wahnsinn, Kunst mit generativer Text-zu-Bild-KI zu machen

Das Erhalten eines gewünschten Bildes kann eine lange Versuch-und-Irrtum-Übung sein. Bildnachweis: OpenAI

Kunst mit künstlicher Intelligenz zu schaffen ist nicht neu. Es ist so alt wie die KI selbst.

Neu ist, dass eine Reihe von Tools es den meisten Menschen mittlerweile ermöglichen, Bilder durch Eingabe einer Textaufforderung zu generieren. Sie müssen lediglich „Eine Landschaft im Stil von van Gogh“ in ein Textfeld schreiben, und die KI kann wie angewiesen ein wunderschönes Bild erstellen.

Die Stärke dieser Technologie liegt in ihrer Fähigkeit, die menschliche Sprache zur Steuerung der Kunsterzeugung zu nutzen. Aber übersetzen diese Systeme die Vision eines Künstlers genau? Kann die Einbeziehung der Sprache in die Kunst wirklich zu künstlerischen Durchbrüchen führen?

Technische Ergebnisse

Ich arbeite seit Jahren als Künstler und Informatiker mit generativer KI und würde behaupten, dass diese neue Art von Werkzeug den kreativen Prozess einschränkt.

Wenn Sie eine Textaufforderung schreiben, um mit KI ein Bild zu generieren, gibt es unendlich viele Möglichkeiten. Wenn Sie ein Gelegenheitsnutzer sind, könnten Sie mit dem, was die KI für Sie generiert, zufrieden sein. Und Startups und Investoren haben Milliarden in diese Technologie gesteckt, da sie darin eine einfache Möglichkeit sehen, Grafiken für Artikel, Videospielfiguren und Werbung zu erstellen.

Im Gegensatz dazu muss ein Künstler möglicherweise eine essayartige Aufforderung verfassen, um ein qualitativ hochwertiges Bild zu erstellen, das seine Vision widerspiegelt – mit der richtigen Komposition, der richtigen Beleuchtung und der richtigen Schattierung. Diese lange Eingabeaufforderung beschreibt das Bild nicht unbedingt, sondern verwendet typischerweise viele Schlüsselwörter, um das System dessen aufzurufen, was im Kopf des Künstlers vorgeht. Dafür gibt es einen relativ neuen Begriff: Prompt Engineering.

Im Grunde besteht die Rolle eines Künstlers, der diese Tools verwendet, darin, das System zurückzuentwickeln, um die richtigen Schlüsselwörter zu finden, die das System dazu zwingen, die gewünschte Ausgabe zu generieren. Es erfordert viel Mühe und viel Versuch und Irrtum, um die richtigen Worte zu finden.

KI ist nicht so intelligent, wie es scheint

Um zu lernen, wie man die Ausgaben besser steuern kann, ist es wichtig zu erkennen, dass die meisten dieser Systeme auf Bilder und Bildunterschriften aus dem Internet trainiert sind.

Überlegen Sie, was eine typische Bildunterschrift über ein Bild aussagt. Untertitel werden in der Regel geschrieben, um das visuelle Erlebnis beim Surfen im Internet zu ergänzen.

Die Bildunterschrift könnte beispielsweise den Namen des Fotografen und des Urheberrechtsinhabers enthalten. Auf einigen Websites wie Flickr beschreibt eine Bildunterschrift typischerweise den Kameratyp und das verwendete Objektiv. Auf anderen Websites beschreibt die Bildunterschrift die Grafik-Engine und die Hardware, die zum Rendern eines Bildes verwendet werden.

Der Wahnsinn, Kunst mit generativer Text-zu-Bild-KI zu machen

Generative KI gilt als vielversprechendes Werkzeug zur Entwicklung von Videospielcharakteren. Bildnachweis: Benlisquare/Wikimedia Commons, CC BY-SA

Um eine nützliche Textaufforderung zu schreiben, müssen Benutzer viele nicht beschreibende Schlüsselwörter eingeben, damit das KI-System ein entsprechendes Bild erstellen kann.

Die heutigen KI-Systeme sind nicht so intelligent, wie sie scheinen; Es handelt sich im Wesentlichen um intelligente Retrieval-Systeme, die über ein großes Gedächtnis verfügen und durch Assoziationen arbeiten.

Künstler sind frustriert über mangelnde Kontrolle

Ist dies wirklich die Art von Werkzeug, das Künstlern dabei helfen kann, großartige Werke zu schaffen?

Bei Playform AI, einer von mir gegründeten generativen KI-Kunstplattform, haben wir eine Umfrage durchgeführt, um die Erfahrungen von Künstlern mit generativer KI besser zu verstehen. Wir haben Antworten von über 500 Digitalkünstlern, traditionellen Malern, Fotografen, Illustratoren und Grafikdesignern gesammelt, die unter anderem Plattformen wie DALL-E, Stable Diffusion und Midjourney genutzt haben.

Nur 46 % der Befragten empfanden solche Tools als „sehr nützlich“, während 32 % sie einigermaßen nützlich fanden, sie aber nicht in ihren Arbeitsablauf integrieren konnten. Der Rest der Nutzer – 22 % – fand sie überhaupt nicht nützlich.

Die größte Einschränkung, die Künstler und Designer hervorhoben, war mangelnde Kontrolle. Auf einer Skala von 0 bis 10, wobei 10 die höchste Kontrolle bedeutet, gaben die Befragten an, dass ihre Fähigkeit, das Ergebnis zu kontrollieren, zwischen 4 und 5 lag. Die Hälfte der Befragten fand die Ergebnisse interessant, aber nicht von ausreichend hoher Qualität, um sie in ihrer Praxis zu verwenden.

Als es um die Überzeugung ging, ob generative KI ihre Praxis beeinflussen würde, waren 90 % der befragten Künstler der Meinung, dass dies der Fall sein würde; 46 % glaubten, dass die Wirkung positiv sein würde, 7 % prognostizierten, dass es sich um eine negative Auswirkung handeln würde. Und 37 % glaubten, dass ihre Praxis betroffen sein würde, waren sich aber nicht sicher, in welcher Weise.

Die beste visuelle Kunst geht über die Sprache hinaus

Sind diese Einschränkungen grundlegend oder werden sie einfach verschwinden, wenn sich die Technologie verbessert?

Natürlich werden neuere Versionen der generativen KI den Benutzern mehr Kontrolle über die Ausgaben sowie höhere Auflösungen und eine bessere Bildqualität geben.

Aber für mich ist die größte Einschränkung, soweit es die Kunst betrifft, grundlegender Natur: Es ist der Prozess, bei dem die Sprache als Haupttreiber bei der Generierung des Bildes verwendet wird.

Der Wahnsinn, Kunst mit generativer Text-zu-Bild-KI zu machen

Die gleiche Eingabe kann zu einer Reihe zufälliger Ausgaben führen. Bildnachweis: OpenAI/Wikimedia Commons

Bildende Künstler sind per Definition visuelle Denker. Wenn sie sich ihre Arbeit vorstellen, stützen sie sich in der Regel auf visuelle Referenzen, nicht auf Worte – eine Erinnerung, eine Fotosammlung oder andere Kunstwerke, denen sie begegnet sind.

Wenn bei der Bilderzeugung die Sprache im Mittelpunkt steht, sehe ich eine zusätzliche Barriere zwischen dem Künstler und der digitalen Leinwand. Pixel werden nur durch die Linse der Sprache gerendert. Künstler verlieren die Freiheit, Pixel außerhalb der Grenzen der Semantik zu manipulieren.

Es gibt eine weitere grundlegende Einschränkung bei der Text-zu-Bild-Technologie.

Wenn zwei Künstler genau dieselbe Eingabeaufforderung eingeben, ist es sehr unwahrscheinlich, dass das System dasselbe Bild generiert. Das liegt nicht an irgendetwas, was der Künstler getan hat; Die unterschiedlichen Ergebnisse sind einfach darauf zurückzuführen, dass die KI von verschiedenen zufälligen Anfangsbildern ausgeht.

Mit anderen Worten: Das Schaffen des Künstlers ist auf den Zufall beschränkt.

Fast zwei Drittel der von uns befragten Künstler hatten Bedenken, dass ihre KI-Generationen den Werken anderer Künstler ähneln könnten und dass die Technologie ihre Identität nicht widerspiegelt – oder sie sogar ganz ersetzt.

Die Frage der Künstleridentität ist von entscheidender Bedeutung, wenn es darum geht, Kunst zu machen und anzuerkennen. Im 19. Jahrhundert, als die Fotografie populär wurde, gab es eine Debatte darüber, ob Fotografie eine Kunstform sei. Im Jahr 1861 kam es in Frankreich zu einem Gerichtsverfahren, bei dem entschieden wurde, ob Fotografie als Kunstform urheberrechtlich geschützt werden kann. Die Entscheidung hing davon ab, ob die einzigartige Identität eines Künstlers durch Fotografien zum Ausdruck gebracht werden kann.

Dieselben Fragen tauchen auf, wenn man KI-Systeme betrachtet, die mit den vorhandenen Bildern des Internets trainiert werden.

Vor dem Aufkommen der Text-zu-Bild-Eingabeaufforderung war die Schaffung von Kunst mit KI ein aufwändigerer Prozess: Künstler trainierten normalerweise ihre eigenen KI-Modelle auf der Grundlage ihrer eigenen Bilder. Dadurch konnten sie ihre eigene Arbeit als visuelle Referenz verwenden und hatten mehr Kontrolle über die Ergebnisse, was ihren einzigartigen Stil besser widerspiegelte.

Text-zu-Bild-Tools können für bestimmte Autoren und Gelegenheitsnutzer nützlich sein, die Grafiken für eine Arbeitspräsentation oder einen Social-Media-Beitrag erstellen möchten.

Aber wenn es um Kunst geht, kann ich mir nicht vorstellen, wie Text-zu-Bild-Software die wahren Absichten des Künstlers angemessen widerspiegeln oder die Schönheit und emotionale Resonanz von Werken einfangen kann, die den Betrachter fesseln und ihn die Welt mit neuen Augen sehen lassen.

Bereitgestellt von The Conversation

Dieser Artikel wurde von The Conversation unter einer Creative Commons-Lizenz erneut veröffentlicht. Lesen Sie den Originalartikel.Die Unterhaltung

Zitat: Meinung: The folly of making art with text-to-image generative AI (2023, 23. Juni), abgerufen am 24. Juni 2023 von https://techxplore.com/news/2023-06-opinion-folly-art-text-to -image-generative.html

Dieses Dokument unterliegt dem Urheberrecht. Abgesehen von einem fairen Handel zum Zweck des privaten Studiums oder der Forschung darf kein Teil ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient ausschließlich Informationszwecken.

Lesen Sie auch  Der Käufer weist darauf hin, dass Produkte aus Ontario bei Loblaws mehr kosten als in den USA

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.