Wenn Maschinen Kunst schaffen: KI-generierte Bilder mit GANs

Moderne KI-Modelle versprechen das Unmögliche: Kreativität. Ob Schreiben von Poesie oder Generieren von Kunst. Ein Blick auf die Ursprünge der Technologie.

In Pocket speichern vorlesen Druckansicht 5 Kommentare lesen
Non,Fungible,Token,(non-fungible,Token),-,Nft,-,Digital,Art

(Bild: ArtemisDiana/Shutterstock)

Lesezeit: 17 Min.
Von
  • Timo Zander
Inhaltsverzeichnis

Wer regelmäßig soziale Medien besucht, der begegnet zwangsläufig Kreationen der KI-Forschungsteams bei OpenAI, welche immer wieder die Grenzen zwischen Realität und Science-Fiction verschwimmen lassen. Die Methoden der Künstlichen Intelligenz entwickeln sich rasant. Immer neue Technologien versprechen, das bisher Unmögliche möglich zu machen.

Die Popularisierung von ChatGPT und die damit zusammenhängende gesellschaftliche Debatte hat derweil einen großen Teilbereich der KI-Forschung überschattet: nämlich die Sprach-Bild-Synthese, also das Erstellen von KI-generierten Bildern anhand natürlicher Spracheingabe. Angefangen haben solche Modelle mit schwammigen, niedrig aufgelösten Pixelmosaiken – doch Techniken wie DALL-E 2 von OpenAI oder Stable Diffusion von Stability AI beeindrucken durch ihre Echtheit und den Detailgehalt ihrer Ausgabe. Ihre Möglichkeiten sind längst über Trivialitäten, wie die Ausgabe von Bildern eines Hundes, hinausgewachsen (Abbildung 1).

DALL·E-2-Ausgabe für "a tiger in a lab coat with a 1980s Miami vibe, turning a well-oiled science content machine, digital art" [ein Tiger im Laborkittel in einem 1980er Miami-Vibe, der eine gut geölte Wissenschafts-Inhalts-Maschine dreht, digitale Kunst] (Abb. 1).

(Bild: OpenAI)

Nicht nur die Positionierung von Objekten, sondern auch Adjektive oder kulturelle Referenzen lassen sich angeben. Das Training derartiger Modelle erfordert Abermillionen von Bildern, um diese Präzision möglich zu machen. Doch die Ursprünge dessen sind deutlich greifbarer als es die Komplexität der generierten Bilder vermuten lässt.

Eine wichtige Grundlage schafft die KI-Generierung von zufälligen Inhalten. Solche Modelle können keine natürliche Sprache verarbeiten, sondern schlicht real aussehende, zufällige Bilder von Personen, Landschaften, Hunden und Weiterem erstellen. Das theoretische Fundament dahinter schafft das Konzept der sogenannten Generative Adversarial Networks.

Der KI-Forscher Ian Goodfellow präsentierte das Konzept der Generative Adversarial Networks (GANs) 2014 mit nur 27 Jahren. Das Ziel ist, ein Modell zu kreieren, das durch seine Struktur zufällige und abwechslungsreiche, aber ebenso sinnvolle Ausgaben erzeugen kann (Abbildung 2). Hierfür verwendet Goodfellow zwei Convolutional Neural Networks ("faltendes neuronales Netz"). Das erste Netz, der Generator, erhält eine Zufallszahl als Eingabe und erstellt hieraus eine Ausgabe, also etwa ein Bild. Diese Zufallszahl ist ein stochastisches Rauschen, was dafür sorgen soll, dass die Ausgaben stets unterschiedlich und vielfältig sind. Da das eigentliche Ziel eines GAN die Generierung von Bildern ist, ist somit am Ende auch nur das Generator-Netz von Bedeutung.

Die Struktur eines Generative Adversarial Network wird bestimmt durch zwei neuronale Netze, den Generator und den Discriminator (Abb. 2).

Der Gegenspieler zu diesem Netz ist der Discriminator. Sein Zweck ist es, eine Eingabe, also ein Bild, entgegenzunehmen und zu beurteilen, ob dieses real oder künstlich generiert ist. In der Praxis wird das Discriminator-Netzwerk anhand bestimmter Objekte – Menschen, Wälder, Enten oder Ähnliches – trainiert, sodass es eine Wahrscheinlichkeit ausgibt, mit der das Eingabebild echt ist. Für das Training ist das Netzwerk daher unabdinglich, auch wenn es schlussendlich an Bedeutung verliert: Ist der Generator ausreichend trainiert, bedarf es keiner Analyse dessen Ausgaben mehr.

Das Training des gesamten Modells basiert auf der Idee des adversarialen (antagonistischen) Trainings. Statt also miteinander zu lernen, treten beide neuronalen Netze gegeneinander an und versuchen in jedem Schritt über die Stärken und Schwächen des Gegners hinauszuwachsen. Der Generator erstellt eine Ausgabe, welche der Discriminator dann untersucht und bewertet. Ausgehend davon versucht der Generator im nächsten Schritt die Ausgabe noch täuschend echter zu gestalten. Das initiale Problem ist jedoch, dass beide Netzwerke zu Beginn untrainiert sind. Dieses Henne-Ei-Problem wird dank einer sogenannten Value-Funktion, manchmal auch Loss-Funktion, gelöst, die das korrekte Verhalten beider Netzwerke formalisiert (Abbildung 3). Die originale Funktion von Goodfellow ist analog zu einem Klassifikationsproblem aufgebaut, schließlich versucht der Discriminator stets die Eingaben korrekt als real oder gefälscht zu charakterisieren.

Die Value-Funktion von Ian Goodfellow beinhaltet die Wahrscheinlichkeiten, dass echte Bilder und Fakes korrekt als solche erkannt werden (Abb. 3).

Die Netzwerke verfolgen unterschiedliche Ziele. Der Discriminator soll alle Eingaben korrekt als real oder falsch identifizieren und somit die Value-Funktion maximieren. Denn diese gibt die Wahrscheinlichkeiten an, ein reales Bild als korrekt zu erkennen, während gefälschte Bilder als Täuschung entlarvt werden. Dagegen versucht der Generator falsche Bilder real wirken zu lassen, also den zweiten Summanden der Funktion zu minimieren. Seine Ausgaben, die alle per Definition gefälscht sind, sollen real wirken. Das Prinzip dieser Value-Funktionen ist immer ähnlich, auch bei allen in der Literatur verfügbaren Alternativen zu Goodfellows Variante. Jede dieser Funktionen kommt mit eigenen Vor- und Nachteilen einher.

Methodisch wird auf das Gradientenverfahren gesetzt, das im Machine Learning der De-facto-Standard für Optimierungsprobleme ist. Das Prinzip hilft bei der Suche nach einem Minimum beziehungsweise Tal einer Funktion: In jedem Schritt folgt der Algorithmus der steilsten Richtung abwärts, bis dieser am Ende hoffentlich im Minimum endet. Aus Performancegründen wird dieser Gradient nicht ausgerechnet, sondern stochastisch approximiert.

Mithilfe des Gradienten lassen sich die Parameter beider neuronalen Netze anhand der Value-Funktion optimieren. Beide Netze lernen abwechselnd: Zunächst trainiert der Discriminator bis zu k-mal und aktualisiert seine Parameter entsprechend. Darauf folgt dasselbe Training mit dem Generator, dessen Gradient jedoch abweicht von dem des Diskriminators, da beide Netzwerke einen unterschiedlichen Einfluss auf die Value-Funktion haben. Das Wiederholen dieses Prozederes sorgt dann, so die Hoffnung, für Konvergenz.