Was ist Text-zu-Bild?

Text-zu-Bild ist generative KI, die geschriebene Prompts in Bilder verwandelt. Erfahren Sie, wie Diffusions- und Transformer-Modelle funktionieren und wo sie eingesetzt werden.

Text-to-Image ist eine Kategorie der generativen künstlichen Intelligenz, die Bilder direkt aus geschriebenen Beschreibungen erzeugt. Ein Nutzer gibt eine Phrase wie „ein Corgi-Astronaut, der im Weltraum schwebt, Digitalkunst" ein, und das Modell liefert innerhalb von Sekunden ein passendes Bild – ganz ohne Zeichnen, Fotografie oder Bilddatenbanken. Das Feld entwickelte sich nach 2021 rasant weiter, als Diffusionsmodelle zeigten, dass sich kurze Textprompts in großem Maßstab in hochwertige, vielfältige Bilder verwandeln lassen.

So funktioniert Text-to-Image

Moderne Text-to-Image-Systeme basieren auf einem Diffusionsmodell, das mit einem Sprach-Encoder gekoppelt ist. Das Training erfolgt in zwei Phasen. Zunächst lernt ein Vision-Language-Modell wie CLIP, Texte und Bilder in einem gemeinsamen mathematischen Raum anzuordnen, sodass die Phrase „roter Luftballon" nahe bei Bildern von roten Luftballons liegt. Anschließend lernt ein Diffusionsnetzwerk, einen Rauschprozess umzukehren: Es beginnt mit einem statischen Rauschen und entrauscht es Schritt für Schritt in ein kohärentes Bild, wobei es bei jedem Schritt von dem durch das Sprachmodell erzeugten Text-Embedding geleitet wird.

Zum Zeitpunkt der Inferenz wird der Nutzerprompt tokenisiert, vom Sprach-Encoder eingebettet und dann zur Steuerung der Entrauschungsschleife verwendet. Eine verwandte Technik, oft als Latent Diffusion bezeichnet, führt das Verrauschen und Entrauschen in einem komprimierten latenten Raum statt in voller Pixelauflösung durch, was die Generierung deutlich günstiger macht. Classifier-Free Guidance, eingeführt im Jahr 2022, mischt bedingte und unbedingte Vorhersagen, sodass die Ausgabe den Prompt wörtlicher befolgt, ohne an Realismus zu verlieren.

Warum es wichtig ist

Text-to-Image verlagert die visuelle Gestaltung vom manuellen Handwerk zum Dialog. Designer nutzen es für schnelles Konzipieren und Moodboards, Marketer erzeugen Kampagnenbilder ohne Fotoshootings, Lehrkräfte illustrieren Unterrichtseinheiten, und Spieleentwickler prototypen Charaktere und Umgebungen. Die Technologie wirft jedoch auch praktische Fragen zum Urheberrecht an Trainingsdaten, zu Deepfakes und zu Verzerrungen bei der Darstellung von Menschen, Berufen und Kulturen auf. Deshalb ergänzen die meisten Plattformen Inhaltsfilter, Herkunftsnachweise wie C2PA-Metadaten und Nutzungsrichtlinien.

Wichtige Typen und Ansätze

  • Diffusionsmodelle – der vorherrschende Ansatz, verwendet von Stable Diffusion, Imagen und DALL·E 2/3. Sie entrauschen iterativ zufälliges Rauschen zu einem Bild, das durch Text bedingt ist.
  • Autoregressive Bildmodelle – behandeln die Bildgenerierung wie die Textgenerierung, indem sie visuelle Token sequenziell vorhersagen, wie bei Parti und dem ursprünglichen DALL·E.
  • GAN-basierte Generatoren – frühere Systeme wie StackGAN und DALL·E mini nutzten generative kontradiktorische Netzwerke, die für den allgemeinen Einsatz inzwischen weitgehend abgelöst wurden.
  • Multimodale Assistenten – neuere Modelle wie GPT-4o und Gemini vereinen Sprachverständnis und Bildgenerierung in einer einzigen Chat-Oberfläche.

Für einen tieferen technischen Überblick dokumentiert das Paper High-Resolution Image Synthesis with Latent Diffusion Models die Architektur hinter Stable Diffusion, und OpenAIs DALL·E 3 Ankündigung erläutert, wie moderne Systeme Sprachmodelle für die Prompt-Befolgung integrieren.

Das könnte Ihnen auch gefallen

Verwandte Beiträge