📖

Was ist Diffusionsmodell?

Ein verständlicher Leitfaden zu Diffusionsmodellen, der generativen KI-Technik hinter Stable Diffusion, Imagen und DALL·E 3.

Ein Diffusionsmodell ist eine Form generativer KI, die lernt, neue Daten zu erzeugen — typischerweise Bilder, Audio oder Videos —, indem sie einen schrittweisen Rauschprozess umkehrt. Während des Trainings sieht das Modell reale Beispiele, die über viele kleine Schritte hinweg schrittweise mit gaußschem Rauschen versehen werden, und ein neuronales Netz wird darauf trainiert, das in jedem Schritt hinzugefügte Rauschen vorherzusagen. Nach dem Training kann das Modell von reinem Zufallsrauschen ausgehen und dieses iterativ „ entrauschen“ in eine zusammenhängende neue Stichprobe, etwa ein fotorealistisches Bild, geführt von einer Texteingabe.

So funktioniert ein Diffusionsmodell

Das Training erfolgt in zwei gekoppelten Phasen. Im Vorwärtsprozess wird ein sauberes Trainingsbild genommen und über eine feste Anzahl von Zeitschritten (oft 1.000) in kleinen Mengen zufälliges Rauschen hinzugefügt, bis das Bild nicht mehr von Rauschen zu unterscheiden ist. Im Rückwärtsprozess lernt ein neuronales Netz — meist ein U-Net —, das in jedem Zeitschritt hinzugefügte Rauschen zu schätzen, sodass es dieses Rauschen subtrahieren und einen Schritt zurück in Richtung eines sauberen Bildes gehen kann.

Bei der Inferenz beginnt die Erzeugung mit einer Stichprobe reinen gaußschen Rauschens. Das Modell entrauscht sie iterativ Schritt für Schritt, bis ein sauberes Bild entsteht. Um die Erzeugung bedingt zu machen — zum Beispiel den Prompt „ein Corgi auf einem Skateboard“ in ein Bild zu verwandeln — bettet ein Text-Encoder (etwa ein CLIP- oder T5-Modell) den Prompt ein, und das Diffusionsnetz wird darauf trainiert, unter Beachtung dieser Einbettung zu entrauschen. Classifier-Free Guidance, 2022 eingeführt, erlaubt es demselben Modell, auch unbedingt zu entrauschen, und extrapoliert dann zwischen den beiden Vorhersagen, wodurch die Ausgabe stärker am Prompt ausgerichtet wird.

Warum es wichtig ist

Diffusionsmodelle bilden das Rückgrat der führenden Text-zu-Bild-Systeme von heute, darunter Stable Diffusion, DALL·E 3, Midjourney und Googles Imagen. Sie erzeugen tendenziell hochwertigere und vielfältigere Stichproben als frühere generative Ansätze wie GANs, und ihr iteratives Sampling macht es einfach, sie auf Signale wie Text, Tiefenkarten oder Skizzen zu konditionieren. Über Bilder hinaus treibt dasselbe Rezept Modelle für Audio (z. B. DiffSinger), Video, Proteinstrukturen (z. B. RoseTTAFold All-Atom) und 3D-Formgenerierung an und macht Diffusion zu einem der vielseitigsten generativen Frameworks der modernen KI.

Wichtige Arten von Diffusionsmodellen

  • Denoising Diffusion Probabilistic Models (DDPMs) — die grundlegende Formulierung von Ho et al. (2020), die Erzeugung als iteratives Entrauschen von gaußschem Rauschen fasst.
  • Denoising Diffusion Implicit Models (DDIMs) — ein schnellerer Sampler, der nicht-Markovsche Schritte nutzt, um die Inferenzzeit ohne Neutraining zu verkürzen.
  • Latent Diffusion Models (LDMs) — populär gemacht durch Stable Diffusion; führen den Diffusionsprozess in einem komprimierten Latent Space statt im Pixelraum durch, was den Rechenaufwand drastisch senkt.
  • Score-basierte Modelle (SDEs) — eine kontinuierliche Sichtweise, die Diffusion mit Score Matching und stochastischen Differenzialgleichungen verbindet und flexible Sampler ermöglicht.
  • Rectified Flow / Flow Matching — neuere Varianten, die geradlinigere Pfade von Rauschen zu Daten lernen und so Erzeugung in weit weniger Schritten erlauben.

Für eine tiefere technische Behandlung sind das ursprüngliche DDPM-Paper von Ho, Jain und Abbeel sowie das Latent-Diffusion-Paper von Rombach et al. die üblichen Ausgangspunkte. Kurz gesagt verwandeln Diffusionsmodelle Erzeugung in viele kleine, lernbare Entrauschungsschritte — eine einfache Idee, die die kreative KI grundlegend verändert hat.

Häufig gestellte Fragen

How is a diffusion model different from a GAN?
GANs train a generator and discriminator in opposition and produce a sample in a single forward pass, which can be fast but often unstable. Diffusion models instead train a single network to iteratively denoise, which tends to yield more diverse and higher-quality samples at the cost of slower generation. Most modern image generators have moved from GANs to diffusion for this reason.
Why do diffusion models need so many steps to generate an image?
Each step only removes a small amount of noise, so the network can stay accurate across all noise levels. Modern samplers like DDIM, DPM-Solver, and rectified-flow variants can produce good images in 4 to 20 steps, but very few-step sampling can reduce fine detail. Step count is a trade-off between speed, quality, and prompt fidelity.
What does "guidance scale" mean in diffusion models?
Guidance scale controls how strongly the output is pushed toward the text prompt. The model runs both a conditional prediction (with the prompt) and an unconditional one, then extrapolates between them; a higher scale means the prompt has more influence, producing sharper but sometimes less natural images, while a lower scale gives more creative but looser results.
Are diffusion models only used for images?
No. The same denoising framework has been applied to audio and music generation, video synthesis, 3D shape and texture generation, molecular and protein design, and even planning in reinforcement learning. Anywhere data can be progressively noised and learned, diffusion tends to be a viable generative approach.