Ein Diffusionsmodell ist eine Form generativer KI, die lernt, neue Daten zu erzeugen — typischerweise Bilder, Audio oder Videos —, indem sie einen schrittweisen Rauschprozess umkehrt. Während des Trainings sieht das Modell reale Beispiele, die über viele kleine Schritte hinweg schrittweise mit gaußschem Rauschen versehen werden, und ein neuronales Netz wird darauf trainiert, das in jedem Schritt hinzugefügte Rauschen vorherzusagen. Nach dem Training kann das Modell von reinem Zufallsrauschen ausgehen und dieses iterativ „ entrauschen“ in eine zusammenhängende neue Stichprobe, etwa ein fotorealistisches Bild, geführt von einer Texteingabe.
So funktioniert ein Diffusionsmodell
Das Training erfolgt in zwei gekoppelten Phasen. Im Vorwärtsprozess wird ein sauberes Trainingsbild genommen und über eine feste Anzahl von Zeitschritten (oft 1.000) in kleinen Mengen zufälliges Rauschen hinzugefügt, bis das Bild nicht mehr von Rauschen zu unterscheiden ist. Im Rückwärtsprozess lernt ein neuronales Netz — meist ein U-Net —, das in jedem Zeitschritt hinzugefügte Rauschen zu schätzen, sodass es dieses Rauschen subtrahieren und einen Schritt zurück in Richtung eines sauberen Bildes gehen kann.
Bei der Inferenz beginnt die Erzeugung mit einer Stichprobe reinen gaußschen Rauschens. Das Modell entrauscht sie iterativ Schritt für Schritt, bis ein sauberes Bild entsteht. Um die Erzeugung bedingt zu machen — zum Beispiel den Prompt „ein Corgi auf einem Skateboard“ in ein Bild zu verwandeln — bettet ein Text-Encoder (etwa ein CLIP- oder T5-Modell) den Prompt ein, und das Diffusionsnetz wird darauf trainiert, unter Beachtung dieser Einbettung zu entrauschen. Classifier-Free Guidance, 2022 eingeführt, erlaubt es demselben Modell, auch unbedingt zu entrauschen, und extrapoliert dann zwischen den beiden Vorhersagen, wodurch die Ausgabe stärker am Prompt ausgerichtet wird.
Warum es wichtig ist
Diffusionsmodelle bilden das Rückgrat der führenden Text-zu-Bild-Systeme von heute, darunter Stable Diffusion, DALL·E 3, Midjourney und Googles Imagen. Sie erzeugen tendenziell hochwertigere und vielfältigere Stichproben als frühere generative Ansätze wie GANs, und ihr iteratives Sampling macht es einfach, sie auf Signale wie Text, Tiefenkarten oder Skizzen zu konditionieren. Über Bilder hinaus treibt dasselbe Rezept Modelle für Audio (z. B. DiffSinger), Video, Proteinstrukturen (z. B. RoseTTAFold All-Atom) und 3D-Formgenerierung an und macht Diffusion zu einem der vielseitigsten generativen Frameworks der modernen KI.
Wichtige Arten von Diffusionsmodellen
- Denoising Diffusion Probabilistic Models (DDPMs) — die grundlegende Formulierung von Ho et al. (2020), die Erzeugung als iteratives Entrauschen von gaußschem Rauschen fasst.
- Denoising Diffusion Implicit Models (DDIMs) — ein schnellerer Sampler, der nicht-Markovsche Schritte nutzt, um die Inferenzzeit ohne Neutraining zu verkürzen.
- Latent Diffusion Models (LDMs) — populär gemacht durch Stable Diffusion; führen den Diffusionsprozess in einem komprimierten Latent Space statt im Pixelraum durch, was den Rechenaufwand drastisch senkt.
- Score-basierte Modelle (SDEs) — eine kontinuierliche Sichtweise, die Diffusion mit Score Matching und stochastischen Differenzialgleichungen verbindet und flexible Sampler ermöglicht.
- Rectified Flow / Flow Matching — neuere Varianten, die geradlinigere Pfade von Rauschen zu Daten lernen und so Erzeugung in weit weniger Schritten erlauben.
Für eine tiefere technische Behandlung sind das ursprüngliche DDPM-Paper von Ho, Jain und Abbeel sowie das Latent-Diffusion-Paper von Rombach et al. die üblichen Ausgangspunkte. Kurz gesagt verwandeln Diffusionsmodelle Erzeugung in viele kleine, lernbare Entrauschungsschritte — eine einfache Idee, die die kreative KI grundlegend verändert hat.