📖

Qu'est-ce que Modèle de diffusion ?

Un guide en langage clair sur les modèles de diffusion, la technique d'IA générative qui sous-tend la génération d'images par Stable Diffusion, Imagen et DALL·E 3.

Un modèle de diffusion est un type d'IA générative qui apprend à créer de nouvelles données — généralement des images, de l'audio ou de la vidéo — en inversant un processus d'ajout de bruit étape par étape. Pendant l'entraînement, le modèle voit des exemples réels progressivement corrompus par un bruit gaussien sur de nombreuses petites étapes, et un réseau de neurones est entraîné à prédire le bruit ajouté à chaque étape. Une fois entraîné, le modèle peut partir d'un pur bruit aléatoire et le « débruiter » de manière itérative pour obtenir un nouvel échantillon cohérent, comme une image photoréaliste guidée par un prompt textuel.

Comment fonctionne un modèle de diffusion

L'entraînement se déroule en deux phases couplées. Dans le processus direct, une image d'entraînement propre est prise et de petites quantités de bruit aléatoire sont ajoutées sur un nombre fixe de pas de temps (souvent 1 000) jusqu'à ce que l'image devienne indiscernable d'une statique. Dans le processus inverse, un réseau de neurones — généralement un U-Net — apprend à estimer le bruit ajouté à chaque pas de temps, afin de pouvoir soustraire ce bruit et revenir vers une image propre.

Lors de l'inférence, la génération commence à partir d'un échantillon de pur bruit gaussien. Le modèle le débruite de manière itérative, étape par étape, jusqu'à ce qu'une image propre émerge. Pour rendre la génération conditionnelle — par exemple, transformer le prompt « un corgi sur un skateboard » en image — un encodeur de texte (comme un modèle CLIP ou T5) embarque le prompt et le réseau de diffusion est entraîné à débruiter tout en tenant compte de cet embarquement. Le classifier-free guidance, introduit en 2022, permet au même modèle de débruiter aussi inconditionnellement, puis extrapole entre les deux prédictions, renforçant la fidélité de la sortie au prompt.

Pourquoi c'est important

Les modèles de diffusion sont l'épine dorsale des principaux systèmes de texte-vers-image d'aujourd'hui, notamment Stable Diffusion, DALL·E 3, Midjourney et Imagen de Google. Ils ont tendance à produire des échantillons de meilleure fidélité et plus diversifiés que les approches génératives antérieures comme les GAN, et leur échantillonnage itératif les rend faciles à conditionner sur des signaux comme le texte, les cartes de profondeur ou les esquisses. Au-delà des images, la même recette alimente des modèles pour l'audio (par ex. DiffSinger), la vidéo, la structure des protéines (par ex. RoseTTAFold All-Atom) et la génération de formes 3D, faisant de la diffusion l'un des cadres génératifs les plus polyvalents de l'IA moderne.

Principaux types de modèles de diffusion

  • Denoising Diffusion Probabilistic Models (DDPM) — la formulation fondatrice par Ho et al. (2020) qui présente la génération comme un débruitage itératif de bruit gaussien.
  • Denoising Diffusion Implicit Models (DDIM) — un échantillonneur plus rapide qui utilise des étapes non markoviennes pour réduire le temps d'inférence sans réentraînement.
  • Latent Diffusion Models (LDM) — popularisés par Stable Diffusion ; exécutent le processus de diffusion dans un espace latent compressé au lieu de l'espace pixel, réduisant considérablement le calcul.
  • Modèles à base de score (SDE) — une vue en temps continu qui relie la diffusion au score matching et aux équations différentielles stochastiques, permettant des échantillonneurs flexibles.
  • Rectified Flow / Flow Matching — variantes plus récentes qui apprennent des chemins plus directs du bruit vers les données, permettant la génération en beaucoup moins d'étapes.

Pour un traitement technique plus approfondi, l'article DDPM original de Ho, Jain et Abbeel ainsi que l'article sur la diffusion latente de Rombach et al. sont les points de départ standards. En bref, les modèles de diffusion transforment la génération en de nombreuses petites étapes de débruitage apprenables — une idée simple qui a remodelé l'IA créative.

Questions fréquemment posées

How is a diffusion model different from a GAN?
GANs train a generator and discriminator in opposition and produce a sample in a single forward pass, which can be fast but often unstable. Diffusion models instead train a single network to iteratively denoise, which tends to yield more diverse and higher-quality samples at the cost of slower generation. Most modern image generators have moved from GANs to diffusion for this reason.
Why do diffusion models need so many steps to generate an image?
Each step only removes a small amount of noise, so the network can stay accurate across all noise levels. Modern samplers like DDIM, DPM-Solver, and rectified-flow variants can produce good images in 4 to 20 steps, but very few-step sampling can reduce fine detail. Step count is a trade-off between speed, quality, and prompt fidelity.
What does "guidance scale" mean in diffusion models?
Guidance scale controls how strongly the output is pushed toward the text prompt. The model runs both a conditional prediction (with the prompt) and an unconditional one, then extrapolates between them; a higher scale means the prompt has more influence, producing sharper but sometimes less natural images, while a lower scale gives more creative but looser results.
Are diffusion models only used for images?
No. The same denoising framework has been applied to audio and music generation, video synthesis, 3D shape and texture generation, molecular and protein design, and even planning in reinforcement learning. Anywhere data can be progressively noised and learned, diffusion tends to be a viable generative approach.