📖

O que é Modelo de Difusão?

Um guia em linguagem simples sobre modelos de difusão, a técnica de IA generativa por trás da geração de imagens do Stable Diffusion, Imagen e DALL·E 3.

Um modelo de difusão é um tipo de IA generativa que aprende a criar novos dados — normalmente imagens, áudio ou vídeo — invertendo um processo de adição de ruído passo a passo. Durante o treino, o modelo vê exemplos reais gradualmente corrompidos com ruído gaussiano ao longo de muitos pequenos passos, e uma rede neuronal é treinada para prever o ruído adicionado em cada passo. Uma vez treinado, o modelo pode partir de puro ruído aleatório e "remover o ruído" iterativamente até obter uma nova amostra coerente, como uma imagem fotorrealista guiada por um prompt de texto.

Como funciona um modelo de difusão

O treino acontece em duas fases acopladas. No processo forward, uma imagem de treino limpa é tomada e pequenas quantidades de ruído aleatório são adicionadas ao longo de um número fixo de passos temporais (frequentemente 1.000) até a imagem se tornar indistinguível de estática. No processo reverse, uma rede neuronal — normalmente uma U-Net — aprende a estimar o ruído adicionado em cada passo temporal, para que possa subtrair esse ruído e recuar um passo em direção a uma imagem limpa.

Na inferência, a geração começa a partir de uma amostra de puro ruído gaussiano. O modelo remove o ruído iterativamente, passo a passo, até emergir uma imagem limpa. Para tornar a geração condicional — por exemplo, transformar o prompt "um corgi numa prancha de skate" numa imagem — um codificador de texto (como um modelo CLIP ou T5) incorpora o prompt e a rede de difusão é treinada para remover o ruído enquanto atende a essa incorporação. O classifier-free guidance, introduzido em 2022, permite que o mesmo modelo também remova o ruído incondicionalmente e depois extrapola entre as duas previsões, tornando mais nítida a forma como o resultado segue o prompt.

Porque é importante

Os modelos de difusão são a espinha dorsal dos principais sistemas de texto para imagem atuais, incluindo Stable Diffusion, DALL·E 3, Midjourney e o Imagen da Google. Têm tendência a produzir amostras de maior fidelidade e mais diversificadas do que abordagens generativas anteriores, como as GANs, e a sua amostragem iterativa torna-os fáceis de condicionar com sinais como texto, mapas de profundidade ou esboços. Para além das imagens, a mesma receita alimenta modelos para áudio (por exemplo, DiffSinger), vídeo, estrutura de proteínas (por exemplo, RoseTTAFold All-Atom) e geração de formas 3D, tornando a difusão uma das estruturas generativas mais versáteis na IA moderna.

Principais tipos de modelos de difusão

  • Denoising Diffusion Probabilistic Models (DDPMs) — a formulação fundamental por Ho et al. (2020) que enquadra a geração como remoção iterativa de ruído gaussiano.
  • Denoising Diffusion Implicit Models (DDIMs) — um amostrador mais rápido que usa passos não-Markovianos para reduzir o tempo de inferência sem reentreinar.
  • Latent Diffusion Models (LDMs) — popularizados pelo Stable Diffusion; executam o processo de difusão num espaço latente comprimido em vez do espaço de píxeis, reduzindo drasticamente o custo computacional.
  • Modelos baseados em score (SDEs) — uma visão em tempo contínuo que liga a difusão ao score matching e a equações diferenciais estocásticas, permitindo amostradores flexíveis.
  • Rectified Flow / Flow Matching — variantes mais recentes que aprendem trajetórias mais retas do ruído aos dados, permitindo geração em muito menos passos.

Para um tratamento técnico mais profundo, o artigo original dos DDPM por Ho, Jain e Abbeel e o artigo de difusão latente por Rombach et al. são os pontos de partida padrão. Em resumo, os modelos de difusão transformam a geração em muitos pequenos passos de remoção de ruído aprendíveis — uma ideia simples que reformulou a IA criativa.

Perguntas Frequentes

How is a diffusion model different from a GAN?
GANs train a generator and discriminator in opposition and produce a sample in a single forward pass, which can be fast but often unstable. Diffusion models instead train a single network to iteratively denoise, which tends to yield more diverse and higher-quality samples at the cost of slower generation. Most modern image generators have moved from GANs to diffusion for this reason.
Why do diffusion models need so many steps to generate an image?
Each step only removes a small amount of noise, so the network can stay accurate across all noise levels. Modern samplers like DDIM, DPM-Solver, and rectified-flow variants can produce good images in 4 to 20 steps, but very few-step sampling can reduce fine detail. Step count is a trade-off between speed, quality, and prompt fidelity.
What does "guidance scale" mean in diffusion models?
Guidance scale controls how strongly the output is pushed toward the text prompt. The model runs both a conditional prediction (with the prompt) and an unconditional one, then extrapolates between them; a higher scale means the prompt has more influence, producing sharper but sometimes less natural images, while a lower scale gives more creative but looser results.
Are diffusion models only used for images?
No. The same denoising framework has been applied to audio and music generation, video synthesis, 3D shape and texture generation, molecular and protein design, and even planning in reinforcement learning. Anywhere data can be progressively noised and learned, diffusion tends to be a viable generative approach.