Um modelo de difusão é um tipo de IA generativa que aprende a criar novos dados — normalmente imagens, áudio ou vídeo — invertendo um processo de adição de ruído passo a passo. Durante o treino, o modelo vê exemplos reais gradualmente corrompidos com ruído gaussiano ao longo de muitos pequenos passos, e uma rede neuronal é treinada para prever o ruído adicionado em cada passo. Uma vez treinado, o modelo pode partir de puro ruído aleatório e "remover o ruído" iterativamente até obter uma nova amostra coerente, como uma imagem fotorrealista guiada por um prompt de texto.
Como funciona um modelo de difusão
O treino acontece em duas fases acopladas. No processo forward, uma imagem de treino limpa é tomada e pequenas quantidades de ruído aleatório são adicionadas ao longo de um número fixo de passos temporais (frequentemente 1.000) até a imagem se tornar indistinguível de estática. No processo reverse, uma rede neuronal — normalmente uma U-Net — aprende a estimar o ruído adicionado em cada passo temporal, para que possa subtrair esse ruído e recuar um passo em direção a uma imagem limpa.
Na inferência, a geração começa a partir de uma amostra de puro ruído gaussiano. O modelo remove o ruído iterativamente, passo a passo, até emergir uma imagem limpa. Para tornar a geração condicional — por exemplo, transformar o prompt "um corgi numa prancha de skate" numa imagem — um codificador de texto (como um modelo CLIP ou T5) incorpora o prompt e a rede de difusão é treinada para remover o ruído enquanto atende a essa incorporação. O classifier-free guidance, introduzido em 2022, permite que o mesmo modelo também remova o ruído incondicionalmente e depois extrapola entre as duas previsões, tornando mais nítida a forma como o resultado segue o prompt.
Porque é importante
Os modelos de difusão são a espinha dorsal dos principais sistemas de texto para imagem atuais, incluindo Stable Diffusion, DALL·E 3, Midjourney e o Imagen da Google. Têm tendência a produzir amostras de maior fidelidade e mais diversificadas do que abordagens generativas anteriores, como as GANs, e a sua amostragem iterativa torna-os fáceis de condicionar com sinais como texto, mapas de profundidade ou esboços. Para além das imagens, a mesma receita alimenta modelos para áudio (por exemplo, DiffSinger), vídeo, estrutura de proteínas (por exemplo, RoseTTAFold All-Atom) e geração de formas 3D, tornando a difusão uma das estruturas generativas mais versáteis na IA moderna.
Principais tipos de modelos de difusão
- Denoising Diffusion Probabilistic Models (DDPMs) — a formulação fundamental por Ho et al. (2020) que enquadra a geração como remoção iterativa de ruído gaussiano.
- Denoising Diffusion Implicit Models (DDIMs) — um amostrador mais rápido que usa passos não-Markovianos para reduzir o tempo de inferência sem reentreinar.
- Latent Diffusion Models (LDMs) — popularizados pelo Stable Diffusion; executam o processo de difusão num espaço latente comprimido em vez do espaço de píxeis, reduzindo drasticamente o custo computacional.
- Modelos baseados em score (SDEs) — uma visão em tempo contínuo que liga a difusão ao score matching e a equações diferenciais estocásticas, permitindo amostradores flexíveis.
- Rectified Flow / Flow Matching — variantes mais recentes que aprendem trajetórias mais retas do ruído aos dados, permitindo geração em muito menos passos.
Para um tratamento técnico mais profundo, o artigo original dos DDPM por Ho, Jain e Abbeel e o artigo de difusão latente por Rombach et al. são os pontos de partida padrão. Em resumo, os modelos de difusão transformam a geração em muitos pequenos passos de remoção de ruído aprendíveis — uma ideia simples que reformulou a IA criativa.