O que é um Modelo de Difusão?

Um guia em linguagem simples sobre modelos de difusão, a técnica de IA generativa por trás da geração de imagens do Stable Diffusion, Imagen e DALL·E 3.

Um modelo de difusão é um tipo de IA generativa que aprende a criar novos dados — normalmente imagens, áudio ou vídeo — invertendo um processo de adição de ruído passo a passo. Durante o treino, o modelo vê exemplos reais gradualmente corrompidos com ruído gaussiano ao longo de muitos pequenos passos, e uma rede neuronal é treinada para prever o ruído adicionado em cada passo. Uma vez treinado, o modelo pode partir de puro ruído aleatório e "remover o ruído" iterativamente até obter uma nova amostra coerente, como uma imagem fotorrealista guiada por um prompt de texto.

Como funciona um modelo de difusão

O treino acontece em duas fases acopladas. No processo forward, uma imagem de treino limpa é tomada e pequenas quantidades de ruído aleatório são adicionadas ao longo de um número fixo de passos temporais (frequentemente 1.000) até a imagem se tornar indistinguível de estática. No processo reverse, uma rede neuronal — normalmente uma U-Net — aprende a estimar o ruído adicionado em cada passo temporal, para que possa subtrair esse ruído e recuar um passo em direção a uma imagem limpa.

Na inferência, a geração começa a partir de uma amostra de puro ruído gaussiano. O modelo remove o ruído iterativamente, passo a passo, até emergir uma imagem limpa. Para tornar a geração condicional — por exemplo, transformar o prompt "um corgi numa prancha de skate" numa imagem — um codificador de texto (como um modelo CLIP ou T5) incorpora o prompt e a rede de difusão é treinada para remover o ruído enquanto atende a essa incorporação. O classifier-free guidance, introduzido em 2022, permite que o mesmo modelo também remova o ruído incondicionalmente e depois extrapola entre as duas previsões, tornando mais nítida a forma como o resultado segue o prompt.

Porque é importante

Os modelos de difusão são a espinha dorsal dos principais sistemas de texto para imagem atuais, incluindo Stable Diffusion, DALL·E 3, Midjourney e o Imagen da Google. Têm tendência a produzir amostras de maior fidelidade e mais diversificadas do que abordagens generativas anteriores, como as GANs, e a sua amostragem iterativa torna-os fáceis de condicionar com sinais como texto, mapas de profundidade ou esboços. Para além das imagens, a mesma receita alimenta modelos para áudio (por exemplo, DiffSinger), vídeo, estrutura de proteínas (por exemplo, RoseTTAFold All-Atom) e geração de formas 3D, tornando a difusão uma das estruturas generativas mais versáteis na IA moderna.

Principais tipos de modelos de difusão

  • Denoising Diffusion Probabilistic Models (DDPMs) — a formulação fundamental por Ho et al. (2020) que enquadra a geração como remoção iterativa de ruído gaussiano.
  • Denoising Diffusion Implicit Models (DDIMs) — um amostrador mais rápido que usa passos não-Markovianos para reduzir o tempo de inferência sem reentreinar.
  • Latent Diffusion Models (LDMs) — popularizados pelo Stable Diffusion; executam o processo de difusão num espaço latente comprimido em vez do espaço de píxeis, reduzindo drasticamente o custo computacional.
  • Modelos baseados em score (SDEs) — uma visão em tempo contínuo que liga a difusão ao score matching e a equações diferenciais estocásticas, permitindo amostradores flexíveis.
  • Rectified Flow / Flow Matching — variantes mais recentes que aprendem trajetórias mais retas do ruído aos dados, permitindo geração em muito menos passos.

Para um tratamento técnico mais profundo, o artigo original dos DDPM por Ho, Jain e Abbeel e o artigo de difusão latente por Rombach et al. são os pontos de partida padrão. Em resumo, os modelos de difusão transformam a geração em muitos pequenos passos de remoção de ruído aprendíveis — uma ideia simples que reformulou a IA criativa.

Também pode gostar

Artigos relacionados