Un modelo de difusión es un tipo de IA generativa que aprende a crear datos nuevos —normalmente imágenes, audio o vídeo— revirtiendo un proceso de ruido paso a paso. Durante el entrenamiento, el modelo ve ejemplos reales corrompidos gradualmente con ruido gaussiano a lo largo de muchos pasos pequeños, y se entrena una red neuronal para predecir el ruido añadido en cada paso. Una vez entrenado, el modelo puede partir de ruido aleatorio puro e iterativamente "eliminar el ruido" hasta obtener una nueva muestra coherente, como una imagen fotorrealista guiada por un prompt de texto.
Cómo funciona un modelo de difusión
El entrenamiento ocurre en dos fases acopladas. En el proceso directo, se toma una imagen de entrenamiento limpia y se le añaden pequeñas cantidades de ruido aleatorio durante un número fijo de pasos de tiempo (a menudo 1.000) hasta que la imagen se vuelve indistinguible del estático. En el proceso inverso, una red neuronal —normalmente una U-Net— aprende a estimar el ruido añadido en cada paso de tiempo, de modo que puede restar ese ruido y retroceder hacia una imagen limpia.
En la inferencia, la generación parte de una muestra de ruido gaussiano puro. El modelo lo elimina iterativamente, paso a paso, hasta que emerge una imagen limpia. Para hacer que la generación sea condicionada —por ejemplo, convertir el prompt "un corgi en monopatín" en una imagen— un codificador de texto (como un modelo CLIP o T5) incrusta el prompt y la red de difusión se entrena para eliminar el ruido atendiendo a esa incrustación. La guía sin clasificador, introducida en 2022, permite que el mismo modelo también elimine ruido de forma incondicional y luego extrapola entre las dos predicciones, acentuando lo fielmente que la salida sigue el prompt.
Por qué importa
Los modelos de difusión son la columna vertebral de los principales sistemas de texto a imagen actuales, como Stable Diffusion, DALL·E 3, Midjourney e Imagen de Google. Suelen producir muestras de mayor fidelidad y más diversas que enfoques generativos anteriores como las GAN, y su muestreo iterativo facilita condicionarlas con señales como texto, mapas de profundidad o bocetos. Más allá de las imágenes, la misma receta impulsa modelos para audio (p. ej. DiffSinger), vídeo, estructura de proteínas (p. ej. RoseTTAFold All-Atom) y generación de formas 3D, lo que convierte a la difusión en uno de los marcos generativos más versátiles de la IA moderna.
Tipos clave de modelos de difusión
- Modelos probabilísticos de difusión con eliminación de ruido (DDPM) — la formulación fundacional de Ho et al. (2020) que plantea la generación como eliminación iterativa de ruido gaussiano.
- Modelos implícitos de difusión con eliminación de ruido (DDIM) — un muestreador más rápido que usa pasos no markovianos para reducir el tiempo de inferencia sin necesidad de reentrenar.
- Modelos de difusión en espacio latente (LDM) — popularizados por Stable Diffusion; ejecutan el proceso de difusión en un espacio latente comprimido en lugar del espacio de píxeles, reduciendo drásticamente el cómputo.
- Modelos basados en puntuación (SDE) — una visión en tiempo continuo que conecta la difusión con el emparejamiento de puntuaciones y las ecuaciones diferenciales estocásticas, permitiendo muestreadores flexibles.
- Flujo rectificado / Emparejamiento de flujo — variantes más recientes que aprenden rutas más rectas de ruido a datos, permitiendo generar en muchos menos pasos.
Para un tratamiento técnico más profundo, el artículo original de DDPM de Ho, Jain y Abbeel y el artículo de difusión latente de Rombach et al. son los puntos de partida habituales. En resumen, los modelos de difusión convierten la generación en muchos pasos pequeños y aprendibles de eliminación de ruido: una idea sencilla que ha transformado la IA creativa.