Texto a imagen es una categoría de inteligencia artificial generativa que produce imágenes directamente a partir de descripciones escritas. El usuario escribe una frase como "un astronauta corgi flotando en el espacio, arte digital" y el modelo devuelve una imagen que coincide en cuestión de segundos, sin necesidad de dibujar, hacer fotos o recurrir a bancos de imágenes. El campo avanzó rápidamente después de 2021, cuando los modelos de difusión demostraron que prompts de texto cortos podían convertirse en imágenes diversas y de alta calidad a escala.
Cómo funciona texto a imagen
Los sistemas modernos de texto a imagen se construyen sobre un modelo de difusión combinado con un codificador de lenguaje. El entrenamiento ocurre en dos etapas. Primero, un modelo visión-lenguaje como CLIP aprende a colocar texto e imágenes en un espacio matemático compartido, de modo que la frase "globo rojo" quede cerca de imágenes de globos rojos. Segundo, una red de difusión aprende a invertir un proceso de ruido: parte de una pantalla de estática y, paso a paso, la limpia hasta convertirla en una imagen coherente, guiada en cada paso por el embedding de texto producido por el modelo de lenguaje.
En el momento de la inferencia, el prompt del usuario se tokeniza, se embebe mediante el codificador de lenguaje y luego se usa para condicionar el bucle de eliminación de ruido. Una técnica relacionada, a menudo llamada difusión latente, ejecuta el ruido y la eliminación de ruido en un espacio latente comprimido en lugar de en píxeles a resolución completa, lo que abarata mucho la generación. La guía sin clasificador, introducida en 2022, combina predicciones condicionales e incondicionales para que el resultado siga el prompt de forma más literal sin perder realismo.
Por qué importa
Texto a imagen traslada la creación visual del oficio manual al diálogo. Los diseñadores lo usan para conceptualizar y crear moodboards con rapidez, los equipos de marketing generan imágenes para campañas sin sesiones de fotos, los educadores ilustran sus lecciones y los estudios de videojuegos prototipan personajes y entornos. La tecnología también plantea cuestiones prácticas sobre los derechos de autor de los datos de entrenamiento, los deepfakes y los sesgos en la representación de personas, profesiones y culturas, por lo que la mayoría de plataformas añaden filtros de contenido, señales de procedencia como metadatos C2PA y políticas de uso.
Tipos y enfoques clave
- Modelos de difusión — el enfoque dominante, empleado por Stable Diffusion, Imagen y DALL·E 2/3. Limpian iterativamente ruido aleatorio hasta convertirlo en una imagen condicionada por texto.
- Modelos autorregresivos de imagen — tratan la generación de imágenes como la generación de texto, prediciendo tokens visuales de forma secuencial, como en Parti y el DALL·E original.
- Generadores basados en GAN — sistemas anteriores como StackGAN y DALL·E mini utilizaban redes generativas antagónicas, hoy ampliamente superadas para uso general.
- Asistentes multimodales — modelos más recientes como GPT-4o y Gemini combinan comprensión y generación de imágenes en una única interfaz de chat.
Para una visión técnica más profunda, el artículo High-Resolution Image Synthesis with Latent Diffusion Models documenta la arquitectura detrás de Stable Diffusion, y el anuncio de DALL·E 3 de OpenAI explica cómo los sistemas modernos integran modelos de lenguaje para seguir los prompts.