Texto-para-imagem é uma categoria de inteligência artificial generativa que produz imagens diretamente a partir de descrições escritas. Um utilizador escreve uma frase como "um corgi astronauta a flutuar no espaço, arte digital" e o modelo devolve uma imagem correspondente em segundos, sem necessidade de desenhar, fotografar ou recorrer a bibliotecas de stock. O campo avançou rapidamente após 2021, quando os modelos de difusão demonstraram que prompts de texto curtos podiam ser transformados em imagens diversificadas e de alta qualidade à escala.
Como funciona o texto-para-imagem
Os sistemas modernos de texto-para-imagem são construídos sobre um modelo de difusão associado a um codificador de linguagem. O treino decorre em duas fases. Primeiro, um modelo visão-linguagem como o CLIP aprende a colocar texto e imagens num espaço matemático partilhado, de modo a que a frase "balão vermelho" fique perto de imagens de balões vermelhos. Depois, uma rede de difusão aprende a inverter um processo de ruído: parte de um ecrã de estática e, passo a passo, remove o ruído até obter uma imagem coerente, guiada em cada passo pela representação textual produzida pelo modelo de linguagem.
No momento da inferência, o prompt do utilizador é tokenizado, incorporado pelo codificador de linguagem e depois usado para condicionar o ciclo de remoção de ruído. Uma técnica relacionada, frequentemente chamada diffusion latente, executa o processo de ruído e remoção num espaço latente comprimido em vez de em pixéis de resolução completa, o que torna a geração muito mais económica. A guidance sem classificador, introduzida em 2022, combina previsões condicionais e incondicionais para que o resultado siga o prompt de forma mais literal sem perder realismo.
Porque é importante
O texto-para-imagem desloca a criação visual do artesanato manual para o diálogo. Designers usam-no para concepting rápido e moodboards, profissionais de marketing geram imagens de campanhas sem sessões fotográficas, educadores ilustram aulas e estúdios de jogos prototipam personagens e ambientes. A tecnologia também levanta questões práticas sobre direitos de autor dos dados de treino, deepfakes e enviesamentos na forma como pessoas, profissões e culturas são representadas, razão pela qual a maioria das plataformas adiciona filtros de conteúdo, sinais de proveniência como metadados C2PA e políticas de utilização.
Principais tipos e abordagens
- Modelos de difusão — a abordagem dominante, usada pelo Stable Diffusion, Imagen e DALL·E 2/3. Removem iterativamente o ruído aleatório até obterem uma imagem condicionada pelo texto.
- Modelos de imagem autorregressivos — tratam a geração de imagens como a geração de texto, prevendo tokens visuais em sequência, como no Parti e no DALL·E original.
- Geradores baseados em GAN — sistemas mais antigos, como StackGAN e DALL·E mini, usavam redes generativas adversariais, hoje em grande parte substituídos para uso geral.
- Assistentes multimodais — modelos mais recentes, como o GPT-4o e o Gemini, combinam compreensão e geração de imagens numa única interface de chat.
Para uma visão técnica mais aprofundada, o artigo High-Resolution Image Synthesis with Latent Diffusion Models documenta a arquitetura por trás do Stable Diffusion, e o anúncio do DALL·E 3 da OpenAI explica como os sistemas modernos integram modelos de linguagem para seguimento de prompts.