📖

O que é Texto para Imagem?

Texto-para-imagem é IA generativa que transforma prompts escritos em imagens. Saiba como os modelos de difusão e transformer fazem funcionar e onde são utilizados.

Texto-para-imagem é uma categoria de inteligência artificial generativa que produz imagens diretamente a partir de descrições escritas. Um utilizador escreve uma frase como "um corgi astronauta a flutuar no espaço, arte digital" e o modelo devolve uma imagem correspondente em segundos, sem necessidade de desenhar, fotografar ou recorrer a bibliotecas de stock. O campo avançou rapidamente após 2021, quando os modelos de difusão demonstraram que prompts de texto curtos podiam ser transformados em imagens diversificadas e de alta qualidade à escala.

Como funciona o texto-para-imagem

Os sistemas modernos de texto-para-imagem são construídos sobre um modelo de difusão associado a um codificador de linguagem. O treino decorre em duas fases. Primeiro, um modelo visão-linguagem como o CLIP aprende a colocar texto e imagens num espaço matemático partilhado, de modo a que a frase "balão vermelho" fique perto de imagens de balões vermelhos. Depois, uma rede de difusão aprende a inverter um processo de ruído: parte de um ecrã de estática e, passo a passo, remove o ruído até obter uma imagem coerente, guiada em cada passo pela representação textual produzida pelo modelo de linguagem.

No momento da inferência, o prompt do utilizador é tokenizado, incorporado pelo codificador de linguagem e depois usado para condicionar o ciclo de remoção de ruído. Uma técnica relacionada, frequentemente chamada diffusion latente, executa o processo de ruído e remoção num espaço latente comprimido em vez de em pixéis de resolução completa, o que torna a geração muito mais económica. A guidance sem classificador, introduzida em 2022, combina previsões condicionais e incondicionais para que o resultado siga o prompt de forma mais literal sem perder realismo.

Porque é importante

O texto-para-imagem desloca a criação visual do artesanato manual para o diálogo. Designers usam-no para concepting rápido e moodboards, profissionais de marketing geram imagens de campanhas sem sessões fotográficas, educadores ilustram aulas e estúdios de jogos prototipam personagens e ambientes. A tecnologia também levanta questões práticas sobre direitos de autor dos dados de treino, deepfakes e enviesamentos na forma como pessoas, profissões e culturas são representadas, razão pela qual a maioria das plataformas adiciona filtros de conteúdo, sinais de proveniência como metadados C2PA e políticas de utilização.

Principais tipos e abordagens

  • Modelos de difusão — a abordagem dominante, usada pelo Stable Diffusion, Imagen e DALL·E 2/3. Removem iterativamente o ruído aleatório até obterem uma imagem condicionada pelo texto.
  • Modelos de imagem autorregressivos — tratam a geração de imagens como a geração de texto, prevendo tokens visuais em sequência, como no Parti e no DALL·E original.
  • Geradores baseados em GAN — sistemas mais antigos, como StackGAN e DALL·E mini, usavam redes generativas adversariais, hoje em grande parte substituídos para uso geral.
  • Assistentes multimodais — modelos mais recentes, como o GPT-4o e o Gemini, combinam compreensão e geração de imagens numa única interface de chat.

Para uma visão técnica mais aprofundada, o artigo High-Resolution Image Synthesis with Latent Diffusion Models documenta a arquitetura por trás do Stable Diffusion, e o anúncio do DALL·E 3 da OpenAI explica como os sistemas modernos integram modelos de linguagem para seguimento de prompts.

Perguntas Frequentes

What is the difference between text-to-image and text-to-video?
Text-to-image produces a single still image from a prompt, while text-to-video generates a sequence of frames that play as a short clip. Text-to-video models, such as Sora and Runway Gen, build on the same diffusion and transformer ideas as text-to-image systems but add a temporal dimension, which makes them far more compute-intensive and still less mature.
Are text-to-image images copyrighted?
Copyright treatment varies by country and is still being settled in court. In the United States, pure AI-generated images without meaningful human authorship have generally not been granted copyright, though a human's selection, arrangement, or editing of AI output can qualify. Commercial platforms also layer their own licensing terms on top of any baseline copyright rules.
How long does it take to generate one image?
On a modern consumer GPU, a single 512x512 image typically takes 1 to 10 seconds with a standard latent diffusion model. Cloud services that run on larger models or higher resolutions can take 10 to 30 seconds. Time scales with image size, the number of denoising steps, and the hardware used.
What is a negative prompt?
A negative prompt is a separate text input that tells the model what to avoid, such as "blurry, extra fingers, watermark." During guidance, the model steers away from these concepts, which is a practical way to suppress common artifacts and unwanted styles without rewriting the main prompt.