O que é Texto para Vídeo?

A IA de texto para vídeo transforma prompts escritos em clipes de vídeo curtos. Saiba como a tecnologia funciona, por que é importante e onde está a ser usada hoje.

Texto para vídeo é um ramo da IA generativa que produz vídeo a partir de um prompt escrito. Dada uma frase como "um cachorro corgi a correr num prado soalheiro", o modelo produz um clipe curto que corresponde à descrição. Estende a mesma ideia por trás dos sistemas de texto para imagem, mas acrescenta o desafio mais difícil de gerar movimento consistente ao longo de muitas frames.

Como funciona o texto para vídeo

A maioria dos modelos atuais de texto para vídeo baseia-se num pipeline em três etapas. Primeiro, um codificador de texto — normalmente um modelo de linguagem de grande dimensão ou um codificador contrastivo estilo CLIP — converte o prompt numa representação numérica que capta o seu significado. Segundo, um modelo generativo, tipicamente um modelo de difusão de vídeo ou um transformer treinado em dados emparelhados de texto-vídeo, remove o ruído de frames latentes aleatórios para uma sequência alinhada com essa representação. Os modelos de difusão aprendem removendo gradualmente ruído de tensores aleatórios e tornaram-se a abordagem dominante porque produzem resultados nítidos e coerentes.

A terceira etapa impõe consistência temporal, a propriedade que faz com que objetos, iluminação e estilo permaneçam estáveis de frame para frame em vez de cintilarem ou se transformarem. As técnicas aqui incluem convoluções 3D que tratam o tempo como uma terceira dimensão, camadas de atenção temporal que permitem a frames posteriores atenderem a frames anteriores e sinais explícitos de condicionamento de movimento. Os dados de treino são grandes e variados: os modelos aprendem a partir de conjuntos de dados de vídeo legendados, como corpora públicos de vídeo-legendas, para que o sistema consiga generalizar para prompts que nunca viu. Um exemplo simples: escrever "uma bola vermelha a rolar sobre uma mesa de madeira" faz com que o modelo infira forma, cor, superfície e movimento e, em seguida, renderize alguns segundos de vídeo em que a bola entra pela esquerda, se move para a direita e projeta uma sombra consistente.

Por que é importante

O texto para vídeo reduz o custo e a barreira de competências para produzir imagens em movimento. Cineastas, anunciantes, educadores e estúdios de jogos usam-no para criar protótipos de cenas, gerar B-roll ou produzir footage de stock a pedido. Para equipas pequenas, substitui a necessidade de câmaras, atores e editores em determinados trabalhos. Para os investigadores, é um benchmark para a compreensão multimodal, porque um modelo que consegue sintetizar um vídeo a partir de uma frase tem de saber implicitamente como os objetos se movem, como a luz se comporta e como as cenas são compostas. A tecnologia também levanta questões importantes sobre direitos de autor, deepfakes e a rotulagem de media sintético, razão pela qual as plataformas que distribuem vídeo gerado por IA estão cada vez mais a anexar metadados de proveniência aos resultados.

Tipos principais de sistemas de texto para vídeo

  • Modelos baseados em difusão como Sora, Runway Gen-3 e Stable Video Diffusion estendem a difusão de imagem ao eixo do tempo e lideram atualmente em qualidade visual.
  • Modelos baseados em transformer como MovieGen e Phenaki geram vídeo de forma autorregressiva ou em blocos de tokens, suportando frequentemente clipes mais longos e uma adesão mais forte ao prompt.
  • Sistemas de imagem para vídeo partem de uma frame de referência mais um prompt e animam-na, úteis para edições controladas e movimento estilizado.
  • Versões open-source incluindo ModelScope, AnimateDiff e OpenSora tornaram a tecnologia acessível a investigadores e entusiastas que executam GPUs locais.

O texto para vídeo ainda é jovem: os clipes têm tipicamente alguns segundos e os modelos podem tropeçar em física complexa ou em relações de causa e efeito de longo alcance. As melhorias em consistência temporal, controlabilidade e comprimento são a principal fronteira, e os resultados estão a tornar-se cada vez mais difíceis de distinguir de footage real a cada geração. Para uma visão técnica mais aprofundada, o relatório técnico da Sora da OpenAI é um bom ponto de partida.

Também pode gostar

Artigos relacionados