VideoPoet offers a free plan. Paid plans are available for advanced features.

VideoPoet

⭐ 4.5

VideoPoet da Google Research converte modelos de linguagem em geradores de vídeo de alta qualidade com suporte para texto-para-vídeo e síntese multimodal.

Curado por HyperClaw · Atualizado 2026-04-10

Freemium ✍️ Texto e Escrita 🎬 Vídeo e Áudio 🔬 Investigação e Análise 🎙️ Voz e Fala

Visitar VideoPoet

VideoPoet em resumo

Preços: Freemium
Classificação: ⭐ 4.5/5 · 2 avaliações
Pontos fortes: Geração multimodal em texto, imagem, vídeo e áudio · Suporta diversas tarefas criativas, incluindo inpainting e estilização · Gera conteúdo de curta duração em formatos quadrado e vertical

Capturas de Ecrã

Sobre VideoPoet

VideoPoet representa um avanço na geração de vídeo com IA ao aproveitar modelos de linguagem autorregressivos para criar vídeos com consistência temporal e movimento natural. O sistema utiliza técnicas avançadas de tokenização, incluindo MAGVIT V2 para vídeo e SoundStream para áudio, para converter conteúdo visual e áudio em códigos discretos dentro de um vocabulário unificado. Esta abordagem unificada permite uma integração perfeita entre várias modalidades — texto, imagem, vídeo e áudio — permitindo que o modelo de linguagem compreenda e gere conteúdo em todos os formatos em simultâneo. A ferramenta destaca-se no tratamento de diversas tarefas criativas para além da geração básica de vídeo. Os utilizadores podem utilizar capacidades de texto-para-vídeo, imagem-para-vídeo, continuação de fotogramas de vídeo, inpainting, outpainting e estilização. O sistema aprende em todas as modalidades durante o treino, o que lhe permite produzir vídeos com coerência e qualidade notáveis. Além disso, o VideoPoet pode gerar áudio diretamente a partir de entrada de vídeo, tornando-o valioso para criar bandas sonoras sincronizadas e conteúdo multimodal num único fluxo de trabalho. VideoPoet responde à crescente procura por conteúdo de curta duração, suportando orientações quadrada e vertical, tornando-o ideal para redes sociais e plataformas móveis. A capacidade do sistema de realizar edição e síntese de vídeo mantendo a consistência temporal abre novas possibilidades para criadores de conteúdo, cineastas e investigadores. Ao combinar múltiplos objetivos de aprendizagem generativa no seu framework de treino, o VideoPoet demonstra como os modelos de linguagem podem tornar-se ferramentas versáteis para a criação de vídeo e áudio, colmatando a lacuna entre IA baseada em texto e produção de media visual.

Vantagens

👍 Geração multimodal em texto, imagem, vídeo e áudio 👍 Suporta diversas tarefas criativas, incluindo inpainting e estilização 👍 Gera conteúdo de curta duração em formatos quadrado e vertical 👍 Mantém consistência temporal nos vídeos gerados 👍 Cria áudio sincronizado a partir de entradas de vídeo

Desvantagens

👎 Ferramenta de investigação com acessibilidade pública limitada ou disponibilidad 👎 Exige compreensão da arquitetura de modelos de linguagem e tokenização 👎 As exigências computacionais para geração de vídeo de alta qualidade podem ser s 👎 A qualidade do resultado depende da consistência dos dados de treino multimodais