VideoPoet offers a free plan. Paid plans are available for advanced features.

VideoPoet

⭐ 4.5

VideoPoet de Google Research convierte modelos de lenguaje en generadores de vídeo de alta calidad compatibles con texto a vídeo y síntesis multimodal.

Seleccionado por HyperClaw · Actualizado 2026-04-10

Freemium ✍️ Texto y escritura 🎬 Vídeo y audio 🔬 Investigación y análisis 🎙️ Voz y habla

Visitar VideoPoet

VideoPoet de un vistazo

Precios: Freemium
Valoración: ⭐ 4.5/5 · 2 opiniones
Puntos clave: Generación multimodal en texto, imagen, vídeo y audio · Admite diversas tareas creativas, incluyendo inpainting y estilización · Genera contenido en formato corto en formatos cuadrado y vertical

Capturas de pantalla

Acerca de VideoPoet

VideoPoet representa un avance en la generación de vídeo mediante IA al aprovechar modelos de lenguaje autorregresivos para crear vídeos con coherencia temporal y movimiento natural. El sistema utiliza técnicas avanzadas de tokenización, incluyendo MAGVIT V2 para vídeo y SoundStream para audio, para convertir contenido visual y de audio en códigos discretos dentro de un vocabulario unificado. Este enfoque unificado permite una integración fluida entre múltiples modalidades (texto, imagen, vídeo y audio), lo que permite al modelo de lenguaje comprender y generar contenido en todos los formatos de forma simultánea. La herramienta destaca en el manejo de diversas tareas creativas más allá de la generación básica de vídeo. Los usuarios pueden aprovechar las capacidades de texto a vídeo, imagen a vídeo, continuación de fotogramas de vídeo, inpainting, outpainting y estilización. El sistema aprende en todas las modalidades durante el entrenamiento, lo que le permite producir vídeos con una coherencia y calidad notables. Además, VideoPoet puede generar audio directamente a partir de la entrada de vídeo, lo que resulta valioso para crear bandas sonoras sincronizadas y contenido multimodal en un único flujo de trabajo. VideoPoet responde a la creciente demanda de contenido en formato corto al admitir orientaciones cuadrada y vertical, lo que lo hace ideal para redes sociales y plataformas móviles. La capacidad del sistema para realizar edición y síntesis de vídeo manteniendo la coherencia temporal abre nuevas posibilidades para creadores de contenido, cineastas e investigadores. Al combinar múltiples objetivos de aprendizaje generativo en su marco de entrenamiento, VideoPoet demuestra cómo los modelos de lenguaje pueden convertirse en herramientas versátiles para la creación de vídeo y audio, tendiendo un puente entre la IA basada en texto y la producción de medios visuales.

Ventajas

👍 Generación multimodal en texto, imagen, vídeo y audio 👍 Admite diversas tareas creativas, incluyendo inpainting y estilización 👍 Genera contenido en formato corto en formatos cuadrado y vertical 👍 Mantiene la coherencia temporal en los vídeos generados 👍 Crea audio sincronizado a partir de entradas de vídeo

Desventajas

👎 Herramienta de investigación con accesibilidad pública limitada o disponibilidad 👎 Requiere comprensión de la arquitectura de modelos de lenguaje y tokenización 👎 Las demandas computacionales para la generación de vídeo de alta calidad pueden 👎 La calidad del resultado depende de la coherencia de los datos de entrenamiento