¿Qué es texto a vídeo?

La IA de texto a vídeo convierte indicaciones escritas en clips de vídeo cortos. Descubre cómo funciona esta tecnología, por qué es importante y dónde se utiliza hoy en día.

Texto a vídeo es una rama de la IA generativa que produce vídeo a partir de una indicación escrita. Dada una frase como "un cachorro de corgi corriendo por una pradera soleada", el modelo genera un clip corto que coincide con la descripción. Amplía la misma idea detrás de los sistemas de texto a imagen, pero añade el reto aún mayor de generar un movimiento coherente a lo largo de muchos fotogramas.

Cómo funciona texto a vídeo

La mayoría de los modelos actuales de texto a vídeo se construyen sobre un pipeline de tres etapas. Primero, un codificador de texto —normalmente un modelo de lenguaje grande o un codificador contrastivo tipo CLIP— convierte la indicación en una representación numérica que captura su significado. Segundo, un modelo generativo, típicamente un modelo de difusión de vídeo o un transformer entrenado con datos emparejados de texto y vídeo, elimina el ruido de fotogramas latentes aleatorios hasta obtener una secuencia que se alinea con esa representación. Los modelos de difusión aprenden eliminando ruido de forma gradual en tensores aleatorios y se han convertido en el enfoque dominante porque producen resultados nítidos y coherentes.

La tercera etapa aplica consistencia temporal, la propiedad por la que los objetos, la iluminación y el estilo permanecen estables de un fotograma a otro, en lugar de parpadear o cambiar de forma. Entre las técnicas empleadas se incluyen convoluciones 3D que tratan el tiempo como una tercera dimensión, capas de atención temporal que permiten que los fotogramas posteriores atiendan a los anteriores y señales explícitas de condicionamiento del movimiento. Los datos de entrenamiento son grandes y variados: los modelos aprenden a partir de conjuntos de datos de vídeos subtitulados, como corpus públicos de vídeo y subtítulos, para que el sistema pueda generalizar a indicaciones que nunca ha visto. Un ejemplo sencillo: al escribir "una pelota roja rodando sobre una mesa de madera", el modelo infiere forma, color, superficie y movimiento, y luego renderiza varios segundos de vídeo en los que la pelota entra por la izquierda, se desplaza a la derecha y proyecta una sombra coherente.

Por qué es importante

Texto a vídeo reduce el coste y la barrera de habilidad para producir imágenes en movimiento. Cineastas, anunciantes, educadores y estudios de videojuegos lo utilizan para prototipar escenas, generar material de recurso o crear imágenes de archivo bajo demanda. Para equipos pequeños, sustituye la necesidad de cámaras, actores y editores en ciertos trabajos. Para los investigadores, es un benchmark de comprensión multimodal, ya que un modelo capaz de sintetizar un vídeo a partir de una frase debe conocer implícitamente cómo se mueven los objetos, cómo se comporta la luz y cómo se componen las escenas. Esta tecnología también plantea cuestiones importantes sobre derechos de autor, deepfakes y el etiquetado de contenido sintético, por lo que las plataformas que distribuyen vídeo generado por IA añaden cada vez más metadatos de procedencia a sus resultados.

Tipos principales de sistemas de texto a vídeo

  • Modelos basados en difusión como Sora, Runway Gen-3 y Stable Video Diffusion amplían la difusión de imágenes al eje temporal y lideran actualmente la calidad visual.
  • Modelos basados en transformers como MovieGen y Phenaki generan vídeo de forma autorregresiva o en fragmentos de tokens, y a menudo admiten clips más largos y una mejor adherencia a la indicación.
  • Sistemas de imagen a vídeo que parten de un fotograma de referencia más una indicación y lo animan, útiles para ediciones controladas y movimiento estilizado.
  • Lanzamientos de código abierto como ModelScope, AnimateDiff y OpenSora han hecho que la tecnología sea accesible para investigadores y aficionados que ejecutan GPUs en local.

Texto a vídeo aún es joven: los clips suelen durar solo unos segundos y los modelos pueden tropezar con física compleja o relaciones de causa-efecto a largo plazo. Las mejoras en consistencia temporal, controlabilidad y duración son la frontera principal, y los resultados son cada vez más difíciles de distinguir de las grabaciones reales con cada nueva generación. Para una visión técnica más profunda, el informe técnico de Sora de OpenAI es un buen punto de partida.

También te puede interesar

Artículos relacionados