Le texte vers vidéo est une branche de l'IA générative qui produit de la vidéo à partir d'une instruction écrite. À partir d'une phrase telle que « un chiot corgi courant dans une prairie ensoleillée », le modèle génère un court clip qui correspond à la description. Cela prolonge l'idée qui sous-tend les systèmes de texte vers image, mais ajoute le défi plus difficile de générer un mouvement cohérent sur de nombreuses images.
Comment fonctionne le texte vers vidéo
La plupart des modèles actuels de texte vers vidéo reposent sur un pipeline en trois étapes. D'abord, un encodeur de texte — généralement un grand modèle de langage ou un encodeur contrastif de type CLIP — convertit l'instruction en une représentation numérique qui en capture le sens. Ensuite, un modèle génératif, typiquement un modèle de diffusion vidéo ou un transformeur entraîné sur des données appariées texte-vidéo, débruite des images latentes aléatoires pour les transformer en une séquence alignée sur cette représentation. Les modèles de diffusion apprennent en supprimant progressivement le bruit de tenseurs aléatoires, et ils sont devenus l'approche dominante car ils produisent des résultats nets et cohérents.
La troisième étape impose la cohérence temporelle, c'est-à-dire la propriété selon laquelle les objets, l'éclairage et le style restent stables d'une image à l'autre au lieu de scintiller ou de se déformer. Les techniques utilisées ici incluent des convolutions 3D qui traitent le temps comme une troisième dimension, des couches d'attention temporelle qui permettent aux images ultérieures de s'appuyer sur les précédentes, et des signaux explicites de conditionnement du mouvement. Les données d'entraînement sont volumineuses et variées : les modèles apprennent à partir de jeux de données de vidéos sous-titrées tels que des corpus publics vidéo-sous-titres, afin que le système puisse généraliser à des instructions qu'il n'a jamais vues. Un exemple simple : taper « une balle rouge roulant sur une table en bois » amène le modèle à déduire la forme, la couleur, la surface et le mouvement, puis à générer plusieurs secondes de séquence où la balle entre par la gauche, se déplace vers la droite et projette une ombre cohérente.
Pourquoi c'est important
Le texte vers vidéo réduit le coût et la barrière de compétence pour produire des images animées. Les cinéastes, les annonceurs, les enseignants et les studios de jeux l'utilisent pour prototyper des scènes, générer des plans de coupe ou créer des séquences d'archives à la demande. Pour les petites équipes, cela remplace le besoin de caméras, d'acteurs et de monteurs sur certains projets. Pour les chercheurs, c'est une référence en matière de compréhension multimodale, car un modèle capable de synthétiser une vidéo à partir d'une phrase doit implicitement savoir comment les objets se déplacent, comment la lumière se comporte et comment les scènes sont composées. Cette technologie soulève aussi des questions importantes sur le droit d'auteur, les deepfakes et l'étiquetage des médias synthétiques, c'est pourquoi les plateformes qui diffusent des vidéos générées par IA attachent de plus en plus des métadonnées de provenance aux sorties.
Principaux types de systèmes de texte vers vidéo
- Les modèles basés sur la diffusion tels que Sora, Runway Gen-3 et Stable Video Diffusion étendent la diffusion d'images à l'axe temporel et sont actuellement en tête sur la qualité visuelle.
- Les modèles basés sur les transformeurs comme MovieGen et Phenaki génèrent la vidéo de manière auto-régressive ou par blocs de tokens, en prenant souvent en charge des clips plus longs et une meilleure adhésion à l'instruction.
- Les systèmes image vers vidéo partent d'une image de référence plus une instruction et l'animent, ce qui est utile pour des modifications contrôlées et des mouvements stylisés.
- Les publicutions open source dont ModelScope, AnimateDiff et OpenSora ont rendu la technologie accessible aux chercheurs et aux amateurs exécutant des GPU locaux.
Le texte vers vidéo en est encore à ses débuts : les clips durent généralement quelques secondes, et les modèles peuvent trébucher sur des physiques complexes ou des relations de cause à effet sur longue distance. L'amélioration de la cohérence temporelle, de la contrôlabilité et de la durée constitue la principale frontière, et les sorties deviennent de plus en plus difficiles à distinguer de séquences réelles à chaque génération. Pour un aperçu technique plus approfondi, le rapport technique de Sora d'OpenAI est un bon point de départ.