📖

Qu'est-ce que Texte-vers-Vidéo ?

L'IA de texte vers vidéo transforme des instructions écrites en courts clips vidéo. Découvrez comment cette technologie fonctionne, pourquoi elle est importante et où elle est utilisée aujourd'hui.

Le texte vers vidéo est une branche de l'IA générative qui produit de la vidéo à partir d'une instruction écrite. À partir d'une phrase telle que « un chiot corgi courant dans une prairie ensoleillée », le modèle génère un court clip qui correspond à la description. Cela prolonge l'idée qui sous-tend les systèmes de texte vers image, mais ajoute le défi plus difficile de générer un mouvement cohérent sur de nombreuses images.

Comment fonctionne le texte vers vidéo

La plupart des modèles actuels de texte vers vidéo reposent sur un pipeline en trois étapes. D'abord, un encodeur de texte — généralement un grand modèle de langage ou un encodeur contrastif de type CLIP — convertit l'instruction en une représentation numérique qui en capture le sens. Ensuite, un modèle génératif, typiquement un modèle de diffusion vidéo ou un transformeur entraîné sur des données appariées texte-vidéo, débruite des images latentes aléatoires pour les transformer en une séquence alignée sur cette représentation. Les modèles de diffusion apprennent en supprimant progressivement le bruit de tenseurs aléatoires, et ils sont devenus l'approche dominante car ils produisent des résultats nets et cohérents.

La troisième étape impose la cohérence temporelle, c'est-à-dire la propriété selon laquelle les objets, l'éclairage et le style restent stables d'une image à l'autre au lieu de scintiller ou de se déformer. Les techniques utilisées ici incluent des convolutions 3D qui traitent le temps comme une troisième dimension, des couches d'attention temporelle qui permettent aux images ultérieures de s'appuyer sur les précédentes, et des signaux explicites de conditionnement du mouvement. Les données d'entraînement sont volumineuses et variées : les modèles apprennent à partir de jeux de données de vidéos sous-titrées tels que des corpus publics vidéo-sous-titres, afin que le système puisse généraliser à des instructions qu'il n'a jamais vues. Un exemple simple : taper « une balle rouge roulant sur une table en bois » amène le modèle à déduire la forme, la couleur, la surface et le mouvement, puis à générer plusieurs secondes de séquence où la balle entre par la gauche, se déplace vers la droite et projette une ombre cohérente.

Pourquoi c'est important

Le texte vers vidéo réduit le coût et la barrière de compétence pour produire des images animées. Les cinéastes, les annonceurs, les enseignants et les studios de jeux l'utilisent pour prototyper des scènes, générer des plans de coupe ou créer des séquences d'archives à la demande. Pour les petites équipes, cela remplace le besoin de caméras, d'acteurs et de monteurs sur certains projets. Pour les chercheurs, c'est une référence en matière de compréhension multimodale, car un modèle capable de synthétiser une vidéo à partir d'une phrase doit implicitement savoir comment les objets se déplacent, comment la lumière se comporte et comment les scènes sont composées. Cette technologie soulève aussi des questions importantes sur le droit d'auteur, les deepfakes et l'étiquetage des médias synthétiques, c'est pourquoi les plateformes qui diffusent des vidéos générées par IA attachent de plus en plus des métadonnées de provenance aux sorties.

Principaux types de systèmes de texte vers vidéo

  • Les modèles basés sur la diffusion tels que Sora, Runway Gen-3 et Stable Video Diffusion étendent la diffusion d'images à l'axe temporel et sont actuellement en tête sur la qualité visuelle.
  • Les modèles basés sur les transformeurs comme MovieGen et Phenaki génèrent la vidéo de manière auto-régressive ou par blocs de tokens, en prenant souvent en charge des clips plus longs et une meilleure adhésion à l'instruction.
  • Les systèmes image vers vidéo partent d'une image de référence plus une instruction et l'animent, ce qui est utile pour des modifications contrôlées et des mouvements stylisés.
  • Les publicutions open source dont ModelScope, AnimateDiff et OpenSora ont rendu la technologie accessible aux chercheurs et aux amateurs exécutant des GPU locaux.

Le texte vers vidéo en est encore à ses débuts : les clips durent généralement quelques secondes, et les modèles peuvent trébucher sur des physiques complexes ou des relations de cause à effet sur longue distance. L'amélioration de la cohérence temporelle, de la contrôlabilité et de la durée constitue la principale frontière, et les sorties deviennent de plus en plus difficiles à distinguer de séquences réelles à chaque génération. Pour un aperçu technique plus approfondi, le rapport technique de Sora d'OpenAI est un bon point de départ.

Questions fréquemment posées

How long can text-to-video clips be?
Most current systems generate clips between 4 and 16 seconds at resolutions of 720p or 1080p. A few models, such as Phenaki and MovieGen, can chain shorter segments into longer videos, often with reduced consistency at the seams. Length is one of the main areas of active research.
Can text-to-video models be used commercially?
It depends on the vendor and the plan. Commercial offerings like Runway, Pika, and Sora typically include commercial licenses with paid tiers. Open-source releases such as Stable Video Diffusion are usually released under permissive licenses, but users are still responsible for the data they feed in and for complying with local laws on synthetic media.
What is the difference between text-to-video and image-to-video?
Text-to-video starts from a written prompt alone and invents both the appearance and the motion. Image-to-video starts from a single reference image plus an optional prompt, and its job is to animate that image plausibly. Image-to-video is often used for stylized edits and for keeping a specific character or scene intact.
How do you tell if a video was made by AI?
Look for telltale artifacts: hands or teeth that subtly morph, inconsistent lighting on a moving object, flicker in the background, and motion that loops unnaturally. On the technical side, platforms are beginning to embed C2PA-style provenance metadata, and detection tools can analyze frame-level statistics to flag likely synthetic content.