Text-to-video(テキストから動画生成)は、生成AIの一分野であり、文章によるプロンプトから映像を生成します。「晴れた草原を駆け回るコーギー犬の子犬」といった文章が与えられると、モデルは説明に合致する短いクリップを出力します。これはテキストから画像を生成するシステムと同じ考えを基盤としていますが、多数のフレームにわたって一貫した動きを生み出すという、より難しい課題を追加しています。
Text-to-videoの仕組み
現在のほとんどのテキストから動画を生成するモデルは、3段階のパイプラインで構築されています。まず、テキストエンコーダー(通常は大規模言語モデルまたはCLIP型の対照的エンコーダー)がプロンプトを、その意味を捉えた数値表現に変換します。次に、生成モデル(一般的には動画拡散モデル、またはテキストと動画のペアデータで学習されたトランスフォーマー)が、ランダムな潜在フレームをその表現に合致するシーケンスへとデノイズします。拡散モデルはランダムなテンソルから徐々にノイズを除去することで学習し、シャープで一貫性のある結果を生み出すため、主流のアプローチとなっています。
第3段階では時間的一貫性、すなわちオブジェクト、照明、スタイルがフレーム間でちらついたり変形したりせず安定して保たれる特性が強制されます。ここで用いられる技術には、時間を第3の次元として扱う3次元畳み込み、後のフレームが前のフレームを参照できるようにする時間的アテンションレイヤー、そして明示的なモーションコンディショニング信号などがあります。学習データは大規模かつ多様で、モデルは公開されている動画・キャプションコーパスのような、キャプション付き動画のデータセットから学習するため、見たことのないプロンプトにも汎化できます。簡単な例として、「木のテーブルを転がる赤いボール」と入力すると、モデルは形状、色、表面、動きを推測し、ボールが左から入り、右へ移動し、一貫した影を落とす数秒間の映像をレンダリングします。
なぜ重要なのか
Text-to-videoは動画制作のコストとスキルのハードルを下げます。映画制作者、広告制作者、教育者、ゲームスタジオは、シーンのプロトタイピング、B-rollの生成、オンデマンドのストック映像作成に活用しています。小規模なチームにとっては、特定の業務においてカメラ、俳優、編集者の必要性を置き換えます。研究者にとってはマルチモーダル理解のベンチマークでもあります。文章から動画を合成できるモデルは、暗黙的に物体の動き、光の挙動、シーンの構成を知っている必要があるためです。この技術はまた、著作権、ディープフェイク、合成メディアのラベリングに関する重要な問いも提起しており、AI生成動画を配信するプラットフォームが、出力に来越歴メタデータを付与するケースが増えています。
Text-to-videoシステムの主な種類
- 拡散ベースモデル:Sora、Runway Gen-3、Stable Video Diffusionなど。画像拡散を時間軸に拡張したもので、現在視覚的な品質で先行しています。
- トランスフォーマーベースモデル:MovieGen、Phenakiなど。動画を自己回帰的またはトークンのチャンク単位で生成し、より長いクリップとより強いプロンプトへの忠実性をサポートすることが多いです。
- Image-to-videoシステム:参照フレームとプロンプトから始めてアニメーション化し、制御された編集や様式化された動きに有用です。
- オープンソースのリリース:ModelScope、AnimateDiff、OpenSoraなど。研究者やローカルGPUで動かすホビー層にも技術を手の届くものにしています。
Text-to-videoはまだ発展途上にあります。クリップは通常数秒の長さで、モデルは複雑な物理や長距離の因果関係でつまずくことがあります。時間的一貫性、制御性、長さの向上が主なフロンティアであり、出力は世代を重ねるごとに実写と区別がつかなくなりつつあります。さらに深い技術概要については、OpenAIによるSoraのテクニカルレポートが良い出発点となるでしょう。