テキストから画像生成とは?

テキストから画像生成は、テキストプロンプトを画像に変換する生成AIです。拡散モデルとTransformerモデルがどのように機能するのか、そしてどこで活用されているかを学びましょう。

テキストから画像生成は、書かれた説明から直接画像を生成する生成人工知能の一分野です。ユーザーが「宇宙を漂うコーギー astronaut、デジタルアート」のようなフレーズを入力すると、モデルは数秒で対応する画像を返します。描画や写真撮影、ストックライブラリの必要はありません。この分野は2021年以降に急速に進化し、拡散モデルによって短いテキストプロンプトを高品質で多様な画像に大規模に変換できることが実証されました。

テキストから画像生成の仕組み

最新のテキストから画像生成システムは、言語エンコーダーと組み合わせた拡散モデルをベースに構築されています。トレーニングは2段階で行われます。まず、CLIPのような視覚言語モデルがテキストと画像を共有の数学的空間に対応付けることを学習し、「赤い風船」というフレーズが赤い風船の画像の近くに来るようにします。次に、拡散ネットワークがノイズ化プロセスを逆向きに学習します。すなわち、静画のノイズから始めて、言語モデルが生成したテキスト埋め込みによる誘導を受けつつ、一歩ずつノイズを除去して一貫した画像にしていきます。

推論時には、ユーザープロンプトがトークン化され、言語エンコーダーによって埋め込まれ、それからノイズ除去ループの条件付けに使用されます。潜在拡散と呼ばれる関連手法は、完全解像度のピクセルではなく、圧縮された潜在空間でノイズ化とノイズ除去を行うため、生成コストが大幅に削減されます。2022年に導入された分類器フリーガイダンスは、条件付き予測と無条件予測をブレンドし、現実感を損なうことなく出力がプロンプトにより忠実に従うようにします。

なぜ重要なのか

テキストから画像生成は、視覚的な創造を手作業から対話へと転換します。デザイナーは迅速なコンセプト立案やムードボード作成に用い、マーケターは写真撮影なしでキャンペーン画像を生成し、教育者は教材にイラストを使い、ゲームスタジオはキャラクターや環境のプロトタイピングを行います。一方で、この技術はトレーニングデータの著作権、ディープフェイク、人・職業・文化の描写におけるバイアスといった実務的な課題も提起しています。そのため、ほとんどのプラットフォームにはコンテンツフィルター、C2PAメタデータなどの来歴シグナル、利用規約が備わっています。

主な種類とアプローチ

  • 拡散モデル — 主流のアプローチで、Stable Diffusion、Imagen、DALL·E 2/3で使用されています。テキストを条件として、ランダムなノイズを段階的にノイズ除去して画像に変換します。
  • 自己回帰型画像モデル — Partiや初代DALL·Eのように、視覚トークンを順次予測することで、画像生成をテキスト生成のように扱います。
  • GANベースの生成モデル — StackGANやDALL·E miniのような初期のシステムは生成的敵対的ネットワークを使用していましたが、現在では一般的な用途ではほぼ置き換えられています。
  • マルチモーダルアシスタント — GPT-4oやGeminiのような新しいモデルは、理解と画像生成を単一のチャットインターフェースに統合しています。

より詳細な技術概要については、「High-Resolution Image Synthesis with Latent Diffusion Models」の論文がStable Diffusionの背後にあるアーキテクチャを解説しており、OpenAIのDALL·E 3発表では、モダンなシステムがプロンプト追従のために言語モデルをどのように統合しているかが説明されています。

こちらもおすすめ

関連記事