📖

テキストから画像生成 とは?

テキストから画像生成は、テキストプロンプトを画像に変換する生成AIです。拡散モデルとTransformerモデルがどのように機能するのか、そしてどこで活用されているかを学びましょう。

テキストから画像生成は、書かれた説明から直接画像を生成する生成人工知能の一分野です。ユーザーが「宇宙を漂うコーギー astronaut、デジタルアート」のようなフレーズを入力すると、モデルは数秒で対応する画像を返します。描画や写真撮影、ストックライブラリの必要はありません。この分野は2021年以降に急速に進化し、拡散モデルによって短いテキストプロンプトを高品質で多様な画像に大規模に変換できることが実証されました。

テキストから画像生成の仕組み

最新のテキストから画像生成システムは、言語エンコーダーと組み合わせた拡散モデルをベースに構築されています。トレーニングは2段階で行われます。まず、CLIPのような視覚言語モデルがテキストと画像を共有の数学的空間に対応付けることを学習し、「赤い風船」というフレーズが赤い風船の画像の近くに来るようにします。次に、拡散ネットワークがノイズ化プロセスを逆向きに学習します。すなわち、静画のノイズから始めて、言語モデルが生成したテキスト埋め込みによる誘導を受けつつ、一歩ずつノイズを除去して一貫した画像にしていきます。

推論時には、ユーザープロンプトがトークン化され、言語エンコーダーによって埋め込まれ、それからノイズ除去ループの条件付けに使用されます。潜在拡散と呼ばれる関連手法は、完全解像度のピクセルではなく、圧縮された潜在空間でノイズ化とノイズ除去を行うため、生成コストが大幅に削減されます。2022年に導入された分類器フリーガイダンスは、条件付き予測と無条件予測をブレンドし、現実感を損なうことなく出力がプロンプトにより忠実に従うようにします。

なぜ重要なのか

テキストから画像生成は、視覚的な創造を手作業から対話へと転換します。デザイナーは迅速なコンセプト立案やムードボード作成に用い、マーケターは写真撮影なしでキャンペーン画像を生成し、教育者は教材にイラストを使い、ゲームスタジオはキャラクターや環境のプロトタイピングを行います。一方で、この技術はトレーニングデータの著作権、ディープフェイク、人・職業・文化の描写におけるバイアスといった実務的な課題も提起しています。そのため、ほとんどのプラットフォームにはコンテンツフィルター、C2PAメタデータなどの来歴シグナル、利用規約が備わっています。

主な種類とアプローチ

  • 拡散モデル — 主流のアプローチで、Stable Diffusion、Imagen、DALL·E 2/3で使用されています。テキストを条件として、ランダムなノイズを段階的にノイズ除去して画像に変換します。
  • 自己回帰型画像モデル — Partiや初代DALL·Eのように、視覚トークンを順次予測することで、画像生成をテキスト生成のように扱います。
  • GANベースの生成モデル — StackGANやDALL·E miniのような初期のシステムは生成的敵対的ネットワークを使用していましたが、現在では一般的な用途ではほぼ置き換えられています。
  • マルチモーダルアシスタント — GPT-4oやGeminiのような新しいモデルは、理解と画像生成を単一のチャットインターフェースに統合しています。

より詳細な技術概要については、「High-Resolution Image Synthesis with Latent Diffusion Models」の論文がStable Diffusionの背後にあるアーキテクチャを解説しており、OpenAIのDALL·E 3発表では、モダンなシステムがプロンプト追従のために言語モデルをどのように統合しているかが説明されています。

よくある質問

What is the difference between text-to-image and text-to-video?
Text-to-image produces a single still image from a prompt, while text-to-video generates a sequence of frames that play as a short clip. Text-to-video models, such as Sora and Runway Gen, build on the same diffusion and transformer ideas as text-to-image systems but add a temporal dimension, which makes them far more compute-intensive and still less mature.
Are text-to-image images copyrighted?
Copyright treatment varies by country and is still being settled in court. In the United States, pure AI-generated images without meaningful human authorship have generally not been granted copyright, though a human's selection, arrangement, or editing of AI output can qualify. Commercial platforms also layer their own licensing terms on top of any baseline copyright rules.
How long does it take to generate one image?
On a modern consumer GPU, a single 512x512 image typically takes 1 to 10 seconds with a standard latent diffusion model. Cloud services that run on larger models or higher resolutions can take 10 to 30 seconds. Time scales with image size, the number of denoising steps, and the hardware used.
What is a negative prompt?
A negative prompt is a separate text input that tells the model what to avoid, such as "blurry, extra fingers, watermark." During guidance, the model steers away from these concepts, which is a practical way to suppress common artifacts and unwanted styles without rewriting the main prompt.