ファウンデーションモデルとは、自己教師あり学習などの手法を用いて、大規模で多様なデータセットで学習された大規模な機械学習モデルです。この広範な事前学習の後、同じモデルは適応(ファインチューニング)され、質問応答や言語翻訳から画像生成やタンパク質解析まで、幅広い下流タスクを実行できます。この概念は2021年にスタンフォードのCenter for Research on Foundation Models (CRFM)によって体系化され、AIにおける新しいパラダイムを表す用語として造られました。
ファウンデーションモデルの仕組み
ファウンデーションモデルは通常、ニューラルネットワークアーキテクチャ(多くはTransformer)を用いて構築され、オープンウェブ、書籍、コードリポジトリ、ライセンスされたコーパスから収集された数千億語の単語、画像、その他のデータポイントで学習されます。学習は通常自己教師あり学習に依存しており、モデルは自身の入力の欠落部分や次の部分を予測するため、大規模な手動ラベル付けされた例が不要になります。結果として得られるモデルは、言語、コード、画像、その他のモダリティに関する広範な統計的知識を持ち、単一のタスクではなく一般的なパターンを符号化します。
事前学習が完了すると、モデルは基盤(Foundation)となります。開発者はファインチューニングやプロンプトエンジニアリング、検索拡張生成などの手法を通じて、特定のアプリケーションに適応させます。したがって、同じベースモデルがカスタマーサポートチャットボット、医療記録の要約、コードアシスタントなど、ゼロから学習するのではなく、共有された能力の上に構築された様々なものを支えることができます。
なぜ重要なのか
ファウンデーションモデルは、単一の事前学習済みモデルが数百の下流用途にサービスを提供できるため、新しいアプリケーション構築に必要なコストとデータを劇的に削減し、AI経済を再構築しました。これらのモデルは、テキスト用の大規模言語モデル、画像生成用の拡散モデル、テキスト・画像・音声を一緒に処理するマルチモーダルモデルなど、広く使用されているシステムを支えています。同時に、その規模は能力・リスク・バイアスを集中させるため、評価、安全性、ガバナンスに関する重要な疑問を提起しています。
ファウンデーションモデルの主な種類
- 大規模言語モデル(LLM):GPTファミリー、Claude、Llamaなどのテキストベースのモデルで、大量のテキストコーパスで学習され、言語の生成と推論を行います。
- 拡散モデル:Stable Diffusionなどの画像生成モデルで、ノイズ付加プロセスを逆方向に行い、テキストプロンプトから画像を合成するように学習されます。
- マルチモーダルモデル:CLIPやGPT-4Vなどのシステムで、単一の基盤内でテキスト、画像、音声、動画を共同で処理します。
- ドメイン特化型基盤モデル:科学文献、タンパク質配列、コードで事前学習され、その後創薬やソフトウェアエンジニアリングなどの専門タスクに適応されたモデルです。
新しい問題ごとに狭いモデルを学習するという従来のパラダイムを、単一の適応可能なベースモデルに置き換えることにより、ファウンデーションモデルは現代のAI開発におけるデフォルトのスタートポイントとなっています。