📖

基盤モデル とは?

ファウンデーションモデルとは、幅広いデータで学習された大規模で汎用的なAIモデルで、多様な下流タスクに適応できます。その仕組みと重要性について学びましょう。

ファウンデーションモデルとは、自己教師あり学習などの手法を用いて、大規模で多様なデータセットで学習された大規模な機械学習モデルです。この広範な事前学習の後、同じモデルは適応(ファインチューニング)され、質問応答や言語翻訳から画像生成やタンパク質解析まで、幅広い下流タスクを実行できます。この概念は2021年にスタンフォードのCenter for Research on Foundation Models (CRFM)によって体系化され、AIにおける新しいパラダイムを表す用語として造られました。

ファウンデーションモデルの仕組み

ファウンデーションモデルは通常、ニューラルネットワークアーキテクチャ(多くはTransformer)を用いて構築され、オープンウェブ、書籍、コードリポジトリ、ライセンスされたコーパスから収集された数千億語の単語、画像、その他のデータポイントで学習されます。学習は通常自己教師あり学習に依存しており、モデルは自身の入力の欠落部分や次の部分を予測するため、大規模な手動ラベル付けされた例が不要になります。結果として得られるモデルは、言語、コード、画像、その他のモダリティに関する広範な統計的知識を持ち、単一のタスクではなく一般的なパターンを符号化します。

事前学習が完了すると、モデルは基盤(Foundation)となります。開発者はファインチューニングやプロンプトエンジニアリング、検索拡張生成などの手法を通じて、特定のアプリケーションに適応させます。したがって、同じベースモデルがカスタマーサポートチャットボット、医療記録の要約、コードアシスタントなど、ゼロから学習するのではなく、共有された能力の上に構築された様々なものを支えることができます。

なぜ重要なのか

ファウンデーションモデルは、単一の事前学習済みモデルが数百の下流用途にサービスを提供できるため、新しいアプリケーション構築に必要なコストとデータを劇的に削減し、AI経済を再構築しました。これらのモデルは、テキスト用の大規模言語モデル、画像生成用の拡散モデル、テキスト・画像・音声を一緒に処理するマルチモーダルモデルなど、広く使用されているシステムを支えています。同時に、その規模は能力・リスク・バイアスを集中させるため、評価、安全性、ガバナンスに関する重要な疑問を提起しています。

ファウンデーションモデルの主な種類

  • 大規模言語モデル(LLM):GPTファミリー、Claude、Llamaなどのテキストベースのモデルで、大量のテキストコーパスで学習され、言語の生成と推論を行います。
  • 拡散モデル:Stable Diffusionなどの画像生成モデルで、ノイズ付加プロセスを逆方向に行い、テキストプロンプトから画像を合成するように学習されます。
  • マルチモーダルモデル:CLIPやGPT-4Vなどのシステムで、単一の基盤内でテキスト、画像、音声、動画を共同で処理します。
  • ドメイン特化型基盤モデル:科学文献、タンパク質配列、コードで事前学習され、その後創薬やソフトウェアエンジニアリングなどの専門タスクに適応されたモデルです。

新しい問題ごとに狭いモデルを学習するという従来のパラダイムを、単一の適応可能なベースモデルに置き換えることにより、ファウンデーションモデルは現代のAI開発におけるデフォルトのスタートポイントとなっています。

よくある質問

What is the difference between a foundation model and a large language model?
All large language models are foundation models, but not all foundation models are LLMs. A foundation model is any large model trained on broad data that can be adapted to many tasks, including image, audio, and protein models. A large language model is a foundation model specifically designed to process and generate text.
Who coined the term foundation model?
The term was introduced in 2021 by Stanford's Center for Research on Foundation Models (CRFM) in a paper led by Rishi Bommasani and colleagues. It described the shift from task-specific AI systems to a single general-purpose model reused across applications.
How are foundation models trained?
Most foundation models are pre-trained with self-supervised learning on huge unlabeled datasets, typically using the transformer architecture. The model learns by predicting missing or next parts of its input, such as the next word in a sentence, which lets it scale to internet-sized corpora without manual labeling.
Can foundation models be fine-tuned?
Yes. After pre-training, foundation models are commonly adapted through fine-tuning, instruction tuning, reinforcement learning from human feedback (RLHF), or prompt engineering. These steps specialize a general-purpose model for particular tasks, domains, or safety requirements.