📖

パラメータ (AI モデル) とは?

パラメータとは、ニューラルネットワーク内部の学習された数値的な重みのことです。その概要、仕組み、なぜモデルサイズが数十億単位で測られるのかを解説します。

AIモデルのパラメータとは、ニューラルネットワーク内部に格納された学習済みの数値であり、入力,出力への変換方法を制御する役割を持ちます。各パラメータは本质上、人工ニューロン間の接続における重みであり、大規模言語モデルには通常、数百億から数千億個のパラメータが含まれています。すべてのパラメータの集合は、モデルの「重み」と呼ばれることもあり、訓練によって生成された成果物としてディスクに保存され、推論時に読み込まれます。

パラメータの仕組み

訓練中、モデルはサンプルを処理し、予測を行い、正解と比較します。そして最適化アルゴリズムが、誤差を小さくする方向へすべてのパラメータをわずかに調整します。これが「勾配降下法」と呼ばれるプロセスです。何兆回もの更新を経て、パラメータは言語・画像・その他訓練データに関する統計的パターンを符号化した値へと収束します。

推論時には、プロンプトが数値に変換され、数十から数百の層を通過します。各層で、入力は重み行列と掛け合わされ、単純な非線形関数が適用されます。さらに注意機構によって、異なる位置の情報を混合することができます。元の訓練データそのものが重みにそのまま保存されているわけではなく、パラメータはデータの圧縮された統計的表現を保持しています。具体例として、トランスフォーマーでは各注意ヘッドのクエリ・キー・値の射影がパラメータ行列であり、これによって次の単語を予測する際にモデルがどの過去の単語に注目するかが決まります。

なぜ重要なのか

パラメータ数はモデルの能力を示す最も一般的な指標であり、それには十分な根拠があります。パラメータが多ければ、ネットワークがパターンを記憶・一般化できる容量が増し、最新の大規模モデルには創発的能力と呼ばれる、小規模モデルには見られない特性が現れます。また、パラメータ数は実務上のさまざまな問題にも影響します。メモリ消費量(パラメータ1つあたりFP16では通常2バイト、 aggressive quantizationでは1バイト)、トークンあたりの計算コスト、レイテンシ、モデルの実行やファインチューニングに必要なハードウェアなどです。そのため、70億パラメータのモデルはノートPCで動作可能ですが、4000億パラメータのモデルは通常動作できません。

主な種類

  • 重み:パラメータの大部分を占め、入力や隠れ状態と掛け合わされる行列として保存されます。
  • バイアス:活性化をシフトさせる小さな加算オフセット(層ごと、またはニューロンごとに1つ)。
  • 埋め込みパラメータ:トークンIDをベクトルに変換するルックアップテーブルで、総パラメータ数に含まれます。
  • 注意機構のパラメータ:各トランスフォーマーブロック内のクエリ、キー、値、出力の射影。
  • フィードフォワードのパラメータ:各トランスフォーマーブロックにある2つの大きな全結合層。通常、総重みの大半を占めます。

パラメータは精度によっても分類されることが多く、「70B」と呼ばれるモデルは700億パラメータを持ちますが、ファイルサイズは32ビット・16ビット・8ビット・4ビットのいずれで保存されているかによって異なり、同じモデルでもディスク上で約140GBから約35GBまで幅があります。パラメータを理解することで、ファインチューニングや量子化、文脈長、推論コストなど、最新のAIにおける他のほぼすべての概念も明確になります。

よくある質問

How many parameters does a large language model have?
Frontier language models today typically range from around 7 billion to over 1 trillion parameters. Open-weights models such as Llama 3 ship in 8B, 70B, and larger variants, while closed systems like GPT-4 and Claude are believed to use hundreds of billions to over a trillion parameters based on third-party scaling analyses.
Are more parameters always better?
Not always. More parameters give a model more representational capacity and usually improve benchmark scores, but they also raise training cost, inference latency, and memory requirements. Modern research shows that data quality, architecture choices, and post-training alignment can matter as much as raw parameter count, which is why smaller well-trained models can sometimes match much larger ones on specific tasks.
What is the difference between parameters and tokens?
Parameters are the learned weights inside the model and stay fixed at inference time. Tokens are the chunks of text the model reads or generates, and the number of tokens processed is what determines compute cost per request. A 70B-parameter model handling a 4,000-token prompt still uses 70 billion weights, but the work scales with how many tokens flow through them.
Can parameters be updated after training?
Yes, through fine-tuning. Techniques like full fine-tuning, LoRA, and QLoRA adjust either all or a small subset of a model's parameters on new data so it specializes in a domain or follows new instructions. LoRA in particular adds only a tiny number of trainable parameters on top of frozen base weights, making adaptation cheap.