AIモデルのパラメータとは、ニューラルネットワーク内部に格納された学習済みの数値であり、入力,出力への変換方法を制御する役割を持ちます。各パラメータは本质上、人工ニューロン間の接続における重みであり、大規模言語モデルには通常、数百億から数千億個のパラメータが含まれています。すべてのパラメータの集合は、モデルの「重み」と呼ばれることもあり、訓練によって生成された成果物としてディスクに保存され、推論時に読み込まれます。
パラメータの仕組み
訓練中、モデルはサンプルを処理し、予測を行い、正解と比較します。そして最適化アルゴリズムが、誤差を小さくする方向へすべてのパラメータをわずかに調整します。これが「勾配降下法」と呼ばれるプロセスです。何兆回もの更新を経て、パラメータは言語・画像・その他訓練データに関する統計的パターンを符号化した値へと収束します。
推論時には、プロンプトが数値に変換され、数十から数百の層を通過します。各層で、入力は重み行列と掛け合わされ、単純な非線形関数が適用されます。さらに注意機構によって、異なる位置の情報を混合することができます。元の訓練データそのものが重みにそのまま保存されているわけではなく、パラメータはデータの圧縮された統計的表現を保持しています。具体例として、トランスフォーマーでは各注意ヘッドのクエリ・キー・値の射影がパラメータ行列であり、これによって次の単語を予測する際にモデルがどの過去の単語に注目するかが決まります。
なぜ重要なのか
パラメータ数はモデルの能力を示す最も一般的な指標であり、それには十分な根拠があります。パラメータが多ければ、ネットワークがパターンを記憶・一般化できる容量が増し、最新の大規模モデルには創発的能力と呼ばれる、小規模モデルには見られない特性が現れます。また、パラメータ数は実務上のさまざまな問題にも影響します。メモリ消費量(パラメータ1つあたりFP16では通常2バイト、 aggressive quantizationでは1バイト)、トークンあたりの計算コスト、レイテンシ、モデルの実行やファインチューニングに必要なハードウェアなどです。そのため、70億パラメータのモデルはノートPCで動作可能ですが、4000億パラメータのモデルは通常動作できません。
主な種類
- 重み:パラメータの大部分を占め、入力や隠れ状態と掛け合わされる行列として保存されます。
- バイアス:活性化をシフトさせる小さな加算オフセット(層ごと、またはニューロンごとに1つ)。
- 埋め込みパラメータ:トークンIDをベクトルに変換するルックアップテーブルで、総パラメータ数に含まれます。
- 注意機構のパラメータ:各トランスフォーマーブロック内のクエリ、キー、値、出力の射影。
- フィードフォワードのパラメータ:各トランスフォーマーブロックにある2つの大きな全結合層。通常、総重みの大半を占めます。
パラメータは精度によっても分類されることが多く、「70B」と呼ばれるモデルは700億パラメータを持ちますが、ファイルサイズは32ビット・16ビット・8ビット・4ビットのいずれで保存されているかによって異なり、同じモデルでもディスク上で約140GBから約35GBまで幅があります。パラメータを理解することで、ファインチューニングや量子化、文脈長、推論コストなど、最新のAIにおける他のほぼすべての概念も明確になります。