学習データとは?

学習データとは、機械学習モデルが学習する元となる例の集合です。学習データの定義、モデルの挙動への影響、そして品質が重要な理由を解説します。

学習データとは、機械学習モデルがタスクを学習するために学習する例の集合です。各例は通常、入力と期待される出力を組み合わせたもので、例えばメールと「スパム」または「非スパム」のラベル、文章とその言語、画像とそれが含む物体などがペアになります。学習中、モデルはデータのパターンに予測を一致させるように内部パラメータを調整するため、データセットは実質的にモデルが何を学び、何を学ばないかを定義します。

学習データの仕組み

最も一般的な手法である教師あり学習では、すべての例に正解が注釈として付けられます。例えば、商品レビューのデータセットには「肯定的」「否定的」といったラベルが付けられ、モデルは新しいレビューをそうしたカテゴリーに分類する統計的な規則性を発見することで学習します。データは、モデルの学習に使用するトレーニングセット、モデルの調整に使用する検証セット、未見の例に対するモデルの性能を推定するために使用されるテストセットに分割されます。

他の学習手法では、異なるデータ形式を用います。教師なし学習はラベルのない生の入力を使用し、クラスタやトピックなどの構造を発見するために使われることが一般的です。自己教師あり学習は、データ自体からラベルを生成する手法で、大規模な言語モデルが巨大なテキストコーパスで事前学習される際にこの手法が用いられています。データセットの規模、バランス、代表性はいずれも、モデルがどの範囲まで汎化できるかに直接影響します。

なぜ重要なのか

学習データはモデルの挙動を決定する最大の要因であり、多くの場合アルゴリズムの選択よりも大きな影響を及ぼします。データに偏りがある、不足している、あるいは代表的でない場合、モデルはその欠陥を再現し、時には増幅させます。プライバシー、著作権、同意に関する懸念もデータレイヤーに存在し、モデルは学習データから機密性の高い断片を記憶し、再出力する可能性があるためです。これらの理由から、データのキュレーション、文書化、評価は責任あるAI開発において最重要課題となっています。

学習データの主な種類

  • ラベル付きデータ — 各例に人間または機械が生成した注釈が付けられており、分類や検出などの教師あり学習タスクに使用されます。
  • ラベルなしデータ — 注釈のない生の入力データで、教師なし学習や自己教師あり事前学習に使用されます。
  • 合成データ — シミュレーターや他のモデルによって生成された例で、実データが不足している場合や機密性が高い場合に有用です。
  • 指示データと選好データ — 理想的な応答とペアになったプロンプト、または品質でランク付けされた応答のペアで、人間の意図にモデルを合わせるために使用されます。
  • 評価ベンチマーク — 能力を測定するためにキュレーションされたテストセットですが、モデルのパラメータの学習には使用されません。

データセットの構築とその影響についてさらに詳しく知りたい方は、「Data-Centric AI」書籍の「Data Quality」の章や、Papers with Codeのリーダーボードが有用な出発点となります。

こちらもおすすめ

関連記事