학습 데이터는 머신러닝 모델이 특정 작업을 학습하기 위해 연구하는 예시들의 집합입니다. 각 예시는 일반적으로 입력과 기대 출력을 쌍으로 구성하며, 예를 들어 이메일과 스팸/스팸 아님 라벨, 문장과 해당 언어, 이미지와 이미지에 포함된 객체가 있습니다. 학습 과정에서 모델은 내부 파라미터를 조정하여 데이터의 패턴과 일치하는 예측을 수행하며, 따라서 데이터셋은 모델이 무엇을 학습하고 무엇을 학습하지 않을지를 사실상 정의합니다.
학습 데이터의 작동 원리
가장 일반적인 방식인 지도 학습에서는 모든 예시에 정답이标注되어 있습니다. 예를 들어 제품 리뷰 데이터셋은 "긍정" 또는 "부정"으로 라벨링되며, 모델은 이를 구별하는 통계적 규칙성을 찾아 새로운 리뷰를 해당 범주로 매핑하는 법을 학습합니다. 데이터는 모델을 학습시키는 학습 세트, 모델을 미세 조정하는 검증 세트, 모델이 본 적 없는 예시에서의 성능을 추정하는 데 사용되는 보류 테스트 세트로 분할됩니다.
다른 패러다임은 서로 다른 데이터 형태를 사용합니다. 비지도 학습은 라벨 없이 원시 입력을 사용하여 클러스터나 주제와 같은 구조를 발견합니다. 자기지도 학습은 데이터 자체에서 라벨을 생성하며, 이는 대부분의 대규모 언어 모델이 방대한 텍스트 말뭉치로 사전 학습되는 방식입니다. 데이터셋의 규모, 균형, 대표성은 모두 모델이 일반화할 수 있는 범위에 직접적인 영향을 미칩니다.
중요한 이유
학습 데이터는 알고리즘 선택보다도 모델 동작을 결정하는 가장 큰 단일 요소입니다. 데이터에 편향이 있거나, 희소하거나, 대표성이 부족하면 모델은 이러한 결함을 재현하고 때로는 증폭시킵니다. 프라이버시, 저작권, 동의 문제 또한 데이터 계층에 존재하는데, 모델이 학습 세트의 민감한 문구를 암기하고 다시 노출할 수 있기 때문입니다. 이러한 이유로 데이터 큐레이션, 문서화, 평가는 책임감 있는 AI 개발의 핵심적인 부분이 되었습니다.
학습 데이터의 주요 유형
- 라벨링된 데이터 — 각 예시에는 사람이 제공하거나 머신이 생성한 주석이 있으며, 분류 및 탐지와 같은 지도 학습 작업에 사용됩니다.
- 라벨링되지 않은 데이터 — 주석이 없는 원시 입력으로, 비지도 및 자기지도 사전 학습에 사용됩니다.
- 합성 데이터 — 시뮬레이터나 다른 모델로 생성된 예시로, 실제 데이터가 희소하거나 민감할 때 유용합니다.
- 지시문 및 선호도 데이터 — 이상적인 응답과 쌍을 이루는 프롬프트, 또는 품질로 순위가 매겨진 출력 쌍으로, 모델을 인간의 의도에 맞추는 데 사용됩니다.
- 평가 벤치마크 — 성능을 측정하는 큐레이션된 테스트 세트이지만, 모델 파라미터 학습에는 사용되지 않습니다.
데이터셋 구성과 그 영향에 대한 더 깊이 있는 내용은 "Data-Centric AI" 서적의 "Data Quality" 챕터와 Papers with Code 리더보드를 참고하면 좋은 출발점이 됩니다.