제로샷 학습(Zero-Shot Learning, ZSL)은 모델이 학습 과정에서 한 번도 접하지 않은 카테고리나 작업에 대해서도 정확한 예측을 수행하도록 기대하는 머신러닝 패러다임입니다. 새로운 클래스를 레이블이 지정된 예시로부터 학습하는 대신, 모델은 속성 설명, 클래스 이름, 자연어 지시와 같은 부가 정보를 활용하여 낯선 사례에도 일반화합니다. 이 접근 방식은 단일 모델이 재학습 없이 수천 가지 작업을 처리할 수 있게 해 주기 때문에, 현대의 파운데이션 모델이 작동하는 방식에서 핵심적인 역할을 하게 되었습니다.
제로샷 학습의 작동 원리
핵심 아이디어는 학습된 클래스와 학습되지 않은 클래스가 모두 표현될 수 있는 공유 의미 공간을 학습하는 것입니다. 학습 과정에서 모델은 레이블이 지정된 예시와 설명 정보를 짝지어 줍니다(예를 들어 "얼룩말"로 레이블된 이미지는 "검은색과 흰색 줄무늬가 있는 말과 같은 동물"이라는 텍스트와 짝을 이룹니다). 그리고 나서 두 모달리티를 정렬하도록 학습하여, 추론 시점에는 레이블이 없는 입력이 가장 가까운 텍스트 또는 속성 설명(학습 때 사용되지 않았던 클래스의 설명을 포함하여)과 매칭될 수 있도록 합니다.
CLIP, GPT, Gemini와 같은 대규모 언어 및 비전-언어 모델은 이러한 아이디어를 더욱 확장합니다. 이러한 모델은 이미지와 텍스트 또는 지시와 응답 데이터가 짝지어 된 광범위한 코퍼스에서 학습된 다음, 추론 시점에 원하는 출력에 대한 설명으로 프롬프트됩니다. 간단한 예로, "이 리뷰를 긍정, 부정, 무관심 중 하나로 분류하세요"라는 프롬프트가 주어지면, 감성 데이터로 파인튜닝된 적이 없는 모델이라도 유용한 답변을 생성할 수 있습니다. 이는 프롬프트의 언어 자체가 누락된 클래스 정의를 제공하기 때문입니다. 보다 정 formal한 내용은 이 분야를 정립하는 데 기여한 Palatucci 등의 NeurIPS 2009 논문을 참조하시기 바랍니다.
제로샷 학습이 중요한 이유
제로샷 학습은 적용 AI에서 가장 비용이 큰 병목 중 하나인 레이블 데이터 문제를 해결합니다. 모든 새로운 클래스, 언어, 작업에 대한 예시를 수집하고 주석을 다는 작업은 느리고, 드물게 발견되는 종, 틈새 산업 결함, 저자원 언어와 같은 롱테일 도메인에서는 종종 비현실적입니다. 다른 예시들로부터 학습한 공유 구조를 활용함으로써, 제로샷 방법은 추가 학습 없이도 이러한 환경에서 사용 가능한 성능을 제공할 수 있습니다.
또한 제로샷 학습은 제품을 더 유연하게 만듭니다. 단일 이미지 분류기는 텍스트 프롬프트를 변경함으로써 런타임에 새로운 카테고리로 방향을 잡을 수 있고, 단일 번역 모델은 재학습 없이 언어를 전환할 수 있으며, 단일 어시스턴트는 요청에 따라 새로운 페르소나나 형식을 채택할 수 있습니다. 이러한 일반성은 CLIP과 유사한 비전-언어 모델이 현대 컴퓨터 비전 파이프라인에서 기본 구성 요소가 된 주요 이유입니다.
주요 유형
- 전통적인 속성 기반 ZSL: 각 클래스는 수작업으로 제작된 속성 벡터(예: "날개가 있다", "물에 산다")로 설명되며, 모델은 학습되지 않은 클래스에 대해 이러한 속성을 예측하도록 학습됩니다.
- 임베딩 기반 ZSL: 클래스는 공유 공간(종종 단어 벡터 또는 언어 모델에서 파생됨)에서의 임베딩으로 표현되며, 새로운 클래스는 예측된 입력 임베딩과의 유사성을 통해 매칭됩니다.
- 생성형 ZSL: 생성 모델이 학습되지 않은 클래스를 위한 합성 특성을 생성하여, 제로샷을 표준 지도 학습 문제로 효과적으로 전환합니다.
- 파운데이션 모델을 활용한 프롬프트 기반 ZSL: 작업 명세는 자연어로 전달되며, 모델은 프롬프트를 해석하고 매개변수 업데이트 없이 응답합니다.
제로샷 학습은 마법이 아닙니다. 풍부한 레이블 데이터가 존재하는 경우 성능은 여전히 완전 지도 학습 모델에 뒤처지며, 보조 설명이 모호하거나 오해의 소지가 있을 때 실패할 수도 있습니다. 그럼에도 불구하고, 제로샷 학습은 이제 대규모 AI 시스템의 기본 기대치이며, 지시만으로 새로운 작업에 일반화할 수 있는 능력은 오늘날 가장 강력한 모델들의 결정적인 특징입니다.