파운데이션 모델이란 무엇인가요?

파운데이션 모델은 방대한 데이터로 학습된 대규모 범용 AI 모델로, 다양한 다운스트림 작업에 적응할 수 있습니다. 작동 원리와 중요성을 알아보세요.

파운데이션 모델은 자기지도 학습과 같은 방법을 사용해 대규모의 다양한 데이터셋으로 학습된 대규모 머신러닝 모델입니다. 이러한 광범위한 사전 학습 후, 동일한 모델은 미세 조정(fine-tuning)을 통해 적응되어 질문 답변, 언어 번역부터 이미지 생성, 단백질 분석에 이르기까지 광범위한 다운스트림 작업을 수행할 수 있습니다. 이 개념은 2021년 스탠포드의 파운데이션 모델 연구 센터(CRFM)에서 정형화되었으며, AI의 새로운 패러다임을 설명하기 위해 이 용어를 만들었습니다.

파운데이션 모델의 작동 원리

파운데이션 모델은 일반적으로 신경망 아키텍처, 가장 흔하게는 트랜스포머를 사용해 구축되며, 오픈 웹, 서적, 코드 저장소, 라이선스 데이터셋에서 수집한 수천억 개의 단어, 이미지 또는 기타 데이터 포인트로 학습됩니다. 학습은 보통 자기지도 학습에 의존하며, 모델이 자체 입력의 누락되거나 다음 부분을 예측하여 대규모의 수동 라벨링된 예제 없이 학습할 수 있게 합니다. 그 결과는 단일 작업이 아닌 일반적인 패턴을 인코딩하여 언어, 코드, 이미지 또는 기타 양식에 대한 광범위한 통계적 지식을 가진 모델입니다.

사전 학습이 완료되면 모델은 파운데이션이 되어 개발자들은 미세 조정, 프롬프트 엔지니어링, 검색 증강 생성(RAG)과 같은 기술을 통해 특정 애플리케이션에 적응시킵니다. 따라서 동일한 기본 모델이 처음부터 학습하는 것이 아니라 공유된 기능을 기반으로 구축된 고객 지원 챗봇, 의료 기록 요약 도구, 코드 어시스턴트를 구동할 수 있습니다.

왜 중요한가

파운데이션 모델은 단일 사전 학습된 모델이 수백 가지 다운스트림 용도에 사용될 수 있어 새로운 애플리케이션 구축에 필요한 비용과 데이터를 크게 줄이기 때문에 AI 경제를 재편했습니다. 텍스트용 대규모 언어 모델, 이미지 생성을 위한 확산 모델, 텍스트·이미지·오디오를 함께 처리하는 멀티모달 모델 등 널리 사용되는 시스템을 구동합니다. 동시에 그 규모는 기능, 위험, 편향을 집중시켜 평가, 안전성, 거버넌스에 대한 중요한 질문을 제기합니다.

파운데이션 모델의 주요 유형

  • 대규모 언어 모델(LLM): GPT 패밀리, Claude, Llama와 같은 텍스트 기반 모델로, 방대한 텍스트 코퍼스로 학습되어 언어를 생성하고 추론합니다.
  • 확산 모델: Stable Diffusion과 같은 이미지 생성 모델로, 노이즈 추가 과정을 역전시켜 텍스트 프롬프트로부터 이미지를 합성하도록 학습됩니다.
  • 멀티모달 모델: CLIP, GPT-4V와 같이 단일 파운데이션 내에서 텍스트, 이미지, 오디오, 비디오를 공동으로 처리하는 시스템입니다.
  • 도메인 특화 파운데이션: 과학 문헌, 단백질 시퀀스, 코드로 사전 학습된 후 신약 개발이나 소프트웨어 엔지니어링과 같은 전문 작업에 적응되는 모델입니다.

각 새로운 문제마다 좁은 모델을 학습시키는 이전 패러다임을 단일 적응 가능한 베이스로 대체함으로써, 파운데이션 모델은 현대 AI 개발의 기본 출발점이 되었습니다.

이런 글도 좋아하실 거예요

관련 포스트