오픈소스 LLM이란?

오픈소스 LLM은 공개 가중치와 라이선스를 함께 공개하여 누구나 실행, 검사, 수정할 수 있는 대규모 언어 모델입니다. 이러한 모델의 작동 방식과 중요성에 대해 알아보세요.

오픈소스 LLM이란, 학습된 파라미터와 함께 주변의 학습 및 추론 코드를 일반에 공개하여, 다운로드, 검사, 파인튜닝, 재배포를 허용하는 라이선스 하에 배포되는 대규모 언어 모델을 말합니다. 이는 오픈소스 소프트웨어의 전통을 따르는 개념으로, 모델의 내부 작동 방식을 공유함으로써 개인 개발자부터 대기업까지 단일 폐쇄형 API에만 의존하지 않고 이를 기반으로 구축할 수 있게 합니다. 실제로 이 명칭은 학습 데이터와 레시피까지 모두 공개하는 완전한 오픈 릴리스부터, 모델은 공유하면서 데이터와 방법론은 일부 독점적으로 유지하는 "오픈웨이트" 릴리스에 이르기까지 광범위한 스펙트럼을 포괄합니다.

오픈소스 LLM의 작동 방식

LLM 학습은 두 단계로 이루어집니다. 첫째, 모델은 방대한 텍스트 코퍼스에서 다음 토큰을 예측함으로써 일반적인 언어 패턴을 학습하는데, 이를 사전 학습(pretraining)이라고 합니다. 둘째, 사람의 피드백이나 선별된 예시를 통해 답변이 더 유용하도록 정제하는 단계로, 사후 학습(post-training) 또는 정렬(alignment)이라 불립니다. 오픈소스 LLM 릴리스에서 가장 중요한 산출물은 가중치 파일입니다. 이는 모델이 학습한 내용을 담고 있는 수십억(또는 수조) 개의 수치 파라미터의 스냅샷입니다.

일반적으로 Hugging Face와 같은 허브에 가중치가 공개되면, 충분한 GPU 메모리만 있다면 누구나 모델을 로컬에 로드해 자체 하드웨어로 추론을 실행하고, 커스텀 데이터셋으로 파인튜닝하거나, 새로운 도메인을 위해 사전 학습을 이어갈 수 있습니다. Mistral과 같은 소규모 커뮤니티 기반 모델은 노트북에서 실행 가능한 반면, 700억 파라미터 규모의 모델은 여러 대의 고사양 GPU가 필요합니다. 가중치가 공개되어 있기 때문에, 연구자들은 모델의 편향성, 안전성 문제, 역량 등을 분석할 수 있습니다. 이는 폐쇄형 API에서는 허용되지 않는 감사 가능성(auditability)을 제공합니다.

이것이 중요한 이유

오픈소스 LLM은 조직에 비용, 데이터 프라이버시, 배포에 대한 통제권을 부여합니다. 병원,法律事務所, 정부 기관은 자체 서버에서 모델을 운영하여 민감한 프롬프트가 네트워크 밖으로 나가지 않도록 할 수 있습니다. API 접근이 제한된 지역의 개발자들도 여전히 AI 애플리케이션을 구축할 수 있습니다. 연구자들은 모델의 동작 방식을 연구하고 발표된 결과를 재현할 수 있으며, 이는 AI 안전성 연구의 신뢰성을 강화합니다.

오픈 릴리스는 폐쇄형 제공업체에 대한 경쟁 압력을 만들고, 커뮤니티가 개선 사항을 공동으로汇集(집결)하도록 하여 혁신을 가속화하며, 특정 벤더 종속(vendor lock-in)을 줄여줍니다. 반면, 명백한 트레이드오프도 존재합니다. 공개 가중치는 허위 정보나 유해한 도구 제작에 악용될 수 있으며, 라이선스 환경도 균일하지 않습니다. 일부 "오픈" 모델은 상업적 이용을 제한하거나, Open Source Initiative가 추진하는 고전적인 오픈소스 정의에서 벗어나는 사용 사례 조항을 포함하기도 합니다.

주요 사례 및 라이선스 유형

  • Meta의 Llama 계열 — 상업적 이용을 허용하면서도 사용 사례 제한과 규모 기반 매출 조항을 포함하는 라이선스를 갖춘 고품질 오픈웨이트 모델입니다.
  • Mistral 및 Mixtral 모델 — 허용적인 Apache 2.0 라이선스 하에 공개되어 광범위한 상업적 및 파생적 이용이 가능합니다.
  • DeepSeek, Qwen, Yi — 중국에서 개발된 오픈웨이트 모델로, 벤치마크에서 빠르게 서구 모델에 필적하는 수준에 도달했습니다.
  • Allen AI의 OLMo — 가중치뿐만 아니라 학습 코드, 데이터, 평가 도구까지 포함하는 완전한 오픈 릴리스입니다.
  • Pythia 및 BLOOM — 재현성 연구를 위한 방대한 문서와 함께 공개된 연구 지향적 모델입니다.

오픈소스라고 부르든 오픈웨이트라고 부르든, 실질적인 변화는 상당합니다. 한때 소수의 API 엔드포인트 내부에만 존재했던 역량이 이제 모든 개발자가 복제(clone)할 수 있는 공개 디렉터리에 자리 잡고 있습니다. 폐쇄형 API를 기반으로 구축할지, 자체 호스팅할지를 선택하는 팀의 결정 요인은 보통 데이터 거버넌스, 지연 시간 요구 사항, 총소유비용(TCO), 그리고 애플리케이션에 필요한 맞춤화 수준입니다.

이런 글도 좋아하실 거예요

관련 포스트