트랜스포머란 무엇인가요?

트랜스포머는 셀프 어텐션을 기반으로 구축된 신경망 아키텍처로, 오늘날의 대규모 언어 모델을 뒷받침합니다. 그 작동 원리와 중요한 이유를 알아보세요.

트랜스포머는 입력의 모든 요소를 동시에 비교하여 데이터 시퀀스(가장 유명한 것은 언어)를 처리하도록 설계된 신경망의 한 종류입니다. 이전의 순환 신경망처럼 엄격하게 왼쪽에서 오른쪽으로 읽는 대신, 셀프 어텐션(self-attention)이라는 메커니즘을 사용하여 서로 얼마나 멀리 떨어져 있든 상관없이 어떤 단어, 토큰 또는 위치가 서로에게 가장 중요한지 학습합니다. 이러한 병렬 설계 덕분에 트랜스포머는 최신 하드웨어에서 더 빠르게 학습할 수 있으며, 장거리 의존성을 포착하는 데 훨씬 뛰어난 성능을 보입니다. 이것이 현재 거의 모든 최첨단 대규모 언어 모델이 트랜스포머를 기반으로 작동하는 이유입니다.

트랜스포머의 작동 원리

트랜스포머의 핵심에는 셀프 어텐션 연산이 있습니다. 모든 입력 토큰은 쿼리(query), 키(key), 값(value)이라 불리는 세 개의 벡터로 투영됩니다. 하나의 토큰을 이해하기 위해 모델은 자신의 쿼리를 다른 모든 토큰의 키와 비교하여 "각 토큰을 얼마나 참고해야 하는가?"를 나타내는 일련의 어텐션 점수를 생성합니다. 이 점수들은 가중치로 정규화되며, 값 벡터들의 가중 합산이 해당 토큰의 새로운 표현이 됩니다. 멀티 헤드 어텐션은 여러 번의 비교를 병렬로 수행하여 모델이 문법, 상호 참조, 감성 등 다양한 종류의 관계를 동시에 추적할 수 있도록 합니다.

이러한 어텐션 블록을 쌓고 각각에 작은 피드포워드 신경망과 잔차 연결(residual connection)을 추가하면 전체 모델이 구성됩니다. 어텐션 자체는 순서에 구애받지 않기 때문에, 네트워크가 토큰의 순서를 알 수 있도록 위치 인코딩(positional encoding)이 입력에 추가됩니다. 학습 과정에서 디코더 전용 트랜스포머는 시퀀스에서 다음 토큰을 예측합니다. 충분한 데이터와 매개변수가 있다면, 이 단순한 목표 함수가 GPT와 같은 시스템에서 볼 수 있는 추론, 번역, 코드 생성 능력을 만들어냅니다.

트랜스포머가 중요한 이유

트랜스포머가 등장하기 전에는 순환 신경망(RNN)과 LSTM이 텍스트를 한 번에 하나의 토큰씩 처리했기 때문에 속도가 느리고 긴 문맥을 처리하는 데 어려움이 있었습니다. 트랜스포머의 병렬 어텐션 덕분에 연구자들은 웹 규모의 코퍼스로 학습된 수십억 개의 매개변수를 가진 모델을 확장할 수 있었고, 이를 통해 현대 LLM의 능력이 실현되었습니다. 동일한 아키텍처는 이후 이미지(비전 트랜스포머), 오디오, 단백질, 강화 학습에도 적용되어 현대 딥러닝의 지배적인 패러다임이 되었습니다.

주요 유형

  • 인코더 전용 트랜스포머(Encoder-only Transformers) — BERT와 같이 분류, 검색 랭킹, 임베딩 같은 이해 과제에 최적화되어 있습니다.
  • 디코더 전용 트랜스포머(Decoder-only Transformers) — GPT와 Llama와 같이 한 번에 하나의 토큰을 생성하는 작업에 최적화되어 있습니다.
  • 인코더-디코더 트랜스포머(Encoder-decoder Transformers) — 최초의 "Attention Is All You Need" 모델과 T5와 같이 번역 및 시퀀스-투-시퀀스 작업에 사용됩니다.
  • 비전 트랜스포머(ViT) — 단어 대신 이미지의 패치에 셀프 어텐션을 적용합니다.
  • MoE(Mixture-of-Experts) 트랜스포머 — 각 토큰을 일부 "전문가(expert)" 서브 네트워크로 라우팅하여 계산 비용 증가 없이 용량을 확장합니다.

2017년 이후 트랜스포머는 AI 연구와 제품 엔지니어링 모두를 재편했으며, HyperStore 카탈로그의 대부분의 앱(챗봇, 코드 어시스턴트, 이미지 생성기, 추론 에이전트 등)은 다양한 변형을 기반으로 구축되었습니다. 기초가 되는 설계는 원본 "Attention Is All You Need" 논문을, 단계별 설명은 Illustrated Transformer 가이드를 참조하세요.

You might also like

관련 포스트