디퓨전 모델이란?

Stable Diffusion, Imagen, DALL·E 3 이미지 생성의 기반이 되는 생성형 AI 기술인 디퓨전 모델을 쉽게 설명한 가이드입니다.

디퓨전 모델은 단계별 노이즈 추가 과정을 역전시키는 방식으로 새로운 데이터(보통 이미지, 오디오, 영상)를 생성하도록 학습하는 생성형 AI의 한 종류입니다. 학습 과정에서 모델은 실제 예시를 여러 단계에 걸쳐 가우시안 노이즈로 점진적으로 손상된 상태로 살펴보며, 신경망은 각 단계에서 추가된 노이즈를 예측하도록 학습됩니다. 일단 학습이 끝나면 모델은 순수한 무작위 노이즈에서 출발해 이를 반복적으로 "디노이즈"하여 텍스트 프롬프트로 안내되는 사실적인 이미지와 같은 일관된 새로운 샘플로 만들어낼 수 있습니다.

디퓨전 모델의 작동 원리

학습은 서로 결합된 두 단계로 진행됩니다. 순방향 과정(forward process)에서는 깨끗한 학습 이미지를 가져와 고정된 타임스텝(보통 1,000단계)에 걸쳐 소량의 무작위 노이즈를 계속 추가해 이미지가 정적인 화면과 구별할 수 없을 만큼 만들어집니다. 역방향 과정(reverse process)에서는 신경망(보통 U-Net)이 각 타임스텝에서 추가된 노이즈를 추정하도록 학습되어, 해당 노이즈를 빼고 깨끗한 이미지를 향해 한 단계씩 되돌아갈 수 있게 합니다.

추론 시 생성은 순수한 가우시안 노이즈 샘플에서 시작됩니다. 모델은 이를 한 단계씩 반복적으로 디노이즈하여 깨끗한 이미지가 나타날 때까지 진행합니다. 생성을 조건부로 만들기 위해 — 예를 들어 "스케이트보드를 탄 코기"라는 프롬프트를 이미지로 바꾸기 위해 — 텍스트 인코더(CLIP 또는 T5 모델 등)가 프롬프트를 임베딩하고, 디퓨전 네트워크는 해당 임베딩에 주의를 기울이며 디노이즈하도록 학습됩니다. 2022년에 도입된 분류기 프리 가이던스(classifier-free guidance)는 동일한 모델이 무조건부 디노이즈도 수행하게 한 뒤 두 예측 사이를 외삽하여 출력물이 프롬프트를 얼마나 충실히 따르는지를 선명하게 만듭니다.

왜 중요한가

디퓨전 모델은 Stable Diffusion, DALL·E 3, Midjourney, Google의 Imagen을 포함한 오늘날의 주요 텍스트-이미지 시스템의 근간입니다. GAN과 같은 이전 생성형 접근 방식보다 더 높은 충실도와 다양성을 가진 샘플을 생성하는 경향이 있으며, 반복적인 샘플링 덕분에 텍스트, 깊이 맵, 스케치 같은 신호로 조건을 걸기가 쉽습니다. 이미지를 넘어 동일한 레시피가 오디오(예: DiffSinger), 영상, 단백질 구조(예: RoseTTAFold All-Atom), 3D 형상 생성 모델의 기반이 되며, 디퓨전을 현대 AI에서 가장 다재다능한 생성형 프레임워크 중 하나로 만듭니다.

디퓨전 모델의 주요 유형

  • Denoising Diffusion Probabilistic Models (DDPM) — 생성을 가우시안 노이즈의 반복적 디노이즈로 구성하는 Ho 등의 기초 공식화(2020).
  • Denoising Diffusion Implicit Models (DDIM) — 비마르코프 단계를 사용해 재학습 없이 추론 시간을 단축하는 더 빠른 샘플러.
  • Latent Diffusion Models (LDM) — Stable Diffusion으로 대중화되었으며, 픽셀 공간 대신 압축된 잠재 공간에서 디퓨전 과정을 수행해 연산량을 크게 줄입니다.
  • Score-based 모델 (SDE) — 디퓨전을 스코어 매칭과 확률 미분 방정식에 연결하는 연속 시간 관점으로, 유연한 샘플러를 가능하게 합니다.
  • Rectified Flow / Flow Matching — 노이즈에서 데이터로 이어지는 더 곧은 경로를 학습해 훨씬 적은 단계로 생성을 가능하게 하는 최신 변형 모델입니다.

더 깊이 있는 기술적 내용을 원한다면 Ho, Jain, Abbeel의 원래 DDPM 논문과 Rombach 등의 잠재 디퓨전 논문이 표준적인 출발점입니다. 요컨대, 디퓨전 모델은 생성을 여러 개의 작고 학습 가능한 디노이즈 단계로 바꾸는 — 창의적 AI의 판도를 바꿔 놓은 단순한 아이디어입니다.

이런 글도 좋아하실 거예요

관련 포스트