📖

확산 모델란 무엇인가요?

Stable Diffusion, Imagen, DALL·E 3 이미지 생성의 기반이 되는 생성형 AI 기술인 디퓨전 모델을 쉽게 설명한 가이드입니다.

디퓨전 모델은 단계별 노이즈 추가 과정을 역전시키는 방식으로 새로운 데이터(보통 이미지, 오디오, 영상)를 생성하도록 학습하는 생성형 AI의 한 종류입니다. 학습 과정에서 모델은 실제 예시를 여러 단계에 걸쳐 가우시안 노이즈로 점진적으로 손상된 상태로 살펴보며, 신경망은 각 단계에서 추가된 노이즈를 예측하도록 학습됩니다. 일단 학습이 끝나면 모델은 순수한 무작위 노이즈에서 출발해 이를 반복적으로 "디노이즈"하여 텍스트 프롬프트로 안내되는 사실적인 이미지와 같은 일관된 새로운 샘플로 만들어낼 수 있습니다.

디퓨전 모델의 작동 원리

학습은 서로 결합된 두 단계로 진행됩니다. 순방향 과정(forward process)에서는 깨끗한 학습 이미지를 가져와 고정된 타임스텝(보통 1,000단계)에 걸쳐 소량의 무작위 노이즈를 계속 추가해 이미지가 정적인 화면과 구별할 수 없을 만큼 만들어집니다. 역방향 과정(reverse process)에서는 신경망(보통 U-Net)이 각 타임스텝에서 추가된 노이즈를 추정하도록 학습되어, 해당 노이즈를 빼고 깨끗한 이미지를 향해 한 단계씩 되돌아갈 수 있게 합니다.

추론 시 생성은 순수한 가우시안 노이즈 샘플에서 시작됩니다. 모델은 이를 한 단계씩 반복적으로 디노이즈하여 깨끗한 이미지가 나타날 때까지 진행합니다. 생성을 조건부로 만들기 위해 — 예를 들어 "스케이트보드를 탄 코기"라는 프롬프트를 이미지로 바꾸기 위해 — 텍스트 인코더(CLIP 또는 T5 모델 등)가 프롬프트를 임베딩하고, 디퓨전 네트워크는 해당 임베딩에 주의를 기울이며 디노이즈하도록 학습됩니다. 2022년에 도입된 분류기 프리 가이던스(classifier-free guidance)는 동일한 모델이 무조건부 디노이즈도 수행하게 한 뒤 두 예측 사이를 외삽하여 출력물이 프롬프트를 얼마나 충실히 따르는지를 선명하게 만듭니다.

왜 중요한가

디퓨전 모델은 Stable Diffusion, DALL·E 3, Midjourney, Google의 Imagen을 포함한 오늘날의 주요 텍스트-이미지 시스템의 근간입니다. GAN과 같은 이전 생성형 접근 방식보다 더 높은 충실도와 다양성을 가진 샘플을 생성하는 경향이 있으며, 반복적인 샘플링 덕분에 텍스트, 깊이 맵, 스케치 같은 신호로 조건을 걸기가 쉽습니다. 이미지를 넘어 동일한 레시피가 오디오(예: DiffSinger), 영상, 단백질 구조(예: RoseTTAFold All-Atom), 3D 형상 생성 모델의 기반이 되며, 디퓨전을 현대 AI에서 가장 다재다능한 생성형 프레임워크 중 하나로 만듭니다.

디퓨전 모델의 주요 유형

  • Denoising Diffusion Probabilistic Models (DDPM) — 생성을 가우시안 노이즈의 반복적 디노이즈로 구성하는 Ho 등의 기초 공식화(2020).
  • Denoising Diffusion Implicit Models (DDIM) — 비마르코프 단계를 사용해 재학습 없이 추론 시간을 단축하는 더 빠른 샘플러.
  • Latent Diffusion Models (LDM) — Stable Diffusion으로 대중화되었으며, 픽셀 공간 대신 압축된 잠재 공간에서 디퓨전 과정을 수행해 연산량을 크게 줄입니다.
  • Score-based 모델 (SDE) — 디퓨전을 스코어 매칭과 확률 미분 방정식에 연결하는 연속 시간 관점으로, 유연한 샘플러를 가능하게 합니다.
  • Rectified Flow / Flow Matching — 노이즈에서 데이터로 이어지는 더 곧은 경로를 학습해 훨씬 적은 단계로 생성을 가능하게 하는 최신 변형 모델입니다.

더 깊이 있는 기술적 내용을 원한다면 Ho, Jain, Abbeel의 원래 DDPM 논문과 Rombach 등의 잠재 디퓨전 논문이 표준적인 출발점입니다. 요컨대, 디퓨전 모델은 생성을 여러 개의 작고 학습 가능한 디노이즈 단계로 바꾸는 — 창의적 AI의 판도를 바꿔 놓은 단순한 아이디어입니다.

자주 묻는 질문

How is a diffusion model different from a GAN?
GANs train a generator and discriminator in opposition and produce a sample in a single forward pass, which can be fast but often unstable. Diffusion models instead train a single network to iteratively denoise, which tends to yield more diverse and higher-quality samples at the cost of slower generation. Most modern image generators have moved from GANs to diffusion for this reason.
Why do diffusion models need so many steps to generate an image?
Each step only removes a small amount of noise, so the network can stay accurate across all noise levels. Modern samplers like DDIM, DPM-Solver, and rectified-flow variants can produce good images in 4 to 20 steps, but very few-step sampling can reduce fine detail. Step count is a trade-off between speed, quality, and prompt fidelity.
What does "guidance scale" mean in diffusion models?
Guidance scale controls how strongly the output is pushed toward the text prompt. The model runs both a conditional prediction (with the prompt) and an unconditional one, then extrapolates between them; a higher scale means the prompt has more influence, producing sharper but sometimes less natural images, while a lower scale gives more creative but looser results.
Are diffusion models only used for images?
No. The same denoising framework has been applied to audio and music generation, video synthesis, 3D shape and texture generation, molecular and protein design, and even planning in reinforcement learning. Anywhere data can be progressively noised and learned, diffusion tends to be a viable generative approach.