📖

Diffüzyon Modeli nedir?

Diffüzyon modellerini, Stable Diffusion, Imagen ve DALL·E 3 görsel üretiminin arkasındaki üretken yapay zekâ tekniğini, sade bir dille anlatan rehber.

Diffüzyon modeli, adım adım uygulanan bir gürültüleme sürecini tersine çevirerek yeni veriler — tipik olarak görüntü, ses veya video — üretmeyi öğrenen bir üretken yapay zekâ türüdür. Eğitim sırasında model, gerçek örneklerin birçok küçük adımda Gauss gürültüsüyle kademeli olarak bozulmuş hâlini görür ve eklenen gürültüyü her adımda tahmin etmek için bir sinir ağı eğitilir. Eğitim tamamlandığında model, tamamen rastgele gürültüden başlayıp onu adım adım "gürültüsüzleştirerek" metin istemiyle yönlendirilen fotoğraf gerçekliğinde bir görüntü gibi tutarlı yeni bir örneğe dönüştürebilir.

Bir diffüzyon modeli nasıl çalışır

Eğitim, birbirine bağlı iki aşamada gerçekleşir. İleri süreçte temiz bir eğitim görüntüsü alınır ve sabit sayıda zaman adımı (genellikle 1.000) boyunca küçük miktarlarda rastgele gürültü eklenir; ta ki görüntü statik gürültüden ayırt edilemez hâle gelene kadar. Ters süreçte ise — genellikle bir U-Net olan — bir sinir ağı, her zaman adımında eklenen gürültüyü tahmin etmeyi öğrenir; böylece bu gürültüyü çıkarıp temiz bir görüntüye doğru bir adım geri gidebilir.

Çıkarım aşamasında üretim, saf Gauss gürültüsünden bir örneklemle başlar. Model onu adım adım, yinelemeli olarak gürültüsüzleştirir ve sonunda temiz bir görüntü ortaya çıkar. Üretimi koşullu hâle getirmek için — örneğin "kaykay üstünde bir corgi" istemini bir görüntüye dönüştürmek amacıyla — bir metin kodlayıcı (CLIP veya T5 modeli gibi) istemi gömülü bir vektöre dönüştürür ve diffüzyon ağı, bu gömülü bilgiye dikkat ederek gürültüsüzleştirme yapacak şekilde eğitilir. 2022'de tanıtılan sınıflandırıcısız yönlendirme (classifier-free guidance), aynı modelin koşulsuz olarak da gürültüsüzleştirme yapmasına olanak tanır ve ardından iki tahmin arasında ekstrapolasyon yaparak çıktının isteme ne kadar sıkı bağlı kalacağını keskinleştirir.

Neden önemlidir

Diffüzyon modelleri, Stable Diffusion, DALL·E 3, Midjourney ve Google'ın Imagen'ı dahil olmak üzere bugünün önde gelen metinden görüntüye sistemlerinin bel kemiğidir. GAN'lar gibi daha eski üretken yaklaşımlarla kıyaslandığında genellikle daha yüksek sadakatte ve daha çeşitli örnekler üretirler; yinelemeli örnekleme yapıları sayesinde metin, derinlik haritaları veya eskizler gibi sinyallerle koşullandırılmaları kolaydır. Görüntülerin ötesinde aynı reçete, ses (ör. DiffSinger), video, protein yapısı (ör. RoseTTAFold All-Atom) ve 3B şekil üretimi için kullanılan modellere de güç verir; bu da diffüzyonu modern yapay zekânın en esnek üretken çerçevelerinden biri yapar.

Diffüzyon modellerinin temel türleri

  • Denoising Diffusion Probabilistic Models (DDPM'ler) — Ho ve diğerleri (2020) tarafından sunulan, üretimi Gauss gürültüsünün yinelemeli gürültüsüzleştirilmesi olarak çerçevelendiren temel formülasyon.
  • Denoising Diffusion Implicit Models (DDIM'ler) — yeniden eğitim gerektirmeden çıkarım süresini kısaltmak için Markov-olmayan adımlar kullanan daha hızlı bir örnekleyici.
  • Latent Diffusion Models (LDM'ler) — Stable Diffusion tarafından popülerleştirilmiştir; diffüzyon sürecini piksel uzayı yerine sıkıştırılmış gizli uzayda çalıştırarak hesaplama maliyetini büyük ölçüde düşürür.
  • Skor tabanlı modeller (SDE'ler) — diffüzyonu skor eşleştirme ve stokastik diferansiyel denklemlerle buluşturarak esnek örnekleyicilere imkân tanıyan sürekli-zamanlı bir bakış açısı.
  • Rectified Flow / Flow Matching — gürültüden veriye daha düz yollar öğrenen ve çok daha az adımda üretim yapılmasını sağlayan daha yeni varyantlar.

Daha derin teknik bir inceleme için Ho, Jain ve Abbeel'in özgün DDPM makalesi ile Rombach ve diğerlerinin latent diffüzyon makalesi standart başlangıç noktalarıdır. Kısacası diffüzyon modelleri, üretimi çok sayıda küçük, öğrenilebilir gürültüsüzleştirme adımına dönüştürür — yaratıcı yapay zekâyı yeniden şekillendiren sade bir fikir.

Sıkça Sorulan Sorular

How is a diffusion model different from a GAN?
GANs train a generator and discriminator in opposition and produce a sample in a single forward pass, which can be fast but often unstable. Diffusion models instead train a single network to iteratively denoise, which tends to yield more diverse and higher-quality samples at the cost of slower generation. Most modern image generators have moved from GANs to diffusion for this reason.
Why do diffusion models need so many steps to generate an image?
Each step only removes a small amount of noise, so the network can stay accurate across all noise levels. Modern samplers like DDIM, DPM-Solver, and rectified-flow variants can produce good images in 4 to 20 steps, but very few-step sampling can reduce fine detail. Step count is a trade-off between speed, quality, and prompt fidelity.
What does "guidance scale" mean in diffusion models?
Guidance scale controls how strongly the output is pushed toward the text prompt. The model runs both a conditional prediction (with the prompt) and an unconditional one, then extrapolates between them; a higher scale means the prompt has more influence, producing sharper but sometimes less natural images, while a lower scale gives more creative but looser results.
Are diffusion models only used for images?
No. The same denoising framework has been applied to audio and music generation, video synthesis, 3D shape and texture generation, molecular and protein design, and even planning in reinforcement learning. Anywhere data can be progressively noised and learned, diffusion tends to be a viable generative approach.