📖

Metinden Görsele nedir?

Metinden görüntüye, yazılı istemleri görüntülere dönüştüren üretken yapay zekâdır. Difüzyon ve dönüştürücü modellerin nasıl çalıştığını ve nerelerde kullanıldığını öğrenin.

Metinden görüntüye, yazılı açıklamalardan doğrudan görüntü üreten bir üretken yapay zekâ kategorisidir. Kullanıcı "uzayda süzülen bir corgi astronot, dijital sanat" gibi bir ifade yazar ve model saniyeler içinde, çizim, fotoğraf veya stok kütüphane gerektirmeden eşleşen bir görüntü döndürür. Alan, 2021'den sonra difüzyon modellerinin kısa metin istemlerinin yüksek kaliteli, çeşitli görüntülere ölçekli olarak dönüştürülebileceğini göstermesiyle hızla ilerledi.

Metinden görüntüye nasıl çalışır

Modern metinden görüntüye sistemleri bir dil kodlayıcısıyla eşleştirilmiş bir difüzyon modeli üzerine kuruludur. Eğitim iki aşamada gerçekleşir. Önce CLIP gibi bir görüntü-dil modeli, metin ve görüntüleri ortak bir matematiksel uzaya yerleştirmeyi öğrenir; böylece "kırmızı balon" ifadesi, kırmızı balon görsellerinin yakınında konumlanır. İkinci olarak, bir difüzyon ağı bir gürültüleme sürecini tersine çevirmeyi öğrenir: statik bir ekranla başlar ve adım adım, dil modelinin ürettiği metin gömmesiyle yönlendirilerek bunu tutarlı bir görüntüye dönüştürür.

Çıkarım zamanında, kullanıcı istemi tokenleştirilir, dil kodlayıcısı tarafından gömülür ve ardından gürültü kaldırma döngüsünü koşullandırmak için kullanılır. Genellikle gizil difüzyon olarak adlandırılan ilgili bir teknik, gürültüleme ve gürültü kaldırmayı tam çözünürlüklü pikseller yerine sıkıştırılmış bir gizil uzayda çalıştırarak üretimi çok daha ucuz hale getirir. 2022'de tanıtılan sınıflayıcısız yönlendirme, koşullu ve koşulsuz tahminleri harmanlayarak çıktının gerçekçiliği kaybetmeden isteme daha sadık olmasını sağlar.

Neden önemlidir

Metinden görüntüye, görsel üretimi el sanatlarından diyaloğa taşır. Tasarımcılar hızlı konsept oluşturma ve ruh hali panoları için kullanır; pazarlamacılar fotoğraf çekimi olmadan kampanya görselleri üretir; eğitimciler dersleri resimler; oyun stüdyoları karakter ve ortam prototipleri hazırlar. Teknoloji aynı zamanda eğitim verisi telif hakkı, deepfake'ler ve insanların, mesleklerin ve kültürlerin nasıl tasvir edildiğine dair önyargılar hakkında pratik soruları da gündeme getirir; bu nedenle çoğu platform içerik filtreleri, C2PA meta verileri gibi kaynak sinyalleri ve kullanım politikaları ekler.

Temel türler ve yaklaşımlar

  • Difüzyon modelleri — baskın yaklaşım; Stable Diffusion, Imagen ve DALL·E 2/3 tarafından kullanılır. Rastgele gürültüyü metinle koşullandırılmış bir görüntüye adım adım dönüştürürler.
  • Otoregresif görüntü modelleri — Parti ve orijinal DALL·E'de olduğu gibi görsel tokenleri sıralı olarak tahmin ederek görüntü üretimini metin üretimi gibi ele alırlar.
  • GAN tabanlı üreteçler — StackGAN ve DALL·E mini gibi önceki sistemler üretken çekişmeli ağlar kullanıyordu; bunlar artık genel kullanım için büyük ölçüde yerini başka yöntemlere bırakmıştır.
  • Çok modlu asistanlar — GPT-4o ve Gemini gibi daha yeni modeller, anlama ve görüntü üretimini tek bir sohbet arayüzünde birleştirir.

Daha derinlemesine bir teknik genel bakış için Yüksek Çözünürlüklü Görüntü Sentezi ve Gizil Difüzyon Modelleri makalesi Stable Diffusion'ın arkasındaki mimariyi belgeler ve OpenAI'nin DALL·E 3 duyurusu modern sistemlerin istem takibi için dil modellerini nasıl entegre ettiğini açıklar.

Sıkça Sorulan Sorular

What is the difference between text-to-image and text-to-video?
Text-to-image produces a single still image from a prompt, while text-to-video generates a sequence of frames that play as a short clip. Text-to-video models, such as Sora and Runway Gen, build on the same diffusion and transformer ideas as text-to-image systems but add a temporal dimension, which makes them far more compute-intensive and still less mature.
Are text-to-image images copyrighted?
Copyright treatment varies by country and is still being settled in court. In the United States, pure AI-generated images without meaningful human authorship have generally not been granted copyright, though a human's selection, arrangement, or editing of AI output can qualify. Commercial platforms also layer their own licensing terms on top of any baseline copyright rules.
How long does it take to generate one image?
On a modern consumer GPU, a single 512x512 image typically takes 1 to 10 seconds with a standard latent diffusion model. Cloud services that run on larger models or higher resolutions can take 10 to 30 seconds. Time scales with image size, the number of denoising steps, and the hardware used.
What is a negative prompt?
A negative prompt is a separate text input that tells the model what to avoid, such as "blurry, extra fingers, watermark." During guidance, the model steers away from these concepts, which is a practical way to suppress common artifacts and unwanted styles without rewriting the main prompt.