Metinden görüntüye, yazılı açıklamalardan doğrudan görüntü üreten bir üretken yapay zekâ kategorisidir. Kullanıcı "uzayda süzülen bir corgi astronot, dijital sanat" gibi bir ifade yazar ve model saniyeler içinde, çizim, fotoğraf veya stok kütüphane gerektirmeden eşleşen bir görüntü döndürür. Alan, 2021'den sonra difüzyon modellerinin kısa metin istemlerinin yüksek kaliteli, çeşitli görüntülere ölçekli olarak dönüştürülebileceğini göstermesiyle hızla ilerledi.
Metinden görüntüye nasıl çalışır
Modern metinden görüntüye sistemleri bir dil kodlayıcısıyla eşleştirilmiş bir difüzyon modeli üzerine kuruludur. Eğitim iki aşamada gerçekleşir. Önce CLIP gibi bir görüntü-dil modeli, metin ve görüntüleri ortak bir matematiksel uzaya yerleştirmeyi öğrenir; böylece "kırmızı balon" ifadesi, kırmızı balon görsellerinin yakınında konumlanır. İkinci olarak, bir difüzyon ağı bir gürültüleme sürecini tersine çevirmeyi öğrenir: statik bir ekranla başlar ve adım adım, dil modelinin ürettiği metin gömmesiyle yönlendirilerek bunu tutarlı bir görüntüye dönüştürür.
Çıkarım zamanında, kullanıcı istemi tokenleştirilir, dil kodlayıcısı tarafından gömülür ve ardından gürültü kaldırma döngüsünü koşullandırmak için kullanılır. Genellikle gizil difüzyon olarak adlandırılan ilgili bir teknik, gürültüleme ve gürültü kaldırmayı tam çözünürlüklü pikseller yerine sıkıştırılmış bir gizil uzayda çalıştırarak üretimi çok daha ucuz hale getirir. 2022'de tanıtılan sınıflayıcısız yönlendirme, koşullu ve koşulsuz tahminleri harmanlayarak çıktının gerçekçiliği kaybetmeden isteme daha sadık olmasını sağlar.
Neden önemlidir
Metinden görüntüye, görsel üretimi el sanatlarından diyaloğa taşır. Tasarımcılar hızlı konsept oluşturma ve ruh hali panoları için kullanır; pazarlamacılar fotoğraf çekimi olmadan kampanya görselleri üretir; eğitimciler dersleri resimler; oyun stüdyoları karakter ve ortam prototipleri hazırlar. Teknoloji aynı zamanda eğitim verisi telif hakkı, deepfake'ler ve insanların, mesleklerin ve kültürlerin nasıl tasvir edildiğine dair önyargılar hakkında pratik soruları da gündeme getirir; bu nedenle çoğu platform içerik filtreleri, C2PA meta verileri gibi kaynak sinyalleri ve kullanım politikaları ekler.
Temel türler ve yaklaşımlar
- Difüzyon modelleri — baskın yaklaşım; Stable Diffusion, Imagen ve DALL·E 2/3 tarafından kullanılır. Rastgele gürültüyü metinle koşullandırılmış bir görüntüye adım adım dönüştürürler.
- Otoregresif görüntü modelleri — Parti ve orijinal DALL·E'de olduğu gibi görsel tokenleri sıralı olarak tahmin ederek görüntü üretimini metin üretimi gibi ele alırlar.
- GAN tabanlı üreteçler — StackGAN ve DALL·E mini gibi önceki sistemler üretken çekişmeli ağlar kullanıyordu; bunlar artık genel kullanım için büyük ölçüde yerini başka yöntemlere bırakmıştır.
- Çok modlu asistanlar — GPT-4o ve Gemini gibi daha yeni modeller, anlama ve görüntü üretimini tek bir sohbet arayüzünde birleştirir.
Daha derinlemesine bir teknik genel bakış için Yüksek Çözünürlüklü Görüntü Sentezi ve Gizil Difüzyon Modelleri makalesi Stable Diffusion'ın arkasındaki mimariyi belgeler ve OpenAI'nin DALL·E 3 duyurusu modern sistemlerin istem takibi için dil modellerini nasıl entegre ettiğini açıklar.