Metinden videoya, üretken yapay zekânın yazılı bir istemden video üreten bir dalıdır. "Güneşli bir çayırda koşan bir corgi yavrusu" gibi bir cümle verildiğinde, model açıklamayla eşleşen kısa bir klip çıktı olarak üretir. Metinden görüntüye sistemlerin arkasındaki aynı fikri genişletir; ancak birçok kare boyunca tutarlı hareket üretmenin daha zorlu görevini de ekler.
Metinden videoya nasıl çalışır
Mevcut çoğu metinden videoya modeli üç aşamalı bir işlem hattı üzerine kuruludur. İlk olarak, genellikle büyük bir dil modeli veya CLIP tarzı kontrastif bir kodlayıcı olan bir metin kodlayıcı, istemi anlamını yakalayan sayısal bir temsile dönüştürür. İkinci olarak, tipik olarak bir video difüzyon modeli veya eşleştirilmiş metin-video verileri üzerinde eğitilmiş bir dönüştürücü olan üretken model, rastgele gizil kareleri bu temsille hizalanmış bir diziye dönüştürür. Difüzyon modelleri, rastgele tensörlerden kademeli olarak gürültüyü kaldırarak öğrenir ve keskin, tutarlı sonuçlar ürettikleri için baskın yaklaşım haline gelmişlerdir.
Üçüncü aşama, nesnelerin, aydınlatmanın ve stilin kareden kareye sabit kalması, titrememesi veya şekil değiştirmemesi anlamına gelen zamansal tutarlılığı sağlar. Burada kullanılan teknikler arasında zamanı üçüncü bir boyut olarak ele alan 3B evrişimler, sonraki karelerin öncekilere dikkat etmesini sağlayan zamansal dikkat katmanları ve açık hareket koşullandırma sinyalleri bulunur. Eğitim verileri büyük ve çeşitlidir: modeller açık video-altyazı derlemleri gibi altyazılı video veri kümelerinden öğrenir; böylece sistem hiç görmediği istemlere de genelleme yapabilir. Basit bir örnek: "ahşap bir masanın üzerinde yuvarlanan kırmızı bir top" yazıldığında, model şekli, rengi, yüzeyi ve hareketi çıkarır, ardından topun sol taraftan girdiği, sağa doğru hareket ettiği ve tutarlı bir gölge oluşturduğu birkaç saniyelik görüntü oluşturur.
Neden önemlidir
Metinden videoya, hareketli görüntü üretmenin maliyetini ve beceri engellerini düşürür. Film yapımcıları, reklamcılar, eğitimciler ve oyun stüdyoları bunu sahneleri prototiplemek, B-roll üretmek veya talep üzerine stok görüntü oluşturmak için kullanır. Küçük ekipler için belirli işlerde kameralara, oyunculara ve kurguculara olan ihtiyacı ortadan kaldırır. Araştırmacılar için çok modlu anlayışın bir ölçütüdür; çünkü bir cümleden video sentezleyebilen bir model, nesnelerin nasıl hareket ettiğini, ışığın nasıl davrandığını ve sahnelerin nasıl oluşturulduğunu örtük olarak bilmelidir. Teknoloji aynı zamanda telif hakkı, deepfake'ler ve sentetik medyanın etiketlenmesiyle ilgili önemli soruları da gündeme getirir; bu nedenle yapay zekâ tarafından üretilen videoyu dağıtan platformlar çıktılara giderek daha fazla kaynak meta verisi eklemektedir.
Metinden videoya sistemlerinin temel türleri
- Difüzyon tabanlı modeller Sora, Runway Gen-3 ve Stable Video Diffusion gibi; görüntü difüzyonunu zaman eksenine genişletir ve şu anda görsel kalitede liderdir.
- Dönüştürücü tabanlı modeller MovieGen ve Phenaki gibi; videoyu otoregresif olarak veya token grupları halinde üretir ve genellikle daha uzun klipleri ve daha güçlü istem bağlılığını destekler.
- Görüntüden videoya sistemleri bir referans kare ve istemle başlar ve bunu hareketlendirir; kontrollü düzenlemeler ve stilize hareket için kullanışlıdır.
- Açık kaynak sürümler ModelScope, AnimateDiff ve OpenSora dahil; teknolojiyi araştırmacıların ve yerel GPU'larla çalışan hobilerin erişimine açmıştır.
Metinden videoya hâlâ genç bir alan: klipler genellikle birkaç saniye uzunluğundadır ve modeller karmaşık fizik veya uzun mesafeli nedensellik konusunda zorlanabilir. Zamansal tutarlılık, kontrol edilebilirlik ve uzunluk alanlarındaki iyileştirmeler ana sınırı oluşturur ve her nesilde çıktılar gerçek görüntüden ayırt edilmesi giderek zorlaşır. Daha derin bir teknik genel bakış için Sora teknik raporu (OpenAI) iyi bir başlangıç noktasıdır.