Sıfır atışlı öğrenme (ZSL), bir modelin eğitim sırasında hiç görmediği kategoriler veya görevler için doğru tahminler yapmasının beklendiği bir makine öğrenimi paradigmasıdır. Model, her yeni sınıfı etiketli örneklerden öğrenmek yerine, bilinmeyen duruma genelleme yapmak için yan bilgilere — örneğin nitelik açıklamaları, sınıf adları veya doğal dil talimatları — güvenir. Bu yaklaşım, modern temel modellerin çalışma biçiminin merkezinde yer alır; çünkü tek bir modelin yeniden eğitim olmadan binlerce görevi yerine getirmesini sağlar.
Sıfır Atışlı Öğrenme Nasıl Çalışır
Temel fikir, görülmüş ve görülmemiş sınıfların her ikisinin de temsil edilebileceği ortak bir anlamsal uzay öğrenmektir. Eğitim sırasında model, etiketli örnekleri açıklayıcı bilgilerle eşleştirir (örneğin, "zebra" etiketli bir görsel, "siyah-beyaz çizgili, at benzeri bir hayvan" metniyle eşleştirilir). Ardından iki modaliteyi hizalayarak, çıkarım zamanında etiketlenmemiş bir girdinin en yakın metinsel veya nitelik açıklamasıyla — modelin hiç eğitilmediği sınıfların açıklamaları dahil — eşleştirilmesini öğrenir.
CLIP, GPT ve Gemini gibi büyük dil ve görüntü-dil modelleri bu fikri daha da ileriye taşır. Bunlar, eşleştirilmiş görüntü-metin veya talimat-yanıt verilerinden oluşan geniş derlemler üzerinde eğitilir ve çıkarım sırasında istenen çıktının açıklamasıyla yönlendirilir. Basit bir örnek: "Bu incelemeyi olumlu, olumsuz veya kayıtsız olarak sınıflandır," istemi verildiğinde, duygu verileri üzerinde hiç ince ayar yapılmamış bir model bile faydalı bir yanıt üretebilir; çünkü istemin kendi dili eksik sınıf tanımlarını sağlar. Daha biçimsel bir inceleme için, bu alanın tanımlanmasına yardımcı olan Palatucci ve diğerlerinin NeurIPS 2009 makalesine bakabilirsiniz.
Neden Önemlidir
Sıfır atışlı öğrenme, uygulamalı yapay zekadaki en maliyetli darboğazlardan birini ele alır: etiketli veri. Her yeni sınıf, dil veya görev için örnek toplamak ve etiketlemek yavaştır ve çoğu zaman pratik değildir; özellikle nadir türler, niş endüstriyel kusurlar veya düşük kaynaklı diller gibi uzun kuyruklu alanlarda. Sıfır atışlı yöntemler, diğer örneklerden öğrenilen ortak yapıdan yararlanarak bu ortamlarda ek eğitim olmadan kullanılabilir performans sunabilir.
Aynı zamanda ürünleri daha esnek hale getirir. Tek bir görüntü sınıflandırıcısı, metin istemi değiştirilerek çalışma zamanında yeni bir kategoriye yönlendirilebilir; tek bir çeviri modeli yeniden eğitim olmadan diller arasında geçiş yapabilir ve tek bir asistan isteğe bağlı olarak yeni kişilikler veya formatlar benimseyebilir. Bu genellik, CLIP ve benzeri görüntü-dil modellerinin modern bilgisayarlı görüntü işleme hatlarında varsayılan bileşenler haline gelmesinin başlıca nedenidir.
Temel Türler
- Geleneksel nitelik tabanlı ZSL: Her sınıf, elle hazırlanmış bir nitelik vektörüyle (örn. "kanatları vardır," "suda yaşar") tanımlanır ve model, görülmemiş sınıflar için bu nitelikleri tahmin etmeyi öğrenir.
- Gömme tabanlı ZSL: Sınıflar, ortak bir uzayda gömme vektörleri olarak temsil edilir (genellikle sözcük vektörlerinden veya dil modellerinden) ve yeni sınıflar, tahmin edilen girdi gömmelerine benzerlikle eşleştirilir.
- Üretken ZSL: Üretken bir model, görülmemiş sınıflar için sentetik özellikler sentezleyerek sıfır atışlı öğrenmeyi etkili bir şekilde standart denetimli bir probleme dönüştürür.
- Temel modellerle istem tabanlı ZSL: Görev belirtimi doğal dil olarak iletilir; model istemi yorumlar ve herhangi bir parametre güncellemesi olmadan yanıt verir.
Sıfır atışlı öğrenme sihir değildir — performansı, bol etiketli veri mevcut olduğunda tamamen denetimli modellerin hâlâ gerisinde kalır ve yardımcı açıklamalar belirsiz veya yanıltıcı olduğunda başarısız olabilir. Yine de artık büyük yapay zeka sistemleri için varsayılan bir beklentidir ve yalnızca talimatlardan yeni görevlere genelleme yapabilme yeteneği, günümüzün en yetenekli modellerinin belirleyici özelliğidir.