Few-shot öğrenme, modelin yalnızca az sayıda etiketli örnek gördükten — çoğu zaman bir (one-shot) ya da hiç (zero-shot) örnek kadar — sonra yeni bir göreve veya sınıfa genelleme yapmasının beklendiği bir makine öğrenimi paradigmasıdır. Geleneksel denetimli öğrenmenin güçlü bir performans elde etmek için genellikle büyük etiketli veri kümeleri gerektirmesinin aksine, bu yaklaşım çok daha az veriyle çalışır. Özellikle büyük dil modellerinin yükselmesiyle öne çıkmıştır; bu modeller, doğrudan girdi istemlerinde verilen talimatları ve örnekleri yorumlayabilir.
Few-shot öğrenme nasıl çalışır
Modern few-shot öğrenme sistemlerinin çoğu, büyük veri kümelerinden geniş bilgiyi çoktan edinmiş büyük bir önceden eğitilmiş modelle başlar. Yeni bir görevi yerine getirmek için modele girdisinin içinde küçük bir gösterim seti verilir; bu teknik bağlam içi öğrenme (in-context learning) olarak bilinir. Örneğin, modele müşteri geri bildirimini olumlu, olumsuz veya nötr olarak sınıflandırmayı öğretmek için bir geliştirici isteme üç etiketli örnek ekleyebilir: "Harika hizmet!" → olumlu, "Yavaş yanıt." → olumsuz ve "İdare ederdi." → nötr. Model, hiçbir ağırlık güncellemesi yapmadan aynı kalıbı yeni, etiketlenmemiş girdilere uygular.
İstemlemenin ötesinde, few-shot öğrenme, önceden eğitilmiş bir modelin küçük bir etiketli veri kümesi üzerinde ince ayar yapılmasıyla ya da modeli yeni görevleri hızla öğrenecek şekilde açıkça eğiten meta-öğrenme yaklaşımlarıyla da uygulanabilir. Tüm durumlarda hedef aynıdır: birkaç örneğin yeni bir davranışı tanımlamaya yetmesi için önceki bilgiyi kullanmak.
Neden önemlidir
Few-shot öğrenme, yapay zekayı özelleşmiş görevlere uyarlamak için gereken maliyeti ve süreyi büyük ölçüde düşürür. Tıbbi tanı, hukuki inceleme veya nadir dillerin çevirisi gibi etiketli verinin kıt, pahalı veya hassas olduğu alanlarda binlerce örnek toplamak çoğu zaman pratik değildir. Few-shot yöntemleri, küçük ve özenle seçilmiş örneklerden faydalı uygulamalar geliştirmeyi mümkün kılar. Ayrıca daha hızlı yinelemeye olanak tanır; ekipler büyük etiketleme projelerini beklemeden istemleri veya ince ayarları hızla prototipleyip iyileştirebilir.
Temel türler
- One-shot öğrenme: model, her sınıftan öğrenmek için tek bir örnek alır.
- Few-shot öğrenme (k-shot): model, her sınıf için genellikle 2 ila 10 arasında değişen az sayıda örnek alır.
- Zero-shot öğrenme: model, görevi hiç örnek olmadan, yalnızca talimatlara veya açıklamalara dayanarak yerine getirir.
- İstem tabanlı few-shot öğrenme: örnekler, doğrudan girdi isteminde sağlanır; bu yaklaşım GPT-3 ve sonrası tarafından yaygınlaştırılmıştır.
- Meta-öğrenme: model, birçok ilgili görev arasında açıkça eğitilir, böylece minimum veriyle yeni görevlere uyum sağlayabilir; MAML ve prototipik ağlar gibi yöntemleri kapsayan bir ailedir.
Few-shot öğrenme, modern temel modellerin belirleyici yeteneklerinden biridir ve istem mühendisliği, bilgi erişim destekli üretim (RAG) ve LoRA gibi hafif ince ayar tekniklerinin merkezinde yer alır. Temel modeller gelişmeye devam ettikçe, güvenilir görev performansı için gereken örnek sayısı azalma eğilimi gösterir; bu da yapay zeka özelleştirmesini, özel veri etiketleme süreçleri olmayan ekipler için erişilebilir kılar.