📖

Sıfır Atışlı Öğrenme nedir?

Sıfır atışlı öğrenme açıklandı: modellerin eğitim sırasında hiç görmedikleri sınıfları nasıl tanıdığı veya ele aldığı ve bunun ölçeklenebilir yapay zeka için neden önemli olduğu.

Sıfır atışlı öğrenme (ZSL), bir modelin eğitim sırasında hiç görmediği kategoriler veya görevler için doğru tahminler yapmasının beklendiği bir makine öğrenimi paradigmasıdır. Model, her yeni sınıfı etiketli örneklerden öğrenmek yerine, bilinmeyen duruma genelleme yapmak için yan bilgilere — örneğin nitelik açıklamaları, sınıf adları veya doğal dil talimatları — güvenir. Bu yaklaşım, modern temel modellerin çalışma biçiminin merkezinde yer alır; çünkü tek bir modelin yeniden eğitim olmadan binlerce görevi yerine getirmesini sağlar.

Sıfır Atışlı Öğrenme Nasıl Çalışır

Temel fikir, görülmüş ve görülmemiş sınıfların her ikisinin de temsil edilebileceği ortak bir anlamsal uzay öğrenmektir. Eğitim sırasında model, etiketli örnekleri açıklayıcı bilgilerle eşleştirir (örneğin, "zebra" etiketli bir görsel, "siyah-beyaz çizgili, at benzeri bir hayvan" metniyle eşleştirilir). Ardından iki modaliteyi hizalayarak, çıkarım zamanında etiketlenmemiş bir girdinin en yakın metinsel veya nitelik açıklamasıyla — modelin hiç eğitilmediği sınıfların açıklamaları dahil — eşleştirilmesini öğrenir.

CLIP, GPT ve Gemini gibi büyük dil ve görüntü-dil modelleri bu fikri daha da ileriye taşır. Bunlar, eşleştirilmiş görüntü-metin veya talimat-yanıt verilerinden oluşan geniş derlemler üzerinde eğitilir ve çıkarım sırasında istenen çıktının açıklamasıyla yönlendirilir. Basit bir örnek: "Bu incelemeyi olumlu, olumsuz veya kayıtsız olarak sınıflandır," istemi verildiğinde, duygu verileri üzerinde hiç ince ayar yapılmamış bir model bile faydalı bir yanıt üretebilir; çünkü istemin kendi dili eksik sınıf tanımlarını sağlar. Daha biçimsel bir inceleme için, bu alanın tanımlanmasına yardımcı olan Palatucci ve diğerlerinin NeurIPS 2009 makalesine bakabilirsiniz.

Neden Önemlidir

Sıfır atışlı öğrenme, uygulamalı yapay zekadaki en maliyetli darboğazlardan birini ele alır: etiketli veri. Her yeni sınıf, dil veya görev için örnek toplamak ve etiketlemek yavaştır ve çoğu zaman pratik değildir; özellikle nadir türler, niş endüstriyel kusurlar veya düşük kaynaklı diller gibi uzun kuyruklu alanlarda. Sıfır atışlı yöntemler, diğer örneklerden öğrenilen ortak yapıdan yararlanarak bu ortamlarda ek eğitim olmadan kullanılabilir performans sunabilir.

Aynı zamanda ürünleri daha esnek hale getirir. Tek bir görüntü sınıflandırıcısı, metin istemi değiştirilerek çalışma zamanında yeni bir kategoriye yönlendirilebilir; tek bir çeviri modeli yeniden eğitim olmadan diller arasında geçiş yapabilir ve tek bir asistan isteğe bağlı olarak yeni kişilikler veya formatlar benimseyebilir. Bu genellik, CLIP ve benzeri görüntü-dil modellerinin modern bilgisayarlı görüntü işleme hatlarında varsayılan bileşenler haline gelmesinin başlıca nedenidir.

Temel Türler

  • Geleneksel nitelik tabanlı ZSL: Her sınıf, elle hazırlanmış bir nitelik vektörüyle (örn. "kanatları vardır," "suda yaşar") tanımlanır ve model, görülmemiş sınıflar için bu nitelikleri tahmin etmeyi öğrenir.
  • Gömme tabanlı ZSL: Sınıflar, ortak bir uzayda gömme vektörleri olarak temsil edilir (genellikle sözcük vektörlerinden veya dil modellerinden) ve yeni sınıflar, tahmin edilen girdi gömmelerine benzerlikle eşleştirilir.
  • Üretken ZSL: Üretken bir model, görülmemiş sınıflar için sentetik özellikler sentezleyerek sıfır atışlı öğrenmeyi etkili bir şekilde standart denetimli bir probleme dönüştürür.
  • Temel modellerle istem tabanlı ZSL: Görev belirtimi doğal dil olarak iletilir; model istemi yorumlar ve herhangi bir parametre güncellemesi olmadan yanıt verir.

Sıfır atışlı öğrenme sihir değildir — performansı, bol etiketli veri mevcut olduğunda tamamen denetimli modellerin hâlâ gerisinde kalır ve yardımcı açıklamalar belirsiz veya yanıltıcı olduğunda başarısız olabilir. Yine de artık büyük yapay zeka sistemleri için varsayılan bir beklentidir ve yalnızca talimatlardan yeni görevlere genelleme yapabilme yeteneği, günümüzün en yetenekli modellerinin belirleyici özelliğidir.

Sıkça Sorulan Sorular

What is the difference between zero-shot and few-shot learning?
Zero-shot learning makes predictions for unseen classes with no examples at all, relying on descriptions or prompts. Few-shot learning provides a small number of labeled examples — typically one to ten — so the model can adapt its behavior. Few-shot usually outperforms zero-shot on the same task, at the cost of requiring some labeled data.
Is ChatGPT an example of zero-shot learning?
Yes. When a user gives ChatGPT a task it was never explicitly trained on, such as rewriting text in a specific style or classifying an unusual list, the model is performing zero-shot generalization. It interprets the natural-language instruction and produces a response using only the patterns learned during pre-training.
What are the main limitations of zero-shot learning?
Zero-shot models depend heavily on the quality of the auxiliary descriptions or prompts they receive. They also tend to be less accurate than supervised models when plenty of labeled data is available, and they can be biased toward classes they have seen during training — a problem known as the hubness or bias problem. Domain shift between training and deployment settings can further degrade performance.
How is zero-shot learning evaluated?
Models are typically evaluated on a held-out set of classes that never appear in training, measuring metrics like top-1 or top-5 accuracy against the unseen-class labels. Standard benchmarks include UCF101, ImageNet-21K splits, and a range of text classification and question-answering suites used in NLP research.