Eğitim Verisi Nedir?

Eğitim verisi, bir makine öğrenimi modelinin öğrendiği örneklerdir. Eğitim verisinin ne olduğunu, model davranışını nasıl şekillendirdiğini ve kalitenin neden önemli olduğunu öğrenin.

Eğitim verisi, bir makine öğrenimi modelinin bir görevi öğrenmek için incelediği örnekler koleksiyonudur. Her örnek genellikle bir girdiyi beklenen bir çıktıyla eşleştirir; örneğin bir e-postayı istenmeyen posta veya istenmeyen posta değil etiketiyle, bir cümleyi ait olduğu dille veya bir görseli içerdiği nesneyle eşleştirebilir. Eğitim sırasında model, iç parametrelerini tahminlerini verideki örüntülerle eşleşecek şekilde ayarlar; dolayısıyla veri kümesi, modelin ne yapmayı (ve ne yapmamayı) öğreneceğini fiilen tanımlar.

Eğitim Verisi Nasıl Çalışır

En yaygın kurulum olan denetimli öğrenmede her örnek doğru bir yanıtla birlikte eklenir. Örneğin ürün yorumlarından oluşan bir veri kümesi "olumlu" veya "olumsuz" olarak etiketlenebilir ve model, yeni yorumları bu kategorilere, aralarındaki istatistiksel düzenlilikleri bularak eşlemeyi öğrenir. Veri; modeli eğitmek için kullanılan bir eğitim kümesine, ince ayar yapmak için kullanılan bir doğrulama kümesine ve modelin daha önce görmediği örnekler üzerindeki performansını tahmin etmek için kullanılan bir test kümesine ayrılır.

Diğer paradigmalar farklı veri biçimlerine dayanır. Denetimsiz öğrenme, etiket olmadan ham girdileri kullanır ve genellikle kümeler veya konular gibi yapıları keşfetmek için kullanılır. Öz-denetimli öğrenme etiketleri verinin kendisinden üretir; çoğu büyük dil modelinin büyük metin korpusları üzerinde bu şekilde ön eğitime tabi tutulmasının nedeni budur. Veri kümesinin ölçeği, dengesi ve temsil gücü, modelin genelleştirebileceklerini doğrudan etkiler.

Neden Önemlidir

Eğitim verisi, çoğu zaman algoritma seçiminden daha fazla olmak üzere, model davranışının en büyük tek belirleyicisidir. Veri önyargılı, yetersiz veya temsil gücü düşükse model bu kusurları yeniden üretecek ve bazen daha da artıracaktır. Gizlilik, telif hakkı ve rıza ile ilgili endişeler de veri katmanında yer alır; çünkü bir model eğitim kümesindeki hassas parçaları belleğinde tutabilir ve yeniden yüzeye çıkarabilir. Bu nedenlerle veri seçimi, belgelendirme ve değerlendirme, sorumlu yapay zekâ geliştirmenin birinci sınıf bileşenleri hâline gelmiştir.

Eğitim Verisinin Temel Türleri

  • Etiketli veri — her örnek, sınıflandırma ve algılama gibi denetimli öğrenme görevlerinde kullanılan, insan tarafından sağlanmış veya makine tarafından üretilmiş bir ek açıklamaya sahiptir.
  • Etiketsiz veri — denetimsiz ve öz-denetimli ön eğitimde kullanılan, ek açıklaması olmayan ham girdiler.
  • Sentetik veri — simülatörler veya diğer modeller tarafından üretilen; gerçek verinin az veya hassas olduğu durumlarda yararlı olan örnekler.
  • Yönerge ve tercih verisi — ideal yanıtlarla eşleştirilmiş istemler veya kaliteye göre sıralanmış çıktı çiftleri; modelleri insan niyetiyle hizalamak için kullanılır.
  • Değerlendirme kıyaslama ölçütleri — yetenekleri ölçen, özenle hazırlanmış test kümeleri; ancak modelin parametrelerini eğitmek için kullanılmazlar.

Veri kümesi oluşturma ve etkileri hakkında daha derin bir inceleme için Data-Centric AI kitabının "Veri Kalitesi" bölümü ve Papers with Code liderlik tabloları faydalı başlangıç noktalarıdır.

Bunları da beğenebilirsiniz

İlgili yazılar