📖

Eğitim Verileri nedir?

Eğitim verisi, bir makine öğrenimi modelinin öğrendiği örneklerdir. Eğitim verisinin ne olduğunu, model davranışını nasıl şekillendirdiğini ve kalitenin neden önemli olduğunu öğrenin.

Eğitim verisi, bir makine öğrenimi modelinin bir görevi öğrenmek için incelediği örnekler koleksiyonudur. Her örnek genellikle bir girdiyi beklenen bir çıktıyla eşleştirir; örneğin bir e-postayı istenmeyen posta veya istenmeyen posta değil etiketiyle, bir cümleyi ait olduğu dille veya bir görseli içerdiği nesneyle eşleştirebilir. Eğitim sırasında model, iç parametrelerini tahminlerini verideki örüntülerle eşleşecek şekilde ayarlar; dolayısıyla veri kümesi, modelin ne yapmayı (ve ne yapmamayı) öğreneceğini fiilen tanımlar.

Eğitim Verisi Nasıl Çalışır

En yaygın kurulum olan denetimli öğrenmede her örnek doğru bir yanıtla birlikte eklenir. Örneğin ürün yorumlarından oluşan bir veri kümesi "olumlu" veya "olumsuz" olarak etiketlenebilir ve model, yeni yorumları bu kategorilere, aralarındaki istatistiksel düzenlilikleri bularak eşlemeyi öğrenir. Veri; modeli eğitmek için kullanılan bir eğitim kümesine, ince ayar yapmak için kullanılan bir doğrulama kümesine ve modelin daha önce görmediği örnekler üzerindeki performansını tahmin etmek için kullanılan bir test kümesine ayrılır.

Diğer paradigmalar farklı veri biçimlerine dayanır. Denetimsiz öğrenme, etiket olmadan ham girdileri kullanır ve genellikle kümeler veya konular gibi yapıları keşfetmek için kullanılır. Öz-denetimli öğrenme etiketleri verinin kendisinden üretir; çoğu büyük dil modelinin büyük metin korpusları üzerinde bu şekilde ön eğitime tabi tutulmasının nedeni budur. Veri kümesinin ölçeği, dengesi ve temsil gücü, modelin genelleştirebileceklerini doğrudan etkiler.

Neden Önemlidir

Eğitim verisi, çoğu zaman algoritma seçiminden daha fazla olmak üzere, model davranışının en büyük tek belirleyicisidir. Veri önyargılı, yetersiz veya temsil gücü düşükse model bu kusurları yeniden üretecek ve bazen daha da artıracaktır. Gizlilik, telif hakkı ve rıza ile ilgili endişeler de veri katmanında yer alır; çünkü bir model eğitim kümesindeki hassas parçaları belleğinde tutabilir ve yeniden yüzeye çıkarabilir. Bu nedenlerle veri seçimi, belgelendirme ve değerlendirme, sorumlu yapay zekâ geliştirmenin birinci sınıf bileşenleri hâline gelmiştir.

Eğitim Verisinin Temel Türleri

  • Etiketli veri — her örnek, sınıflandırma ve algılama gibi denetimli öğrenme görevlerinde kullanılan, insan tarafından sağlanmış veya makine tarafından üretilmiş bir ek açıklamaya sahiptir.
  • Etiketsiz veri — denetimsiz ve öz-denetimli ön eğitimde kullanılan, ek açıklaması olmayan ham girdiler.
  • Sentetik veri — simülatörler veya diğer modeller tarafından üretilen; gerçek verinin az veya hassas olduğu durumlarda yararlı olan örnekler.
  • Yönerge ve tercih verisi — ideal yanıtlarla eşleştirilmiş istemler veya kaliteye göre sıralanmış çıktı çiftleri; modelleri insan niyetiyle hizalamak için kullanılır.
  • Değerlendirme kıyaslama ölçütleri — yetenekleri ölçen, özenle hazırlanmış test kümeleri; ancak modelin parametrelerini eğitmek için kullanılmazlar.

Veri kümesi oluşturma ve etkileri hakkında daha derin bir inceleme için Data-Centric AI kitabının "Veri Kalitesi" bölümü ve Papers with Code liderlik tabloları faydalı başlangıç noktalarıdır.

Sıkça Sorulan Sorular

What is the difference between training data and test data?
Training data is the examples a model learns from during the training phase. Test data is a separate, held-out set used only after training to estimate how the model performs on unseen inputs. Keeping the two strictly separate is essential; reusing test data for training produces overly optimistic results that do not reflect real-world performance.
How much training data does a machine learning model need?
It depends on the task and the model. Simple classifiers can perform well with a few thousand labeled examples, while modern large language models are trained on trillions of words. The more relevant and well-labeled the data is, the less of it is typically needed to reach a given level of accuracy.
Can AI be trained without labeled data?
Yes. Unsupervised and self-supervised learning use raw, unlabeled inputs, and most foundation models are first pretrained this way on large text or image corpora. Labels are then often added in a second, smaller fine-tuning stage to specialize the model for a specific task.
Why is training data quality more important than quantity?
Models learn what their data teaches, so noisy, biased, or mislabeled examples teach the wrong patterns. A smaller, carefully curated dataset often outperforms a larger, messier one, which is why data cleaning, deduplication, and balanced sampling are central to modern AI development.