Bir Yapay Zeka Modelindeki Parametreler Nelerdir?

Parametreler, bir sinir ağının içindeki öğrenilmiş sayısal ağırlıklardır. Ne olduklarını, nasıl çalıştıklarını ve model boyutunun neden milyarlarla ölçüldüğünü öğrenin.

Bir yapay zeka modelindeki parametreler, girdileri çıktılara nasıl dönüştürdüğünü kontrol eden, sinir ağının içinde depolanan öğrenilmiş sayısal değerlerdir. Her parametre esasen yapay nöronlar arasındaki bir bağlantı üzerindeki bir ağırlıktır ve tipik bir büyük dil modeli on ila yüz milyarlarca parametre içerir. Parametrelerin tamamı, çoğu kez modelin ağırlıkları olarak adlandırılır, eğitim sonucunda üretilen ve diske kaydedilip çıkarım zamanında yüklenen yapıttır.

Parametreler nasıl çalışır

Eğitim sırasında model örnekleri işler, tahminler üretir ve bunları doğru yanıtla karşılaştırır. Ardından bir iyileştirici, her parametreyi hatayı azaltacak yönde hafifçe iter; bu sürece gradyan inişi denir. Milyarlarca böyle güncellemenin ardından parametreler, dil, görüntü ya da modelin eğitildiği veri hakkında istatistiksel örüntüler kodlayan değerlere yerleşir.

Çıkarımda bir istem sayılara dönüştürülür ve onlarca ya da yüzlerce katmandan geçirilir. Her katmanda girdi, ağırlık matrisleriyle çarpılır ve basit doğrusal olmayan işlevlerden geçirilir; dikkat mekanizmaları modelin konumlar arasında bilgiyi harmanlamasına olanak tanır. Özgün eğitim verilerinin hiçbiri ağırlıklarda harfi harfine saklanmaz; daha çok parametreler o verilerin sıkıştırılmış bir istatistiksel temsilini tutar. Somut bir örnek: bir dönüştürücüde, her dikkat başlığı için sorgu, anahtar ve değer izdüşümleri, modelin bir sonraki kelimeyi tahmin ederken hangi önceki kelimelere dikkat edeceğine karar veren parametre matrisleridir.

Neden önemlidir

Parametre sayısı, bir modelin yeteneği için en çok başvurulan vekildir ve bunun haklı nedenleri vardır: daha fazla parametre, ağa örüntüleri ezberleme ve genelleme konusunda daha fazla kapasite kazandırır; en büyük modern modeller, küçük olanlarda bulunmayan ortaya çıkan yetenekler sergiler. Parametre sayısı aynı zamanda pratik kaygıları da beraberinde getirir: bellek (her parametre tipik olarak FP16'da 2 bayt ya da agresif şekilde kuantize edildiğinde 1 bayt), token başına hesaplama maliyeti, gecikme ve modeli çalıştırmak ya da ince ayar yapmak için gereken donanım. Bu yüzden 7 milyar parametreli bir model bir dizüstü bilgisayarda çalışabilirken 400 milyar parametreli bir model genellikle çalışamaz.

Temel türler

  • Ağırlıklar: parametrelerin büyük bölümü; girdileri ve gizli durumları çarpan matrislerde saklanır.
  • Sapmalar: aktivasyonları kaydıran küçük ek toplam değerleri (her katman veya her nöron için bir tane).
  • Gömme parametreleri: token kimliklerini vektörlere dönüştüren, toplam parametre bütçesine dahil edilen arama tabloları.
  • Dikkat parametreleri: her dönüştürücü bloğundaki sorgu, anahtar, değer ve çıktı izdüşümleri.
  • İleri besleme parametreleri: her dönüştürücü bloğundaki iki büyük yoğun katman; toplam ağırlıkların çoğunluğunu genellikle bunlar oluşturur.

Parametreler yaygın olarak hassasiyetlerine göre de gruplanır. "70B" olarak tanımlanan bir model 70 milyar parametreye sahiptir, ancak dosya boyutu bu parametrelerin 32 bit, 16 bit, 8 bit ya da 4 bit biçiminde saklanıp saklanmadığına bağlıdır; bu yüzden aynı model diskte yaklaşık 140 GB'tan 35 GB'a kadar bir aralıkta olabilir. Parametreleri anlamak, ince ayar ve kuantizasyondan bağlam uzunluğu ve çıkarım maliyetine kadar modern yapay zekadaki neredeyse her kavramı aydınlatır.

Bunları da beğenebilirsiniz

İlgili yazılar