📖

Parametreler (Yapay Zeka Modeli) nedir?

Parametreler, bir sinir ağının içindeki öğrenilmiş sayısal ağırlıklardır. Ne olduklarını, nasıl çalıştıklarını ve model boyutunun neden milyarlarla ölçüldüğünü öğrenin.

Bir yapay zeka modelindeki parametreler, girdileri çıktılara nasıl dönüştürdüğünü kontrol eden, sinir ağının içinde depolanan öğrenilmiş sayısal değerlerdir. Her parametre esasen yapay nöronlar arasındaki bir bağlantı üzerindeki bir ağırlıktır ve tipik bir büyük dil modeli on ila yüz milyarlarca parametre içerir. Parametrelerin tamamı, çoğu kez modelin ağırlıkları olarak adlandırılır, eğitim sonucunda üretilen ve diske kaydedilip çıkarım zamanında yüklenen yapıttır.

Parametreler nasıl çalışır

Eğitim sırasında model örnekleri işler, tahminler üretir ve bunları doğru yanıtla karşılaştırır. Ardından bir iyileştirici, her parametreyi hatayı azaltacak yönde hafifçe iter; bu sürece gradyan inişi denir. Milyarlarca böyle güncellemenin ardından parametreler, dil, görüntü ya da modelin eğitildiği veri hakkında istatistiksel örüntüler kodlayan değerlere yerleşir.

Çıkarımda bir istem sayılara dönüştürülür ve onlarca ya da yüzlerce katmandan geçirilir. Her katmanda girdi, ağırlık matrisleriyle çarpılır ve basit doğrusal olmayan işlevlerden geçirilir; dikkat mekanizmaları modelin konumlar arasında bilgiyi harmanlamasına olanak tanır. Özgün eğitim verilerinin hiçbiri ağırlıklarda harfi harfine saklanmaz; daha çok parametreler o verilerin sıkıştırılmış bir istatistiksel temsilini tutar. Somut bir örnek: bir dönüştürücüde, her dikkat başlığı için sorgu, anahtar ve değer izdüşümleri, modelin bir sonraki kelimeyi tahmin ederken hangi önceki kelimelere dikkat edeceğine karar veren parametre matrisleridir.

Neden önemlidir

Parametre sayısı, bir modelin yeteneği için en çok başvurulan vekildir ve bunun haklı nedenleri vardır: daha fazla parametre, ağa örüntüleri ezberleme ve genelleme konusunda daha fazla kapasite kazandırır; en büyük modern modeller, küçük olanlarda bulunmayan ortaya çıkan yetenekler sergiler. Parametre sayısı aynı zamanda pratik kaygıları da beraberinde getirir: bellek (her parametre tipik olarak FP16'da 2 bayt ya da agresif şekilde kuantize edildiğinde 1 bayt), token başına hesaplama maliyeti, gecikme ve modeli çalıştırmak ya da ince ayar yapmak için gereken donanım. Bu yüzden 7 milyar parametreli bir model bir dizüstü bilgisayarda çalışabilirken 400 milyar parametreli bir model genellikle çalışamaz.

Temel türler

  • Ağırlıklar: parametrelerin büyük bölümü; girdileri ve gizli durumları çarpan matrislerde saklanır.
  • Sapmalar: aktivasyonları kaydıran küçük ek toplam değerleri (her katman veya her nöron için bir tane).
  • Gömme parametreleri: token kimliklerini vektörlere dönüştüren, toplam parametre bütçesine dahil edilen arama tabloları.
  • Dikkat parametreleri: her dönüştürücü bloğundaki sorgu, anahtar, değer ve çıktı izdüşümleri.
  • İleri besleme parametreleri: her dönüştürücü bloğundaki iki büyük yoğun katman; toplam ağırlıkların çoğunluğunu genellikle bunlar oluşturur.

Parametreler yaygın olarak hassasiyetlerine göre de gruplanır. "70B" olarak tanımlanan bir model 70 milyar parametreye sahiptir, ancak dosya boyutu bu parametrelerin 32 bit, 16 bit, 8 bit ya da 4 bit biçiminde saklanıp saklanmadığına bağlıdır; bu yüzden aynı model diskte yaklaşık 140 GB'tan 35 GB'a kadar bir aralıkta olabilir. Parametreleri anlamak, ince ayar ve kuantizasyondan bağlam uzunluğu ve çıkarım maliyetine kadar modern yapay zekadaki neredeyse her kavramı aydınlatır.

Sıkça Sorulan Sorular

How many parameters does a large language model have?
Frontier language models today typically range from around 7 billion to over 1 trillion parameters. Open-weights models such as Llama 3 ship in 8B, 70B, and larger variants, while closed systems like GPT-4 and Claude are believed to use hundreds of billions to over a trillion parameters based on third-party scaling analyses.
Are more parameters always better?
Not always. More parameters give a model more representational capacity and usually improve benchmark scores, but they also raise training cost, inference latency, and memory requirements. Modern research shows that data quality, architecture choices, and post-training alignment can matter as much as raw parameter count, which is why smaller well-trained models can sometimes match much larger ones on specific tasks.
What is the difference between parameters and tokens?
Parameters are the learned weights inside the model and stay fixed at inference time. Tokens are the chunks of text the model reads or generates, and the number of tokens processed is what determines compute cost per request. A 70B-parameter model handling a 4,000-token prompt still uses 70 billion weights, but the work scales with how many tokens flow through them.
Can parameters be updated after training?
Yes, through fine-tuning. Techniques like full fine-tuning, LoRA, and QLoRA adjust either all or a small subset of a model's parameters on new data so it specializes in a domain or follows new instructions. LoRA in particular adds only a tiny number of trainable parameters on top of frozen base weights, making adaptation cheap.