Temel Model Nedir?

Temel model, geniş veriler üzerinde eğitilmiş, birçok alt göreve uyarlanabilen büyük ve genel amaçlı bir yapay zekâ modelidir. Nasıl çalıştığını ve neden önemli olduğunu öğrenin.

Bir temel model, devasa ve çeşitli veri kümeleri üzerinde, kendi kendine denetimli öğrenme gibi yöntemlerle eğitilmiş büyük bir makine öğrenimi modelidir. Bu geniş kapsamlı ön eğitimin ardından aynı model, soru yanıtlama ve dil çevirisinden görsel üretimi ve protein analizine kadar geniş bir yelpazedeki alt görevleri yerine getirecek şekilde uyarlanabilir ya da ince ayardan geçirilebilir. Kavram, 2021 yılında Stanford'ın Temel Modeller Araştırma Merkezi (CRFM) tarafından resmileştirilmiş ve yapay zekâda yeni bir paradigmayı tanımlamak için bu terim ortaya atılmıştır.

Temel Modeller nasıl çalışır

Temel modeller genellikle bir sinir ağı mimarisiyle — çoğunlukla transformer — inşa edilir ve açık web, kitaplar, kod depoları ile lisanslı veri kümelerinden derlenen yüzlerce milyar kelime, görsel ya da başka veri noktası üzerinde eğitilir. Eğitim süreci çoğunlukla kendi kendine denetimli öğrenmeye dayanır; bu yaklaşımda model, kendi girdisinin eksik ya da sonraki parçalarını tahmin eder ve böylece büyük ölçekte elle etiketlenmiş örneklere duyulan ihtiyacı ortadan kaldırır. Sonuç olarak ortaya çıkan model; dil, kod, görsel ya da diğer modaliteler hakkında, tek bir görevden ziyade genel örüntüleri kodlayan geniş istatistiksel bilgiye sahiptir.

Ön eğitim tamamlandığında model bir temel hâline gelir: geliştiriciler onu ince ayar, istem mühendisliği ya da getirimi artırılmış üretim gibi tekniklerle belirli uygulamalara uyarlar. Bu sayede aynı temel model; her biri sıfırdan eğitilmek yerine paylaşılan yeteneklerin üzerine inşa edilen bir müşteri destek sohbet botuna, tıbbi kayıt özetleyiciye ve kod asistanına güç verebilir.

Neden önemlidir

Temel modeller, tek bir ön eğitimli modelin yüzlerce alt kullanım alanına hizmet edebilmesi ve yeni uygulamalar geliştirmek için gereken maliyet ile veri ihtiyacını büyük ölçüde azaltması sayesinde yapay zekâ ekonomisini yeniden şekillendirmiştir. Metin için büyük dil modelleri, görsel üretimi için difüzyon modelleri ve metin, görsel ile sesi birlikte işleyen çok modlu modeller gibi yaygın kullanılan sistemlerin temelini oluştururlar. Aynı zamanda ölçeklerinin büyüklüğü; yetenekleri, riskleri ve önyargıları bir arada yoğunlaştırarak değerlendirme, güvenlik ve yönetişim konusunda önemli soruları gündeme getirir.

Temel Modellerin başlıca türleri

  • Büyük dil modelleri (LLM'ler): GPT ailesi, Claude ve Llama gibi, devasa metin veri kümeleri üzerinde eğitilerek dil üreten ve akıl yürüten metin tabanlı modeller.
  • Difüzyon modelleri: Stable Diffusion gibi, metin istemlerinden görsel sentezlemek için gürültü ekleme sürecini tersine çevirecek şekilde eğitilmiş görsel üretim modelleri.
  • Çok modlu modeller: CLIP ve GPT-4V gibi, metin, görsel, ses ya da videoyu tek bir temel model içinde birlikte işleyen sistemler.
  • Alana özgü temel modeller: bilimsel literatür, protein dizilimleri ya da kod üzerinde ön eğitildikten sonra ilaç keşfi veya yazılım mühendisliği gibi özelleşmiş görevlere uyarlanan modeller.

Her yeni problem için dar kapsamlı bir model eğitme yerine tek bir uyarlanabilir temel modeli geçirerek temel modeller, modern yapay zekâ geliştirmesinin varsayılan başlangıç noktası hâline gelmiştir.

Bunları da beğenebilirsiniz

İlgili yazılar