What is the difference between a foundation model and a large language model?

All large language models are foundation models, but not all foundation models are LLMs. A foundation model is any large model trained on broad data that can be adapted to many tasks, including image, audio, and protein models. A large language model is a foundation model specifically designed to process and generate text.

Who coined the term foundation model?

The term was introduced in 2021 by Stanford's Center for Research on Foundation Models (CRFM) in a paper led by Rishi Bommasani and colleagues. It described the shift from task-specific AI systems to a single general-purpose model reused across applications.

How are foundation models trained?

Most foundation models are pre-trained with self-supervised learning on huge unlabeled datasets, typically using the transformer architecture. The model learns by predicting missing or next parts of its input, such as the next word in a sentence, which lets it scale to internet-sized corpora without manual labeling.

Can foundation models be fine-tuned?

Yes. After pre-training, foundation models are commonly adapted through fine-tuning, instruction tuning, reinforcement learning from human feedback (RLHF), or prompt engineering. These steps specialize a general-purpose model for particular tasks, domains, or safety requirements.

Temel Model Nedir? Tanım ve Rehber

Bir temel model, devasa ve çeşitli veri kümeleri üzerinde, kendi kendine denetimli öğrenme gibi yöntemlerle eğitilmiş büyük bir makine öğrenimi modelidir. Bu geniş kapsamlı ön eğitimin ardından aynı model, soru yanıtlama ve dil çevirisinden görsel üretimi ve protein analizine kadar geniş bir yelpazedeki alt görevleri yerine getirecek şekilde uyarlanabilir ya da ince ayardan geçirilebilir. Kavram, 2021 yılında Stanford'ın Temel Modeller Araştırma Merkezi (CRFM) tarafından resmileştirilmiş ve yapay zekâda yeni bir paradigmayı tanımlamak için bu terim ortaya atılmıştır.

Temel Modeller nasıl çalışır

Temel modeller genellikle bir sinir ağı mimarisiyle — çoğunlukla transformer — inşa edilir ve açık web, kitaplar, kod depoları ile lisanslı veri kümelerinden derlenen yüzlerce milyar kelime, görsel ya da başka veri noktası üzerinde eğitilir. Eğitim süreci çoğunlukla kendi kendine denetimli öğrenmeye dayanır; bu yaklaşımda model, kendi girdisinin eksik ya da sonraki parçalarını tahmin eder ve böylece büyük ölçekte elle etiketlenmiş örneklere duyulan ihtiyacı ortadan kaldırır. Sonuç olarak ortaya çıkan model; dil, kod, görsel ya da diğer modaliteler hakkında, tek bir görevden ziyade genel örüntüleri kodlayan geniş istatistiksel bilgiye sahiptir.

Ön eğitim tamamlandığında model bir temel hâline gelir: geliştiriciler onu ince ayar, istem mühendisliği ya da getirimi artırılmış üretim gibi tekniklerle belirli uygulamalara uyarlar. Bu sayede aynı temel model; her biri sıfırdan eğitilmek yerine paylaşılan yeteneklerin üzerine inşa edilen bir müşteri destek sohbet botuna, tıbbi kayıt özetleyiciye ve kod asistanına güç verebilir.

Neden önemlidir

Temel modeller, tek bir ön eğitimli modelin yüzlerce alt kullanım alanına hizmet edebilmesi ve yeni uygulamalar geliştirmek için gereken maliyet ile veri ihtiyacını büyük ölçüde azaltması sayesinde yapay zekâ ekonomisini yeniden şekillendirmiştir. Metin için büyük dil modelleri, görsel üretimi için difüzyon modelleri ve metin, görsel ile sesi birlikte işleyen çok modlu modeller gibi yaygın kullanılan sistemlerin temelini oluştururlar. Aynı zamanda ölçeklerinin büyüklüğü; yetenekleri, riskleri ve önyargıları bir arada yoğunlaştırarak değerlendirme, güvenlik ve yönetişim konusunda önemli soruları gündeme getirir.

Temel Modellerin başlıca türleri

Büyük dil modelleri (LLM'ler): GPT ailesi, Claude ve Llama gibi, devasa metin veri kümeleri üzerinde eğitilerek dil üreten ve akıl yürüten metin tabanlı modeller.
Difüzyon modelleri: Stable Diffusion gibi, metin istemlerinden görsel sentezlemek için gürültü ekleme sürecini tersine çevirecek şekilde eğitilmiş görsel üretim modelleri.
Çok modlu modeller: CLIP ve GPT-4V gibi, metin, görsel, ses ya da videoyu tek bir temel model içinde birlikte işleyen sistemler.
Alana özgü temel modeller: bilimsel literatür, protein dizilimleri ya da kod üzerinde ön eğitildikten sonra ilaç keşfi veya yazılım mühendisliği gibi özelleşmiş görevlere uyarlanan modeller.

Her yeni problem için dar kapsamlı bir model eğitme yerine tek bir uyarlanabilir temel modeli geçirerek temel modeller, modern yapay zekâ geliştirmesinin varsayılan başlangıç noktası hâline gelmiştir.

Temel Model nedir?

Temel Modeller nasıl çalışır

Neden önemlidir

Temel Modellerin başlıca türleri

Sıkça Sorulan Sorular