Bağlam penceresi, büyük bir dil modelinin (LLM) tek bir etkileşimde işleyebildiği, token cinsinden ölçülen maksimum metin miktarıdır. Modelin aynı anda dikkate alabileceği toplam bilgi aralığını tanımlar; buna kullanıcının istemi, eklenen belgeler, önceki konuşma geçmişi ve modelin kendi ürettiği yanıt dahildir. Bir konuşma veya belge bağlam penceresini aştığında, önceki içerik genellikle kırpılır veya atılır; bu da modelin biraz önce verilmiş ayrıntıları "unutmasına" yol açabilir.
Bağlam penceresi nasıl çalışır
Metin LLM'ye ulaşmadan önce, modelin gerçekten okuduğu küçük parçalara (kabaca sözcükler veya sözcük parçaları) yani token'lere ayrılır. Bağlam penceresi, modelin aynı anda çalışma belleğinde tutabildiği sabit token bütçesidir. Bir model 128.000 tokenlik bir bağlam penceresi sunuyorsa, her şey — sistem yönergeleri, getirilen belgeler, tüm sohbet geçmişi ve üretilmekte olan yanıt — o 128.000 tokenlik sınıra sığmalıdır.
Model dahili olarak, söz konusu penceredeki her token arasındaki ilişkileri tartmak için dikkat (attention) adı verilen bir mekanizma kullanır. Her token diğer tüm tokenlara dikkat ettiğinden, hesaplama ve bellek maliyeti yaklaşık olarak pencere boyutunun karesiyle orantılı biçimde büyür; bu nedenle bağlam penceresinin genişletilmesi aktif bir araştırma alanıdır. Pratik etkiler çabuk ortaya çıkar: belirli bir gerçeğin uzun bir belgeye gömüldüğü 200.000 tokenlik bir "samanlıkta iğne" testi, modelin söz konusu gerçeği istemin ilerleyen kısımlarında sorulduğunda hâlâ hatırlayıp hatırlamadığını ortaya koyar.
Neden önemlidir
Bağlam penceresi, bir LLM'nin belirli bir turda neler yapabileceği üzerindeki en önemli tek kısıtlamadır. Küçük bir pencere, kullanıcıları uzun belgeleri parçalara ayırmaya, önceki bölümleri özetlemeye ya da yalnızca en ilgili pasajları beslemek için bilgi getirmeli üretimden (RAG) yararlanmaya zorlar. Daha büyük bir pencere ise modelin tüm kod tabanlarını, uzun hukuk sözleşmelerini, tam transkriptleri ya da saatlerce süren konuşmaları, önceki ayrıntıları kaybetmeden içselleştirmesine imkân tanır.
Geliştiriciler için pencere boyutu mimari kararları şekillendirir: getirme işlem hatlarının nasıl kurulduğu, sohbet belleğinin nasıl yönetildiği ve istemlerin sınırın altında kalacak biçimde nasıl tasarlandığı. Son kullanıcılar içinse bu, bir sohbet botuna bir bölüm yapıştırmak ile tüm bir kitabı yapıştırmak arasındaki farktır — ve modelin elli sayfaya ulaştığında üçüncü sayfadaki bir soruyu hâlâ yanıtlayıp yanıtlayamayacağını belirler.
Temel türler ve güncel boyutlar
- Kısa bağlam (2K–8K token): tüketiciye yönelik LLM'lerin ilk nesli; kabaca uzun bir e-postanın veya birkaç sayfa düz yazının uzunluğunda.
- Standart bağlam (32K–128K token): modern uç modellerde yaygın; tam bir romanı, orta büyüklükte bir kod tabanını veya uzun bir toplantı transkriptini alacak kadar geniş.
- Uzun bağlam (200K–1M+ token): tüm kitapları, çok dosyalı depoları veya birkaç saatlik konuşmaları tek seferde içselleştirebilen daha yeni "uzun bağlam" modelleri.
- Etkin ve beyan edilen bağlam: beyan edilen pencere maksimum giriş boyutuyken, etkin pencere modelin bilgiyi güvenilir biçimde getirip üzerinde akıl yürüttüğü kısımdır. Bağımsız kıyaslama testleri genellikle etkin pencerenin beyan edilenden daha küçük olduğunu gösterir.
Bağlam pencereleri 2023'ten bu yana büyük ölçüde genişlemiş olsa da, daha büyük her zaman daha iyi değildir: uzun pencereler daha fazla bellek harcar, daha yavaş çalışır ve modelin odağını dağıtabilir. Çoğu görev için, spesifikasyon sayfasındaki en büyük sayıyı kovalamaktan ziyade, girdiye rahatça sığan bir bağlam penceresine sahip bir model seçmek daha faydalıdır.