📖

Bağlam Penceresi nedir?

Bağlam penceresi, büyük bir dil modelinin tek bir etkileşimde işleyebildiği, token cinsinden ölçülen maksimum metin miktarıdır. Nasıl çalıştığını ve neden önemli olduğunu öğrenin.

Bağlam penceresi, büyük bir dil modelinin (LLM) tek bir etkileşimde işleyebildiği, token cinsinden ölçülen maksimum metin miktarıdır. Modelin aynı anda dikkate alabileceği toplam bilgi aralığını tanımlar; buna kullanıcının istemi, eklenen belgeler, önceki konuşma geçmişi ve modelin kendi ürettiği yanıt dahildir. Bir konuşma veya belge bağlam penceresini aştığında, önceki içerik genellikle kırpılır veya atılır; bu da modelin biraz önce verilmiş ayrıntıları "unutmasına" yol açabilir.

Bağlam penceresi nasıl çalışır

Metin LLM'ye ulaşmadan önce, modelin gerçekten okuduğu küçük parçalara (kabaca sözcükler veya sözcük parçaları) yani token'lere ayrılır. Bağlam penceresi, modelin aynı anda çalışma belleğinde tutabildiği sabit token bütçesidir. Bir model 128.000 tokenlik bir bağlam penceresi sunuyorsa, her şey — sistem yönergeleri, getirilen belgeler, tüm sohbet geçmişi ve üretilmekte olan yanıt — o 128.000 tokenlik sınıra sığmalıdır.

Model dahili olarak, söz konusu penceredeki her token arasındaki ilişkileri tartmak için dikkat (attention) adı verilen bir mekanizma kullanır. Her token diğer tüm tokenlara dikkat ettiğinden, hesaplama ve bellek maliyeti yaklaşık olarak pencere boyutunun karesiyle orantılı biçimde büyür; bu nedenle bağlam penceresinin genişletilmesi aktif bir araştırma alanıdır. Pratik etkiler çabuk ortaya çıkar: belirli bir gerçeğin uzun bir belgeye gömüldüğü 200.000 tokenlik bir "samanlıkta iğne" testi, modelin söz konusu gerçeği istemin ilerleyen kısımlarında sorulduğunda hâlâ hatırlayıp hatırlamadığını ortaya koyar.

Neden önemlidir

Bağlam penceresi, bir LLM'nin belirli bir turda neler yapabileceği üzerindeki en önemli tek kısıtlamadır. Küçük bir pencere, kullanıcıları uzun belgeleri parçalara ayırmaya, önceki bölümleri özetlemeye ya da yalnızca en ilgili pasajları beslemek için bilgi getirmeli üretimden (RAG) yararlanmaya zorlar. Daha büyük bir pencere ise modelin tüm kod tabanlarını, uzun hukuk sözleşmelerini, tam transkriptleri ya da saatlerce süren konuşmaları, önceki ayrıntıları kaybetmeden içselleştirmesine imkân tanır.

Geliştiriciler için pencere boyutu mimari kararları şekillendirir: getirme işlem hatlarının nasıl kurulduğu, sohbet belleğinin nasıl yönetildiği ve istemlerin sınırın altında kalacak biçimde nasıl tasarlandığı. Son kullanıcılar içinse bu, bir sohbet botuna bir bölüm yapıştırmak ile tüm bir kitabı yapıştırmak arasındaki farktır — ve modelin elli sayfaya ulaştığında üçüncü sayfadaki bir soruyu hâlâ yanıtlayıp yanıtlayamayacağını belirler.

Temel türler ve güncel boyutlar

  • Kısa bağlam (2K–8K token): tüketiciye yönelik LLM'lerin ilk nesli; kabaca uzun bir e-postanın veya birkaç sayfa düz yazının uzunluğunda.
  • Standart bağlam (32K–128K token): modern uç modellerde yaygın; tam bir romanı, orta büyüklükte bir kod tabanını veya uzun bir toplantı transkriptini alacak kadar geniş.
  • Uzun bağlam (200K–1M+ token): tüm kitapları, çok dosyalı depoları veya birkaç saatlik konuşmaları tek seferde içselleştirebilen daha yeni "uzun bağlam" modelleri.
  • Etkin ve beyan edilen bağlam: beyan edilen pencere maksimum giriş boyutuyken, etkin pencere modelin bilgiyi güvenilir biçimde getirip üzerinde akıl yürüttüğü kısımdır. Bağımsız kıyaslama testleri genellikle etkin pencerenin beyan edilenden daha küçük olduğunu gösterir.

Bağlam pencereleri 2023'ten bu yana büyük ölçüde genişlemiş olsa da, daha büyük her zaman daha iyi değildir: uzun pencereler daha fazla bellek harcar, daha yavaş çalışır ve modelin odağını dağıtabilir. Çoğu görev için, spesifikasyon sayfasındaki en büyük sayıyı kovalamaktan ziyade, girdiye rahatça sığan bir bağlam penceresine sahip bir model seçmek daha faydalıdır.

Sıkça Sorulan Sorular

What happens when input exceeds the context window?
When input exceeds the context window, the model cannot see the excess text. Most APIs and chat interfaces handle this by truncating from the beginning or middle of the input, so the earliest content is lost first. Some systems use summarization or retrieval to compress earlier parts of the conversation so the most recent information still fits.
How many words fit in a context window?
As a rough rule of thumb, one token is about three-quarters of an English word, so a 100,000-token window holds roughly 75,000 words — close to the length of a typical novel. Code and other languages tokenize differently and may consume more tokens per character.
Does a larger context window make a model smarter?
Not necessarily. A larger window lets a model consider more information at once, but reasoning quality, training, and the model's effective recall still matter. Independent tests such as the "needle in a haystack" benchmark often find that models retrieve information less reliably near the edges of very long windows than in the middle.
How is context window different from memory in a chatbot?
The context window is the model's working memory for a single request, while chatbot "memory" usually refers to features that store facts across sessions and inject them into the prompt. Anything stored externally only counts toward the context window when it is actually included in the current prompt.