What happens when input exceeds the context window?

When input exceeds the context window, the model cannot see the excess text. Most APIs and chat interfaces handle this by truncating from the beginning or middle of the input, so the earliest content is lost first. Some systems use summarization or retrieval to compress earlier parts of the conversation so the most recent information still fits.

How many words fit in a context window?

As a rough rule of thumb, one token is about three-quarters of an English word, so a 100,000-token window holds roughly 75,000 words — close to the length of a typical novel. Code and other languages tokenize differently and may consume more tokens per character.

Does a larger context window make a model smarter?

Not necessarily. A larger window lets a model consider more information at once, but reasoning quality, training, and the model's effective recall still matter. Independent tests such as the "needle in a haystack" benchmark often find that models retrieve information less reliably near the edges of very long windows than in the middle.

How is context window different from memory in a chatbot?

The context window is the model's working memory for a single request, while chatbot "memory" usually refers to features that store facts across sessions and inject them into the prompt. Anything stored externally only counts toward the context window when it is actually included in the current prompt.

Was ist ein Kontextfenster? | HyperStore-Glossar

Ein Kontextfenster ist die maximale Textmenge, gemessen in Tokens, die ein großes Sprachmodell (LLM) in einer einzelnen Interaktion verarbeiten kann. Es definiert die gesamte Informationsspanne, auf die sich das Modell gleichzeitig konzentrieren kann, einschließlich der Eingabeaufforderung des Nutzers, angehängter Dokumente, früherer Gesprächsverläufe und der vom Modell selbst generierten Antwort. Wenn ein Gespräch oder Dokument das Kontextfenster überschreitet, werden frühere Inhalte in der Regel abgeschnitten oder verworfen, was dazu führen kann, dass das Modell Details „vergisst“, die ihm nur Augenblicke zuvor gegeben wurden.

Wie ein Kontextfenster funktioniert

Bevor Text ein LLM erreicht, wird er in Tokens zerlegt – die kleinen Einheiten (ungefähr Wörter oder Wortteile), die das Modell tatsächlich liest. Das Kontextfenster ist das feste Token-Budget, das das Modell gleichzeitig im Arbeitsspeicher halten kann. Wenn ein Modell ein Kontextfenster von 128.000 Tokens angibt, muss alles – Systemanweisungen, abgerufene Dokumente, der gesamte Chatverlauf und die zu erstellende Antwort – in dieses 128.000-Token-Limit passen.

Intern verwendet das Modell einen Mechanismus namens Attention (Aufmerksamkeit), um die Beziehungen zwischen jedem Token in diesem Fenster zu gewichten. Da jedes Token jedes andere Token beachtet, steigen die Rechen- und Speicherkosten ungefähr im Quadrat zur Fenstergröße, weshalb die Erweiterung des Kontextfensters ein aktives Forschungsgebiet ist. Praktische Auswirkungen zeigen sich schnell: Ein „Nadel im Heuhaufen“-Test mit 200.000 Tokens, bei dem eine bestimmte Tatsache in einem langen Dokument versteckt ist, zeigt, ob das Modell diese Tatsache noch abrufen kann, wenn später in der Eingabeaufforderung danach gefragt wird.

Warum es wichtig ist

Das Kontextfenster ist die mit Abstand wichtigste Einschränkung dafür, was ein LLM in einer bestimmten Runde tun kann. Ein kleines Fenster zwingt Nutzer, lange Dokumente in Abschnitte aufzuteilen, frühere Teile zusammenzufassen oder sich auf Retrieval-Augmented Generation (RAG) zu verlassen, um nur die relevantesten Passagen einzuspeisen. Ein größeres Fenster ermöglicht es einem Modell, ganze Codebasen, lange juristische Verträge, vollständige Transkripte oder stundenlange Gespräche aufzunehmen, ohne den Überblick über frühere Details zu verlieren.

Für Entwickler bestimmt die Fenstergröße Architekturentscheidungen: wie Retrieval-Pipelines aufgebaut werden, wie der Chat-Speicher verwaltet wird und wie Eingabeaufforderungen gestaltet werden, um unter dem Limit zu bleiben. Für Endnutzer ist es der Unterschied zwischen dem Einfügen eines Kapitels in einen Chatbot und dem Einfügen eines ganzen Buches – und ob das Modell bei Seite fünfzig noch eine Frage zu Seite drei beantworten kann.

Wichtige Typen und aktuelle Größen

Kurzer Kontext (2K–8K Tokens): die frühe Generation von Verbraucher-LLMs, ungefähr die Länge einer langen E-Mail oder einiger Seiten Prosa.
Standardkontext (32K–128K Tokens): üblich in modernen Spitzenmodellen, ausreichend für einen ganzen Roman, eine mittelgroße Codebasis oder ein langes Besprechungstranskript.
Langer Kontext (200K–1M+ Tokens): neuere „Long-Context“-Modelle, die ganze Bücher, Repositories mit mehreren Dateien oder mehrstündige Gespräche in einem Durchgang aufnehmen können.
Effektiver vs. angegebener Kontext: das angegebene Fenster ist die maximale Eingabegröße, während das effektive Fenster der Teil ist, über den das Modell Informationen zuverlässig abruft und darüber nachdenkt. Unabhängige Benchmarks zeigen oft, dass das effektive Fenster kleiner ist als das angegebene.

Kontextfenster haben sich seit 2023 dramatisch erweitert, aber größer ist nicht immer besser: Längere Fenster kosten mehr Speicher, laufen langsamer und können den Fokus des Modells verwässern. Für die meisten Aufgaben ist es nützlicher, ein Modell mit einem Kontextfenster zu wählen, das die Eingabe bequem aufnimmt, als der größten Zahl auf dem Datenblatt hinterherzujagen.

Was ist Kontextfenster?

Wie ein Kontextfenster funktioniert

Warum es wichtig ist

Wichtige Typen und aktuelle Größen

Häufig gestellte Fragen