What happens when input exceeds the context window?

When input exceeds the context window, the model cannot see the excess text. Most APIs and chat interfaces handle this by truncating from the beginning or middle of the input, so the earliest content is lost first. Some systems use summarization or retrieval to compress earlier parts of the conversation so the most recent information still fits.

How many words fit in a context window?

As a rough rule of thumb, one token is about three-quarters of an English word, so a 100,000-token window holds roughly 75,000 words — close to the length of a typical novel. Code and other languages tokenize differently and may consume more tokens per character.

Does a larger context window make a model smarter?

Not necessarily. A larger window lets a model consider more information at once, but reasoning quality, training, and the model's effective recall still matter. Independent tests such as the "needle in a haystack" benchmark often find that models retrieve information less reliably near the edges of very long windows than in the middle.

How is context window different from memory in a chatbot?

The context window is the model's working memory for a single request, while chatbot "memory" usually refers to features that store facts across sessions and inject them into the prompt. Anything stored externally only counts toward the context window when it is actually included in the current prompt.

Cos'è una finestra di contesto? | Glossario HyperStore

La finestra di contesto è la quantità massima di testo, misurata in token, che un modello linguistico di grandi dimensioni (LLM) può elaborare in una singola interazione. Definisce l'intera porzione di informazioni a cui il modello può prestare attenzione contemporaneamente, includendo il prompt dell'utente, eventuali documenti allegati, la cronologia della conversazione precedente e la risposta generata dal modello stesso. Quando una conversazione o un documento supera la finestra di contesto, i contenuti più vecchi vengono tipicamente troncati o scartati, il che può far sì che il modello "dimentichi" dettagli appena forniti.

Come funziona una finestra di contesto

Prima che il testo raggiunga un LLM, viene suddiviso in token, le piccole porzioni (più o meno parole o frammenti di parole) che il modello legge effettivamente. La finestra di contesto è il budget fisso di token che il modello può mantenere nella propria memoria di lavoro contemporaneamente. Se un modello dichiara una finestra di contesto di 128.000 token, allora tutto — istruzioni di sistema, documenti recuperati, l'intera cronologia della chat e la risposta che si sta generando — deve rientrare in quell'involucro di 128.000 token.

Internamente, il modello utilizza un meccanismo chiamato attention per ponderare le relazioni tra ogni token presente nella finestra. Poiché ogni token presta attenzione a ogni altro token, il costo di calcolo e di memoria cresce all'incirca con il quadrato della dimensione della finestra, motivo per cui l'espansione della finestra di contesto è un'area di ricerca molto attiva. Gli effetti pratici emergono rapidamente: un test "ago nel pagliaio" da 200.000 token, in cui un fatto specifico è nascosto in un documento lungo, rivela se il modello è ancora in grado di richiamare quel fatto quando gli viene chiesto successivamente nel prompt.

Perché è importante

La finestra di contesto è il singolo vincolo più importante su ciò che un LLM può fare in un dato turno. Una finestra piccola costringe gli utenti a suddividere documenti lunghi, riassumere le sezioni precedenti o affidarsi alla retrieval-augmented generation (RAG) per inserire solo i passaggi più rilevanti. Una finestra più ampia consente a un modello di assimilare intere basi di codice, contratti legali lunghi, trascrizioni complete o ore di conversazione senza perdere il filo dei dettagli precedenti.

Per gli sviluppatori, la dimensione della finestra influenza le decisioni architetturali: come vengono costruiti i pipeline di recupero, come viene gestita la memoria della chat e come vengono progettati i prompt per restare sotto il limite. Per gli utenti finali, è la differenza tra incollare un capitolo in un chatbot e incollare un intero libro — e se il modello è ancora in grado di rispondere a una domanda sulla pagina tre quando arriva alla pagina cinquanta.

Tipologie principali e dimensioni attuali

Contesto breve (2K–8K token): la prima generazione di LLM consumer, all'incirca la lunghezza di un'email lunga o di poche pagine di prosa.
Contesto standard (32K–128K token): comune nei modelli frontier moderni, sufficiente per contenere un romanzo intero, una base di codice moderata o la trascrizione di una riunione lunga.
Contesto lungo (200K–1M+ token): i nuovi modelli "long-context" in grado di assimilare interi libri, repository multi-file o conversazioni di diverse ore in un'unica passata.
Contesto effettivo vs. dichiarato: la finestra dichiarata è la dimensione massima dell'input, mentre la finestra effettiva è la porzione sulla quale il modello recupera e ragiona in modo affidabile. I benchmark indipendenti mostrano spesso che la finestra effettiva è più piccola di quella dichiarata.

Le finestre di contesto si sono notevolmente ampliate dal 2023, ma più grande non è sempre meglio: finestre più lunghe richiedono più memoria, sono più lente e possono diluire la focalizzazione del modello. Per la maggior parte delle attività, scegliere un modello con una finestra di contesto che ospiti comodamente l'input è più utile che rincorrere il numero più grande sulla scheda tecnica.

Cos'è Finestra di contesto?

Come funziona una finestra di contesto

Perché è importante

Tipologie principali e dimensioni attuali

Domande frequenti