Cos'è una finestra di contesto?

La finestra di contesto è la quantità massima di testo che un modello linguistico di grandi dimensioni può elaborare in una singola interazione, misurata in token. Scopri come funziona e perché è importante.

La finestra di contesto è la quantità massima di testo, misurata in token, che un modello linguistico di grandi dimensioni (LLM) può elaborare in una singola interazione. Definisce l'intera porzione di informazioni a cui il modello può prestare attenzione contemporaneamente, includendo il prompt dell'utente, eventuali documenti allegati, la cronologia della conversazione precedente e la risposta generata dal modello stesso. Quando una conversazione o un documento supera la finestra di contesto, i contenuti più vecchi vengono tipicamente troncati o scartati, il che può far sì che il modello "dimentichi" dettagli appena forniti.

Come funziona una finestra di contesto

Prima che il testo raggiunga un LLM, viene suddiviso in token, le piccole porzioni (più o meno parole o frammenti di parole) che il modello legge effettivamente. La finestra di contesto è il budget fisso di token che il modello può mantenere nella propria memoria di lavoro contemporaneamente. Se un modello dichiara una finestra di contesto di 128.000 token, allora tutto — istruzioni di sistema, documenti recuperati, l'intera cronologia della chat e la risposta che si sta generando — deve rientrare in quell'involucro di 128.000 token.

Internamente, il modello utilizza un meccanismo chiamato attention per ponderare le relazioni tra ogni token presente nella finestra. Poiché ogni token presta attenzione a ogni altro token, il costo di calcolo e di memoria cresce all'incirca con il quadrato della dimensione della finestra, motivo per cui l'espansione della finestra di contesto è un'area di ricerca molto attiva. Gli effetti pratici emergono rapidamente: un test "ago nel pagliaio" da 200.000 token, in cui un fatto specifico è nascosto in un documento lungo, rivela se il modello è ancora in grado di richiamare quel fatto quando gli viene chiesto successivamente nel prompt.

Perché è importante

La finestra di contesto è il singolo vincolo più importante su ciò che un LLM può fare in un dato turno. Una finestra piccola costringe gli utenti a suddividere documenti lunghi, riassumere le sezioni precedenti o affidarsi alla retrieval-augmented generation (RAG) per inserire solo i passaggi più rilevanti. Una finestra più ampia consente a un modello di assimilare intere basi di codice, contratti legali lunghi, trascrizioni complete o ore di conversazione senza perdere il filo dei dettagli precedenti.

Per gli sviluppatori, la dimensione della finestra influenza le decisioni architetturali: come vengono costruiti i pipeline di recupero, come viene gestita la memoria della chat e come vengono progettati i prompt per restare sotto il limite. Per gli utenti finali, è la differenza tra incollare un capitolo in un chatbot e incollare un intero libro — e se il modello è ancora in grado di rispondere a una domanda sulla pagina tre quando arriva alla pagina cinquanta.

Tipologie principali e dimensioni attuali

  • Contesto breve (2K–8K token): la prima generazione di LLM consumer, all'incirca la lunghezza di un'email lunga o di poche pagine di prosa.
  • Contesto standard (32K–128K token): comune nei modelli frontier moderni, sufficiente per contenere un romanzo intero, una base di codice moderata o la trascrizione di una riunione lunga.
  • Contesto lungo (200K–1M+ token): i nuovi modelli "long-context" in grado di assimilare interi libri, repository multi-file o conversazioni di diverse ore in un'unica passata.
  • Contesto effettivo vs. dichiarato: la finestra dichiarata è la dimensione massima dell'input, mentre la finestra effettiva è la porzione sulla quale il modello recupera e ragiona in modo affidabile. I benchmark indipendenti mostrano spesso che la finestra effettiva è più piccola di quella dichiarata.

Le finestre di contesto si sono notevolmente ampliate dal 2023, ma più grande non è sempre meglio: finestre più lunghe richiedono più memoria, sono più lente e possono diluire la focalizzazione del modello. Per la maggior parte delle attività, scegliere un modello con una finestra di contesto che ospiti comodamente l'input è più utile che rincorrere il numero più grande sulla scheda tecnica.

Potrebbe interessarti anche

Articoli correlati