What happens when input exceeds the context window?

When input exceeds the context window, the model cannot see the excess text. Most APIs and chat interfaces handle this by truncating from the beginning or middle of the input, so the earliest content is lost first. Some systems use summarization or retrieval to compress earlier parts of the conversation so the most recent information still fits.

How many words fit in a context window?

As a rough rule of thumb, one token is about three-quarters of an English word, so a 100,000-token window holds roughly 75,000 words — close to the length of a typical novel. Code and other languages tokenize differently and may consume more tokens per character.

Does a larger context window make a model smarter?

Not necessarily. A larger window lets a model consider more information at once, but reasoning quality, training, and the model's effective recall still matter. Independent tests such as the "needle in a haystack" benchmark often find that models retrieve information less reliably near the edges of very long windows than in the middle.

How is context window different from memory in a chatbot?

The context window is the model's working memory for a single request, while chatbot "memory" usually refers to features that store facts across sessions and inject them into the prompt. Anything stored externally only counts toward the context window when it is actually included in the current prompt.

¿Qué es una ventana de contexto? | Glosario de HyperStore

Una ventana de contexto es la cantidad máxima de texto, medida en tokens, que un modelo de lenguaje grande (LLM) puede procesar en una sola interacción. Define el alcance total de información al que el modelo puede atender a la vez, incluyendo el prompt del usuario, cualquier documento adjunto, el historial previo de la conversación y la respuesta generada por el propio modelo. Cuando una conversación o documento supera la ventana de contexto, el contenido anterior suele truncarse o descartarse, lo que puede hacer que el modelo "olvide" detalles que se le habían dado apenas unos instantes antes.

Cómo funciona una ventana de contexto

Antes de que el texto llegue a un LLM, se divide en tokens, los pequeños fragmentos (aproximadamente palabras o trozos de palabras) que el modelo realmente lee. La ventana de contexto es el presupuesto fijo de tokens que el modelo puede mantener en su memoria de trabajo a la vez. Si un modelo anuncia una ventana de contexto de 128.000 tokens, entonces todo (instrucciones del sistema, documentos recuperados, el historial completo del chat y la respuesta que se está generando) debe caber dentro de ese límite de 128.000 tokens.

Internamente, el modelo utiliza un mecanismo llamado atención para ponderar las relaciones entre cada token de esa ventana. Como cada token atiende a todos los demás, el coste de cómputo y memoria crece aproximadamente con el cuadrado del tamaño de la ventana, razón por la cual ampliar la ventana de contexto es un área de investigación activa. Los efectos prácticos aparecen rápido: una prueba de "aguja en un pajar" con 200.000 tokens, donde un dato concreto se esconde dentro de un documento largo, revela si el modelo aún puede recordar ese dato cuando se le pregunta más adelante en el prompt.

Por qué es importante

La ventana de contexto es la restricción individual más importante sobre lo que un LLM puede hacer en un turno concreto. Una ventana pequeña obliga a los usuarios a trocear documentos largos, resumir secciones anteriores o recurrir a la generación aumentada por recuperación (RAG) para alimentar solo los fragmentos más relevantes. Una ventana mayor permite al modelo ingerir bases de código completas, contratos legales extensos, transcripciones íntegras u horas de conversación sin perder el hilo de detalles anteriores.

Para los desarrolladores, el tamaño de la ventana condiciona decisiones de arquitectura: cómo se construyen los pipelines de recuperación, cómo se gestiona la memoria del chat y cómo se diseñan los prompts para mantenerse dentro del límite. Para los usuarios finales, marca la diferencia entre pegar un capítulo en un chatbot y pegar un libro entero, y si el modelo aún puede responder a una pregunta sobre la página tres cuando llega a la página cincuenta.

Tipos clave y tamaños actuales

Contexto corto (2K–8K tokens): la primera generación de LLMs de consumo, aproximadamente la longitud de un email largo o unas pocas páginas de prosa.
Contexto estándar (32K–128K tokens): habitual en los modelos frontera modernos, suficiente para容纳 una novela completa, una base de código moderada o una transcripción larga de una reunión.
Contexto largo (200K–1M+ tokens): modelos más recientes de "contexto largo" que pueden ingerir libros enteros, repositorios con varios archivos o conversaciones de varias horas en una sola pasada.
Contexto efectivo frente al anunciado: la ventana anunciada es el tamaño máximo de entrada, mientras que la ventana efectiva es la porción sobre la que el modelo recupera y razona de forma fiable. Evaluaciones independientes suelen mostrar que la ventana efectiva es más pequeña que la anunciada.

Las ventanas de contexto han crecido de forma notable desde 2023, pero más grande no siempre es mejor: las ventanas más largas consumen más memoria, se ejecutan más despacio y pueden diluir el foco del modelo. Para la mayoría de tareas, elegir un modelo con una ventana de contexto que se ajuste cómodamente a la entrada resulta más útil que perseguir el número más grande de la ficha técnica.

¿Qué es Ventana de contexto?

Cómo funciona una ventana de contexto

Por qué es importante

Tipos clave y tamaños actuales

Preguntas frecuentes