Una ventana de contexto es la cantidad máxima de texto, medida en tokens, que un modelo de lenguaje grande (LLM) puede procesar en una sola interacción. Define el alcance total de información al que el modelo puede atender a la vez, incluyendo el prompt del usuario, cualquier documento adjunto, el historial previo de la conversación y la respuesta generada por el propio modelo. Cuando una conversación o documento supera la ventana de contexto, el contenido anterior suele truncarse o descartarse, lo que puede hacer que el modelo "olvide" detalles que se le habían dado apenas unos instantes antes.
Cómo funciona una ventana de contexto
Antes de que el texto llegue a un LLM, se divide en tokens, los pequeños fragmentos (aproximadamente palabras o trozos de palabras) que el modelo realmente lee. La ventana de contexto es el presupuesto fijo de tokens que el modelo puede mantener en su memoria de trabajo a la vez. Si un modelo anuncia una ventana de contexto de 128.000 tokens, entonces todo (instrucciones del sistema, documentos recuperados, el historial completo del chat y la respuesta que se está generando) debe caber dentro de ese límite de 128.000 tokens.
Internamente, el modelo utiliza un mecanismo llamado atención para ponderar las relaciones entre cada token de esa ventana. Como cada token atiende a todos los demás, el coste de cómputo y memoria crece aproximadamente con el cuadrado del tamaño de la ventana, razón por la cual ampliar la ventana de contexto es un área de investigación activa. Los efectos prácticos aparecen rápido: una prueba de "aguja en un pajar" con 200.000 tokens, donde un dato concreto se esconde dentro de un documento largo, revela si el modelo aún puede recordar ese dato cuando se le pregunta más adelante en el prompt.
Por qué es importante
La ventana de contexto es la restricción individual más importante sobre lo que un LLM puede hacer en un turno concreto. Una ventana pequeña obliga a los usuarios a trocear documentos largos, resumir secciones anteriores o recurrir a la generación aumentada por recuperación (RAG) para alimentar solo los fragmentos más relevantes. Una ventana mayor permite al modelo ingerir bases de código completas, contratos legales extensos, transcripciones íntegras u horas de conversación sin perder el hilo de detalles anteriores.
Para los desarrolladores, el tamaño de la ventana condiciona decisiones de arquitectura: cómo se construyen los pipelines de recuperación, cómo se gestiona la memoria del chat y cómo se diseñan los prompts para mantenerse dentro del límite. Para los usuarios finales, marca la diferencia entre pegar un capítulo en un chatbot y pegar un libro entero, y si el modelo aún puede responder a una pregunta sobre la página tres cuando llega a la página cincuenta.
Tipos clave y tamaños actuales
- Contexto corto (2K–8K tokens): la primera generación de LLMs de consumo, aproximadamente la longitud de un email largo o unas pocas páginas de prosa.
- Contexto estándar (32K–128K tokens): habitual en los modelos frontera modernos, suficiente para容纳 una novela completa, una base de código moderada o una transcripción larga de una reunión.
- Contexto largo (200K–1M+ tokens): modelos más recientes de "contexto largo" que pueden ingerir libros enteros, repositorios con varios archivos o conversaciones de varias horas en una sola pasada.
- Contexto efectivo frente al anunciado: la ventana anunciada es el tamaño máximo de entrada, mientras que la ventana efectiva es la porción sobre la que el modelo recupera y razona de forma fiable. Evaluaciones independientes suelen mostrar que la ventana efectiva es más pequeña que la anunciada.
Las ventanas de contexto han crecido de forma notable desde 2023, pero más grande no siempre es mejor: las ventanas más largas consumen más memoria, se ejecutan más despacio y pueden diluir el foco del modelo. Para la mayoría de tareas, elegir un modelo con una ventana de contexto que se ajuste cómodamente a la entrada resulta más útil que perseguir el número más grande de la ficha técnica.