O que é uma janela de contexto?

Uma janela de contexto é a quantidade máxima de texto que um modelo de linguagem de grande dimensão consegue processar numa única interação, medida em tokens. Saiba como funciona e por que é importante.

Uma janela de contexto é a quantidade máxima de texto, medida em tokens, que um modelo de linguagem de grande dimensão (LLM) consegue processar numa única interação. Define o alcance total de informação a que o modelo pode atender em simultâneo, incluindo o pedido do utilizador, quaisquer documentos anexados, o histórico de conversação anterior e a própria resposta gerada pelo modelo. Quando uma conversa ou documento excede a janela de contexto, o conteúdo mais antigo é tipicamente truncado ou descartado, o que pode fazer com que o modelo "esqueça" detalhes que lhe foram fornecidos instantes antes.

Como funciona uma janela de contexto

Antes de o texto chegar a um LLM, é dividido em tokens, pequenos fragmentos (aproximadamente palavras ou pedaços de palavras) que o modelo realmente lê. A janela de contexto é o orçamento fixo de tokens que o modelo consegue manter na sua memória de trabalho em simultâneo. Se um modelo anuncia uma janela de contexto de 128.000 tokens, então tudo — instruções do sistema, documentos recuperados, o histórico completo do chat e a resposta a ser gerada — tem de caber dentro dessa envelope de 128.000 tokens.

Internamente, o modelo utiliza um mecanismo chamado atenção para ponderar as relações entre cada token nessa janela. Como cada token atende a todos os outros, o custo de computação e memória cresce aproximadamente com o quadrado do tamanho da janela, razão pela qual expandir a janela de contexto é uma área de investigação ativa. Os efeitos práticos surgem rapidamente: um teste de "agulha no palheiro" de 200.000 tokens, onde um facto específico está enterrado num documento longo, revela se o modelo ainda consegue recordar esse facto quando questionado mais tarde no prompt.

Por que é importante

A janela de contexto é a restrição individual mais importante sobre o que um LLM pode fazer numa determinada interação. Uma janela pequena obriga os utilizadores a dividir documentos longos, resumir secções anteriores ou recorrer à geração aumentada por recuperação (RAG) para alimentar apenas as passagens mais relevantes. Uma janela maior permite que um modelo ingira bases de código inteiras, contratos jurídicos longos, transcrições completas ou horas de conversação sem perder o rasto a detalhes anteriores.

Para os programadores, o tamanho da janela molda decisões de arquitetura: como os pipelines de recuperação são construídos, como a memória do chat é gerida e como os prompts são desenhados para permanecerem dentro do limite. Para os utilizadores finais, é a diferença entre colar um capítulo num chatbot e colar um livro inteiro — e se o modelo ainda consegue responder a uma pergunta sobre a página três quando chega à página cinquenta.

Tipos principais e tamanhos atuais

  • Contexto curto (2K–8K tokens): a primeira geração de LLMs de consumo, aproximadamente o comprimento de um e-mail longo ou algumas páginas de prosa.
  • Contexto padrão (32K–128K tokens): comum nos modelos de fronteira modernos, suficiente para conter um romance completo, uma base de código moderada ou uma transcrição longa de uma reunião.
  • Contexto longo (200K–1M+ tokens): modelos mais recentes de "contexto longo" que conseguem ingerir livros inteiros, repositórios com múltiplos ficheiros ou conversas de várias horas numa única passagem.
  • Contexto efetivo vs. anunciado: a janela anunciada é o tamanho máximo de entrada, enquanto a janela efetiva é a porção sobre a qual o modelo recupera e raciocina de forma fiável sobre a informação. Benchmarks independentes mostram frequentemente que a janela efetiva é mais pequena do que a anunciada.

As janelas de contexto expandiram-se dramaticamente desde 2023, mas maior nem sempre é melhor: janelas mais longas custam mais memória, são mais lentas e podem diluir o foco do modelo. Para a maioria das tarefas, escolher um modelo com uma janela de contexto que acomode confortavelmente a entrada é mais útil do que perseguir o maior número na ficha técnica.

Também pode gostar

Artigos relacionados