Une fenêtre de contexte est la quantité maximale de texte, mesurée en tokens, qu'un grand modèle de langage (LLM) peut traiter en une seule interaction. Elle définit l'étendue totale des informations auxquelles le modèle peut prêter attention simultanément, y compris le prompt de l'utilisateur, les documents joints, l'historique de la conversation et la réponse générée par le modèle lui-même. Lorsqu'une conversation ou un document dépasse la fenêtre de contexte, le contenu le plus ancien est généralement tronqué ou supprimé, ce qui peut amener le modèle à "oublier" des détails qu'on lui a fournis quelques instants plus tôt.
Fonctionnement d'une fenêtre de contexte
Avant que le texte n'atteigne un LLM, il est découpé en tokens, de petits morceaux (approximativement des mots ou des fragments de mots) que le modèle lit réellement. La fenêtre de contexte est le budget fixe de tokens que le modèle peut conserver dans sa mémoire de travail à un instant donné. Si un modèle annonce une fenêtre de contexte de 128 000 tokens, alors tout — les instructions système, les documents récupérés, l'historique complet du chat et la réponse en cours de génération — doit tenir dans cette enveloppe de 128 000 tokens.
En interne, le modèle utilise un mécanisme appelé attention pour pondérer les relations entre chaque token de cette fenêtre. Comme chaque token porte son attention sur tous les autres, le coût de calcul et de mémoire croît à peu près avec le carré de la taille de la fenêtre, ce qui explique pourquoi l'extension de la fenêtre de contexte est un domaine de recherche actif. Les effets concrets apparaissent rapidement : un test de type "aiguille dans une botte de foin" sur 200 000 tokens, où un fait précis est enfoui dans un long document, révèle si le modèle est encore capable de se souvenir de ce fait lorsqu'on l'interroge plus tard dans le prompt.
Pourquoi c'est important
La fenêtre de contexte est la contrainte la plus importante sur ce qu'un LLM peut faire lors d'un tour donné. Une petite fenêtre oblige les utilisateurs à découper les longs documents, à résumer les sections précédentes ou à s'appuyer sur la génération augmentée par récupération (RAG) pour ne fournir que les passages les plus pertinents. Une fenêtre plus grande permet à un modèle d'ingérer des bases de code entières, de longs contrats juridiques, des transcriptions complètes ou des heures de conversation sans perdre le fil des détails antérieurs.
Pour les développeurs, la taille de la fenêtre détermine des décisions d'architecture : la façon dont les pipelines de récupération sont construits, dont la mémoire du chat est gérée et dont les prompts sont conçus pour rester sous la limite. Pour les utilisateurs finaux, c'est la différence entre coller un chapitre dans un chatbot et coller un livre entier — et selon que le modèle peut encore répondre à une question sur la page trois lorsqu'il arrive à la page cinquante.
Types principaux et tailles actuelles
- Contexte court (2K–8K tokens) : la première génération de LLM grand public, à peu près la longueur d'un e-mail long ou de quelques pages de prose.
- Contexte standard (32K–128K tokens) : courant dans les modèles de pointe modernes, suffisant pour contenir un roman complet, une base de code modérée ou une longue transcription de réunion.
- Contexte long (200K–1M+ tokens) : modèles plus récents dits "long-context" capables d'ingérer des livres entiers, des dépôts multi-fichiers ou des conversations de plusieurs heures en une seule passe.
- Contexte effectif vs. contexte annoncé : la fenêtre annoncée est la taille d'entrée maximale, tandis que la fenêtre effective est la partie sur laquelle le modèle récupère et raisonne de manière fiable. Les benchmarks indépendants montrent souvent que la fenêtre effective est plus petite que la fenêtre annoncée.
Les fenêtres de contexte se sont considérablement élargies depuis 2023, mais plus grand ne signifie pas toujours mieux : les fenêtres plus longues consomment davantage de mémoire, s'exécutent plus lentement et peuvent diluer la concentration du modèle. Pour la plupart des tâches, choisir un modèle dont la fenêtre de contexte accueille confortablement l'entrée est plus utile que de courir après le chiffre le plus élevé de la fiche technique.