Qu'est-ce qu'un token dans l'IA et les modèles de langage ?

Token en IA : l'unité de base qu'un modèle de langage lit et écrit. Découvrez comment fonctionne la tokenisation, pourquoi les tokens comptent pour le coût et le contexte, et comment ils influencent le comportement du modèle.

Un token est la plus petite unité de texte sur laquelle un modèle de langage travaille réellement. Lorsque vous envoyez un prompt à un modèle comme GPT, Claude ou Llama, votre texte est d'abord découpé en une séquence de tokens — généralement des mots entiers, des sous-mots courants ou des caractères isolés — puis chaque token est converti en un nombre que le modèle peut traiter. Le modèle génère la sortie de la même manière, en prédisant et en émettant un token à la fois jusqu'à ce qu'il décide de s'arrêter.

Comment fonctionnent les tokens

Les tokens sont produits par un tokenizer (tokeniseur), un programme distinct qui se place entre votre texte et le modèle. Les schémas les plus courants sont le byte-pair encoding (BPE) et WordPiece, qui partent de caractères individuels et fusionnent de manière répétée les paires adjacentes les plus fréquentes en unités plus longues. Le résultat est un vocabulaire fixe — souvent de 30 000 à 200 000 entrées — qui équilibre les mots courts courants avec des sous-mots réutilisables. Un mot fréquent comme the devient généralement un seul token, tandis qu'un mot rare ou inventé comme unbelievableness est découpé en plusieurs : un, believ, able, ness.

Comme l'anglais compte en moyenne environ quatre caractères par token, une règle approximative est que 100 tokens ≈ 75 mots anglais, même si cela varie selon le tokenizer et la langue. La tarification, les limites de contexte et la vitesse de génération sont toutes mesurées en tokens, et non en mots ou en caractères. Un modèle doté d'une fenêtre de contexte de 200 000 tokens peut contenir à peu près l'équivalent d'un long roman plus plusieurs articles de recherche dans un seul prompt.

Pourquoi c'est important

Les tokens déterminent trois aspects qui intéressent chaque utilisateur : le coût, la capacité et le comportement. Les fournisseurs d'API facturent au million de tokens, donc un prompt qui se tokenise de façon inefficace coûte plus cher qu'il ne devrait. Les fenêtres de contexte — la quantité maximale de texte qu'un modèle peut prendre en compte à la fois — sont comptées en tokens, ce qui explique pourquoi les documents très longs doivent être découpés en morceaux avant d'être fournis. Le comportement est également affecté : un tokenizer qui découpe un mot différemment peut modifier la façon dont un modèle raisonne dessus, et certaines langues se tokenisent en bien plus de morceaux par mot que l'anglais, ce qui gonfle les coûts et réduit le contexte effectif pour les utilisateurs non anglophones.

Concepts clés des tokens

  • Tokenisation : l'algorithme qui découpe le texte en tokens, généralement via BPE, WordPiece ou Unigram.
  • Vocabulaire : la liste fixe de tokens qu'un modèle connaît, avec un identifiant entier unique pour chaque entrée.
  • Tokens spéciaux : symboles réservés tels que <BOS>, <EOS> et les marqueurs de remplissage qui signalent des frontières et de la structure plutôt qu'un contenu.
  • Fenêtre de contexte : le nombre maximum de tokens qu'un modèle peut traiter dans une seule requête, incluant l'entrée et la sortie générée.
  • Limites de tokens : plafonds imposés par les fournisseurs sur le nombre de tokens qu'une requête peut contenir, souvent répartis entre limites d'entrée et de sortie.

Pour un approfondissement sur le byte-pair encoding, le tutoriel minbpe d'Andrej Karpathy est un point de départ pratique, et l'article original Neural Machine Translation of Rare Words with Subword Units a introduit l'approche sur laquelle la plupart des tokenizers modernes s'appuient encore.

You might also like

Articles connexes