📖

Cos'è Token?

Token nell'IA: l'unità di base che un modello linguistico legge e scrive. Scopri come funziona la tokenizzazione, perché i token sono importanti per costi e contesto e come influenzano il comportamento del modello.

Un token è la più piccola porzione di testo con cui un modello linguistico lavora effettivamente. Quando invii un prompt a un modello come GPT, Claude o Llama, il tuo testo viene prima suddiviso in una sequenza di token — in genere parole intere, sottoparole comuni o singoli caratteri — e ogni token viene poi convertito in un numero che il modello può elaborare. Il modello genera l'output allo stesso modo, prevedendo ed emettendo un token alla volta finché non decide di fermarsi.

Come funzionano i token

I token sono prodotti da un tokenizer, un programma separato che si pone tra il testo e il modello. Gli schemi più comuni sono la byte-pair encoding (BPE) e WordPiece, che partono dai singoli caratteri e uniscono ripetutamente le coppie adiacenti più frequenti in unità più lunghe. Il risultato è un vocabolario fisso — spesso da 30.000 a 200.000 voci — che bilancia parole comuni brevi con pezzi di sottoparole riutilizzabili. Una parola frequente come the di solito diventa un singolo token, mentre una parola rara o inventata come incredibilità viene suddivisa in più parti: in, cred, ibil, ità.

Poiché l'inglese ha in media circa quattro caratteri per token, una regola approssimativa è che 100 token corrispondono a circa 75 parole inglesi, anche se questo varia a seconda del tokenizer e della lingua. Prezzi, limiti di contesto e velocità di generazione sono tutti misurati in token, non in parole o caratteri. Un modello con una finestra di contesto di 200.000 token può contenere in un singolo prompt l'equivalente di un romanzo lungo più diversi articoli di ricerca.

Perché è importante

I token determinano tre cose che interessano a ogni utente: costo, capacità e comportamento. I fornitori di API addebitano il costo per milione di token, quindi un prompt che viene tokenizzato in modo inefficiente costa più di quanto dovrebbe. Le finestre di contesto — la quantità massima di testo che un modello può considerare contemporaneamente — sono conteggiate in token, ed è per questo che i documenti molto lunghi devono essere suddivisi in blocchi prima di essere inseriti. Anche il comportamento è influenzato: un tokenizer che suddivide una parola in modo diverso può cambiare il modo in cui un modello ragiona su di essa, e alcune lingue vengono tokenizzate in molti più pezzi per parola rispetto all'inglese, il che gonfia i costi e riduce il contesto effettivo per gli utenti non anglofoni.

Concetti chiave sui token

  • Tokenizzazione: l'algoritmo che suddivide il testo in token, solitamente tramite BPE, WordPiece o Unigram.
  • Vocabolario: l'elenco fisso di token che un modello conosce, con un ID intero univoco per ciascuna voce.
  • Token speciali: simboli riservati come <BOS>, <EOS> e marcatori di padding che segnalano confini e struttura anziché contenuto.
  • Finestra di contesto: il numero massimo di token che un modello può elaborare in una singola richiesta, includendo sia l'input che l'output generato.
  • Limiti di token: limiti rigidi imposti dai fornitori su quanti token può contenere una richiesta, spesso suddivisi in limiti di input e output.

Per un'analisi più approfondita della byte-pair encoding, la spiegazione di Andrej Karpathy minbpe è un punto di partenza pratico, e l'articolo originale Neural Machine Translation of Rare Words with Subword Units ha introdotto l'approccio su cui si basano ancora la maggior parte dei tokenizer moderni.

Frequently Asked Questions

How many tokens are in a word?
It depends on the tokenizer, but English words are usually one or two tokens. A common short word like "the" is typically a single token, while longer or less common words are split into subword pieces — for example, "unbelievableness" might become four tokens. On average, English text runs about 0.75 tokens per word, or roughly 100 tokens per 75 words.
Why do AI models use tokens instead of words?
Words create problems for models: vocabularies balloon, rare words are unseen during training, and similar forms like "run," "running," and "ran" are treated as unrelated. Subword tokens give the model a fixed, manageable vocabulary while still letting it represent any word, including ones it has never seen, by combining familiar pieces.
Do tokens count toward the context window?
Yes. The context window is the total number of tokens the model can process in a single request, and it includes both the input you send and the output the model generates. If a model has a 100,000-token context window, your prompt and the model's reply together must fit within that budget.
Are tokens the same across different AI models?
No. Each model family uses its own tokenizer and vocabulary, so the same sentence can produce different token counts on different models. A prompt that fits comfortably in one model's context window may exceed another's, which is worth checking when switching between providers.