Che cos'è un token nell'IA e nei modelli linguistici?

Token nell'IA: l'unità di base che un modello linguistico legge e scrive. Scopri come funziona la tokenizzazione, perché i token sono importanti per costi e contesto e come influenzano il comportamento del modello.

Un token è la più piccola porzione di testo con cui un modello linguistico lavora effettivamente. Quando invii un prompt a un modello come GPT, Claude o Llama, il tuo testo viene prima suddiviso in una sequenza di token — in genere parole intere, sottoparole comuni o singoli caratteri — e ogni token viene poi convertito in un numero che il modello può elaborare. Il modello genera l'output allo stesso modo, prevedendo ed emettendo un token alla volta finché non decide di fermarsi.

Come funzionano i token

I token sono prodotti da un tokenizer, un programma separato che si pone tra il testo e il modello. Gli schemi più comuni sono la byte-pair encoding (BPE) e WordPiece, che partono dai singoli caratteri e uniscono ripetutamente le coppie adiacenti più frequenti in unità più lunghe. Il risultato è un vocabolario fisso — spesso da 30.000 a 200.000 voci — che bilancia parole comuni brevi con pezzi di sottoparole riutilizzabili. Una parola frequente come the di solito diventa un singolo token, mentre una parola rara o inventata come incredibilità viene suddivisa in più parti: in, cred, ibil, ità.

Poiché l'inglese ha in media circa quattro caratteri per token, una regola approssimativa è che 100 token corrispondono a circa 75 parole inglesi, anche se questo varia a seconda del tokenizer e della lingua. Prezzi, limiti di contesto e velocità di generazione sono tutti misurati in token, non in parole o caratteri. Un modello con una finestra di contesto di 200.000 token può contenere in un singolo prompt l'equivalente di un romanzo lungo più diversi articoli di ricerca.

Perché è importante

I token determinano tre cose che interessano a ogni utente: costo, capacità e comportamento. I fornitori di API addebitano il costo per milione di token, quindi un prompt che viene tokenizzato in modo inefficiente costa più di quanto dovrebbe. Le finestre di contesto — la quantità massima di testo che un modello può considerare contemporaneamente — sono conteggiate in token, ed è per questo che i documenti molto lunghi devono essere suddivisi in blocchi prima di essere inseriti. Anche il comportamento è influenzato: un tokenizer che suddivide una parola in modo diverso può cambiare il modo in cui un modello ragiona su di essa, e alcune lingue vengono tokenizzate in molti più pezzi per parola rispetto all'inglese, il che gonfia i costi e riduce il contesto effettivo per gli utenti non anglofoni.

Concetti chiave sui token

  • Tokenizzazione: l'algoritmo che suddivide il testo in token, solitamente tramite BPE, WordPiece o Unigram.
  • Vocabolario: l'elenco fisso di token che un modello conosce, con un ID intero univoco per ciascuna voce.
  • Token speciali: simboli riservati come <BOS>, <EOS> e marcatori di padding che segnalano confini e struttura anziché contenuto.
  • Finestra di contesto: il numero massimo di token che un modello può elaborare in una singola richiesta, includendo sia l'input che l'output generato.
  • Limiti di token: limiti rigidi imposti dai fornitori su quanti token può contenere una richiesta, spesso suddivisi in limiti di input e output.

Per un'analisi più approfondita della byte-pair encoding, la spiegazione di Andrej Karpathy minbpe è un punto di partenza pratico, e l'articolo originale Neural Machine Translation of Rare Words with Subword Units ha introdotto l'approccio su cui si basano ancora la maggior parte dei tokenizer moderni.

You might also like

Articoli correlati