📖

¿Qué es Token?

Token en IA: la unidad básica que un modelo de lenguaje lee y escribe. Aprende cómo funciona la tokenización, por qué los tokens importan para el coste y el contexto, y cómo influyen en el comportamiento del modelo.

Un token es la unidad más pequeña de texto con la que trabaja realmente un modelo de lenguaje. Cuando envías un prompt a un modelo como GPT, Claude o Llama, tu texto primero se divide en una secuencia de tokens —normalmente palabras completas, subpalabras comunes o caracteres sueltos— y cada token se convierte después en un número que el modelo puede procesar. El modelo genera la salida del mismo modo: predice y emite un token cada vez hasta que decide detenerse.

Cómo funcionan los tokens

Los tokens los produce un tokenizador, un programa independiente que se sitúa entre tu texto y el modelo. Los esquemas más habituales son byte-pair encoding (BPE) y WordPiece, que parten de caracteres individuales y fusionan repetidamente los pares adyacentes más frecuentes en unidades más largas. El resultado es un vocabulario fijo —a menudo de 30.000 a 200.000 entradas— que equilibra palabras comunes cortas con piezas de subpalabra reutilizables. Una palabra frecuente como the suele convertirse en un único token, mientras que una palabra rara o inventada como unbelievableness se divide en varias: un, believ, able, ness.

Dado que el inglés tiene una media de unos cuatro caracteres por token, una regla aproximada es que 100 tokens ≈ 75 palabras en inglés, aunque esto varía según el tokenizador y el idioma. El precio, los límites de contexto y la velocidad de generación se miden en tokens, no en palabras ni en caracteres. Un modelo con una ventana de contexto de 200.000 tokens puede contener aproximadamente el equivalente a una novela larga más varios artículos de investigación en un solo prompt.

Por qué importa

Los tokens determinan tres cosas que importan a cualquier usuario: coste, capacidad y comportamiento. Los proveedores de API cobran por millón de tokens, por lo que un prompt que se tokeniza de forma ineficiente cuesta más de lo que debería. Las ventanas de contexto —la cantidad máxima de texto que un modelo puede considerar a la vez— se cuentan en tokens, razón por la cual los documentos muy largos deben dividirse en fragmentos antes de introducirlos. El comportamiento también se ve afectado: un tokenizador que divide una palabra de forma distinta puede cambiar cómo razona un modelo sobre ella, y algunos idiomas se tokenizan en muchas más piezas por palabra que el inglés, lo que inflan los costes y acortan el contexto efectivo para los usuarios no angloparlantes.

Conceptos clave sobre tokens

  • Tokenización: el algoritmo que divide el texto en tokens, habitualmente mediante BPE, WordPiece o Unigram.
  • Vocabulario: la lista fija de tokens que conoce un modelo, con un ID entero único para cada entrada.
  • Tokens especiales: símbolos reservados como <BOS>, <EOS> y marcadores de padding que señalan límites y estructura en lugar de contenido.
  • Ventana de contexto: el número máximo de tokens que un modelo puede procesar en una sola solicitud, incluyendo tanto la entrada como la salida generada.
  • Límites de tokens: topes máximos impuestos por los proveedores sobre cuántos tokens puede contener una solicitud, a menudo divididos en límites de entrada y de salida.

Para profundizar en byte-pair encoding, el tutorial de Andrej Karpathy minbpe es un punto de partida práctico, y el artículo original Neural Machine Translation of Rare Words with Subword Units presentó el enfoque sobre el que aún se construye la mayoría de los tokenizadores modernos.

Frequently Asked Questions

How many tokens are in a word?
It depends on the tokenizer, but English words are usually one or two tokens. A common short word like "the" is typically a single token, while longer or less common words are split into subword pieces — for example, "unbelievableness" might become four tokens. On average, English text runs about 0.75 tokens per word, or roughly 100 tokens per 75 words.
Why do AI models use tokens instead of words?
Words create problems for models: vocabularies balloon, rare words are unseen during training, and similar forms like "run," "running," and "ran" are treated as unrelated. Subword tokens give the model a fixed, manageable vocabulary while still letting it represent any word, including ones it has never seen, by combining familiar pieces.
Do tokens count toward the context window?
Yes. The context window is the total number of tokens the model can process in a single request, and it includes both the input you send and the output the model generates. If a model has a 100,000-token context window, your prompt and the model's reply together must fit within that budget.
Are tokens the same across different AI models?
No. Each model family uses its own tokenizer and vocabulary, so the same sentence can produce different token counts on different models. A prompt that fits comfortably in one model's context window may exceed another's, which is worth checking when switching between providers.