¿Qué es un token en la IA y los modelos de lenguaje?

Token en IA: la unidad básica que un modelo de lenguaje lee y escribe. Aprende cómo funciona la tokenización, por qué los tokens importan para el coste y el contexto, y cómo influyen en el comportamiento del modelo.

Un token es la unidad más pequeña de texto con la que trabaja realmente un modelo de lenguaje. Cuando envías un prompt a un modelo como GPT, Claude o Llama, tu texto primero se divide en una secuencia de tokens —normalmente palabras completas, subpalabras comunes o caracteres sueltos— y cada token se convierte después en un número que el modelo puede procesar. El modelo genera la salida del mismo modo: predice y emite un token cada vez hasta que decide detenerse.

Cómo funcionan los tokens

Los tokens los produce un tokenizador, un programa independiente que se sitúa entre tu texto y el modelo. Los esquemas más habituales son byte-pair encoding (BPE) y WordPiece, que parten de caracteres individuales y fusionan repetidamente los pares adyacentes más frecuentes en unidades más largas. El resultado es un vocabulario fijo —a menudo de 30.000 a 200.000 entradas— que equilibra palabras comunes cortas con piezas de subpalabra reutilizables. Una palabra frecuente como the suele convertirse en un único token, mientras que una palabra rara o inventada como unbelievableness se divide en varias: un, believ, able, ness.

Dado que el inglés tiene una media de unos cuatro caracteres por token, una regla aproximada es que 100 tokens ≈ 75 palabras en inglés, aunque esto varía según el tokenizador y el idioma. El precio, los límites de contexto y la velocidad de generación se miden en tokens, no en palabras ni en caracteres. Un modelo con una ventana de contexto de 200.000 tokens puede contener aproximadamente el equivalente a una novela larga más varios artículos de investigación en un solo prompt.

Por qué importa

Los tokens determinan tres cosas que importan a cualquier usuario: coste, capacidad y comportamiento. Los proveedores de API cobran por millón de tokens, por lo que un prompt que se tokeniza de forma ineficiente cuesta más de lo que debería. Las ventanas de contexto —la cantidad máxima de texto que un modelo puede considerar a la vez— se cuentan en tokens, razón por la cual los documentos muy largos deben dividirse en fragmentos antes de introducirlos. El comportamiento también se ve afectado: un tokenizador que divide una palabra de forma distinta puede cambiar cómo razona un modelo sobre ella, y algunos idiomas se tokenizan en muchas más piezas por palabra que el inglés, lo que inflan los costes y acortan el contexto efectivo para los usuarios no angloparlantes.

Conceptos clave sobre tokens

  • Tokenización: el algoritmo que divide el texto en tokens, habitualmente mediante BPE, WordPiece o Unigram.
  • Vocabulario: la lista fija de tokens que conoce un modelo, con un ID entero único para cada entrada.
  • Tokens especiales: símbolos reservados como <BOS>, <EOS> y marcadores de padding que señalan límites y estructura en lugar de contenido.
  • Ventana de contexto: el número máximo de tokens que un modelo puede procesar en una sola solicitud, incluyendo tanto la entrada como la salida generada.
  • Límites de tokens: topes máximos impuestos por los proveedores sobre cuántos tokens puede contener una solicitud, a menudo divididos en límites de entrada y de salida.

Para profundizar en byte-pair encoding, el tutorial de Andrej Karpathy minbpe es un punto de partida práctico, y el artículo original Neural Machine Translation of Rare Words with Subword Units presentó el enfoque sobre el que aún se construye la mayoría de los tokenizadores modernos.

You might also like

Artículos relacionados