Un Transformer es un tipo de red neuronal diseñada para procesar secuencias de datos —especialmente lenguaje— comparando cada elemento de la entrada con todos los demás elementos al mismo tiempo. En lugar de leer estrictamente de izquierda a derecha como las redes recurrentes más antiguas, utiliza un mecanismo llamado autoatención para aprender qué palabras, tokens o posiciones se influyen mutuamente con mayor importancia, sin importar lo lejos que estén. Este diseño en paralelo hace que los Transformers sean más rápidos de entrenar en hardware moderno y notablemente mejores capturando dependencias de largo alcance, por eso hoy impulsan prácticamente todos los grandes modelos de lenguaje de última generación.
Cómo funciona un Transformer
En el corazón de un Transformer se encuentra la operación de autoatención. Cada token de entrada se proyecta en tres vectores —llamados query, key y value. Para comprender un token, el modelo compara su query con los keys de todos los demás tokens, produciendo un conjunto de puntuaciones de atención que indican «¿cuánto debo fijarme en cada uno de vosotros?». Esas puntuaciones se normalizan en pesos, y una suma ponderada de los vectores value se convierte en la nueva representación de ese token. La atención multi-cabezal ejecuta varias de estas comparaciones en paralelo, lo que permite al modelo rastrear simultáneamente distintos tipos de relaciones: gramática, correferencia, sentimiento y muchas más.
Las pilas de estos bloques de atención, cada uno seguido de una pequeña red feed-forward y conexiones residuales, forman el modelo completo. Se añade una codificación posicional a las entradas para que la red conozca el orden de los tokens, ya que la atención por sí misma es invariante a permutaciones. Durante el entrenamiento, un Transformer solo-decodificador predice el siguiente token de una secuencia; con suficientes datos y parámetros, este sencillo objetivo produce las capacidades de razonamiento, traducción y generación de código que se observan en sistemas como GPT.
Por qué es importante
Antes de los Transformers, las redes neuronales recurrentes (RNN) y las LSTM procesaban el texto token a token, lo que resultaba lento y tenía dificultades con contextos largos. La atención en paralelo del Transformer permitió a los investigadores escalar modelos hasta miles de millones de parámetros entrenados con corpus a escala web, desbloqueando las capacidades de los LLM modernos. La misma arquitectura se ha adaptado después a imágenes (vision transformers), audio, proteínas y aprendizaje por refuerzo, convirtiéndose en el paradigma dominante del deep learning contemporáneo.
Tipos clave
- Transformers solo-codificador — como BERT, optimizados para tareas de comprensión como clasificación, ranking en búsquedas y embeddings.
- Transformers solo-decodificador — como GPT y Llama, optimizados para generar texto token a token.
- Transformers codificador-decodificador — como el modelo original «Attention Is All You Need» y T5, usados para traducción y tareas de secuencia a secuencia.
- Vision Transformers (ViT) — aplican autoatención a fragmentos de una imagen en lugar de a palabras.
- Transformers Mixture-of-Experts (MoE) — dirigen cada token a un subconjunto de sub-redes «expertas», aumentando la capacidad sin un coste computacional proporcional.
Desde 2017, el Transformer ha transformado tanto la investigación en IA como la ingeniería de producto, y la mayoría de las apps del catálogo de HyperStore —chatbots, asistentes de código, generadores de imágenes y agentes de razonamiento— se construyen sobre alguna variante del mismo. Lee el artículo original «Attention Is All You Need» para conocer el diseño fundacional, o la guía Illustrated Transformer para un recorrido paso a paso.