Who invented the Transformer architecture?

A team at Google Brain led by Vaswani et al. introduced the Transformer in the 2017 paper "Attention Is All You Need." Its eight authors — including Noam Shazeer, Jakob Uszkoreit, Llion Jones, and Aidan Gomez — showed that self-attention alone could match or beat recurrent and convolutional models on translation tasks while training far faster on GPUs.

What is the difference between a Transformer and an LLM?

A Transformer is the underlying neural network architecture; an LLM (large language model) is a specific application of it, trained on massive text datasets to generate and reason about language. In other words, every modern LLM is built from Transformer blocks, but not every Transformer is an LLM — vision and audio models use the same architecture too.

Why did Transformers replace RNNs and LSTMs?

Transformers process entire sequences in parallel rather than one token at a time, making them far more efficient to train on modern hardware. Their self-attention also captures relationships across long distances in a sequence — something RNNs and LSTMs struggled with due to vanishing gradients. The result is faster training, larger models, and noticeably better performance on language tasks.

What are the main limitations of Transformers?

Self-attention scales quadratically with sequence length, so very long contexts (tens of thousands of tokens) become expensive in both memory and compute. Transformers also require large amounts of training data, are opaque in how they reach decisions, and can hallucinate confident but incorrect outputs. Active research on sparse attention, state-space models, and retrieval augmentation aims to address these trade-offs.

¿Qué es un Transformer? | Glosario de HyperStore

Un Transformer es un tipo de red neuronal diseñada para procesar secuencias de datos —especialmente lenguaje— comparando cada elemento de la entrada con todos los demás elementos al mismo tiempo. En lugar de leer estrictamente de izquierda a derecha como las redes recurrentes más antiguas, utiliza un mecanismo llamado autoatención para aprender qué palabras, tokens o posiciones se influyen mutuamente con mayor importancia, sin importar lo lejos que estén. Este diseño en paralelo hace que los Transformers sean más rápidos de entrenar en hardware moderno y notablemente mejores capturando dependencias de largo alcance, por eso hoy impulsan prácticamente todos los grandes modelos de lenguaje de última generación.

Cómo funciona un Transformer

En el corazón de un Transformer se encuentra la operación de autoatención. Cada token de entrada se proyecta en tres vectores —llamados query, key y value. Para comprender un token, el modelo compara su query con los keys de todos los demás tokens, produciendo un conjunto de puntuaciones de atención que indican «¿cuánto debo fijarme en cada uno de vosotros?». Esas puntuaciones se normalizan en pesos, y una suma ponderada de los vectores value se convierte en la nueva representación de ese token. La atención multi-cabezal ejecuta varias de estas comparaciones en paralelo, lo que permite al modelo rastrear simultáneamente distintos tipos de relaciones: gramática, correferencia, sentimiento y muchas más.

Las pilas de estos bloques de atención, cada uno seguido de una pequeña red feed-forward y conexiones residuales, forman el modelo completo. Se añade una codificación posicional a las entradas para que la red conozca el orden de los tokens, ya que la atención por sí misma es invariante a permutaciones. Durante el entrenamiento, un Transformer solo-decodificador predice el siguiente token de una secuencia; con suficientes datos y parámetros, este sencillo objetivo produce las capacidades de razonamiento, traducción y generación de código que se observan en sistemas como GPT.

Por qué es importante

Antes de los Transformers, las redes neuronales recurrentes (RNN) y las LSTM procesaban el texto token a token, lo que resultaba lento y tenía dificultades con contextos largos. La atención en paralelo del Transformer permitió a los investigadores escalar modelos hasta miles de millones de parámetros entrenados con corpus a escala web, desbloqueando las capacidades de los LLM modernos. La misma arquitectura se ha adaptado después a imágenes (vision transformers), audio, proteínas y aprendizaje por refuerzo, convirtiéndose en el paradigma dominante del deep learning contemporáneo.

Tipos clave

Transformers solo-codificador — como BERT, optimizados para tareas de comprensión como clasificación, ranking en búsquedas y embeddings.
Transformers solo-decodificador — como GPT y Llama, optimizados para generar texto token a token.
Transformers codificador-decodificador — como el modelo original «Attention Is All You Need» y T5, usados para traducción y tareas de secuencia a secuencia.
Vision Transformers (ViT) — aplican autoatención a fragmentos de una imagen en lugar de a palabras.
Transformers Mixture-of-Experts (MoE) — dirigen cada token a un subconjunto de sub-redes «expertas», aumentando la capacidad sin un coste computacional proporcional.

Desde 2017, el Transformer ha transformado tanto la investigación en IA como la ingeniería de producto, y la mayoría de las apps del catálogo de HyperStore —chatbots, asistentes de código, generadores de imágenes y agentes de razonamiento— se construyen sobre alguna variante del mismo. Lee el artículo original «Attention Is All You Need» para conocer el diseño fundacional, o la guía Illustrated Transformer para un recorrido paso a paso.

¿Qué es Transformer?

Cómo funciona un Transformer

Por qué es importante

Tipos clave

Preguntas frecuentes