Who invented the Transformer architecture?

A team at Google Brain led by Vaswani et al. introduced the Transformer in the 2017 paper "Attention Is All You Need." Its eight authors — including Noam Shazeer, Jakob Uszkoreit, Llion Jones, and Aidan Gomez — showed that self-attention alone could match or beat recurrent and convolutional models on translation tasks while training far faster on GPUs.

What is the difference between a Transformer and an LLM?

A Transformer is the underlying neural network architecture; an LLM (large language model) is a specific application of it, trained on massive text datasets to generate and reason about language. In other words, every modern LLM is built from Transformer blocks, but not every Transformer is an LLM — vision and audio models use the same architecture too.

Why did Transformers replace RNNs and LSTMs?

Transformers process entire sequences in parallel rather than one token at a time, making them far more efficient to train on modern hardware. Their self-attention also captures relationships across long distances in a sequence — something RNNs and LSTMs struggled with due to vanishing gradients. The result is faster training, larger models, and noticeably better performance on language tasks.

What are the main limitations of Transformers?

Self-attention scales quadratically with sequence length, so very long contexts (tens of thousands of tokens) become expensive in both memory and compute. Transformers also require large amounts of training data, are opaque in how they reach decisions, and can hallucinate confident but incorrect outputs. Active research on sparse attention, state-space models, and retrieval augmentation aims to address these trade-offs.

O que é um Transformer? | Glossário HyperStore

Um Transformer é um tipo de rede neuronal concebido para processar sequências de dados — sobretudo linguagem — comparando todos os elementos da entrada entre si em simultâneo. Em vez de ler estritamente da esquerda para a direita como as redes recurrentes mais antigas, utiliza um mecanismo chamado self-attention para aprender quais as palavras, tokens ou posições que mais se relevam entre si, independentemente da distância a que se encontram. Este design paralelo torna os Transformers mais rápidos de treinar em hardware moderno e significativamente melhores a captar dependências de longo alcance, razão pela qual sustentam hoje praticamente todos os grandes modelos de linguagem de última geração.

Como funciona um Transformer

No coração de um Transformer está a operação de self-attention. Cada token de entrada é projetado em três vetores — chamados query, key e value. Para compreender um token, o modelo compara a sua query com as keys de todos os outros tokens, produzindo um conjunto de attention scores que dizem "quanto é que devo olhar para cada um de vós?". Esses scores são normalizados em pesos, e uma soma ponderada dos vetores value torna-se a nova representação desse token. A multi-head attention executa várias destas comparações em paralelo, permitindo ao modelo acompanhar diferentes tipos de relações em simultâneo — gramática, correferência, sentimento, entre outras.

Pilhas destes blocos de atenção, cada um seguido por uma pequena rede feed-forward e ligações residuais, formam o modelo completo. Uma positional encoding é adicionada às entradas para que a rede conheça a ordem dos tokens, uma vez que a atenção em si é indiferente à permutação. Durante o treino, um Transformer apenas-decoder prevê o próximo token de uma sequência; com dados e parâmetros suficientes, este objetivo simples produz as capacidades de raciocínio, tradução e geração de código observadas em sistemas como o GPT.

Porque é importante

Antes dos Transformers, as redes neuronais recurrentes (RNNs) e as LSTMs processavam texto um token de cada vez, o que era lento e tinha dificuldades com contextos longos. A atenção paralela do Transformer permitiu aos investigadores escalar modelos para milhares de milhões de parâmetros treinados em corpora à escala da web, desbloqueando as capacidades dos LLMs modernos. A mesma arquitetura foi desde então adaptada a imagens (vision transformers), áudio, proteínas e aprendizagem por reforço, tornando-se o paradigma dominante da aprendizagem profunda contemporânea.

Principais tipos

Transformers apenas-encoder — como o BERT, otimizados para tarefas de compreensão como classificação, ranking de pesquisa e embeddings.
Transformers apenas-decoder — como o GPT e o Llama, otimizados para gerar texto um token de cada vez.
Transformers encoder-decoder — como o modelo original "Attention Is All You Need" e o T5, usados para tradução e tarefas sequence-to-sequence.
Vision Transformers (ViT) — aplicam self-attention a patches de uma imagem em vez de palavras.
Transformers Mixture-of-Experts (MoE) — encaminham cada token para um subconjunto de sub-redes "especialistas", aumentando a capacidade sem um custo computacional proporcional.

Desde 2017, o Transformer reformulou tanto a investigação em IA como a engenharia de produto, e a maioria das apps no catálogo HyperStore — chatbots, assistentes de código, geradores de imagem e agentes de raciocínio — é construída sobre alguma variante deste modelo. Leia o artigo original "Attention Is All You Need" para conhecer o design fundamental, ou o guia Illustrated Transformer para um passo-a-passo detalhado.

O que é Transformer?

Como funciona um Transformer

Porque é importante

Principais tipos

Frequently Asked Questions