O que é um Transformer?

O Transformer é uma arquitetura de rede neuronal baseada em self-attention que sustenta os grandes modelos de linguagem atuais. Descubra como funciona e porque é importante.

Um Transformer é um tipo de rede neuronal concebido para processar sequências de dados — sobretudo linguagem — comparando todos os elementos da entrada entre si em simultâneo. Em vez de ler estritamente da esquerda para a direita como as redes recurrentes mais antigas, utiliza um mecanismo chamado self-attention para aprender quais as palavras, tokens ou posições que mais se relevam entre si, independentemente da distância a que se encontram. Este design paralelo torna os Transformers mais rápidos de treinar em hardware moderno e significativamente melhores a captar dependências de longo alcance, razão pela qual sustentam hoje praticamente todos os grandes modelos de linguagem de última geração.

Como funciona um Transformer

No coração de um Transformer está a operação de self-attention. Cada token de entrada é projetado em três vetores — chamados query, key e value. Para compreender um token, o modelo compara a sua query com as keys de todos os outros tokens, produzindo um conjunto de attention scores que dizem "quanto é que devo olhar para cada um de vós?". Esses scores são normalizados em pesos, e uma soma ponderada dos vetores value torna-se a nova representação desse token. A multi-head attention executa várias destas comparações em paralelo, permitindo ao modelo acompanhar diferentes tipos de relações em simultâneo — gramática, correferência, sentimento, entre outras.

Pilhas destes blocos de atenção, cada um seguido por uma pequena rede feed-forward e ligações residuais, formam o modelo completo. Uma positional encoding é adicionada às entradas para que a rede conheça a ordem dos tokens, uma vez que a atenção em si é indiferente à permutação. Durante o treino, um Transformer apenas-decoder prevê o próximo token de uma sequência; com dados e parâmetros suficientes, este objetivo simples produz as capacidades de raciocínio, tradução e geração de código observadas em sistemas como o GPT.

Porque é importante

Antes dos Transformers, as redes neuronais recurrentes (RNNs) e as LSTMs processavam texto um token de cada vez, o que era lento e tinha dificuldades com contextos longos. A atenção paralela do Transformer permitiu aos investigadores escalar modelos para milhares de milhões de parâmetros treinados em corpora à escala da web, desbloqueando as capacidades dos LLMs modernos. A mesma arquitetura foi desde então adaptada a imagens (vision transformers), áudio, proteínas e aprendizagem por reforço, tornando-se o paradigma dominante da aprendizagem profunda contemporânea.

Principais tipos

  • Transformers apenas-encoder — como o BERT, otimizados para tarefas de compreensão como classificação, ranking de pesquisa e embeddings.
  • Transformers apenas-decoder — como o GPT e o Llama, otimizados para gerar texto um token de cada vez.
  • Transformers encoder-decoder — como o modelo original "Attention Is All You Need" e o T5, usados para tradução e tarefas sequence-to-sequence.
  • Vision Transformers (ViT) — aplicam self-attention a patches de uma imagem em vez de palavras.
  • Transformers Mixture-of-Experts (MoE) — encaminham cada token para um subconjunto de sub-redes "especialistas", aumentando a capacidade sem um custo computacional proporcional.

Desde 2017, o Transformer reformulou tanto a investigação em IA como a engenharia de produto, e a maioria das apps no catálogo HyperStore — chatbots, assistentes de código, geradores de imagem e agentes de raciocínio — é construída sobre alguma variante deste modelo. Leia o artigo original "Attention Is All You Need" para conhecer o design fundamental, ou o guia Illustrated Transformer para um passo-a-passo detalhado.

You might also like

Artigos relacionados