Who invented the Transformer architecture?

A team at Google Brain led by Vaswani et al. introduced the Transformer in the 2017 paper "Attention Is All You Need." Its eight authors — including Noam Shazeer, Jakob Uszkoreit, Llion Jones, and Aidan Gomez — showed that self-attention alone could match or beat recurrent and convolutional models on translation tasks while training far faster on GPUs.

What is the difference between a Transformer and an LLM?

A Transformer is the underlying neural network architecture; an LLM (large language model) is a specific application of it, trained on massive text datasets to generate and reason about language. In other words, every modern LLM is built from Transformer blocks, but not every Transformer is an LLM — vision and audio models use the same architecture too.

Why did Transformers replace RNNs and LSTMs?

Transformers process entire sequences in parallel rather than one token at a time, making them far more efficient to train on modern hardware. Their self-attention also captures relationships across long distances in a sequence — something RNNs and LSTMs struggled with due to vanishing gradients. The result is faster training, larger models, and noticeably better performance on language tasks.

What are the main limitations of Transformers?

Self-attention scales quadratically with sequence length, so very long contexts (tens of thousands of tokens) become expensive in both memory and compute. Transformers also require large amounts of training data, are opaque in how they reach decisions, and can hallucinate confident but incorrect outputs. Active research on sparse attention, state-space models, and retrieval augmentation aims to address these trade-offs.

Was ist ein Transformer? | HyperStore Glossar

Ein Transformer ist eine Art neuronales Netzwerk, das darauf ausgelegt ist, Datenfolgen – vor allem Sprache – zu verarbeiten, indem es jedes Element der Eingabe gleichzeitig mit jedem anderen Element vergleicht. Anstatt wie ältere rekurrente Netze streng von links nach rechts zu lesen, nutzt es einen Mechanismus namens Self-Attention, um zu lernen, welche Wörter, Tokens oder Positionen am wichtigsten füreinander sind – unabhängig davon, wie weit sie voneinander entfernt stehen. Dieses parallele Design macht Transformer schneller trainierbar auf moderner Hardware und deutlich besser darin, weitreichende Abhängigkeiten zu erfassen, weshalb sie heute nahezu jedes hochmoderne große Sprachmodell antreiben.

So funktioniert ein Transformer

Im Kern eines Transformers steht die Self-Attention-Operation. Jedes Eingabe-Token wird in drei Vektoren projiziert – sogenannte Query, Key und Value. Um ein Token zu verstehen, vergleicht das Modell seine Query mit den Keys aller anderen Tokens und erzeugt dabei eine Reihe von Attention-Scores, die sagen: „Wie sehr soll ich auf jedes von euch achten?" Diese Scores werden zu Gewichten normalisiert, und eine gewichtete Summe der Value-Vektoren ergibt die neue Repräsentation dieses Tokens. Multi-Head Attention führt mehrere solcher Vergleiche parallel aus, sodass das Modell gleichzeitig unterschiedliche Arten von Beziehungen verfolgen kann – Grammatik, Koreferenz, Stimmung und mehr.

Stapel dieser Attention-Blöcke, jeweils gefolgt von einem kleinen Feed-Forward-Netzwerk und Residualverbindungen, bilden das gesamte Modell. Den Eingaben wird ein Positional Encoding hinzugefügt, damit das Netzwerk die Reihenfolge der Tokens kennt, da Attention an sich permutationsagnostisch ist. Beim Training sagt ein Decoder-only-Transformer das nächste Token in einer Sequenz vorher; mit genügend Daten und Parametern erzeugt diese einfache Zielsetzung die Fähigkeiten zum logischen Schlussfolgern, Übersetzen und Codegenerieren, die in Systemen wie GPT zu sehen sind.

Warum es wichtig ist

Vor den Transformern verarbeiteten rekurrente neuronale Netze (RNNs) und LSTMs Text Token für Token, was langsam war und mit langen Kontexten zu kämpfen hatte. Die parallele Attention der Transformer ermöglichte es Forschern, Modelle auf Milliarden von Parametern zu skalieren, die auf webgroßen Korpora trainiert wurden, und schuf so die Grundlage für die Fähigkeiten moderner LLMs. Dieselbe Architektur wurde seitdem auf Bilder (Vision Transformer), Audio, Proteine und Reinforcement Learning angepasst, was sie zum dominanten Paradigma des modernen Deep Learning macht.

Wichtige Typen

Encoder-only-Transformer – wie BERT, optimiert für Verständnisaufgaben wie Klassifikation, Such-Ranking und Embeddings.
Decoder-only-Transformer – wie GPT und Llama, optimiert für die Textgenerierung Token für Token.
Encoder-Decoder-Transformer – wie das ursprüngliche „Attention Is All You Need"-Modell und T5, verwendet für Übersetzung und Sequenz-zu-Sequenz-Aufgaben.
Vision Transformer (ViT) – wenden Self-Attention auf Bildausschnitte statt auf Wörter an.
Mixture-of-Experts (MoE) Transformer – leiten jedes Token an eine Teilmenge von „Expert"-Subnetzwerken weiter und erhöhen so die Kapazität ohne proportional steigende Rechenkosten.

Seit 2017 hat der Transformer sowohl die KI-Forschung als auch die Produktentwicklung neu geprägt, und die meisten Apps im HyperStore-Katalog – Chatbots, Code-Assistenten, Bildgeneratoren und Reasoning-Agenten – basieren auf einer Variante davon. Lesen Sie das ursprüngliche Paper „Attention Is All You Need" für das grundlegende Design oder den Illustrated Transformer-Leitfaden für eine schrittweise Einführung.

Was ist Transformer?

So funktioniert ein Transformer

Warum es wichtig ist

Wichtige Typen

Frequently Asked Questions