Was ist ein Transformer?

Der Transformer ist eine auf Self-Attention basierende neuronale Netzwerkarchitektur, die die heutigen großen Sprachmodelle antreibt. Erfahren Sie, wie er funktioniert und warum er so wichtig ist.

Ein Transformer ist eine Art neuronales Netzwerk, das darauf ausgelegt ist, Datenfolgen – vor allem Sprache – zu verarbeiten, indem es jedes Element der Eingabe gleichzeitig mit jedem anderen Element vergleicht. Anstatt wie ältere rekurrente Netze streng von links nach rechts zu lesen, nutzt es einen Mechanismus namens Self-Attention, um zu lernen, welche Wörter, Tokens oder Positionen am wichtigsten füreinander sind – unabhängig davon, wie weit sie voneinander entfernt stehen. Dieses parallele Design macht Transformer schneller trainierbar auf moderner Hardware und deutlich besser darin, weitreichende Abhängigkeiten zu erfassen, weshalb sie heute nahezu jedes hochmoderne große Sprachmodell antreiben.

So funktioniert ein Transformer

Im Kern eines Transformers steht die Self-Attention-Operation. Jedes Eingabe-Token wird in drei Vektoren projiziert – sogenannte Query, Key und Value. Um ein Token zu verstehen, vergleicht das Modell seine Query mit den Keys aller anderen Tokens und erzeugt dabei eine Reihe von Attention-Scores, die sagen: „Wie sehr soll ich auf jedes von euch achten?" Diese Scores werden zu Gewichten normalisiert, und eine gewichtete Summe der Value-Vektoren ergibt die neue Repräsentation dieses Tokens. Multi-Head Attention führt mehrere solcher Vergleiche parallel aus, sodass das Modell gleichzeitig unterschiedliche Arten von Beziehungen verfolgen kann – Grammatik, Koreferenz, Stimmung und mehr.

Stapel dieser Attention-Blöcke, jeweils gefolgt von einem kleinen Feed-Forward-Netzwerk und Residualverbindungen, bilden das gesamte Modell. Den Eingaben wird ein Positional Encoding hinzugefügt, damit das Netzwerk die Reihenfolge der Tokens kennt, da Attention an sich permutationsagnostisch ist. Beim Training sagt ein Decoder-only-Transformer das nächste Token in einer Sequenz vorher; mit genügend Daten und Parametern erzeugt diese einfache Zielsetzung die Fähigkeiten zum logischen Schlussfolgern, Übersetzen und Codegenerieren, die in Systemen wie GPT zu sehen sind.

Warum es wichtig ist

Vor den Transformern verarbeiteten rekurrente neuronale Netze (RNNs) und LSTMs Text Token für Token, was langsam war und mit langen Kontexten zu kämpfen hatte. Die parallele Attention der Transformer ermöglichte es Forschern, Modelle auf Milliarden von Parametern zu skalieren, die auf webgroßen Korpora trainiert wurden, und schuf so die Grundlage für die Fähigkeiten moderner LLMs. Dieselbe Architektur wurde seitdem auf Bilder (Vision Transformer), Audio, Proteine und Reinforcement Learning angepasst, was sie zum dominanten Paradigma des modernen Deep Learning macht.

Wichtige Typen

  • Encoder-only-Transformer – wie BERT, optimiert für Verständnisaufgaben wie Klassifikation, Such-Ranking und Embeddings.
  • Decoder-only-Transformer – wie GPT und Llama, optimiert für die Textgenerierung Token für Token.
  • Encoder-Decoder-Transformer – wie das ursprüngliche „Attention Is All You Need"-Modell und T5, verwendet für Übersetzung und Sequenz-zu-Sequenz-Aufgaben.
  • Vision Transformer (ViT) – wenden Self-Attention auf Bildausschnitte statt auf Wörter an.
  • Mixture-of-Experts (MoE) Transformer – leiten jedes Token an eine Teilmenge von „Expert"-Subnetzwerken weiter und erhöhen so die Kapazität ohne proportional steigende Rechenkosten.

Seit 2017 hat der Transformer sowohl die KI-Forschung als auch die Produktentwicklung neu geprägt, und die meisten Apps im HyperStore-Katalog – Chatbots, Code-Assistenten, Bildgeneratoren und Reasoning-Agenten – basieren auf einer Variante davon. Lesen Sie das ursprüngliche Paper „Attention Is All You Need" für das grundlegende Design oder den Illustrated Transformer-Leitfaden für eine schrittweise Einführung.

You might also like

Verwandte Beiträge