Who invented the Transformer architecture?

A team at Google Brain led by Vaswani et al. introduced the Transformer in the 2017 paper "Attention Is All You Need." Its eight authors — including Noam Shazeer, Jakob Uszkoreit, Llion Jones, and Aidan Gomez — showed that self-attention alone could match or beat recurrent and convolutional models on translation tasks while training far faster on GPUs.

What is the difference between a Transformer and an LLM?

A Transformer is the underlying neural network architecture; an LLM (large language model) is a specific application of it, trained on massive text datasets to generate and reason about language. In other words, every modern LLM is built from Transformer blocks, but not every Transformer is an LLM — vision and audio models use the same architecture too.

Why did Transformers replace RNNs and LSTMs?

Transformers process entire sequences in parallel rather than one token at a time, making them far more efficient to train on modern hardware. Their self-attention also captures relationships across long distances in a sequence — something RNNs and LSTMs struggled with due to vanishing gradients. The result is faster training, larger models, and noticeably better performance on language tasks.

What are the main limitations of Transformers?

Self-attention scales quadratically with sequence length, so very long contexts (tens of thousands of tokens) become expensive in both memory and compute. Transformers also require large amounts of training data, are opaque in how they reach decisions, and can hallucinate confident but incorrect outputs. Active research on sparse attention, state-space models, and retrieval augmentation aims to address these trade-offs.

Qu'est-ce qu'un Transformer ? | Glossaire HyperStore

Un Transformer est un type de réseau neuronal conçu pour traiter des séquences de données — le plus souvent du langage — en comparant simultanément chaque élément de l'entrée à tous les autres. Au lieu de lire strictement de gauche à droite comme le font les anciens réseaux récurrents, il utilise un mécanisme appelé auto-attention pour apprendre quels mots, jetons ou positions comptent le plus les uns pour les autres, quelle que soit leur distance. Cette conception parallèle rend les Transformers plus rapides à entraîner sur le matériel moderne et bien meilleurs pour capturer les dépendances à longue distance, ce qui explique pourquoi ils alimentent désormais presque tous les grands modèles de langage à la pointe de l'état de l'art.

Comment fonctionne un Transformer

Au cœur d'un Transformer se trouve l'opération d'auto-attention. Chaque jeton d'entrée est projeté dans trois vecteurs — appelés query, key et value. Pour comprendre un jeton, le modèle compare sa query aux key de tous les autres jetons, produisant un ensemble de scores d'attention qui disent « dans quelle mesure dois-je m'intéresser à chacun de vous ? ». Ces scores sont normalisés en poids, et une somme pondérée des vecteurs value devient la nouvelle représentation de ce jeton. L'attention multi-têtes exécute plusieurs de ces comparaisons en parallèle, permettant au modèle de suivre simultanément différents types de relations — grammaire, coréférence, sentiment, et bien d'autres.

Des empilements de ces blocs d'attention, chacun suivi d'un petit réseau feed-forward et de connexions résiduelles, forment le modèle complet. Un codage positionnel est ajouté aux entrées afin que le réseau connaisse l'ordre des jetons, puisque l'attention elle-même est indifférente à la permutation. Pendant l'entraînement, un Transformer de type décodeur uniquement prédit le jeton suivant dans une séquence ; avec suffisamment de données et de paramètres, cet objectif simple produit les capacités de raisonnement, de traduction et de génération de code observées dans des systèmes comme GPT.

Pourquoi c'est important

Avant les Transformers, les réseaux neuronaux récurrents (RNN) et les LSTM traitaient le texte un jeton à la fois, ce qui était lent et peinait avec les contextes longs. L'attention parallèle du Transformer a permis aux chercheurs de faire passer les modèles à des milliards de paramètres entraînés sur des corpus à l'échelle du web, débloquant ainsi les capacités des LLM modernes. La même architecture a depuis été adaptée aux images (vision transformers), à l'audio, aux protéines et à l'apprentissage par renforcement, ce qui en fait le paradigme dominant de l'apprentissage profond contemporain.

Principaux types

Transformers encodeur uniquement — tels que BERT, optimisés pour les tâches de compréhension comme la classification, le classement de recherche et les embeddings.
Transformers décodeur uniquement — tels que GPT et Llama, optimisés pour générer du texte un jeton à la fois.
Transformers encodeur-décodeur — tels que le modèle original « Attention Is All You Need » et T5, utilisés pour la traduction et les tâches de séquence à séquence.
Vision Transformers (ViT) — appliquent l'auto-attention à des patchs d'une image au lieu de mots.
Transformers à mixture d'experts (MoE) — acheminent chaque jeton vers un sous-ensemble de sous-réseaux « experts », augmentant la capacité sans coût de calcul proportionnel.

Depuis 2017, le Transformer a remodelé à la fois la recherche en IA et l'ingénierie produit, et la plupart des applications du catalogue HyperStore — chatbots, assistants de code, générateurs d'images et agents de raisonnement — reposent sur une variante de cette architecture. Lisez l'article original « Attention Is All You Need » pour découvrir la conception fondatrice, ou le guide Illustrated Transformer pour une explication pas à pas.

Qu'est-ce que Transformer ?

Comment fonctionne un Transformer

Pourquoi c'est important

Principaux types

Frequently Asked Questions