Un Transformer est un type de réseau neuronal conçu pour traiter des séquences de données — le plus souvent du langage — en comparant simultanément chaque élément de l'entrée à tous les autres. Au lieu de lire strictement de gauche à droite comme le font les anciens réseaux récurrents, il utilise un mécanisme appelé auto-attention pour apprendre quels mots, jetons ou positions comptent le plus les uns pour les autres, quelle que soit leur distance. Cette conception parallèle rend les Transformers plus rapides à entraîner sur le matériel moderne et bien meilleurs pour capturer les dépendances à longue distance, ce qui explique pourquoi ils alimentent désormais presque tous les grands modèles de langage à la pointe de l'état de l'art.
Comment fonctionne un Transformer
Au cœur d'un Transformer se trouve l'opération d'auto-attention. Chaque jeton d'entrée est projeté dans trois vecteurs — appelés query, key et value. Pour comprendre un jeton, le modèle compare sa query aux key de tous les autres jetons, produisant un ensemble de scores d'attention qui disent « dans quelle mesure dois-je m'intéresser à chacun de vous ? ». Ces scores sont normalisés en poids, et une somme pondérée des vecteurs value devient la nouvelle représentation de ce jeton. L'attention multi-têtes exécute plusieurs de ces comparaisons en parallèle, permettant au modèle de suivre simultanément différents types de relations — grammaire, coréférence, sentiment, et bien d'autres.
Des empilements de ces blocs d'attention, chacun suivi d'un petit réseau feed-forward et de connexions résiduelles, forment le modèle complet. Un codage positionnel est ajouté aux entrées afin que le réseau connaisse l'ordre des jetons, puisque l'attention elle-même est indifférente à la permutation. Pendant l'entraînement, un Transformer de type décodeur uniquement prédit le jeton suivant dans une séquence ; avec suffisamment de données et de paramètres, cet objectif simple produit les capacités de raisonnement, de traduction et de génération de code observées dans des systèmes comme GPT.
Pourquoi c'est important
Avant les Transformers, les réseaux neuronaux récurrents (RNN) et les LSTM traitaient le texte un jeton à la fois, ce qui était lent et peinait avec les contextes longs. L'attention parallèle du Transformer a permis aux chercheurs de faire passer les modèles à des milliards de paramètres entraînés sur des corpus à l'échelle du web, débloquant ainsi les capacités des LLM modernes. La même architecture a depuis été adaptée aux images (vision transformers), à l'audio, aux protéines et à l'apprentissage par renforcement, ce qui en fait le paradigme dominant de l'apprentissage profond contemporain.
Principaux types
- Transformers encodeur uniquement — tels que BERT, optimisés pour les tâches de compréhension comme la classification, le classement de recherche et les embeddings.
- Transformers décodeur uniquement — tels que GPT et Llama, optimisés pour générer du texte un jeton à la fois.
- Transformers encodeur-décodeur — tels que le modèle original « Attention Is All You Need » et T5, utilisés pour la traduction et les tâches de séquence à séquence.
- Vision Transformers (ViT) — appliquent l'auto-attention à des patchs d'une image au lieu de mots.
- Transformers à mixture d'experts (MoE) — acheminent chaque jeton vers un sous-ensemble de sous-réseaux « experts », augmentant la capacité sans coût de calcul proportionnel.
Depuis 2017, le Transformer a remodelé à la fois la recherche en IA et l'ingénierie produit, et la plupart des applications du catalogue HyperStore — chatbots, assistants de code, générateurs d'images et agents de raisonnement — reposent sur une variante de cette architecture. Lisez l'article original « Attention Is All You Need » pour découvrir la conception fondatrice, ou le guide Illustrated Transformer pour une explication pas à pas.