Les paramètres d'un modèle d'IA sont les valeurs numériques apprises, stockées dans un réseau de neurones, qui contrôlent la manière dont il transforme les entrées en sorties. Chaque paramètre est essentiellement un poids sur une connexion entre neurones artificiels, et un grand modèle de langage typique en contient entre des dizaines et des centaines de milliards. L'ensemble complet des paramètres, souvent appelés les poids du modèle, est l'artefact produit par l'entraînement et constitue ce qui est enregistré sur disque puis chargé au moment de l'inférence.
Comment fonctionnent les paramètres
Pendant l'entraînement, le modèle traite des exemples, fait des prédictions et les compare à la bonne réponse. Un optimiseur ajuste ensuite légèrement chaque paramètre dans la direction qui aurait réduit l'erreur, un processus appelé descente de gradient. Après des milliers de milliards de telles mises à jour, les paramètres se stabilisent dans des valeurs qui encodent des motifs statistiques sur le langage, les images, ou tout autre type de données sur lequel le modèle a été entraîné.
Lors de l'inférence, un prompt est converti en nombres puis passé à travers des dizaines voire des centaines de couches. À chaque couche, l'entrée est multipliée par des matrices de poids puis passe à travers des fonctions non linéaires simples, les mécanismes d'attention permettant au modèle de mélanger les informations entre les positions. Aucune des données d'entraînement originales n'est stockée textuellement dans les poids ; les paramètres contiennent plutôt une représentation statistique compressée de celles-ci. Un exemple concret : dans un transformer, les projections de query, key et value pour chaque tête d'attention sont des matrices de paramètres qui déterminent à quels mots précédents le modèle prête attention lorsqu'il prédit le suivant.
Pourquoi c'est important
Le nombre de paramètres est l'indicateur le plus cité pour évaluer la capacité d'un modèle, et pour de bonnes raisons : plus de paramètres donnent à un réseau davantage de capacité pour mémoriser et généraliser à partir de motifs, et les plus grands modèles modernes présentent des capacités émergentes que les plus petits n'ont pas. Le nombre de paramètres soulève aussi des préoccupations pratiques : mémoire (chaque paramètre occupe généralement 2 octets en FP16 ou 1 octet lorsqu'il est quantifié de manière agressive), coût de calcul par token, latence, et matériel requis pour exécuter ou fine-tuner le modèle. C'est pourquoi un modèle de 7 milliards de paramètres peut tourner sur un ordinateur portable alors qu'un modèle de 400 milliards de paramètres ne le peut généralement pas.
Types principaux
- Poids : l'essentiel des paramètres, stockés dans des matrices qui multiplient les entrées et les états cachés.
- Biais : petits décalages additifs (un par couche ou par neurone) qui ajustent les activations.
- Paramètres d'embedding : les tables de correspondance qui convertissent les identifiants de tokens en vecteurs, comptabilisés dans le budget total de paramètres.
- Paramètres d'attention : les projections query, key, value et output à l'intérieur de chaque bloc transformer.
- Paramètres feed-forward : les deux grandes couches denses de chaque bloc transformer, qui représentent généralement la majorité du poids total.
Les paramètres sont aussi couramment regroupés par précision. Un modèle décrit comme « 70B » possède 70 milliards de paramètres, mais sa taille de fichier dépend de leur format de stockage : 32 bits, 16 bits, 8 bits ou 4 bits, ce qui explique pourquoi le même modèle peut occuper entre environ 140 Go et environ 35 Go sur disque. Comprendre les paramètres clarifie presque tous les autres concepts de l'IA moderne, du fine-tuning et de la quantification à la longueur de contexte et au coût d'inférence.