How many parameters does a large language model have?

Frontier language models today typically range from around 7 billion to over 1 trillion parameters. Open-weights models such as Llama 3 ship in 8B, 70B, and larger variants, while closed systems like GPT-4 and Claude are believed to use hundreds of billions to over a trillion parameters based on third-party scaling analyses.

Are more parameters always better?

Not always. More parameters give a model more representational capacity and usually improve benchmark scores, but they also raise training cost, inference latency, and memory requirements. Modern research shows that data quality, architecture choices, and post-training alignment can matter as much as raw parameter count, which is why smaller well-trained models can sometimes match much larger ones on specific tasks.

What is the difference between parameters and tokens?

Parameters are the learned weights inside the model and stay fixed at inference time. Tokens are the chunks of text the model reads or generates, and the number of tokens processed is what determines compute cost per request. A 70B-parameter model handling a 4,000-token prompt still uses 70 billion weights, but the work scales with how many tokens flow through them.

Can parameters be updated after training?

Yes, through fine-tuning. Techniques like full fine-tuning, LoRA, and QLoRA adjust either all or a small subset of a model's parameters on new data so it specializes in a domain or follows new instructions. LoRA in particular adds only a tiny number of trainable parameters on top of frozen base weights, making adaptation cheap.

Que sont les paramètres dans un modèle d'IA ?

Les paramètres d'un modèle d'IA sont les valeurs numériques apprises, stockées dans un réseau de neurones, qui contrôlent la manière dont il transforme les entrées en sorties. Chaque paramètre est essentiellement un poids sur une connexion entre neurones artificiels, et un grand modèle de langage typique en contient entre des dizaines et des centaines de milliards. L'ensemble complet des paramètres, souvent appelés les poids du modèle, est l'artefact produit par l'entraînement et constitue ce qui est enregistré sur disque puis chargé au moment de l'inférence.

Comment fonctionnent les paramètres

Pendant l'entraînement, le modèle traite des exemples, fait des prédictions et les compare à la bonne réponse. Un optimiseur ajuste ensuite légèrement chaque paramètre dans la direction qui aurait réduit l'erreur, un processus appelé descente de gradient. Après des milliers de milliards de telles mises à jour, les paramètres se stabilisent dans des valeurs qui encodent des motifs statistiques sur le langage, les images, ou tout autre type de données sur lequel le modèle a été entraîné.

Lors de l'inférence, un prompt est converti en nombres puis passé à travers des dizaines voire des centaines de couches. À chaque couche, l'entrée est multipliée par des matrices de poids puis passe à travers des fonctions non linéaires simples, les mécanismes d'attention permettant au modèle de mélanger les informations entre les positions. Aucune des données d'entraînement originales n'est stockée textuellement dans les poids ; les paramètres contiennent plutôt une représentation statistique compressée de celles-ci. Un exemple concret : dans un transformer, les projections de query, key et value pour chaque tête d'attention sont des matrices de paramètres qui déterminent à quels mots précédents le modèle prête attention lorsqu'il prédit le suivant.

Pourquoi c'est important

Le nombre de paramètres est l'indicateur le plus cité pour évaluer la capacité d'un modèle, et pour de bonnes raisons : plus de paramètres donnent à un réseau davantage de capacité pour mémoriser et généraliser à partir de motifs, et les plus grands modèles modernes présentent des capacités émergentes que les plus petits n'ont pas. Le nombre de paramètres soulève aussi des préoccupations pratiques : mémoire (chaque paramètre occupe généralement 2 octets en FP16 ou 1 octet lorsqu'il est quantifié de manière agressive), coût de calcul par token, latence, et matériel requis pour exécuter ou fine-tuner le modèle. C'est pourquoi un modèle de 7 milliards de paramètres peut tourner sur un ordinateur portable alors qu'un modèle de 400 milliards de paramètres ne le peut généralement pas.

Types principaux

Poids : l'essentiel des paramètres, stockés dans des matrices qui multiplient les entrées et les états cachés.
Biais : petits décalages additifs (un par couche ou par neurone) qui ajustent les activations.
Paramètres d'embedding : les tables de correspondance qui convertissent les identifiants de tokens en vecteurs, comptabilisés dans le budget total de paramètres.
Paramètres d'attention : les projections query, key, value et output à l'intérieur de chaque bloc transformer.
Paramètres feed-forward : les deux grandes couches denses de chaque bloc transformer, qui représentent généralement la majorité du poids total.

Les paramètres sont aussi couramment regroupés par précision. Un modèle décrit comme « 70B » possède 70 milliards de paramètres, mais sa taille de fichier dépend de leur format de stockage : 32 bits, 16 bits, 8 bits ou 4 bits, ce qui explique pourquoi le même modèle peut occuper entre environ 140 Go et environ 35 Go sur disque. Comprendre les paramètres clarifie presque tous les autres concepts de l'IA moderne, du fine-tuning et de la quantification à la longueur de contexte et au coût d'inférence.

Qu'est-ce que Paramètres (modèle d'IA) ?

Comment fonctionnent les paramètres

Pourquoi c'est important

Types principaux

Questions fréquemment posées