La température en IA est un hyperparamètre qui contrôle l'aléa de la sortie d'un modèle en remodelant la distribution de probabilité que le modèle utilise pour choisir son prochain token, mot ou pixel. Elle est le plus souvent abordée dans le contexte des grands modèles de langage (LLM) et d'autres modèles génératifs, où elle agit comme un curseur entre prévisibilité et créativité. Baissez-la et le modèle a tendance à choisir à chaque fois l'option la plus probable ; montez-la et il accepte de prendre des risques sur des options moins probables.
Comment fonctionne la température
Avant de générer chaque token, un modèle calcule un score brut, appelé logit, pour chaque possibilité de son vocabulaire. Ces logits sont convertis en probabilités via la fonction softmax, et c'est là qu'intervient la température. Chaque logit est divisé par la valeur de température T avant l'application de softmax.
Lorsque T = 1, la distribution reste inchangée. Lorsque T < 1, les probabilités divergent : les tokens déjà probables le deviennent encore davantage, de sorte que l'échantillonnage reste proche de la « meilleure estimation » du modèle. Lorsque T > 1, la distribution s'aplatit et les tokens à faible probabilité obtiennent une part plus importante, rendant les sorties plus variées. Par exemple, si un modèle estime que le mot suivant est « the » avec 60 % de confiance et « a » avec 20 %, une température de 0,2 produira presque toujours « the », tandis qu'une température de 1,2 produira « a » environ une fois sur cinq.
Pourquoi c'est important
La température est l'un des leviers les plus simples et les plus puissants pour façonner le comportement d'un modèle sans réentraînement. Les températures basses sont privilégiées pour les tâches qui exigent de la précision, comme la génération de code, la réponse à des questions factuelles et l'extraction de données structurées, où les hallucinations sont coûteuses. Les températures plus élevées sont utiles pour le brainstorming, la narration et le dialogue, où la nouveauté et la variété comptent plus que l'exactitude.
C'est aussi un élément clé du prompt engineering. La plupart des API de LLM, notamment celles d'OpenAI, d'Anthropic et de Google, exposent la température comme un paramètre ajustable aux côtés de contrôles associés comme top-p (échantillonnage par noyau) et top-k. Parce qu'elle affecte directement l'expérience utilisateur, c'est l'un des premiers réglages que les développeurs ajustent lorsqu'ils passent un modèle d'une démo à la production.
Plages de température clés et quand les utiliser
- 0,0 — Décodage glouton. Le modèle choisit toujours le token de plus haute probabilité. Déterminisme maximal ; utile pour du code ou des calculs reproductibles.
- 0,0–0,3 — Bas et ciblé. Bien adapté à la traduction, au résumé, à la classification et aux réponses factuelles.
- 0,4–0,7 — Équilibré. Valeur par défaut courante pour les assistants conversationnels généralistes.
- 0,7–1,0 — Plus varié. Utile pour l'écriture créative, les textes marketing et l'idéation.
- 1,0+ — Très aléatoire. Les sorties peuvent devenir incohérentes ; rarement utilisé hors recherche ou art expérimental.
La température se comprend mieux comme un bouton de réglage que comme un verdict. Associez-la à l'échantillonnage top-p ou top-k, et ajustez en fonction de la tâche, du modèle et du public, car la même valeur peut produire des effets très différents selon les applications.