What is a good temperature value for ChatGPT or other LLMs?

A temperature between 0.2 and 0.7 is a sensible starting point for most tasks. Use the lower end for factual answers, coding, and summarization where consistency matters, and the higher end for brainstorming or creative writing where variety is welcome. Many production systems default to around 0.7 for general conversation.

What is the difference between temperature and top-p in AI?

Temperature rescales the entire probability distribution, making it sharper or flatter before a token is sampled. Top-p (nucleus sampling) instead trims the distribution to the smallest set of tokens whose combined probability exceeds a threshold like 0.9. The two settings are complementary: temperature changes how spread out probabilities are, while top-p changes how many candidates are considered at all.

Does temperature 0 make AI outputs identical every time?

Usually, yes, but not always. Temperature 0 (greedy decoding) makes the model pick the single most probable next token at every step, so on a fixed prompt with no other randomness in the pipeline, the output is reproducible. In practice, parallelism, batching, and floating-point quirks on GPUs can occasionally introduce small variations, which is why some teams still set very low values like 0.01 instead of true zero for strict reproducibility.

Can higher temperature make a model more accurate?

Not in general. Higher temperature increases diversity and creativity but also raises the chance of factual errors and hallucinations. For tasks where accuracy is measured against a known answer, lower temperatures almost always perform better on benchmarks. Higher temperatures can occasionally help on tasks with many valid responses, where exploration unlocks a better answer than the model's first guess.

Qu'est-ce que la température en IA ? Signification et guide

La température en IA est un hyperparamètre qui contrôle l'aléa de la sortie d'un modèle en remodelant la distribution de probabilité que le modèle utilise pour choisir son prochain token, mot ou pixel. Elle est le plus souvent abordée dans le contexte des grands modèles de langage (LLM) et d'autres modèles génératifs, où elle agit comme un curseur entre prévisibilité et créativité. Baissez-la et le modèle a tendance à choisir à chaque fois l'option la plus probable ; montez-la et il accepte de prendre des risques sur des options moins probables.

Comment fonctionne la température

Avant de générer chaque token, un modèle calcule un score brut, appelé logit, pour chaque possibilité de son vocabulaire. Ces logits sont convertis en probabilités via la fonction softmax, et c'est là qu'intervient la température. Chaque logit est divisé par la valeur de température T avant l'application de softmax.

Lorsque T = 1, la distribution reste inchangée. Lorsque T < 1, les probabilités divergent : les tokens déjà probables le deviennent encore davantage, de sorte que l'échantillonnage reste proche de la « meilleure estimation » du modèle. Lorsque T > 1, la distribution s'aplatit et les tokens à faible probabilité obtiennent une part plus importante, rendant les sorties plus variées. Par exemple, si un modèle estime que le mot suivant est « the » avec 60 % de confiance et « a » avec 20 %, une température de 0,2 produira presque toujours « the », tandis qu'une température de 1,2 produira « a » environ une fois sur cinq.

Pourquoi c'est important

La température est l'un des leviers les plus simples et les plus puissants pour façonner le comportement d'un modèle sans réentraînement. Les températures basses sont privilégiées pour les tâches qui exigent de la précision, comme la génération de code, la réponse à des questions factuelles et l'extraction de données structurées, où les hallucinations sont coûteuses. Les températures plus élevées sont utiles pour le brainstorming, la narration et le dialogue, où la nouveauté et la variété comptent plus que l'exactitude.

C'est aussi un élément clé du prompt engineering. La plupart des API de LLM, notamment celles d'OpenAI, d'Anthropic et de Google, exposent la température comme un paramètre ajustable aux côtés de contrôles associés comme top-p (échantillonnage par noyau) et top-k. Parce qu'elle affecte directement l'expérience utilisateur, c'est l'un des premiers réglages que les développeurs ajustent lorsqu'ils passent un modèle d'une démo à la production.

Plages de température clés et quand les utiliser

0,0 — Décodage glouton. Le modèle choisit toujours le token de plus haute probabilité. Déterminisme maximal ; utile pour du code ou des calculs reproductibles.
0,0–0,3 — Bas et ciblé. Bien adapté à la traduction, au résumé, à la classification et aux réponses factuelles.
0,4–0,7 — Équilibré. Valeur par défaut courante pour les assistants conversationnels généralistes.
0,7–1,0 — Plus varié. Utile pour l'écriture créative, les textes marketing et l'idéation.
1,0+ — Très aléatoire. Les sorties peuvent devenir incohérentes ; rarement utilisé hors recherche ou art expérimental.

La température se comprend mieux comme un bouton de réglage que comme un verdict. Associez-la à l'échantillonnage top-p ou top-k, et ajustez en fonction de la tâche, du modèle et du public, car la même valeur peut produire des effets très différents selon les applications.

Qu'est-ce que Température (IA) ?

Comment fonctionne la température

Pourquoi c'est important

Plages de température clés et quand les utiliser

Questions fréquemment posées