La temperatura en la IA es un hiperparámetro que controla la aleatoriedad de la salida de un modelo al remodelar la distribución de probabilidad que el modelo utiliza para elegir su siguiente token, palabra o píxel. Se habla de ella sobre todo en el contexto de los modelos de lenguaje grandes (LLM) y otros modelos generativos, donde actúa como un dial entre predecibilidad y creatividad. Si la bajas, el modelo tiende a elegir siempre la opción más probable; si la subes, está dispuesto a arriesgarse con opciones menos probables.
Cómo funciona la temperatura
Antes de generar cada token, un modelo calcula una puntuación bruta, llamada logit, para cada posibilidad de su vocabulario. Esos logits se convierten en probabilidades mediante la función softmax, y ahí es donde entra la temperatura. Cada logit se divide por el valor de temperatura T antes de aplicar el softmax.
Cuando T = 1, la distribución no cambia. Cuando T < 1, las probabilidades se separan: los tokens que ya eran probables se vuelven aún más probables, por lo que el muestreo se mantiene cerca de la "mejor suposición" del modelo. Cuando T > 1, la distribución se aplana y los tokens de menor probabilidad ganan peso, por lo que las salidas se vuelven más diversas. Por ejemplo, si un modelo cree que la siguiente palabra es "el" con un 60 % de confianza y "un" con un 20 %, con una temperatura de 0,2 probablemente dé "el" casi siempre, mientras que con 1,2 daría "un" aproximadamente una de cada cinco veces.
Por qué importa
La temperatura es una de las palancas más sencillas y potentes para moldear el comportamiento de un modelo sin necesidad de reentrenarlo. Se prefieren temperaturas bajas para tareas que exigen precisión, como generación de código, respuesta a preguntas factuales y extracción de datos estructurados, donde las alucinaciones son costosas. Las temperaturas altas son útiles para lluvia de ideas, narración y diálogo, donde la novedad y la variedad importan más que la exactitud.
También es una pieza clave del prompt engineering. La mayoría de las API de LLM, incluidas las de OpenAI, Anthropic y Google, exponen la temperatura como un parámetro ajustable junto con controles relacionados como top-p (muestreo por núcleo) y top-k. Como afecta directamente a la experiencia de usuario, es uno de los primeros ajustes que modifican los desarrolladores al pasar un modelo de una demo a producción.
Rangos clave de temperatura y cuándo usarlos
- 0,0 — Decodificación voraz. El modelo elige siempre el token con mayor probabilidad. Máximo determinismo; útil para código o matemáticas reproducibles.
- 0,0–0,3 — Baja y enfocada. Buena para traducción, resumen, clasificación y respuestas basadas en datos.
- 0,4–0,7 — Equilibrada. Un valor predeterminado habitual para asistentes de chat de uso general.
- 0,7–1,0 — Más variada. Útil para escritura creativa, textos de marketing e ideación.
- 1,0+ — Muy aleatoria. Las salidas pueden volverse incoherentes; rara vez se usa fuera de la investigación o el arte experimental.
La temperatura se entiende mejor como un dial, no como un veredicto. Combínala con el muestreo top-p o top-k y ajústala según la tarea, el modelo y la audiencia concretos, ya que el mismo valor puede sentirse muy distinto de una aplicación a otra.