A temperatura na IA é um hiperparâmetro que controla a aleatoriedade da saída de um modelo ao reformular a distribuição de probabilidades que o modelo utiliza para escolher o seu próximo token, palavra ou pixel. É mais frequentemente discutida no contexto dos grandes modelos de linguagem (LLMs) e de outros modelos generativos, onde atua como um regulador entre previsibilidade e criatividade. Reduza-a e o modelo tende a escolher a opção mais provável de cada vez; aumente-a e estará disposto a arriscar em opções menos prováveis.
Como funciona a Temperatura
Antes de gerar cada token, um modelo calcula uma pontuação bruta, chamada logit, para cada possibilidade no seu vocabulário. Esses logits são convertidos em probabilidades através da função softmax, e é aí que entra a temperatura. Cada logit é dividido pelo valor da temperatura T antes de o softmax ser aplicado.
Quando T = 1, a distribuição mantém-se inalterada. Quando T < 1, as probabilidades divergem: tokens já prováveis tornam-se ainda mais prováveis, pelo que a amostragem se mantém próxima do "melhor palpite" do modelo. Quando T > 1, a distribuição torna-se mais uniforme e os tokens de menor probabilidade ganham uma parte maior, tornando as saídas mais diversificadas. Por exemplo, se um modelo considerar que a próxima palavra é "o" com 60% de confiança e "um" com 20%, uma temperatura de 0.2 pode gerar "o" quase sempre, enquanto uma temperatura de 1.2 geraria "um" aproximadamente uma em cada cinco tentativas.
Porque é importante
A temperatura é uma das formas mais simples e poderosas de moldar o comportamento de um modelo sem necessidade de retreino. Temperaturas baixas são preferidas para tarefas que exigem precisão, como geração de código, resposta a perguntas factuais e extração de dados estruturados, onde as alucinações são dispendiosas. Temperaturas mais altas são úteis para brainstorming, narrativa e diálogo, onde a novidade e a variedade importam mais do que a exatidão.
Também é uma parte essencial da engenharia de prompts. A maioria das APIs de LLM, incluindo as da OpenAI, Anthropic e Google, expõem a temperatura como um parâmetro ajustável, juntamente com controlos relacionados como top-p (amostragem por núcleo) e top-k. Por afetar diretamente a experiência do utilizador, é uma das primeiras definições que os programadores ajustam ao passar um modelo de uma demonstração para produção.
Intervalos de temperatura-chave e quando utilizá-los
- 0.0 — Decodificação gulosa. O modelo escolhe sempre o token de maior probabilidade. Determinismo máximo; útil para código ou matemática reprodutíveis.
- 0.0–0.3 — Baixa e focada. Boa para tradução, sumarização, classificação e respostas baseadas em factos.
- 0.4–0.7 — Equilibrada. Uma predefinição comum para assistentes de chat de uso geral.
- 0.7–1.0 — Mais variada. Útil para escrita criativa, textos de marketing e ideação.
- 1.0+ — Altamente aleatória. As saídas podem tornar-se incoerentes; raramente utilizada fora da investigação ou arte experimental.
A temperatura entende-se melhor como um botão de ajuste, não um veredicto. Combine-a com a amostragem top-p ou top-k, e ajuste com base na tarefa, modelo e público específicos, uma vez que o mesmo valor pode parecer muito diferente consoante a aplicação.