Temperature in der KI ist ein Hyperparameter, der die Zufälligkeit der Modellausgabe steuert, indem er die Wahrscheinlichkeitsverteilung umformt, die das Modell verwendet, um sein nächstes Token, Wort oder Pixel auszuwählen. Am häufigsten wird er im Zusammenhang mit großen Sprachmodellen (LLMs) und anderen generativen Modellen diskutiert, wo er als Regler zwischen Vorhersehbarkeit und Kreativität fungiert. Dreht man ihn herunter, wählt das Modell tendenziell jedes Mal die wahrscheinlichste Option; dreht man ihn hoch, ist es bereit, Chancen bei weniger wahrscheinlichen Optionen einzugehen.
So funktioniert Temperature
Bevor jedes Token erzeugt wird, berechnet ein Modell einen rohen Wert, einen sogenannten Logit, für jede Möglichkeit in seinem Vokabular. Diese Logits werden durch die Softmax-Funktion in Wahrscheinlichkeiten umgewandelt, und genau hier kommt Temperature ins Spiel. Jeder Logit wird vor der Anwendung von Softmax durch den Temperature-Wert T geteilt.
Wenn T = 1, bleibt die Verteilung unverändert. Wenn T < 1, divergieren die Wahrscheinlichkeiten: bereits wahrscheinliche Tokens werden noch wahrscheinlicher, sodass das Sampling nahe an der „besten Vermutung" des Modells bleibt. Wenn T > 1, wird die Verteilung flacher und Tokens mit geringerer Wahrscheinlichkeit erhalten einen größeren Anteil, sodass die Ausgaben vielfältiger werden. Wenn ein Modell beispielsweise denkt, dass das nächste Wort mit 60 % „the" und mit 20 % „a" ist, könnte eine Temperature von 0,2 fast immer „the" ausgeben, während eine Temperature von 1,2 ungefähr bei jedem fünften Versuch „a" liefern würde.
Warum es wichtig ist
Temperature ist einer der einfachsten und leistungsstärksten Hebel, um das Modellverhalten ohne Neutraining zu formen. Niedrige Temperature-Werte werden für Aufgaben bevorzugt, die Präzision erfordern, wie Codegenerierung, faktische Fragebeantwortung und strukturierte Datenextraktion, bei denen Halluzinationen teuer sind. Höhere Temperature-Werte sind nützlich für Brainstorming, Storytelling und Dialoge, wo Neuartigkeit und Vielfalt wichtiger sind als Genauigkeit.
Es ist auch ein zentraler Bestandteil des Prompt Engineering. Die meisten LLM-APIs, einschließlich derer von OpenAI, Anthropic und Google, stellen Temperature als einstellbaren Parameter neben verwandten Steuerungen wie top-p (Nucleus Sampling) und top-k bereit. Da es die Benutzererfahrung direkt beeinflusst, ist es eine der ersten Einstellungen, die Entwickler anpassen, wenn ein Modell von einer Demo in die Produktion überführt wird.
Wichtige Temperature-Bereiche und wann man sie verwendet
- 0,0 — Greedy Decoding. Das Modell wählt immer das Token mit der höchsten Wahrscheinlichkeit. Maximale Determinismus; nützlich für reproduzierbaren Code oder Mathematik.
- 0,0–0,3 — Niedrig und fokussiert. Gut für Übersetzung, Zusammenfassung, Klassifikation und faktbasierte Antworten.
- 0,4–0,7 — Ausgewogen. Eine häufige Standardeinstellung für allgemeine Chat-Assistenten.
- 0,7–1,0 — Abwechslungsreicher. Nützlich für kreatives Schreiben, Marketing-Texte und Ideenfindung.
- 1,0+ — Hochgradig zufällig. Ausgaben können inkohärent werden; wird selten außerhalb von Forschung oder experimenteller Kunst verwendet.
Temperature lässt sich am besten als Regler verstehen, nicht als Urteil. Kombinieren Sie ihn mit top-p oder top-k Sampling und passen Sie ihn basierend auf der jeweiligen Aufgabe, dem Modell und der Zielgruppe an, da derselbe Wert je nach Anwendung sehr unterschiedlich wirken kann.