📖

Was ist Token?

Token in der KI: die Grundeinheit, die ein Sprachmodell liest und schreibt. Erfahren Sie, wie Tokenisierung funktioniert, warum Tokens für Kosten und Kontext wichtig sind und wie sie das Modellverhalten beeinflussen.

Ein Token ist die kleinste Texteinheit, mit der ein Sprachmodell tatsächlich arbeitet. Wenn Sie eine Eingabe an ein Modell wie GPT, Claude oder Llama senden, wird Ihr Text zunächst in eine Sequenz von Tokens zerlegt – in der Regel ganze Wörter, häufige Teilwörter oder einzelne Zeichen – und jeder Token wird dann in eine Zahl umgewandelt, die das Modell verarbeiten kann. Das Modell erzeugt die Ausgabe auf die gleiche Weise, indem es Token für Token vorhersagt und ausgibt, bis es entscheidet, aufzuhören.

Wie Tokens funktionieren

Tokens werden von einem Tokenizer erzeugt, einem separaten Programm, das zwischen Ihrem Text und dem Modell sitzt. Die gängigsten Verfahren sind Byte-Pair Encoding (BPE) und WordPiece, die mit einzelnen Zeichen beginnen und die häufigsten benachbarten Paare wiederholt zu längeren Einheiten zusammenfügen. Das Ergebnis ist ein festes Vokabular – oft 30.000 bis 200.000 Einträge –, das kurze häufige Wörter mit wiederverwendbaren Teilwortstücken ausbalanciert. Ein häufiges Wort wie the wird normalerweise zu einem einzigen Token, während ein seltenes oder erfundenes Wort wie unbelievableness in mehrere aufgeteilt wird: un, believ, able, ness.

Da Englisch im Durchschnitt etwa vier Zeichen pro Token hat, gilt als grobe Faustregel: 100 Tokens ≈ 75 englische Wörter, wobei dies je nach Tokenizer und Sprache variiert. Preisgestaltung, Kontextgrenzen und Generierungsgeschwindigkeit werden alle in Tokens gemessen, nicht in Wörtern oder Zeichen. Ein Modell mit einem Kontextfenster von 200.000 Tokens kann ungefähr das Äquivalent eines langen Romans plus mehrerer Forschungsarbeiten in einer einzigen Eingabe aufnehmen.

Warum es wichtig ist

Tokens bestimmen drei Dinge, die jedem Nutzer wichtig sind: Kosten, Kapazität und Verhalten. API-Anbieter berechnen pro Million Tokens, daher kostet eine Eingabe, die ineffizient tokenisiert wird, mehr als nötig. Kontextfenster – die maximale Textmenge, die ein Modell gleichzeitig berücksichtigen kann – werden in Tokens gezählt, weshalb sehr lange Dokumente vor der Eingabe in Abschnitte aufgeteilt werden müssen. Auch das Verhalten wird beeinflusst: Ein Tokenizer, der ein Wort anders aufteilt, kann verändern, wie ein Modell darüber nachdenkt, und einige Sprachen werden in weit mehr Teile pro Wort tokenisiert als Englisch, was die Kosten erhöht und den effektiven Kontext für nicht-englischsprachige Nutzer verkürzt.

Wichtige Token-Konzepte

  • Tokenisierung: der Algorithmus, der Text in Tokens aufteilt, meist über BPE, WordPiece oder Unigram.
  • Vokabular: die feste Liste von Tokens, die ein Modell kennt, mit einer eindeutigen ganzzahligen ID für jeden Eintrag.
  • Spezielle Tokens: reservierte Symbole wie <BOS>, <EOS> und Auffüllmarkierungen, die Grenzen und Struktur signalisieren, nicht Inhalt.
  • Kontextfenster: die maximale Anzahl von Tokens, die ein Modell in einer einzigen Anfrage verarbeiten kann, einschließlich Eingabe und erzeugter Ausgabe.
  • Token-Limits: harte Obergrenzen, die von Anbietern festgelegt werden, wie viele Tokens eine Anfrage enthalten darf, oft aufgeteilt in Eingabe- und Ausgabelimits.

Für einen tieferen Einblick in Byte-Pair Encoding ist Andrej Karpathys Durchgang minbpe ein praktischer Ausgangspunkt, und das ursprüngliche Paper Neural Machine Translation of Rare Words with Subword Units führte den Ansatz ein, auf dem die meisten modernen Tokenizer noch aufbauen.

Häufig gestellte Fragen

How many tokens are in a word?
It depends on the tokenizer, but English words are usually one or two tokens. A common short word like "the" is typically a single token, while longer or less common words are split into subword pieces — for example, "unbelievableness" might become four tokens. On average, English text runs about 0.75 tokens per word, or roughly 100 tokens per 75 words.
Why do AI models use tokens instead of words?
Words create problems for models: vocabularies balloon, rare words are unseen during training, and similar forms like "run," "running," and "ran" are treated as unrelated. Subword tokens give the model a fixed, manageable vocabulary while still letting it represent any word, including ones it has never seen, by combining familiar pieces.
Do tokens count toward the context window?
Yes. The context window is the total number of tokens the model can process in a single request, and it includes both the input you send and the output the model generates. If a model has a 100,000-token context window, your prompt and the model's reply together must fit within that budget.
Are tokens the same across different AI models?
No. Each model family uses its own tokenizer and vocabulary, so the same sentence can produce different token counts on different models. A prompt that fits comfortably in one model's context window may exceed another's, which is worth checking when switching between providers.