Was ist ein Token in KI und Sprachmodellen?

Token in der KI: die Grundeinheit, die ein Sprachmodell liest und schreibt. Erfahren Sie, wie Tokenisierung funktioniert, warum Tokens für Kosten und Kontext wichtig sind und wie sie das Modellverhalten beeinflussen.

Ein Token ist die kleinste Texteinheit, mit der ein Sprachmodell tatsächlich arbeitet. Wenn Sie eine Eingabe an ein Modell wie GPT, Claude oder Llama senden, wird Ihr Text zunächst in eine Sequenz von Tokens zerlegt – in der Regel ganze Wörter, häufige Teilwörter oder einzelne Zeichen – und jeder Token wird dann in eine Zahl umgewandelt, die das Modell verarbeiten kann. Das Modell erzeugt die Ausgabe auf die gleiche Weise, indem es Token für Token vorhersagt und ausgibt, bis es entscheidet, aufzuhören.

Wie Tokens funktionieren

Tokens werden von einem Tokenizer erzeugt, einem separaten Programm, das zwischen Ihrem Text und dem Modell sitzt. Die gängigsten Verfahren sind Byte-Pair Encoding (BPE) und WordPiece, die mit einzelnen Zeichen beginnen und die häufigsten benachbarten Paare wiederholt zu längeren Einheiten zusammenfügen. Das Ergebnis ist ein festes Vokabular – oft 30.000 bis 200.000 Einträge –, das kurze häufige Wörter mit wiederverwendbaren Teilwortstücken ausbalanciert. Ein häufiges Wort wie the wird normalerweise zu einem einzigen Token, während ein seltenes oder erfundenes Wort wie unbelievableness in mehrere aufgeteilt wird: un, believ, able, ness.

Da Englisch im Durchschnitt etwa vier Zeichen pro Token hat, gilt als grobe Faustregel: 100 Tokens ≈ 75 englische Wörter, wobei dies je nach Tokenizer und Sprache variiert. Preisgestaltung, Kontextgrenzen und Generierungsgeschwindigkeit werden alle in Tokens gemessen, nicht in Wörtern oder Zeichen. Ein Modell mit einem Kontextfenster von 200.000 Tokens kann ungefähr das Äquivalent eines langen Romans plus mehrerer Forschungsarbeiten in einer einzigen Eingabe aufnehmen.

Warum es wichtig ist

Tokens bestimmen drei Dinge, die jedem Nutzer wichtig sind: Kosten, Kapazität und Verhalten. API-Anbieter berechnen pro Million Tokens, daher kostet eine Eingabe, die ineffizient tokenisiert wird, mehr als nötig. Kontextfenster – die maximale Textmenge, die ein Modell gleichzeitig berücksichtigen kann – werden in Tokens gezählt, weshalb sehr lange Dokumente vor der Eingabe in Abschnitte aufgeteilt werden müssen. Auch das Verhalten wird beeinflusst: Ein Tokenizer, der ein Wort anders aufteilt, kann verändern, wie ein Modell darüber nachdenkt, und einige Sprachen werden in weit mehr Teile pro Wort tokenisiert als Englisch, was die Kosten erhöht und den effektiven Kontext für nicht-englischsprachige Nutzer verkürzt.

Wichtige Token-Konzepte

  • Tokenisierung: der Algorithmus, der Text in Tokens aufteilt, meist über BPE, WordPiece oder Unigram.
  • Vokabular: die feste Liste von Tokens, die ein Modell kennt, mit einer eindeutigen ganzzahligen ID für jeden Eintrag.
  • Spezielle Tokens: reservierte Symbole wie <BOS>, <EOS> und Auffüllmarkierungen, die Grenzen und Struktur signalisieren, nicht Inhalt.
  • Kontextfenster: die maximale Anzahl von Tokens, die ein Modell in einer einzigen Anfrage verarbeiten kann, einschließlich Eingabe und erzeugter Ausgabe.
  • Token-Limits: harte Obergrenzen, die von Anbietern festgelegt werden, wie viele Tokens eine Anfrage enthalten darf, oft aufgeteilt in Eingabe- und Ausgabelimits.

Für einen tieferen Einblick in Byte-Pair Encoding ist Andrej Karpathys Durchgang minbpe ein praktischer Ausgangspunkt, und das ursprüngliche Paper Neural Machine Translation of Rare Words with Subword Units führte den Ansatz ein, auf dem die meisten modernen Tokenizer noch aufbauen.

You might also like

Verwandte Beiträge