Was sind Parameter in einem KI-Modell?

Parameter sind die erlernten numerischen Gewichte in einem neuronalen Netz. Erfahren Sie, was sie sind, wie sie funktionieren und warum die Modellgröße in Milliarden gemessen wird.

Parameter in einem KI-Modell sind die erlernten numerischen Werte, die in einem neuronalen Netz gespeichert sind und steuern, wie es Eingaben in Ausgaben umwandelt. Jeder Parameter ist im Wesentlichen ein Gewicht auf einer Verbindung zwischen künstlichen Neuronen, und ein typisches großes Sprachmodell enthält davon zehn bis hunderte Milliarden. Die vollständige Menge der Parameter, oft als Gewichte des Modells bezeichnet, ist das durch das Training erzeugte Artefakt und wird auf der Festplatte gespeichert und zur Inferenzzeit geladen.

Wie Parameter funktionieren

Während des Trainings verarbeitet das Modell Beispiele, macht Vorhersagen und vergleicht sie mit der korrekten Antwort. Ein Optimierer verschiebt dann jeden Parameter leicht in die Richtung, die den Fehler verringert hätte – ein Prozess, der Gradientenabstieg genannt wird. Nach Billionen solcher Updates nehmen die Parameter Werte an, die statistische Muster über Sprache, Bilder oder die Daten kodieren, mit denen das Modell trainiert wurde.

Zur Inferenzzeit wird ein Prompt in Zahlen umgewandelt und durch Dutzende oder Hunderte von Schichten geleitet. In jeder Schicht wird die Eingabe mit Gewichtsmatrizen multipliziert und durch einfache nichtlineare Funktionen geleitet, wobei Aufmerksamkeitsmechanismen es dem Modell ermöglichen, Informationen über Positionen hinweg zu mischen. Keine der ursprünglichen Trainingsdaten wird wörtlich in den Gewichten gespeichert; vielmehr halten die Parameter eine komprimierte statistische Darstellung davon. Ein konkretes Beispiel: In einem Transformer sind die Query-, Key- und Value-Projektionen für jeden Aufmerksamkeitskopf Matrizen aus Parametern, die entscheiden, auf welche früheren Wörter das Modell bei der Vorhersage des nächsten Wortes achtet.

Warum es wichtig ist

Die Parameteranzahl ist der am häufigsten zitierte Indikator für die Fähigkeit eines Modells, und das aus gutem Grund: Mehr Parameter geben einem Netz mehr Kapazität, Muster zu memorieren und zu verallgemeinern, und die größten modernen Modelle zeigen emergente Fähigkeiten, die kleineren fehlen. Die Parameteranzahl treibt auch praktische Aspekte voran: Speicher (jeder Parameter belegt typischerweise 2 Bytes in FP16 oder 1 Byte bei aggressiver Quantisierung), Rechenkosten pro Token, Latenz und die Hardware, die zum Ausführen oder Feinabstimmen des Modells erforderlich ist. Deshalb kann ein 7-Milliarden-Parameter-Modell auf einem Laptop laufen, während ein 400-Milliarden-Parameter-Modell dies in der Regel nicht kann.

Wichtige Typen

  • Gewichte: der Großteil der Parameter, gespeichert in Matrizen, die Eingaben und verborgene Zustände multiplizieren.
  • Biases: kleine additive Versätze (einer pro Schicht oder pro Neuron), die Aktivierungen verschieben.
  • Embedding-Parameter: die Nachschlagetabellen, die Token-IDs in Vektoren umwandeln und zum Gesamtparameterbudget gezählt werden.
  • Aufmerksamkeits-Parameter: die Query-, Key-, Value- und Output-Projektionen innerhalb jedes Transformer-Blocks.
  • Feedforward-Parameter: die beiden großen dichten Schichten in jedem Transformer-Block, die in der Regel den Großteil der Gesamtgewichte ausmachen.

Parameter werden auch üblicherweise nach Präzision gruppiert. Ein als „70B" beschriebenes Modell hat 70 Milliarden Parameter, aber seine Dateigröße hängt davon ab, ob diese im 32-Bit-, 16-Bit-, 8-Bit- oder 4-Bit-Format gespeichert sind, weshalb dasselbe Modell auf der Festplatte von etwa 140 GB bis rund 35 GB reichen kann. Parameter zu verstehen, klärt fast jedes andere Konzept in der modernen KI – von Feinabstimmung und Quantisierung bis hin zu Kontextlänge und Inferenzkosten.

Das könnte Ihnen auch gefallen

Verwandte Beiträge