Inferenz in der KI ist der Prozess, bei dem ein trainiertes Modell auf neue Eingaben angewendet wird, um eine Ausgabe zu erzeugen – etwa eine Vorhersage, eine Klassifikation oder generierten Text. Es ist die Bereitstellungsphase, in der ein Modell das in der Trainingsphase Gelernte auf reale Daten anwendet. Jedes Mal, wenn du einem Chatbot eine Frage stellst, eine Empfehlung erhältst oder eine Betrugswarnung bekommst, findet im Hintergrund Inferenz statt.
Wie Inferenz funktioniert
Während des Trainings passt ein Modell seine internen Parameter an – oft Millionen oder Milliarden numerischer Gewichte –, indem es wiederholt markierte Beispiele verarbeitet, bis es Muster erlernt, die sich verallgemeinern lassen. Sobald das Training abgeschlossen ist, werden diese Gewichte eingefroren und in einer Modelldatei verpackt. Die Inferenz beginnt, wenn ein Nutzer oder System eine neue Eingabe an dieses bereitgestellte Modell sendet.
Die Eingabe wird zunächst in eine numerische Darstellung umgewandelt, die als Tensor bezeichnet wird, und dann durch die Schichten des Modells geleitet. Jede Schicht führt Matrixmultiplikationen durch und wendet erlernte Transformationen an, wodurch Zwischendarstellungen entstehen, die letztlich eine Ausgabe liefern – etwa ein Token in einem Sprachmodell, ein Klassenlabel in der Bilderkennung oder einen numerischen Wert in einem Empfehlungssystem. Ein einfaches Beispiel: Ein Spam-Filter, der auf Tausenden von E-Mails trainiert wurde, nimmt eine neue eingehende Nachricht, wandelt ihre Wörter in Vektoren um, leitet sie durch ein neuronales Netzwerk und gibt in Sekundenbruchteilen "Spam" oder "Kein Spam" aus.
Warum sie wichtig ist
Inferenz ist dort, wo der Wert der KI tatsächlich geliefert wird. Das Training baut das Modell auf, aber die Inferenz ist das, was Nutzer, Anwendungen und Unternehmen erleben. Latenz, Kosten und Zuverlässigkeit in der Inferenzphase bestimmen direkt die Produktqualität und das Vertrauen der Nutzer. Die Optimierung der Inferenz – durch Techniken wie Quantisierung, Pruning, Batching oder spezialisierte Hardware wie GPUs und TPUs – ist ein zentraler Schwerpunkt von MLOps- und KI-Infrastrukturteams, denn sie entscheidet darüber, ob ein Modell schnell genug, günstig genug und genau genug ist, um im großen Maßstab zu laufen. Eine ausführlichere Übersicht zur Modelloptimierung findest du in der Hugging Face Optimum-Dokumentation.
Wichtige Arten der Inferenz
- Echtzeit-Inferenz (online): Antworten werden in Millisekunden zurückgegeben, etwa bei Chatbot-Antworten, Such-Rankings und Betrugserkennung an der Kasse.
- Batch-Inferenz: Große Mengen an Eingaben werden offline in Gruppen verarbeitet – üblich für Berichtsgenerierung, Datenlabeling und nächtliche Bewertungsaufgaben.
- Edge-Inferenz: Das Modell läuft direkt auf dem Gerät des Nutzers, etwa einem Smartphone, Auto oder IoT-Sensor, wodurch die Latenz reduziert wird und Daten privat bleiben.
- Serverseitige Inferenz: Anfragen werden an eine zentrale Cloud oder ein Rechenzentrum gesendet, was mehr Rechenleistung bietet, aber Netzwerklatenz mit sich bringt.
Inferenz ist der Moment, in dem ein Modell aufhört zu lernen und zu arbeiten beginnt – es verwandelt trainierte Parameter in die Vorhersagen, Entscheidungen und Inhalte, auf denen KI-Produkte aufbauen. Sie zu verstehen hilft zu erklären, warum sich zwei Modelle mit ähnlicher Genauigkeit in der Praxis sehr unterschiedlich anfühlen können.