What is the difference between training and inference?

Training is the phase where a model learns patterns from data by adjusting its internal weights, typically using large datasets and significant compute. Inference is the phase that comes after, where the trained model is used to make predictions or generate outputs on new data without further weight updates. Training happens once (or periodically); inference happens every time the model is used.

How fast does AI inference need to be?

It depends on the application. Real-time use cases like conversational AI, search, and fraud detection often require responses in under 200 milliseconds. Batch jobs like overnight analytics can take minutes or hours. Edge applications such as voice assistants are especially latency-sensitive because they cannot rely on a round trip to the cloud.

Why is inference expensive?

Inference cost comes from the compute, memory, and energy required to run a model, which scales with model size and request volume. Large language models with billions of parameters can cost several cents per request on cloud GPUs, and at billions of daily requests, that adds up quickly. Techniques like quantization, caching, and smaller distilled models are common ways to reduce inference cost.

Can inference run without the internet?

Yes, through edge inference. Smaller, optimized models can be deployed directly on devices like smartphones, laptops, cars, and embedded sensors, allowing AI features to work offline and keeping user data local. The trade-off is that edge models are usually less capable than the largest cloud-hosted models because of hardware constraints.

Was ist Inferenz in der KI? | HyperStore-Glossar

Inferenz in der KI ist der Prozess, bei dem ein trainiertes Modell auf neue Eingaben angewendet wird, um eine Ausgabe zu erzeugen – etwa eine Vorhersage, eine Klassifikation oder generierten Text. Es ist die Bereitstellungsphase, in der ein Modell das in der Trainingsphase Gelernte auf reale Daten anwendet. Jedes Mal, wenn du einem Chatbot eine Frage stellst, eine Empfehlung erhältst oder eine Betrugswarnung bekommst, findet im Hintergrund Inferenz statt.

Wie Inferenz funktioniert

Während des Trainings passt ein Modell seine internen Parameter an – oft Millionen oder Milliarden numerischer Gewichte –, indem es wiederholt markierte Beispiele verarbeitet, bis es Muster erlernt, die sich verallgemeinern lassen. Sobald das Training abgeschlossen ist, werden diese Gewichte eingefroren und in einer Modelldatei verpackt. Die Inferenz beginnt, wenn ein Nutzer oder System eine neue Eingabe an dieses bereitgestellte Modell sendet.

Die Eingabe wird zunächst in eine numerische Darstellung umgewandelt, die als Tensor bezeichnet wird, und dann durch die Schichten des Modells geleitet. Jede Schicht führt Matrixmultiplikationen durch und wendet erlernte Transformationen an, wodurch Zwischendarstellungen entstehen, die letztlich eine Ausgabe liefern – etwa ein Token in einem Sprachmodell, ein Klassenlabel in der Bilderkennung oder einen numerischen Wert in einem Empfehlungssystem. Ein einfaches Beispiel: Ein Spam-Filter, der auf Tausenden von E-Mails trainiert wurde, nimmt eine neue eingehende Nachricht, wandelt ihre Wörter in Vektoren um, leitet sie durch ein neuronales Netzwerk und gibt in Sekundenbruchteilen "Spam" oder "Kein Spam" aus.

Warum sie wichtig ist

Inferenz ist dort, wo der Wert der KI tatsächlich geliefert wird. Das Training baut das Modell auf, aber die Inferenz ist das, was Nutzer, Anwendungen und Unternehmen erleben. Latenz, Kosten und Zuverlässigkeit in der Inferenzphase bestimmen direkt die Produktqualität und das Vertrauen der Nutzer. Die Optimierung der Inferenz – durch Techniken wie Quantisierung, Pruning, Batching oder spezialisierte Hardware wie GPUs und TPUs – ist ein zentraler Schwerpunkt von MLOps- und KI-Infrastrukturteams, denn sie entscheidet darüber, ob ein Modell schnell genug, günstig genug und genau genug ist, um im großen Maßstab zu laufen. Eine ausführlichere Übersicht zur Modelloptimierung findest du in der Hugging Face Optimum-Dokumentation.

Wichtige Arten der Inferenz

Echtzeit-Inferenz (online): Antworten werden in Millisekunden zurückgegeben, etwa bei Chatbot-Antworten, Such-Rankings und Betrugserkennung an der Kasse.
Batch-Inferenz: Große Mengen an Eingaben werden offline in Gruppen verarbeitet – üblich für Berichtsgenerierung, Datenlabeling und nächtliche Bewertungsaufgaben.
Edge-Inferenz: Das Modell läuft direkt auf dem Gerät des Nutzers, etwa einem Smartphone, Auto oder IoT-Sensor, wodurch die Latenz reduziert wird und Daten privat bleiben.
Serverseitige Inferenz: Anfragen werden an eine zentrale Cloud oder ein Rechenzentrum gesendet, was mehr Rechenleistung bietet, aber Netzwerklatenz mit sich bringt.

Inferenz ist der Moment, in dem ein Modell aufhört zu lernen und zu arbeiten beginnt – es verwandelt trainierte Parameter in die Vorhersagen, Entscheidungen und Inhalte, auf denen KI-Produkte aufbauen. Sie zu verstehen hilft zu erklären, warum sich zwei Modelle mit ähnlicher Genauigkeit in der Praxis sehr unterschiedlich anfühlen können.

Was ist Inferenz?

Wie Inferenz funktioniert

Warum sie wichtig ist

Wichtige Arten der Inferenz

Häufig gestellte Fragen