How is fine-tuning different from prompt engineering?

Prompt engineering steers a model's behavior at inference time by changing only the input text, without altering the model itself. Fine-tuning actually updates the model's weights by running additional training on a curated dataset. Prompting is faster and cheaper; fine-tuning is more powerful when the desired behavior must be applied consistently across many queries or when it depends on patterns the base model doesn't reliably produce.

How much data do you need to fine-tune a model?

It depends on the task and the method. Full fine-tuning of a large model can require thousands to tens of thousands of high-quality examples. Parameter-efficient methods like LoRA can produce useful results with a few hundred well-chosen examples, especially when the base model already has strong general capabilities. Data quality consistently matters more than raw quantity.

What is LoRA fine-tuning?

LoRA (Low-Rank Adaptation) is a parameter-efficient fine-tuning method that freezes the original model weights and trains only small, low-rank matrices added to each layer. This typically reduces the trainable parameters by more than 90%, making fine-tuning feasible on a single GPU and producing adapters that are only a few megabytes in size.

Does fine-tuning make a model forget what it already knows?

It can. Known as catastrophic forgetting, this happens when fine-tuning on a narrow dataset overwrites earlier capabilities. Practitioners mitigate it by mixing in general-domain data, using a low learning rate, limiting training epochs, and evaluating the model on both the new task and a broader benchmark suite before deployment.

Was ist Fine-Tuning? | HyperStore-Glossar

Fine-Tuning bedeutet, ein Modell, das bereits auf einem breiten Datenkorpus trainiert wurde – oft ein großes Sprachmodell wie eines aus der GPT- oder LLaMA-Familie –, auf einem kleineren, sorgfältig ausgewählten Datensatz weiter zu trainieren. Ziel ist es, das Modell in eine engere Verhaltensweise zu lenken: medizinische Fragen beantworten, in einem bestimmten Markenton schreiben, Code in einem bestimmten Framework erzeugen oder zuverlässig einem strukturierten Ausgabeformat folgen.

Anders als beim Training von Grund auf startet Fine-Tuning mit gelernten Repräsentationen statt mit zufälligen Gewichten. Da die Hauptarbeit – Grammatik, Schlussfolgern und Weltwissen – bereits erledigt ist, benötigt Fine-Tuning in der Regel um Größenordnungen weniger Daten und Rechenleistung, um bei einer Zielaufgabe spürbare Verbesserungen zu erzielen.

Wie Fine-Tuning funktioniert

In der Praxis bereiten Ingenieurinnen und Ingenieure einen Datensatz aus Beispiel-Eingaben und gewünschten Ausgaben vor, die das gewünschte Verhalten widerspiegeln. Für einen Kundensupport-Assistenten könnten das Hunderte oder Tausende vergangener Ticketlösungen sein; für ein Code-Review-Tool Paare aus Pull Requests und Reviewer-Kommentaren. Das vortrainierte Modell durchläuft dann zusätzliche Trainingsdurchläufe über diesen Datensatz, und seine Gewichte werden mittels standardmäßiger gradientenbasierter Optimierung aktualisiert, sodass der Verlust zwischen vorhergesagten und Zielausgaben sinkt.

Ein einfaches Denkmodell: Stellen Sie sich ein allgemeines Foundation-Modell wie einen medizinischen Assistenzarzt vor, der jedes Lehrbuch gelesen hat. Fine-Tuning ist die Facharztausbildung, die ihn auf Radiologie spezialisiert. Sein Grundlagenwissen bleibt erhalten, aber seine täglichen Entscheidungen fokussieren sich scharf auf eine Domäne.

Warum es wichtig ist

Fine-Tuning ist der wichtigste Hebel, mit dem Teams ein allgemeines Modell in eine verlässliche Produktkomponente verwandeln. Es kann die Genauigkeit bei Nischenaufgaben erhöhen, den Hausstil durchsetzen, Halluzinationen in einem definierten Bereich reduzieren, Werkzeugnutzungsmuster vermitteln und Ausgaben an Sicherheits- oder Compliance-Anforderungen anpassen. Für Organisationen mit proprietären Daten oder Domänenwissen bietet Fine-Tuning einen Weg, dieses Wissen direkt ins Modell einzubetten, anstatt sich allein auf Prompts zu verlassen.

Es hat auch wirtschaftlichen Wert: Ein kleineres, feinabgestimmtes offenes Modell kann bei einem bestimmten Workflow oft die Qualität eines deutlich größeren allgemeinen Modells erreichen, was die Inferenzkosten im großen Maßstab senkt.

Wichtige Arten

Supervised Fine-Tuning (SFT): Training auf markierten Eingabe-Ausgabe-Paaren, um eine bestimmte Fähigkeit oder ein bestimmtes Format zu erlernen.
Instruction Tuning: eine breite Form von SFT, die das Modell darauf trainiert, natürlichsprachliche Anweisungen über viele Aufgaben hinweg zu befolgen.
Parameter-effizientes Fine-Tuning (z. B. LoRA, QLoRA): friert die meisten Gewichte ein und trainiert nur kleine Adapter-Schichten, was Rechen- und Speicherkosten senkt.
Reinforcement Learning from Human Feedback (RLHF): nutzt menschliche Präferenzrankings, um das Modell über beaufsichtigte Beispiele hinaus weiter auszurichten.
Continued Pretraining: unüberwachtes Fine-Tuning auf rohem Domänentext, um Vokabular und Wissen vor dem aufgabenspezifischen SFT einzubringen.

Fine-Tuning ist am nützlichsten, wenn Prompting und Retrieval allein die Qualitätslatte nicht zuverlässig erreichen, wenn Latenz oder Kosten sehr große Modelle ausschließen oder wenn das gewünschte Verhalten von Mustern abhängt, die das Basismodell selten gesehen hat. Für einen zugänglichen Überblick siehe die Trainingsdokumentation von Hugging Face, und für das ursprüngliche Rezept hinter anweisungsfolgenden Modellen das FLAN-Paper.

Was ist Fine-Tuning?

Wie Fine-Tuning funktioniert

Warum es wichtig ist

Wichtige Arten

Frequently Asked Questions