📖

Was ist Trainingsdaten?

Trainingsdaten sind die Beispiele, aus denen ein Machine-Learning-Modell lernt. Erfahren Sie, was als Trainingsdaten zählt, wie sie das Modellverhalten prägen und warum Qualität entscheidend ist.

Trainingsdaten sind die Sammlung von Beispielen, die ein Machine-Learning-Modell untersucht, um eine Aufgabe zu erlernen. Jedes Beispiel kombiniert typischerweise eine Eingabe mit einem erwarteten Ergebnis, etwa eine E-Mail mit der Kennzeichnung „Spam" oder „Kein Spam", ein Satz mit seiner Sprache oder ein Bild mit dem darin enthaltenen Objekt. Während des Trainings passt das Modell seine internen Parameter so an, dass seine Vorhersagen mit den Mustern in den Daten übereinstimmen. Damit definiert der Datensatz faktisch, was das Modell lernen wird (und was nicht).

So funktionieren Trainingsdaten

Beim überwachten Lernen, dem gängigsten Ansatz, ist jedes Beispiel mit einer korrekten Antwort versehen. Ein Datensatz mit Produktbewertungen kann beispielsweise als „positiv" oder „negativ" gekennzeichnet sein, und das Modell lernt, neue Bewertungen diesen Kategorien zuzuordnen, indem es statistische Regelmäßigkeiten erkennt, die sie unterscheiden. Die Daten werden in einen Trainingssatz zum Anpassen des Modells, einen Validierungssatz zur Feinabstimmung und einen zurückgehaltenen Testsatz zur Schätzung der Leistung auf bisher ungesehenen Beispielen aufgeteilt.

Andere Paradigmen nutzen andere Datenformen. Unüberwachtes Lernen verwendet Rohdaten ohne Labels und dient häufig dazu, Strukturen wie Cluster oder Themen zu entdecken. Selbstüberwachtes Lernen erzeugt Labels aus den Daten selbst – so werden die meisten großen Sprachmodelle auf riesigen Textkorpora vortrainiert. Umfang, Ausgewogenheit und Repräsentativität des Datensatzes beeinflussen direkt, worauf das Modell verallgemeinern kann.

Warum es wichtig ist

Trainingsdaten sind der mit Abstand größte Einzelfaktor für das Modellverhalten, oft wichtiger als die Wahl des Algorithmus. Sind die Daten verzerrt, spärlich oder nicht repräsentativ, reproduziert das Modell diese Mängel und verstärkt sie manchmal sogar. Auch Fragen zu Datenschutz, Urheberrecht und Einwilligung spielen sich auf der Datenebene ab, da ein Modell sensible Textstellen aus seinem Trainingssatz memorieren und wieder ausgeben kann. Aus diesen Gründen sind Datenkuration, Dokumentation und Evaluierung zentrale Bestandteile einer verantwortungsvollen KI-Entwicklung geworden.

Wichtige Arten von Trainingsdaten

  • Markierte Daten – jedes Beispiel verfügt über eine von Menschen oder maschinell erstellte Annotation und wird für überwachte Lernaufgaben wie Klassifikation und Erkennung verwendet.
  • Nicht markierte Daten – Roheingaben ohne Annotationen, die für unüberwachtes und selbstüberwachtes Vortraining genutzt werden.
  • Synthetische Daten – von Simulatoren oder anderen Modellen erzeugte Beispiele, nützlich, wenn reale Daten knapp oder sensibel sind.
  • Anweisungs- und Präferenzdaten – Prompts kombiniert mit idealen Antworten oder nach Qualität geordnete Ausgabepaare, um Modelle an menschliche Absichten anzupassen.
  • Evaluierungs-Benchmarks – kuratierte Testsätze zur Messung von Fähigkeiten, die jedoch nicht zum Anpassen der Modellparameter verwendet werden.

Für eine ausführlichere Behandlung der Datensatzkonstruktion und ihrer Auswirkungen sind das Kapitel „Data Quality" aus dem Data-Centric-AI-Buch sowie die Papers with Code-Bestenlisten nützliche Ausgangspunkte.

Häufig gestellte Fragen

What is the difference between training data and test data?
Training data is the examples a model learns from during the training phase. Test data is a separate, held-out set used only after training to estimate how the model performs on unseen inputs. Keeping the two strictly separate is essential; reusing test data for training produces overly optimistic results that do not reflect real-world performance.
How much training data does a machine learning model need?
It depends on the task and the model. Simple classifiers can perform well with a few thousand labeled examples, while modern large language models are trained on trillions of words. The more relevant and well-labeled the data is, the less of it is typically needed to reach a given level of accuracy.
Can AI be trained without labeled data?
Yes. Unsupervised and self-supervised learning use raw, unlabeled inputs, and most foundation models are first pretrained this way on large text or image corpora. Labels are then often added in a second, smaller fine-tuning stage to specialize the model for a specific task.
Why is training data quality more important than quantity?
Models learn what their data teaches, so noisy, biased, or mislabeled examples teach the wrong patterns. A smaller, carefully curated dataset often outperforms a larger, messier one, which is why data cleaning, deduplication, and balanced sampling are central to modern AI development.