Was sind Trainingsdaten?

Trainingsdaten sind die Beispiele, aus denen ein Machine-Learning-Modell lernt. Erfahren Sie, was als Trainingsdaten zählt, wie sie das Modellverhalten prägen und warum Qualität entscheidend ist.

Trainingsdaten sind die Sammlung von Beispielen, die ein Machine-Learning-Modell untersucht, um eine Aufgabe zu erlernen. Jedes Beispiel kombiniert typischerweise eine Eingabe mit einem erwarteten Ergebnis, etwa eine E-Mail mit der Kennzeichnung „Spam" oder „Kein Spam", ein Satz mit seiner Sprache oder ein Bild mit dem darin enthaltenen Objekt. Während des Trainings passt das Modell seine internen Parameter so an, dass seine Vorhersagen mit den Mustern in den Daten übereinstimmen. Damit definiert der Datensatz faktisch, was das Modell lernen wird (und was nicht).

So funktionieren Trainingsdaten

Beim überwachten Lernen, dem gängigsten Ansatz, ist jedes Beispiel mit einer korrekten Antwort versehen. Ein Datensatz mit Produktbewertungen kann beispielsweise als „positiv" oder „negativ" gekennzeichnet sein, und das Modell lernt, neue Bewertungen diesen Kategorien zuzuordnen, indem es statistische Regelmäßigkeiten erkennt, die sie unterscheiden. Die Daten werden in einen Trainingssatz zum Anpassen des Modells, einen Validierungssatz zur Feinabstimmung und einen zurückgehaltenen Testsatz zur Schätzung der Leistung auf bisher ungesehenen Beispielen aufgeteilt.

Andere Paradigmen nutzen andere Datenformen. Unüberwachtes Lernen verwendet Rohdaten ohne Labels und dient häufig dazu, Strukturen wie Cluster oder Themen zu entdecken. Selbstüberwachtes Lernen erzeugt Labels aus den Daten selbst – so werden die meisten großen Sprachmodelle auf riesigen Textkorpora vortrainiert. Umfang, Ausgewogenheit und Repräsentativität des Datensatzes beeinflussen direkt, worauf das Modell verallgemeinern kann.

Warum es wichtig ist

Trainingsdaten sind der mit Abstand größte Einzelfaktor für das Modellverhalten, oft wichtiger als die Wahl des Algorithmus. Sind die Daten verzerrt, spärlich oder nicht repräsentativ, reproduziert das Modell diese Mängel und verstärkt sie manchmal sogar. Auch Fragen zu Datenschutz, Urheberrecht und Einwilligung spielen sich auf der Datenebene ab, da ein Modell sensible Textstellen aus seinem Trainingssatz memorieren und wieder ausgeben kann. Aus diesen Gründen sind Datenkuration, Dokumentation und Evaluierung zentrale Bestandteile einer verantwortungsvollen KI-Entwicklung geworden.

Wichtige Arten von Trainingsdaten

  • Markierte Daten – jedes Beispiel verfügt über eine von Menschen oder maschinell erstellte Annotation und wird für überwachte Lernaufgaben wie Klassifikation und Erkennung verwendet.
  • Nicht markierte Daten – Roheingaben ohne Annotationen, die für unüberwachtes und selbstüberwachtes Vortraining genutzt werden.
  • Synthetische Daten – von Simulatoren oder anderen Modellen erzeugte Beispiele, nützlich, wenn reale Daten knapp oder sensibel sind.
  • Anweisungs- und Präferenzdaten – Prompts kombiniert mit idealen Antworten oder nach Qualität geordnete Ausgabepaare, um Modelle an menschliche Absichten anzupassen.
  • Evaluierungs-Benchmarks – kuratierte Testsätze zur Messung von Fähigkeiten, die jedoch nicht zum Anpassen der Modellparameter verwendet werden.

Für eine ausführlichere Behandlung der Datensatzkonstruktion und ihrer Auswirkungen sind das Kapitel „Data Quality" aus dem Data-Centric-AI-Buch sowie die Papers with Code-Bestenlisten nützliche Ausgangspunkte.

Das könnte Ihnen auch gefallen

Verwandte Beiträge