Was ist Overfitting?

Overfitting liegt vor, wenn ein Machine-Learning-Modell die Trainingsdaten auswendig lernt, statt verallgemeinerbare Muster zu erlernen, was die Leistung bei neuen Daten verschlechtert.

Overfitting (Überanpassung) ist ein häufiges Problem im Machine Learning: Ein Modell erfasst das zufällige Rauschen und die besonderen Details seiner Trainingsdaten, statt die tatsächlichen zugrundeliegenden Zusammenhänge. Dadurch scheint das Modell bei den Daten, mit denen es trainiert wurde, extrem gut abzuschneiden, liefert aber bei neuen Beispielen schlechte Vorhersagen. Es ist der klassische Zielkonflikt zwischen Auswendiglernen und tatsächlichem Lernen.

Wie Overfitting funktioniert

Während des Trainings passt ein Modell seine internen Parameter an, um den Fehler auf einer Reihe von Beispielen zu minimieren. Verfügt das Modell im Verhältnis zur Größe oder Vielfalt des Trainingsdatensatzes über zu viele Parameter oder wird es zu lange trainiert, behandelt es zufällige Schwankungen in den Daten so, als wären sie bedeutsame Signale. Stellen Sie sich vor, Sie legen eine glatte Kurve durch ein Streudiagramm: Ein Polynom niedriger Ordnung erfasst den allgemeinen Trend, während ein Polynom hohen Grades durch jeden einzelnen Punkt – einschließlich der Ausreißer – hindurchschlängeln kann. Diese schlängelnde Kurve ist überangepasst. Sie hat die Daten im Wesentlichen auswendig gelernt, statt den Trend zu erkennen, sodass jeder neue Punkt, der neben der Schlängelbewegung liegt, schlecht vorhergesagt wird.

Aus informationstheoretischer Sicht nutzt das Modell mehr „Kapazität“, als die Daten rechtfertigen, und passt Signal plus Rauschen an, statt nur das Signal. Die Lücke zwischen Trainingsfehler und Validierungsfehler ist das deutlichste Symptom: Der Trainingsfehler sinkt weiter, während der Validierungsfehler stagniert oder ansteigt.

Warum es wichtig ist

Overfitting ist einer der häufigsten Gründe, warum Machine-Learning-Projekte in der Produktion keinen Mehrwert liefern. Ein Modell, das auf einem Benchmark 99 % Genauigkeit erreicht, kann in der Praxis nutzlos sein, wenn es an den Benchmark überangepasst wurde. Das Erkennen und Kontrollieren von Overfitting ist daher ein zentrales Anliegen in der Modellentwicklung und betrifft jede Phase – von der Datenerfassung bis zum Deployment.

Besonders wichtig ist es in Bereichen, in denen Generalisierung entscheidend ist: medizinische Diagnose, Betrugserkennung, autonomes Fahren und jedes System, das mit bisher nicht gesehenen Eingaben umgehen muss. Overfitting zu verstehen erklärt auch, warum mehr Daten, einfachere Modelle oder stärkere Regularisierung oft besser sind, als einfach ein größeres neuronales Netz auf ein Problem loszulassen.

Wichtige Anzeichen und gängige Gegenmaßnahmen

  • Lücke zwischen Training und Validierung: Die Genauigkeit ist auf den Trainingsdaten hoch, auf einem zurückgehaltenen Validierungsset jedoch deutlich niedriger.
  • Kreuzvalidierung: Nutzen Sie k-fache Kreuzvalidierung, um zu bestätigen, dass das Modell über verschiedene Datenausschnitte hinweg generalisiert.
  • Regularisierung: Techniken wie L1, L2 (Weight Decay) oder Dropout bestrafen die Modellkomplexität und wirken dem Auswendiglernen entgegen.
  • Mehr Daten: Eine Vergrößerung des Trainingsdatensatzes liefert dem Modell mehr Signale zum Lernen und verringert den Anreiz zum Auswendiglernen.
  • Datenaugmentierung: Das künstliche Erweitern der Trainingsdaten um realistische Variationen (Rotationen, Paraphrasen, Rauschen) verbessert die Robustheit.
  • Early Stopping: Das Training zu beenden, sobald der Validierungsfehler zu steigen beginnt, verhindert, dass das Modell Rauschen anpasst.
  • Einfachere Modelle: Die Wahl eines Modells mit weniger Parametern im Verhältnis zu den Daten reduziert die Kapazität zur Überanpassung.

Overfitting ist kein einmaliger Fehler, den man behebt, sondern eine andauernde Spannung, die jede:r Praktiker:in im Griff behalten muss. Das Ziel ist kein Modell, das auf den Trainingsdaten perfekt ist, sondern eines, das zuverlässige Vorhersagen für Daten trifft, die es noch nicht gesehen hat.

Das könnte Ihnen auch gefallen

Verwandte Beiträge