Reinforcement Learning (RL) ist ein Teilbereich des maschinellen Lernens, bei dem ein Agent lernt, Entscheidungen zu treffen, indem er mit einer Umgebung interagiert. Nach jeder Aktion erhält der Agent eine numerische Belohnung (oder Strafe) und passt sein Verhalten so an, dass Handlungen bevorzugt werden, die zu besseren langfristigen Ergebnissen führen. Anders als beim überwachten Lernen erhält der Agent keine gelabelten Beispiele für korrekte Antworten – er muss effektive Strategien durch Versuch und Irrtum selbst entdecken.
Wie Reinforcement Learning funktioniert
In jedem Schritt beobachtet der Agent den aktuellen Zustand der Umgebung, wählt eine Aktion aus den verfügbaren Optionen und erhält dann eine Belohnung zusammen mit dem nächsten Zustand. Ziel ist es, eine Policy zu erlernen – im Wesentlichen eine Zuordnung von Zuständen zu Aktionen –, die die erwartete Summe zukünftiger Belohnungen maximiert. Techniken wie Q-Learning schätzen den Wert jeder Aktion in jedem Zustand, während Policy-Gradient-Verfahren die Policy direkt anpassen, basierend darauf, welche Aktionen tendenziell hohe Belohnungen liefern. Moderne Ansätze kombinieren RL mit tiefen neuronalen Netzen – wie bei Deep Q-Networks (DQN) –, um Probleme mit sehr großen oder kontinuierlichen Zustandsräumen zu bewältigen, etwa rohe Videoeingaben.
Warum es wichtig ist
Reinforcement Learning treibt viele der sichtbarsten Durchbrüche in der KI an – von Spielesystemen wie AlphaGo und AlphaZero bis hin zum Feinabstimmungsschritt hinter modernen Large-Language-Model-Assistenten durch Methoden wie RLHF (Reinforcement Learning from Human Feedback). Es wird auch in der Robotik, im autonomen Fahren, in Empfehlungssystemen, in der Lieferkettenoptimierung und in der Ressourcenplanung eingesetzt – überall dort, wo ein System eine Folge von Entscheidungen treffen muss, deren Auswirkungen sich im Laufe der Zeit entfalten und wo die beste langfristige Strategie nicht im Voraus offensichtlich ist.
Wichtige Typen
- Modellfreies RL: Der Agent lernt direkt aus Erfahrung, ohne ein internes Modell der Umgebung aufzubauen (z. B. Q-Learning, PPO).
- Modellbasiertes RL: Der Agent erlernt ein Modell der Funktionsweise der Umgebung und plant Aktionen mithilfe dieses Modells.
- Policy-Gradient-Verfahren: Optimieren die Policy direkt und sind nützlich für kontinuierliche Aktionen und stochastische Policies.
- Multi-Agent-RL: Mehrere Agenten lernen gleichzeitig in einer gemeinsamen Umgebung – nützlich für Spieltheorie und Koordination.
Reinforcement Learning bleibt eines der flexibelsten Frameworks für sequenzielle Entscheidungsfindung und ist zunehmend die Brücke zwischen Mustererkennungsmodellen und Systemen, die in der realen Welt autonom handeln. Das kanonische Referenzwerk ist Sutton und Bartos „Reinforcement Learning: An Introduction".