Il reinforcement learning (RL) è un ramo del machine learning in cui un agente impara a prendere decisioni interagendo con un ambiente. Dopo ogni azione, l'agente riceve una ricompensa (o penalità) numerica e aggiorna il proprio comportamento per favorire le azioni che portano a risultati migliori a lungo termine. A differenza del supervised learning, all'agente non vengono forniti esempi etichettati di risposte corrette: deve scoprire strategie efficaci attraverso tentativi ed errori.
Come funziona il Reinforcement Learning
A ogni passo, l'agente osserva lo stato corrente dell'ambiente, sceglie un'azione tra le opzioni disponibili e poi riceve una ricompensa insieme allo stato successivo. L'obiettivo è apprendere una policy, essenzialmente una mappatura dagli stati alle azioni, che massimizzi la somma attesa delle ricompense future. Tecniche come il Q-learning stimano il valore di intraprendere ciascuna azione in ciascuno stato, mentre i metodi policy-gradient regolano direttamente la policy in base alle azioni che tendono a produrre ricompense elevate. Gli approcci moderni combinano il RL con reti neurali profonde — come nelle Deep Q-Networks (DQN) — per gestire problemi con spazi di stato molto grandi o continui, come l'input video grezzo.
Perché è importante
Il reinforcement learning alimenta molte delle scoperte più visibili nell'IA, dai sistemi che giocano come AlphaGo e AlphaZero alla fase di fine-tuning dietro i moderni assistenti basati su large language model attraverso metodi come RLHF (Reinforcement Learning from Human Feedback). È utilizzato anche nella robotica, nella guida autonoma, nei sistemi di raccomandazione, nell'ottimizzazione della supply chain e nella pianificazione delle risorse, ovunque un sistema debba prendere una sequenza di decisioni i cui effetti si dispiegano nel tempo e in cui la migliore strategia a lungo termine non è ovvia in anticipo.
Tipologie principali
- RL model-free: l'agente apprende direttamente dall'esperienza senza costruire un modello interno dell'ambiente (ad es., Q-learning, PPO).
- RL model-based: l'agente apprende un modello di come funziona l'ambiente e pianifica le azioni utilizzando quel modello.
- Metodi policy-gradient: ottimizzano direttamente la policy, utili per azioni continue e policy stocastiche.
- RL multi-agente: più agenti apprendono contemporaneamente in un ambiente condiviso, utile per la teoria dei giochi e il coordinamento.
Il reinforcement learning rimane uno dei framework più flessibili per il processo decisionale sequenziale, ed è sempre più il ponte tra i modelli di pattern recognition e i sistemi che agiscono autonomamente nel mondo reale. Il testo di riferimento canonico è "Reinforcement Learning: An Introduction" di Sutton e Barto.