Pekiştirmeli öğrenme (RL), bir ajanın bir ortamla etkileşime girerek karar vermeyi öğrendiği makine öğreniminin bir dalıdır. Her eylemin ardından ajan sayısal bir ödül (ya da ceza) alır ve daha iyi uzun vadeli sonuçlara yol açan eylemleri tercih edecek şekilde davranışını günceller. Denetimli öğrenmeden farklı olarak ajana doğru yanıtların etiketli örnekleri verilmez — etkili stratejileri deneme yanılma yoluyla kendisi keşfetmelidir.
Pekiştirmeli Öğrenme nasıl çalışır
Her adımda ajan ortamın mevcut durumunu gözlemler, mevcut seçenekleri arasından bir eylem seçer ve ardından bir sonraki durumla birlikte bir ödül alır. Amaç, gelecekteki ödüllerin beklenen toplamını en üst düzeye çıkaran, esasen durumlardan eylemlere bir eşleme olan bir politika öğrenmektir. Q-öğrenme gibi teknikler her durumda her eylemin değerini tahmin ederken, politika gradyanı yöntemleri hangi eylemlerin yüksek ödül üretme eğiliminde olduğuna göre politikayı doğrudan ayarlar. Modern yaklaşımlar, RL'yi derin sinir ağlarıyla birleştirir — örneğin Deep Q-Networks (DQN) — ham video girdisi gibi çok büyük ya da sürekli durum uzaylarına sahip sorunları ele almak için.
Neden önemlidir
Pekiştirmeli öğrenme, AlphaGo ve AlphaZero gibi oyun oynayan sistemlerden RLHF (İnsan Geri Bildiriminden Pekiştirmeli Öğrenme) gibi yöntemlerle modern büyük dil modeli asistanlarının arkasındaki ince ayar adımına kadar yapay zekâdaki en görünür atılımların çoğuna güç verir. Ayrıca robotikte, otonom sürüşte, öneri sistemlerinde, tedarik zinciri optimizasyonunda ve kaynak planlamasında da kullanılır; kısacası etkileri zamanla ortaya çıkan ve en iyi uzun vadeli stratejinin önceden açık olmadığı bir dizi karar vermesi gereken her yerde.
Temel türler
- Model-bağımsız RL: ajan, ortamın dahili bir modelini oluşturmadan doğrudan deneyimden öğrenir (örn. Q-öğrenme, PPO).
- Model-tabanlı RL: ajan, ortamın nasıl çalıştığına dair bir model öğrenir ve bu modeli kullanarak eylemleri planlar.
- Politika gradyanı yöntemleri: politikayı doğrudan optimize eder; sürekli eylemler ve stokastik politikalar için kullanışlıdır.
- Çok ajanlı RL: birden fazla ajan ortak bir ortamda aynı anda öğrenir; oyun teorisi ve koordinasyon için kullanışlıdır.
Pekiştirmeli öğrenme, sıralı karar verme için en esnek çerçevelerden biri olmaya devam ediyor ve giderek örüntü tanıma modelleri ile gerçek dünyada otonom olarak hareket eden sistemler arasındaki köprü haline geliyor. Kanonik referans metin Sutton ve Barto'nun "Reinforcement Learning: An Introduction" adlı kitabıdır.