Etkileşimli Pekiştirmeli Kararlar#
Genel Harita
Müdahale ve Politika
Nedensel Müdahale
Politika
Bandit
Pekiştirmeli Karar
Tam Ekran Demo
Kitap / Kısa Vadeli Ödül, Uzun Vadeli Kaderi Gizleyebilir
Pekiştirmeli kararlar, bir eylemin etkisini tek adımda değil zaman boyunca okur. Bu demo, horizon uzunluğu, iskonto, simülasyon kalitesi ve güvenlik kısıtları altında politikanın ne kadar olgunlaştığını gösterir.
Ne Yap
Ufuk uzunluğunu, discount oranını, simülatör sadakatini, reward shaping'i ve politika kararlılığını değiştir.
Ne Gör
Bazı politikalar kısa vadede parlak görünür; ama uzun vadeli geri dönüş ve kısıt ihlali birlikte okunduğunda zayıf kalır.
Kitaptaki Karşılığı
Karar problemleri bazen tek atışlık değildir; bugünkü aksiyonun yarın yarattığı durum da modelin parçasıdır.
Pekiştirmeli düşünme, tahminden farklı olarak durumun gelecekte nasıl değişeceğini de modellemeye zorlar.