Etkileşimli Pekiştirmeli Kararlar

Etkileşimli Pekiştirmeli Kararlar#

Kitap / Kısa Vadeli Ödül, Uzun Vadeli Kaderi Gizleyebilir

Pekiştirmeli kararlar, bir eylemin etkisini tek adımda değil zaman boyunca okur. Bu demo, horizon uzunluğu, iskonto, simülasyon kalitesi ve güvenlik kısıtları altında politikanın ne kadar olgunlaştığını gösterir.

Ne Yap Ufuk uzunluğunu, discount oranını, simülatör sadakatini, reward shaping'i ve politika kararlılığını değiştir.
Ne Gör Bazı politikalar kısa vadede parlak görünür; ama uzun vadeli geri dönüş ve kısıt ihlali birlikte okunduğunda zayıf kalır.
Kitaptaki Karşılığı Karar problemleri bazen tek atışlık değildir; bugünkü aksiyonun yarın yarattığı durum da modelin parçasıdır.
Pekiştirmeli düşünme, tahminden farklı olarak durumun gelecekte nasıl değişeceğini de modellemeye zorlar.