Pekiştirmeli Kararlar: Kısa Vadeli Ödül mü, Uzun Vadeli Getiri mi?
Bu demo, karar dizilerinde bugünkü aksiyonun gelecekteki durumları nasıl değiştirdiğini gösteriyor. Kısa vadeli ödül çoğu zaman daha parlak görünür; ama horizon, discount ve kısıt ihlalleri birlikte okunduğunda aynı politika çok farklı değerlendirilir.
İlk kez buradaysan 3 adımda oku
1. Ufku uzat
Kararının etkisi birkaç adım sonra birikiyorsa kısa vadeli ödül artık tek başına yetmez.
2. Simülatör sadakatini artır
Politika, eğitim ortamında değil gerçek dünyaya benzeyen bir düzlemde sınandığında olgunlaşır.
3. Kısıt korumasına bak
Uzun vadeli getiri artsa bile güvenlik ihlali büyüyorsa yayın kararı savunulamaz.
Ödül ve getiri ayrışması
Pekiştirmeli problemde iyi görünen aksiyonlar bazen yalnızca bugünü kurtarır. Aşağıdaki kartlar, anlık ödül ile uzun vadeli geri dönüşün niçin ayrı izlenmesi gerektiğini gösteriyor.
Kısa vadeli ödül
58%
Reward shaping ve dar ufuk, anlık kazancı parlatır.
Uzun vadeli getiri
63%
Gerçek kalite, geleceği taşıyan politikalarda görünür.
Kısıt ihlali
22%
Yüksek getiri, güvenlik eşiğini aşarsa politika kırılır.
Yayın hazırlığı
56%
Simülatör, kararlılık ve kısıt koruması birlikte okunur.