Pekiştirmeli Kararlar: Kısa Vadeli Ödül mü, Uzun Vadeli Getiri mi?

Bu demo, karar dizilerinde bugünkü aksiyonun gelecekteki durumları nasıl değiştirdiğini gösteriyor. Kısa vadeli ödül çoğu zaman daha parlak görünür; ama horizon, discount ve kısıt ihlalleri birlikte okunduğunda aynı politika çok farklı değerlendirilir.

İlk kez buradaysan 3 adımda oku
1. Ufku uzat Kararının etkisi birkaç adım sonra birikiyorsa kısa vadeli ödül artık tek başına yetmez.
2. Simülatör sadakatini artır Politika, eğitim ortamında değil gerçek dünyaya benzeyen bir düzlemde sınandığında olgunlaşır.
3. Kısıt korumasına bak Uzun vadeli getiri artsa bile güvenlik ihlali büyüyorsa yayın kararı savunulamaz.

Ödül ve getiri ayrışması

Pekiştirmeli problemde iyi görünen aksiyonlar bazen yalnızca bugünü kurtarır. Aşağıdaki kartlar, anlık ödül ile uzun vadeli geri dönüşün niçin ayrı izlenmesi gerektiğini gösteriyor.

Kısa vadeli ödül 58% Reward shaping ve dar ufuk, anlık kazancı parlatır.
Uzun vadeli getiri 63% Gerçek kalite, geleceği taşıyan politikalarda görünür.
Kısıt ihlali 22% Yüksek getiri, güvenlik eşiğini aşarsa politika kırılır.
Yayın hazırlığı 56% Simülatör, kararlılık ve kısıt koruması birlikte okunur.
Politika kararıPolitika olgunlaşıyor
Uzun vadeli getiri, güvenlik ihlali yaratmadan yükseliyor.