Etkileşimli Bağlamsal Bandit#
Genel Harita
Müdahale ve Politika
Nedensel Müdahale
Politika
Bandit
Pekiştirmeli Karar
Tam Ekran Demo
Kitap / Keşif Yoksa Öğrenme de Yok
Bağlamsal bandit, her yeni gözlemde hangi aksiyonu deneyeceğine karar verirken hem ödül toplar hem de öğrenmeye devam eder. Bu demo, keşif ile sömürü arasındaki hassas dengeyi canlı olarak gösterir.
Ne Yap
Keşif oranını, ödül gürültüsünü, özellik sinyalini, güvenlik tabanını ve trafik hacmini değiştir.
Ne Gör
Çok az keşif yaparsan ajan erken donar; çok fazla keşif yaparsan öğrenirken pahalı hata biriktirirsin.
Kitaptaki Karşılığı
Karar vericinin kalitesi, yalnızca bugünkü ödülden değil, yarın daha iyi seçim yapmayı öğrenmesinden gelir.
Bandit mantığı, veriyi pasifçe beklemek yerine hangi veriyi görmek için hangi aksiyonu seçeceğini de karara dahil eder.