Etkileşimli Bağlamsal Bandit

Etkileşimli Bağlamsal Bandit#

Kitap / Keşif Yoksa Öğrenme de Yok

Bağlamsal bandit, her yeni gözlemde hangi aksiyonu deneyeceğine karar verirken hem ödül toplar hem de öğrenmeye devam eder. Bu demo, keşif ile sömürü arasındaki hassas dengeyi canlı olarak gösterir.

Ne Yap Keşif oranını, ödül gürültüsünü, özellik sinyalini, güvenlik tabanını ve trafik hacmini değiştir.
Ne Gör Çok az keşif yaparsan ajan erken donar; çok fazla keşif yaparsan öğrenirken pahalı hata biriktirirsin.
Kitaptaki Karşılığı Karar vericinin kalitesi, yalnızca bugünkü ödülden değil, yarın daha iyi seçim yapmayı öğrenmesinden gelir.
Bandit mantığı, veriyi pasifçe beklemek yerine hangi veriyi görmek için hangi aksiyonu seçeceğini de karara dahil eder.