Bağlamsal Bandit: Keşif mi, Sömürü mü?

Bandit mantığı, her yeni bağlamda hangi aksiyonu deneyeceğine karar verirken aynı anda hem ödül toplar hem de öğrenir. Keşif çok azalırsa ajan erken donar; aşırı artarsa da öğrenirken pahalı hata biriktirir.

İlk kez buradaysan 3 adımda oku
1. Keşif oranını düşür Kısa vadede istikrar hissi artar; ama ajan yeni fırsatları görmeden tek kola saplanabilir.
2. Özellik sinyalini artır Bağlam gerçekten bilgi taşıyorsa bandit aynı keşif bütçesiyle daha hızlı öğrenir.
3. Güvenlik tabanını izle Keşif yapmak gerekir; ama güvensiz maruziyet bir eşiğin üstüne çıkarsa politika savunulmaz olur.

Ödül, pişmanlık ve güvenli keşif

Bandit kalitesi yalnızca topladığı ödülle değil, bunu ne kadar düşük pişmanlık ve ne kadar kabul edilebilir risk altında yaptığıyla ölçülür.

Kümülatif ödül 63% Bağlamsal bilgi işe yaradığında ödül hızla toparlanır.
Pişmanlık 24% Geç keşif veya erken donma fırsat maliyeti üretir.
Öğrenme hızı 58% Sinyal varsa keşif daha çok bilgi taşır.
Güvensiz maruziyet 21% Aşırı keşif, güvenlik tabanı zayıfsa pahalıya patlar.
Bandit kararıBantit öğreniyor
Keşif var, ama güvenlik tabanı yüzünden kontrol dışına taşmıyor.