Bağlamsal Bandit: Keşif mi, Sömürü mü?
Bandit mantığı, her yeni bağlamda hangi aksiyonu deneyeceğine karar verirken aynı anda hem ödül toplar hem de öğrenir. Keşif çok azalırsa ajan erken donar; aşırı artarsa da öğrenirken pahalı hata biriktirir.
İlk kez buradaysan 3 adımda oku
1. Keşif oranını düşür
Kısa vadede istikrar hissi artar; ama ajan yeni fırsatları görmeden tek kola saplanabilir.
2. Özellik sinyalini artır
Bağlam gerçekten bilgi taşıyorsa bandit aynı keşif bütçesiyle daha hızlı öğrenir.
3. Güvenlik tabanını izle
Keşif yapmak gerekir; ama güvensiz maruziyet bir eşiğin üstüne çıkarsa politika savunulmaz olur.
Ödül, pişmanlık ve güvenli keşif
Bandit kalitesi yalnızca topladığı ödülle değil, bunu ne kadar düşük pişmanlık ve ne kadar kabul edilebilir risk altında yaptığıyla ölçülür.
Kümülatif ödül
63%
Bağlamsal bilgi işe yaradığında ödül hızla toparlanır.
Pişmanlık
24%
Geç keşif veya erken donma fırsat maliyeti üretir.
Öğrenme hızı
58%
Sinyal varsa keşif daha çok bilgi taşır.
Güvensiz maruziyet
21%
Aşırı keşif, güvenlik tabanı zayıfsa pahalıya patlar.