Kitap Rotası: Nedensel Müdahale, Politika Optimizasyonu ve Pekiştirmeli Kararlar

Kitap Rotası: Nedensel Müdahale, Politika Optimizasyonu ve Pekiştirmeli Kararlar#

Kitap / Tahminden Eyleme, Eylemden Sonuca

Bir modeli iyi tahmin ettiği için değil, iyi müdahale seçtiği için isteriz. Bu rota, korelasyon ile etkiyi ayırmayı, sınırlı bütçe altında hangi politikayı uygulayacağını seçmeyi ve uzun ufuklu karar dizilerinde bugünkü hareketin yarına nasıl taşındığını görselleştirir.

Neden Bu Bölüm Gerekli?#

  • Yüksek tahmin doğruluğu, yapılan müdahalenin gerçekten fayda sağladığı anlamına gelmez.

  • Politika optimizasyonu, herkese aynı aksiyonu vermek değil, kimde gerçek artısal etki olduğunu bulmakla ilgilidir.

  • Keşif olmadan politika öğrenemezsin; ama keşfin maliyeti ve güvenlik riski vardır.

  • Pekiştirmeli kararlar, tek adımlı değil gecikmeli ödül altında düşünmeyi gerektirir.

Bu Projedeki Görsel Karşılıklar#

Nedensel Müdahale Gözlenen ilişki ile gerçek müdahale etkisinin ne zaman ayrıldığını ve confounding'in nasıl yanıltabildiğini gör. Canlı müdahale demosu
Politika Optimizasyonu Bütçe, maliyet ve uplift ayrışması altında hangi alt gruba aksiyon vermenin gerçekten değer yarattığını izle. Canlı politika demosu
Bağlamsal Bandit Keşif ve sömürü arasındaki gerilimi, anlık ödül ile pişmanlık arasındaki değiş tokuş üzerinden gör. Canlı bandit demosu
Pekiştirmeli Kararlar Kısa vadeli kazanç ile uzun vadeli getiri arasındaki farkı, kısıtlar ve simülasyon kalitesiyle birlikte oku. Canlı pekiştirmeli karar demosu

Neden Saldırı Direncinden Sonra Geliyor?#

Çünkü önce modeli kasıtlı saldırı altında ayakta tutmayı öğrenirsin; sonra daha zor soruya geçersin: peki bu sistemi hangi müdahaleye yönlendireceğim, hangi politikayı seçeceğim ve hangi karar dizisi uzun vadede daha iyi sonuç üretecek? Bu rota, dayanıklılık disiplininden karar politikasına geçen katmandır.