Kitap Rotası: Nedensel Müdahale, Politika Optimizasyonu ve Pekiştirmeli Kararlar#
Bir modeli iyi tahmin ettiği için değil, iyi müdahale seçtiği için isteriz. Bu rota, korelasyon ile etkiyi ayırmayı, sınırlı bütçe altında hangi politikayı uygulayacağını seçmeyi ve uzun ufuklu karar dizilerinde bugünkü hareketin yarına nasıl taşındığını görselleştirir.
Neden Bu Bölüm Gerekli?#
Yüksek tahmin doğruluğu, yapılan müdahalenin gerçekten fayda sağladığı anlamına gelmez.
Politika optimizasyonu, herkese aynı aksiyonu vermek değil, kimde gerçek artısal etki olduğunu bulmakla ilgilidir.
Keşif olmadan politika öğrenemezsin; ama keşfin maliyeti ve güvenlik riski vardır.
Pekiştirmeli kararlar, tek adımlı değil gecikmeli ödül altında düşünmeyi gerektirir.
Bu Projedeki Görsel Karşılıklar#
Neden Saldırı Direncinden Sonra Geliyor?#
Çünkü önce modeli kasıtlı saldırı altında ayakta tutmayı öğrenirsin; sonra daha zor soruya geçersin: peki bu sistemi hangi müdahaleye yönlendireceğim, hangi politikayı seçeceğim ve hangi karar dizisi uzun vadede daha iyi sonuç üretecek? Bu rota, dayanıklılık disiplininden karar politikasına geçen katmandır.