# Kitap Rotası: Nedensel Müdahale, Politika Optimizasyonu ve Pekiştirmeli Kararlar

Genel Harita Saldırı Direnci Müdahale ve Politika Nedensel Müdahale Politika Bandit Pekiştirmeli Karar Gözetimsiz ve Ötesi

Kitap / Tahminden Eyleme, Eylemden Sonuca

Bir modeli iyi tahmin ettiği için değil, iyi müdahale seçtiği için isteriz. Bu rota, korelasyon ile etkiyi ayırmayı, sınırlı bütçe altında hangi politikayı uygulayacağını seçmeyi ve uzun ufuklu karar dizilerinde bugünkü hareketin yarına nasıl taşındığını görselleştirir.

## Neden Bu Bölüm Gerekli? - Yüksek tahmin doğruluğu, yapılan müdahalenin gerçekten fayda sağladığı anlamına gelmez. - Politika optimizasyonu, herkese aynı aksiyonu vermek değil, kimde gerçek artısal etki olduğunu bulmakla ilgilidir. - Keşif olmadan politika öğrenemezsin; ama keşfin maliyeti ve güvenlik riski vardır. - Pekiştirmeli kararlar, tek adımlı değil gecikmeli ödül altında düşünmeyi gerektirir. ## Bu Projedeki Görsel Karşılıklar

Nedensel Müdahale Gözlenen ilişki ile gerçek müdahale etkisinin ne zaman ayrıldığını ve confounding'in nasıl yanıltabildiğini gör. Canlı müdahale demosu

Politika Optimizasyonu Bütçe, maliyet ve uplift ayrışması altında hangi alt gruba aksiyon vermenin gerçekten değer yarattığını izle. Canlı politika demosu

Bağlamsal Bandit Keşif ve sömürü arasındaki gerilimi, anlık ödül ile pişmanlık arasındaki değiş tokuş üzerinden gör. Canlı bandit demosu

Pekiştirmeli Kararlar Kısa vadeli kazanç ile uzun vadeli getiri arasındaki farkı, kısıtlar ve simülasyon kalitesiyle birlikte oku. Canlı pekiştirmeli karar demosu

## Neden Saldırı Direncinden Sonra Geliyor? Çünkü önce modeli kasıtlı saldırı altında ayakta tutmayı öğrenirsin; sonra daha zor soruya geçersin: peki bu sistemi hangi müdahaleye yönlendireceğim, hangi politikayı seçeceğim ve hangi karar dizisi uzun vadede daha iyi sonuç üretecek? Bu rota, dayanıklılık disiplininden karar politikasına geçen katmandır.

Bu Sayfa Nedensel Müdahale Politika Bandit Pekiştirmeli Karar Sonraki: Gözetimsiz ve Ötesi