# Kitap Rotası: Nedensel Müdahale, Politika Optimizasyonu ve Pekiştirmeli Kararlar

<div class="mlv-demo-links">
  <a class="mlv-demo-link" href="hundred_page_ml.html">Genel Harita</a>
  <a class="mlv-demo-link" href="book_attacks_abuse_and_fraud_resilience.html">Saldırı Direnci</a>
  <a class="mlv-demo-link active" href="book_causal_interventions_and_policy_learning.html">Müdahale ve Politika</a>
  <a class="mlv-demo-link" href="interactive_book_causal_interventions.html">Nedensel Müdahale</a>
  <a class="mlv-demo-link" href="interactive_book_policy_optimization.html">Politika</a>
  <a class="mlv-demo-link" href="interactive_book_contextual_bandit.html">Bandit</a>
  <a class="mlv-demo-link" href="interactive_book_reinforcement_decisions.html">Pekiştirmeli Karar</a>
  <a class="mlv-demo-link" href="book_unsupervised_and_other_learning.html">Gözetimsiz ve Ötesi</a>
</div>

<div class="mlv-demo-hero">
  <div class="mlv-demo-kicker">Kitap / Tahminden Eyleme, Eylemden Sonuca</div>
  <p class="mlv-demo-lead">Bir modeli iyi tahmin ettiği için değil, iyi müdahale seçtiği için isteriz. Bu rota, korelasyon ile etkiyi ayırmayı, sınırlı bütçe altında hangi politikayı uygulayacağını seçmeyi ve uzun ufuklu karar dizilerinde bugünkü hareketin yarına nasıl taşındığını görselleştirir.</p>
</div>

## Neden Bu Bölüm Gerekli?

- Yüksek tahmin doğruluğu, yapılan müdahalenin gerçekten fayda sağladığı anlamına gelmez.
- Politika optimizasyonu, herkese aynı aksiyonu vermek değil, kimde gerçek artısal etki olduğunu bulmakla ilgilidir.
- Keşif olmadan politika öğrenemezsin; ama keşfin maliyeti ve güvenlik riski vardır.
- Pekiştirmeli kararlar, tek adımlı değil gecikmeli ödül altında düşünmeyi gerektirir.

## Bu Projedeki Görsel Karşılıklar

<div class="mlv-demo-grid">
  <div class="mlv-demo-panel">
    <strong>Nedensel Müdahale</strong>
    <span>Gözlenen ilişki ile gerçek müdahale etkisinin ne zaman ayrıldığını ve confounding'in nasıl yanıltabildiğini gör.</span>
    <span><a href="interactive_book_causal_interventions.html">Canlı müdahale demosu</a></span>
  </div>
  <div class="mlv-demo-panel">
    <strong>Politika Optimizasyonu</strong>
    <span>Bütçe, maliyet ve uplift ayrışması altında hangi alt gruba aksiyon vermenin gerçekten değer yarattığını izle.</span>
    <span><a href="interactive_book_policy_optimization.html">Canlı politika demosu</a></span>
  </div>
  <div class="mlv-demo-panel">
    <strong>Bağlamsal Bandit</strong>
    <span>Keşif ve sömürü arasındaki gerilimi, anlık ödül ile pişmanlık arasındaki değiş tokuş üzerinden gör.</span>
    <span><a href="interactive_book_contextual_bandit.html">Canlı bandit demosu</a></span>
  </div>
  <div class="mlv-demo-panel">
    <strong>Pekiştirmeli Kararlar</strong>
    <span>Kısa vadeli kazanç ile uzun vadeli getiri arasındaki farkı, kısıtlar ve simülasyon kalitesiyle birlikte oku.</span>
    <span><a href="interactive_book_reinforcement_decisions.html">Canlı pekiştirmeli karar demosu</a></span>
  </div>
</div>

## Neden Saldırı Direncinden Sonra Geliyor?

Çünkü önce modeli kasıtlı saldırı altında ayakta tutmayı öğrenirsin; sonra daha zor soruya geçersin: peki bu sistemi hangi müdahaleye yönlendireceğim, hangi politikayı seçeceğim ve hangi karar dizisi uzun vadede daha iyi sonuç üretecek? Bu rota, dayanıklılık disiplininden karar politikasına geçen katmandır.

<div class="mlv-demo-links">
  <a class="mlv-demo-link active" href="book_causal_interventions_and_policy_learning.html">Bu Sayfa</a>
  <a class="mlv-demo-link" href="interactive_book_causal_interventions.html">Nedensel Müdahale</a>
  <a class="mlv-demo-link" href="interactive_book_policy_optimization.html">Politika</a>
  <a class="mlv-demo-link" href="interactive_book_contextual_bandit.html">Bandit</a>
  <a class="mlv-demo-link" href="interactive_book_reinforcement_decisions.html">Pekiştirmeli Karar</a>
  <a class="mlv-demo-link secondary" href="book_unsupervised_and_other_learning.html">Sonraki: Gözetimsiz ve Ötesi</a>
</div>
