Pekiştirmeli Öğrenme (Reinforcement Learning)

deep-learningdecision-makingroboticsoptimizationautonomous-systems

Pekiştirmeli Öğrenme, ajanları bir çevre ile etkileşim yoluyla kümülatif ödülü maksimize ederek ardışık kararlar almak üzere eğitir. Tarımda RL; optimal eylemlerin değişen koşullara bağlı olduğu problemleri ele alır -- hava tahminlerine uyum sağlayan sulama planlaması, manipülasyon stratejileri öğrenen robotik hasat makineleri ve tedavi etkinliğini direnç gelişimine karşı dengeleyen zararlı yönetimi gibi.

Temel Çerçeve: Markov Karar Süreçleri (MDP)

Tarımsal RL problemleri Markov Karar Süreçleri (Markov Decision Processes - MDP) olarak formalize edilir:

Durum (s): Tarımsal sistemin mevcut durumu -- toprak nem seviyesi, bitki büyüme evresi, zararlı popülasyon yoğunluğu, hava tahmini, kaynak envanteri.
Eylem (a): Verilecek karar -- sula veya sulama, ilaçla veya bekle, sola veya sağa git, meyveyi topla veya geç.
Ödül (r): Anlık geri bildirim sinyali -- kazanılan verim, tasarruf edilen su, katlanılan maliyet, önlenen ürün hasarı.
Geçiş dinamikleri: Bir eylem verildiğinde durumun nasıl evrildiği; tarımda hava değişkenliği ve biyolojik belirsizlik nedeniyle genellikle stokastiktir.

Ajan, yetiştirme sezonu veya operasyonel ufuk boyunca iskontolu gelecek ödüllerin beklenen toplamını maksimize eden bir politika (durumdan eyleme eşleme) öğrenir.

Tarımsal Araştırmada Kullanılan Temel RL Algoritmaları

Q-Öğrenme ve Derin Q-Ağları (DQN): Her durum-eylem çifti için beklenen kümülatif ödülü kestiren bir değer fonksiyonu öğrenir. DQN, yüksek boyutlu durum uzayları için sinir ağı fonksiyon yaklaşımlayıcıları ile Q-öğrenmeyi genişletir. Durumların toprak nem profilleri ve hava tahminlerini içerdiği sulama planlamasına uygulanmıştır.

Politika Gradyanı Yöntemleri (REINFORCE, PPO, A2C): Açıkça değer fonksiyonları hesaplamadan doğrudan politikayı öğrenir. Yakınsal Politika Optimizasyonu (Proximal Policy Optimization - PPO), kararlılığı ve ayar kolaylığı nedeniyle en yaygın kullanılan algoritmadır. Eylemlerin sürekli olduğu robotik kontrol görevlerine (örn. meyve toplama için robot kolu eklem açıları) uygulanmıştır.

Aktör-Eleştirmen Yöntemleri (SAC, TD3): Sürekli eylem uzaylarında kararlı eğitim için değer fonksiyonu kestirimi (eleştirmen) ile politika öğrenmeyi (aktör) birleştirir. Yumuşak Aktör-Eleştirmen (Soft Actor-Critic - SAC), seyrek ödüllü tarımsal ortamlarda keşfi teşvik etmek için entropi düzenlileştirmesi ekler.

Çok Ajanlı RL (Multi-Agent RL - MARL): Birden fazla ajanı (örn. otonom püskürtme robotları veya drone filosu) koordine ederek çakışma ve gereksiz tekrarlardan kaçınırken kolektif tarımsal çıktıları optimize eder.

Tarımsal Uygulamalar

Optimal Sulama Planlaması: RL ajanları, gerçek zamanlı toprak nemi, hava tahminleri, bitki büyüme evresi ve su maliyetlerine göre ne zaman ve ne kadar sulanacağını öğrenir. Sulama kararlarının ardışık doğası (bugünkü su uygulaması yarının toprak durumunu etkiler) bunu doğal bir RL problemi yapar. Çalışmalar, verimi korurken sabit planlamaya kıyasla %15-30 su tasarrufu bildirmektedir.

Uyarlanabilir Zararlı Yönetimi: RL, anlık ürün korumayı pestisit direnci gelişimini minimize etme ve faydalı böcek popülasyonlarını koruma gibi uzun vadeli hedeflerle dengeleyerek zararlı kontrol müdahalelerinin optimal zamanlamasını ve yoğunluğunu belirler. Direnç birikiminin gecikmeli sonuçları, bu alanı RL'nin uzun ufuklu optimizasyonuna özellikle uygun kılar.

Otonom Navigasyon: RL ile eğitilmiş politikalar, tarımsal robotları ürün sıraları, bahçeler ve yapılandırılmamış tarla ortamlarında yönlendirir. Ajan, engellerin etrafından gezinmeyi, sıraları takip etmeyi ve değişen arazi koşullarını ele almayı öğrenir.

Robotik Hasat: RL politikaları, meyve hasarını minimize ederken toplama hızını maksimize eden kavrama stratejileri öğrenerek meyve toplama için robotik kolları kontrol eder. Her meyve biraz farklı geometri ve olgunluk seviyesi sunarak uyarlanabilir politikalar gerektirir.

Ürün Yönetimi Optimizasyonu: RL ajanlarının ekim yoğunluğu, gübreleme zamanlaması ve oranları ile hasat tarihine karar vererek hava belirsizliği altında kârı maksimize ettiği uçtan uca sezon boyu yönetim.

Simülasyondan Gerçeğe Geçiş Zorlukları (Sim-to-Real)

Tarımsal RL'nin temel zorluğu, simülasyondan gerçeğe (sim-to-real) geçiş farkıdır. RL ajanlarının eğitimi milyonlarca çevre etkileşimi gerektirir -- her "epizodun" bir tam yetiştirme sezonu olduğu gerçek tarımsal ortamlarda pratik değildir.

Bitki Simülasyon Modelleri: DSSAT, APSIM ve AquaCrop gibi simülatörler bitki büyümesini, toprak dinamiklerini ve yönetime karşı verim tepkisini modeller. Bu simülatörlerde eğitilen RL ajanları gerçek tarlalara aktarılabilecek politikalar öğrenir, ancak simülatörün doğruluğu doğrudan politika kalitesini sınırlar.

Alan Rastgeleleştirmesi (Domain Randomization): Eğitim sırasında simülasyon parametrelerinin (hava örüntüleri, toprak özellikleri, bitki tepki eğrileri) değiştirilmesi, gerçek dünya değişkenliğine daha iyi genelleyen daha sağlam politikalar üretir.

Simülasyondan Gerçeğe Transfer: Simülasyonda eğitilen politikalar gerçek tarla verileriyle doğrulanmalı ve ince ayar yapılmalıdır. Gerçek tarlaların biyolojik karmaşıklığı ve mekânsal heterojenliği, basitleştirilmiş simülatörlerde bulunmayan dinamikler ortaya çıkarır.

Örnek Verimliliği: Politikanın yanı sıra bir dünya modeli öğrenen model tabanlı RL yöntemleri, gereken gerçek etkileşim sayısını azaltarak sınırlı tarla denemelerini daha bilgilendirici hale getirebilir.

Mevcut Sınırlılıklar

Tarımsal RL büyük ölçüde araştırma aşamasında kalmaktadır. Benimsemenin önündeki engeller arasında uygun ödül fonksiyonlarını tanımlamanın zorluğu (yalnızca verim sürdürülebilirliği göz ardı eder), doğru simülatör ihtiyacı, tarımda doğası gereği var olan uzun geri bildirim döngüleri (eylem ile sonuç arasında aylar) ve çiftçilerin akıl yürütmesi opak olan otonom karar alma sistemlerine şüpheci yaklaşımı yer almaktadır. RL tabanlı tarımsal kararlarda güven oluşturmak için Explainable Ai yöntemleriyle entegrasyon esastır.

Ingest Edilen Makalelerden Bulgular

Kallenberg et al., 2023 — Pekiştirmeli öğrenme ve bitki büyüme modelleri ile azot yönetimi. CropGym adlı bir Gymnasium ortamı geliştirilmiş; RL ajanı, WOFOST/LINTUL-3 gibi süreç tabanlı bitki büyüme modelleri kullanarak ürün yönetim politikaları öğrenmektedir. Kış buğdayında azot uygulama stratejileri üzerine vaka çalışması yapılmıştır. Temel bulgular:

RL ajanı haftalık olarak ayrık miktarda azot gübresi uygulama kararı vermiş; verim maksimizasyonu ile çevresel etki minimizasyonu arasında denge kurmayı başarmıştır.
Öğrenilen stratejiler, alan uzmanlarının belirlediği standart uygulamalarla rekabetçi düzeyde optimale yakın performans göstermiştir.
Dağılım dışı test olarak iklim koşullarındaki değişime karşı politika dayanıklılığı değerlendirilmiş; yeterli yağış olduğunda RL ajanının optimal politikaya yakın kaldığı bulunmuştur.
CropGym, RL ve agronomi toplulukları arasındaki işbirliğini kolaylaştırmak amacıyla açık kaynak olarak sunulmuştur.

Saikai et al., 2023 — Yüksek boyutlu sensör geri bildirimi kullanarak sulama planlaması için derin pekiştirmeli öğrenme. Avustralya'nın üretken bir bölgesinde sulanan buğday üretim sistemi üzerinde çalışılmıştır. Temel bulgular:

Karar kuralı 9 durum değişkeni girdisi almaktadır: bitki fenolojik evresi, yaprak alan indeksi, beş toprak katmanındaki çıkarılabilir su miktarı, kümülatif yağış ve kümülatif sulama.
APSIM-Wheat bitki büyüme modeli kullanılarak 1981-2020 hava verileriyle eğitilen RL ajanı, 2011-2020 dönemi için bireysel test yıllarında değerlendirilmiştir.
Keşfedilen karar kuralı, bölgedeki geleneksel sulama kuralına kıyasla tüm test yıllarında tutarlı biçimde kar iyileştirmesi sağlamış; en büyük iyileşme 2018 yılında %19 olarak gerçekleşmiştir.
Olasılıksal reçete sunan çerçeve (5 farklı sulama miktarı adayı: 0, 10, 20, 30 ve 40 mm/gün), geniş bir yelpazedeki tarımsal optimizasyon problemlerine uygulanabilir niteliktedir.