Hiper Parametre Optimizasyonu (Hyperparameter Optimization)

tuningbayesian-optimizationautomlcross-validationmodel-selection

Hiper parametre optimizasyonu (HPO), model eğitimini kontrol eden ancak veriden ogrenilmeyen yapilandirma değerlerinin secilmesi süreçidir. Veri setlerinin genellikle küçük oldugu ve modellerin tarlalar, mevsimler ve bölgeler arasında genellestirilmesi gerektigi tarımsal makine öğrenmesinde, kotutu hiper parametre secimleri yararli bir arac ile yaniltici bir arac arasındaki farki oluşturabilir.

Arama Stratejileri

Izgara Aramasi (Grid Search)

Izgara aramasi, onceden tanimlanmis hiper parametre değerlerinin her kombinasyonunu kapsamli şekilde degerlendirir. Basit ve tekrarlanabilir olmasina ragmen, hiper parametre sayisiyla ustel olarak ölçeklenir. Her biri bes değer alan uc parametreye sahip bir Random Forest için izgara aramasi 125 değerlendirme gerektirir. Alti etkilesen parametreye sahip Gradient Boosting için ise uygulanabilir olmaktan cikar.

Izgara aramasi, bilinen iyi bir bölgenin etrafinda son ince ayar için veya yalnizca bir veya iki hiper parametrenin onem tasidigi durumlarda faydali olmaya devam etmektedir.

Rastgele Arama (Random Search)

Rastgele arama, tanimlanmis araliklardan hiper parametre kombinasyonlarini duzgun dagilimlsi şekilde örnekler. Deneysel olarak, her parametrenin daha fazla benzersiz değerini kesfettigi için izgara aramasindan daha iyi performans gösterir. Ayni hesaplama butcesi için rastgele arama, arama alaninin daha genis bir bölümunu kapsar; bu da onu herhangi bir tarımsal makine öğrenmesi boru hatti için asgari uygulanabilir strateji yapar.

Bayes Optimizasyonu (Bayesian Optimization)

Bayes optimizasyonu, amac fonksiyonunun olasıliksal bir vekil modelini (tipik olarak Gauss Sureci veya Ağaç Yapili Parzen Tahmincisi) oluşturur ve bir sonraki hangi yapilandirmanin degerlendirilecegine karar vermek için bir edinim fonksiyonu kullanir. Belirsiz bölgelerin kesfini, umut verici bölgelerin istismari ile dengeler.

Optuna, budama, cok amacli optimizasyon ve scikit-learn, PyTorch ve LightGBM ile entegrasyon sunarak tarımsal araştırmada en populer cercevedir. Hyperopt, daha basit bir API ile TPE tabanli optimizasyon saglar. Her ikisi de rastgele aramaya kiyasla gereken değerlendirme sayisini önemli ölçüde azaltir; bu, her değerlendirmenin tam bir tarımsal veri setinde model eğitimi gerektirdigi durumlarda büyük onem tasir.

Tarım İçin OtomatikML (AutoML for Agriculture)

Auto-sklearn, FLAML ve H2O AutoML gibi OtomatikML sistemleri, model secimi, özellik mühendisliği ve hiper parametre ayarlamasini birlikte otomatiklestirir. Derin makine öğrenmesi uzmanligina sahip olmayan tarım uygulayicilari için OtomatikML, Random Forest, Gradient Boosting ve diger yöntemleri esanli olarak arayarak güçlü bir temel saglar.

Sinir Mimarisi Aramasi (Neural Architecture Search - NAS) bu kavrami derin öğrenmeye genisleterek, ürün hastalığı sınıflandırma veya yabanci ot segmentasyonu gibi gorevler için otomatik olarak ag mimarileri tasarlar. Hesaplama acisindan pahali olsa da, verimli NAS yöntemleri (DARTS, tek atisli yaklasimlar) belirli tarımsal görüntü veri setlerine uyarlanmis mimarilerin kesfi mumkun kilar.

Tarımsal Veriler İçin Çapraz Dogrulama (Cross-Validation)

Standart k-katli çapraz doğrulama, gözlemlerin bagimsiz ve ayni dagilimli oldugunu varsayar. Tarımsal veriler bu varsayimi iki temel şekilde ihlal eder:

Uzamsal otokorelasyon: Komsu tarlalar toprak, hava durumu ve yonetim özelliklerini payasir. Bir tarlada eğitim yapip bitisik bir tarlada dogrulayan bir model, genelleme yetenegini abartir. Uzamsal bloklama, cografi olarak yakin örnekleri ayni katmana gruplandirarak modelin gerçekten gorulmemis konumlarda test edilmesini saglar.

Zamansal bagimlilik: Ardisik yillardaki ürün sonuçlari uzun vadeli toprak egilimlerini ve yonetim miraslarini payasir. Zamansal bolme, onceki yillarda eğitim yapar ve sonraki yillarda dogrular; bu da gecmisten geleceği tahmin etmenin gerçek dunya senaryosunu simule eder.

Bir-alan-disarida-birakma ve bir-yil-disarida-birakma çapraz doğrulamasi, bir modelin yeni ciftliklere veya yeni mevsimlere dagitildiginda nasil performans gosterecegine dair gerçekci tahminler saglayan yaygin tarımsal varyantlardir.

Veri Sizintisini Onleme

Veri sizintisi, tarımsal HPO'da özellikle sinsi bir sorundur. Yaygin kaynaklar sunlardir:

Bölümleme oncesinde özelliklerin normallestirilmesi (test seti istatistikleri eğitime sizear).
Mevcut mevsim verim tahmini için gelecekteki hava durumu verilerinin özellik olarak kullanilmasi.
Capisan eğitim ve doğrulama görüntülerine ayni veri artırma tohumunun uygulanmasi.
Çapraz doğrulama oncesinde tam veri seti üzerinde özellik secimi yapilmasi.

Cozum, tum on işleme, özellik secimi ve model eğitimini çapraz doğrulama dongusu icine alarak her katmanin her dönüşüm adiminda yalnizca eğitim verilerini gormesini saglamaktir. scikit-learn'deki boru hatlari veya ozel Optuna amac fonksiyonlari bu kapsullemeyi titizlikle uygulamalidir.

Ingest Edilen Makalelerden Bulgular

Misir Verim Tahmininde Hiper Parametre Ayarlamasinin Etkisi

[Ennaji et al., 2024] — ZhengDan 958 misir hibriti verim tahmini çalışmasinda, hiper parametre ayarlamasinin model performansina etkisi sistematik olarak degerlendirilmistir. Tum algoritmalar için 5 katli çapraz doğrulama ile izgara aramasi (grid search) uygulanmistir. Ayarlama oncesi ve sonrasi performans farklari carpici olmustur: XGBoost R2=0.84'ten 0.87'ye, GBR R2=0.57'den 0.86'ya yukselmis; ancak RF R2=0.71'den 0.51'e dusmustur. Bu sonuç, gradyan artırma yöntemlerinin hiper parametre optimizasyonundan büyük ölçüde yararlandigini, RF'nin ise varsayilan parametrelerle daha iyi sonuç verdigini kanitlamaktadir. GBR, ayarlama oncesi en zayif performans gosteren modellerden biri iken (R2=0.57), ayarlama sonrasi XGBoost'a yakin performansa (R2=0.86) ulasarak en büyük goreceli iyilesmeyi gostermistir. Calismada kullanilan hiper parametreler arasında öğrenme orani, ağaç derinligi, alt örnekleme oranlari ve L1/L2 duzenlilestirme terimleri yer almistir. Sonuçlar, tarımsal verim tahmininde model seciminin tek basina yeterli olmadigini, uygun hiper parametre optimizasyon stratejisinin model başarısinda belirleyici rol oynadigini göstermektedir.