Topluluk Yöntemleri (Ensemble Methods)

machine-learningrandom-forestgradient-boostingxgboosttabular-datainterpretability

Topluluk yöntemleri, herhangi bir bireysel modelden üstün tahminler üretmek için birden fazla temel öğreniciyi birleştirir. Tarımda ağaç tabanlı topluluklar -- özellikle gradyan artırma (gradient boosting) çerçeveleri -- yapılandırılmış özelliklerden verim tahmini, toprak özelliği kestirimi ve ürün tavsiye sistemleri gibi tablo biçimindeki veri görevleri için baskın yaklaşım olmaya devam etmektedir.

Temel Yaklaşımlar

Torbalama (Bagging / Bootstrap Aggregating)

Rastgele Orman (Random Forest), hem örneklerin (önyükleme örneklemesi / bootstrap sampling) hem de özelliklerin (rastgele alt uzay yöntemi) rastgele alt kümeleri üzerinde yüzlerce karar ağacı oluşturur ve ardından tahminleri çoğunluk oyu (sınıflandırma) veya ortalama (regresyon) ile birleştirir. Rastgeleleştirme, karmaşık doğrusal olmayan ilişkileri yakalama yeteneğini korurken aşırı uyumu (overfitting) azaltır.

Rastgele Ormanlar, sağlamlıkları, minimum hiperparametre ayarı gereksinimleri ve aşırı uyuma karşı doğal dayanıklılıkları nedeniyle tarımsal tablo verilerinde denenen ilk model olma eğilimindedir. Karışık özellik tiplerini (sayısal, kategorik) ve eksik değerleri sorunsuzca ele alırlar.

Artırma (Boosting)

Artırma, ağaçları sıralı olarak oluşturur ve her yeni ağaç önceki topluluğun hatalarını düzeltir.

AdaBoost (Uyarlanabilir Artırma / Adaptive Boosting), yanlış sınıflandırılmış örneklerin ağırlığını artırarak sonraki ağaçların zor örneklere odaklanmasını sağlar. Tarihsel olarak önemli olmakla birlikte, modern tarımsal makine öğrenmesinde AdaBoost büyük ölçüde gradyan artırma tarafından yerinden edilmiştir.

Gradyan Artırma Makineleri (GBM'ler), fonksiyon uzayında gradyan inişi yoluyla bir kayıp fonksiyonunu minimize eder. Her ağaç, mevcut topluluğun tahminlerinin negatif gradyanını (artıkları) uyar. Bu çerçeve, asimetrik verim kaybı cezaları gibi tarımsal hedefler için özelleştirilmiş kayıp fonksiyonlarını destekleyerek son derece esnektir.

Modern Gradyan Artırma Çerçeveleri

XGBoost, düzenlileştirme (yaprak ağırlıklarında L1/L2), sütun alt örneklemesi ve seyrek verinin verimli işlenmesini sunmuştur. Tarımsal tablo verisi yarışmalarında ve uygulamalı araştırmalarda en yaygın kullanılan makine öğrenmesi modeli olmaya devam etmektedir.

LightGBM, histogram tabanlı bölme ve yaprak bazlı büyüme stratejisi (XGBoost'un seviye bazlı yaklaşımına karşı) kullanarak büyük veri setlerinde daha hızlı eğitim sağlar. Kategorik özellikleri tek sıcak kodlama (one-hot encoding) olmadan desteklemesi, birçok kategorik değişken (toprak tipi, ürün çeşidi, bölge) içeren tarımsal veriler için uygundur.

CatBoost, sıralı hedef kodlama (ordered target encoding) kullanarak kategorik özellikleri doğal olarak işler ve tahmin kaymasını azaltmak için sıralı artırma (ordered boosting) uygular. Üç çerçeve arasında en az özellik ön işleme gerektirir ve tarımda yaygın olan küçük veri setlerinde sağlamdır.

Tarımsal Uygulamalar

Ürün Verimi Tahmini: Hava durumu özetleri (büyüme derece günleri, kümülatif yağış, kuraklık indeksleri), toprak özellikleri (organik madde, pH, tekstür), yönetim uygulamaları (ekim tarihi, çeşit, gübreleme) ve uzaktan algılama indekslerini içeren özelliklerden sezon sonu verim tahmini. Gradyan artırma modelleri, yapılandırılmış verim veri setlerinde tutarlı biçimde en ileri düzey performans elde eder.

Toprak Özelliği Kestirimi: Spektroskopik ölçümlerden (vis-NIR, orta-IR) veya topografik özelliklerden toprak organik karbonu, azot içeriği, pH ve tekstür sınıfının tahmin edilmesi. Rastgele Ormanlar ve XGBoost, toprak spektroskopisi için standart referans modellerdir.

Ürün Tavsiye Sistemleri: Toprak, iklim ve pazar verilerine dayalı olarak belirli bir tarla için optimal ürünlerin önerilmesi. Topluluk sınıflandırıcıları, ürün seçiminin çok sınıflı doğasını yüksek doğrulukla ele alır.

Sulama ve Gübreleme Optimizasyonu: Tarlaya özgü özelliklerden optimal girdi oranlarının tahmin edilmesi. Topluluk modelleri, girdiler ile verim çıktıları arasındaki doğrusal olmayan doz-yanıt ilişkilerini yakalar.

Zararlı ve Hastalık Risk Değerlendirmesi: Hava durumu, ürün ve peyzaj özelliklerinden risk seviyelerinin sınıflandırılması. Topluluk modellerinin olasılıksal çıktıları, eyleme geçirilebilir risk puanları üretmek için kalibre edilebilir.

Yorumlanabilirlik Avantajları

Topluluk yöntemlerinin tarımda önemli bir gücü, yorumlanabilirlik araçlarıyla uyumluluklarıdır:

Özellik önemliliği (Feature importance) (permütasyon, kazanç, SHAP) hangi değişkenlerin tahminleri en çok etkilediğini ortaya koyarak agronomik içgörüler sağlar (örn. "Temmuz yağışı buğday veriminin en önemli belirleyicisidir").
Kısmi bağımlılık grafikleri (Partial dependence plots) ve SHAP bağımlılık grafikleri, her özelliğin marjinal etkisini göstererek agronomların modelin öğrendiği ilişkilerin agronomik açıdan makul olup olmadığını anlamalarına yardımcı olur.
Bireysel tahmin açıklamaları: Explainable Ai yöntemleri (SHAP gibi) aracılığıyla çiftçilerin belirli bir verim tahmininin kendi tarlaları için neden yapıldığını anlamalarını sağlar.

Bu yorumlanabilirlik, çiftçi benimsemesi ve güveni için esastır. Derin öğrenme kara kutularının aksine, topluluk model tahminleri çiftçilerin anlayabileceği ve harekete geçebileceği belirli giriş özelliklerine kadar izlenebilir.

Topluluklar mı, Derin Öğrenme mi?

Topluluk yöntemleri, yaklaşık 10.000'den az örnekli yapılandırılmış tablo verilerinde derin öğrenmeden üstün performans gösterir -- birçok tarımsal veri seti için tipik olan rejim. Derin öğrenme (Convolutional Neural Networks, Transformer Architectures) yapılandırılmamış verilerde (görüntüler, ham zaman serileri, metin) üstündür. Tablo ve görüntü verilerini birleştiren çok modlu görevlerde, CNN özelliklerini topluluk tahminleriyle birleştiren hibrit mimariler giderek daha fazla araştırılmaktadır.

Ingest Edilen Makalelerden Bulgular

Shahhosseini et al., 2020 — Makine öğrenmesi toplulukları ile mısır verimi tahmini. ABD Mısır Kuşağı'ndaki üç eyalette (Illinois, Indiana, Iowa) ilçe düzeyinde mısır verimi tahmini yapılmıştır. Temel bulgular:

Önerilen optimizasyonlu ağırlıklı topluluk ve ortalama topluluk modelleri, %9,5 RRMSE ile en hassas modeller olarak belirlenmiştir.
Stacked LASSO en az yanlılıklı tahminleri üretmiş (MBE: 53 kg/ha); diğer topluluk modelleri de temel öğrenicilere kıyasla yanlılık açısından üstün performans göstermiştir.
Kısmi sezon içi hava bilgisi senaryosunda, 1 Haziran gibi erken bir tarihte %9,2 RRMSE ile yeterli verim tahminleri yapılabilmiştir.
Özellik önemliliği analizi, 18-24. haftalara (1 Mayıs - 1 Haziran) karşılık gelen hava özelliklerinin en kritik girdi değişkenleri olduğunu ortaya koymuştur.
Ağırlıklı topluluk modelleri, zaman serisi veri setleri için yığılmış topluluklerden daha iyi performans göstermiştir; çünkü yığılma yöntemi verinin bağımsız ve özdeş dağılımlı (non-IID) olmasını gerektirmektedir.

Hasan et al., 2023 — Uygun tarımsal ürün yetiştiriciliği tahmini için topluluk makine öğrenmesi tabanlı tavsiye sistemi. Bangladeş tarım verilerini kullanarak beş ana ürün (üç farklı pirinç türü, patates, buğday) için üretim tahmini yapılmıştır. Temel bulgular:

KRR (K-nearest Neighbor Random Forest Ridge Regression) adlı özgün bir topluluk modeli önerilmiş; SVR, Naive Bayes, Ridge Regression, Random Forest ve CatBoost algoritmaları karşılaştırılmıştır.
KRR modeli olağanüstü sonuçlar elde etmiştir: Aus pirinci için 0,009 MSE ve %99 R2; Boro pirinci için 0,246 MSE ve %99 R2; patates için 0,016 MSE ve %99 R2; buğday için 0,062 MSE ve %99 R2.
Diebold-Mariano testi ile modelin sağlamlığı doğrulanmış; kıyaslama modellerine karşı %1 ve %5 anlamlılık düzeyinde üstünlük göstermiştir.
Belirli bir arazi alanı için sonraki sezonda yetiştirmeye uygun ürünleri öneren bir tavsiye sistemi tasarlanmıştır.
Gelişmekte olan ülkelerde sınırlı arazi ve kaynaklarla artan gıda talebini karşılama zorunluluğu, bu tür tahmin sistemlerinin kritik önemini vurgulamaktadır.