Rastgele Orman (Random Forest)
Rastgele Orman, tarımda tablo tabanli makine öğrenmesinin temel calisan atidir. Bagimsiz olarak eğitilmiş karar ağaçlarindan olusan bir topluluk olarak, torbalama (bootstrap aggregating) ile rastgele özellik alt kümelerini birlestirerek genis bir tarımsal gorev yelpazesinde saglam ve dogru tahminler üretir.
Rastgele Orman Neden Tarımsal Makine Öğrenmesine Hakim
Tarımsal veri setleri daginkitir. Sensor okumalari eksik kalir, özellikler surekli toprak ölçümlerini kategorik ürün turleriyle karistiirir ve etiket gurultusu yaygindir. Rastgele Orman tum bunlari zarifce idare eder:
- Eksik veri toleransi: Ağaçlar, eksik değerler civarinda doldurma yapmadan bolunerek, sensorlerin arizalandigi veya okumalarin eksik kaldigi tarla toplama veri setleri için yöntemi pratik kilar.
- Karisik özellik turleri: Kategorik değişkenler (toprak turu, ürün cesidi, toprak işleme pratigi) surekli olanlarla (NDVI, sıcaklık, yağış) kapsamli kodlama ihtiyaci olmaksizin dogal olarak bir arada bulunur.
- Yerlesik özellik önemi: Ortalama Safsizlik Azalmasi (MDI) ve permutasyon onem puanlari, hangi değişkenlerin tahminleri yonlendirdigini ortaya koyar; bu, model çıktılarini guvenmeleri ve yorumlamalari gereken ziraat muhendişleri için temel bir niteliktir.
- Aşırı uyuma dayaniklilik: Yuzlerce dekorele ağaçin ortalamasinin alinmasi, toplulugun tek ciftlik calismlaarina ozgu küçük veri setlerinde bile iyi genellemesini saglar.
Temel Tarımsal Uygulamalar
Verim tahmini en yaygin kullanım alanidir. Özellikler tipik olarak hava durumu değişkenleri, toprak özellikleri, uydu turetilmis bitki ortus indeksleri ve yonetim pratiklerini içerir. Rastgele Orman, özellikle eğitim verisi birkac yuz tarla-mevsim gözlemiyle sinirli oldugunda verim tahmin karşılaştırmalarinda surekli olarak en iyi yöntemler arasında yer alir.
Toprak sınıflandırmasi, toprak araştırmalarini karakterize eden karisik sayisal ve kategorik girdileri işleme yeteneginden yararlanir. Spektroskopik verilerle birlikte arazi özelliklerine dayali eğitilmiş modeller, araziler boyunca toprak doku sınıflarıni yüksek doğrulukla haritalayabilir.
Ürün turu haritalama, uydu görüntülernden genellikle Rastgele Orman'i piksel düzeyinde veya nesne düzeyinde siniflandirici olarak kullanir. Her pikselin cok zamanli spektral bantlari özellik olarak hizmet eder ve orman bir ürün etiketi atar. Bu, bircok ulusal ürün envanter programinda standart yaklasim olmaya devam etmektedir. Ilgili uzaktan algılama is akislari için Precision Agriculture ve Uav Agriculture'ya bakiniz.
Gradyan Artırma ile Karşılaştırma
XGBoost ve LightGBM gibi Gradient Boosting yöntemleri, sirasal artırma kalinti hatalari daha verimli duzeltttigi için büyük ve temiz veri setlerinde Rastgele Orman'i sik sik gecer. Ancak Rastgele Orman, verilerin gurultulu, örneklem boyutunun küçük veya uygulayicinin kapsamli Hyperparameter Optimization için zamaninin olmadigi senaryolarda avantajlarini korur. Rastgele Orman'in varsayilan değerleri olagan ustu derecede iyidir; gradyan artırma, öğrenme orani, ağaç derinligi ve duzenlilestirmenin dikkatli ayarlamasini gerektirir.
Hiper Parametre Ayarlama
En etkili hiper parametreler sunlardir:
- n_estimators (ağaç sayisi): Ağaç sayisi. Daha fazla ağaç varyasi azaltir; cogu tarımsal veri setinde 300-500'un otesinde azalan getiri saglar.
- max_features (maksimum özellik): Her bolmede dikkate alinan özellik sayisi. Klasik sezgisel kural, sınıflandırma için sqrt(p) ve regresyon için p/3'tur.
- max_depth (maksimum derinlik): Derinligin sinirlandirilmasi gurultulu tarla verilerinde aşırı uyumu onleyebilir; ancak varsayilan (sinirsiz) genellikle iyi çalışır.
- min_samples_leaf (minimum yaprak örneklemi): Bu değerin yukseltilmesi tahminleri yumusatir; tarla gözlemlerinin yüksek ölçüm hatasi tasidigi durumlarda faydalidir.
Yorumlanabilirlik
Kuresel özellik öneminin otesinde, Rastgele Orman üzerine insa edilen kismi bagimlilik grafikleri ve SHAP değerleri (SHapley Eklemeli Aciklamalar - SHapley Additive exPlanations), bireysel özelliklerin tahminleri nasil etkiledigini ortaya koyar. Bu yorumlanabilirlik, makine öğrenmesi çıktılari ile eyleme donusturulebilir zirai tavsiyeler arasındaki kopruyu kurar; bu da Precision Agriculture ve Mobile Crop Advisory sistemlerinde benimseme icin onemli bir gereksinim olabilir.
Ingest Edilen Makalelerden Bulgular
Kuresel ve Bölgesel Ürün Verimi Tahmininde Rastgele Orman
[Jeong et al., 2016] — RF regresyonu, bugday, dane misir, patates ve silajlik misir verim tahmininde kuresel ve bölgesel ölçeklerde sistematik olarak degerlendirilmistir. Dort farkli veri seti ve ölçekte test edilen RF modeli, tum performans metriklerinde coklu doğrusal regresyona (MLR) karsi belirgin üstünluk gostermistir:
| Ürün / Olcek | RF RMSE (ton/ha) | RF EF | RF d | MLR RMSE (ton/ha) | MLR EF | MLR d |
|---|---|---|---|---|---|---|
| Bugday (kuresel) | 0.32 | 0.96 | 0.99 | 1.32 | 0.31 | 0.68 |
| Dane misir (ABD 30 yil) | 1.13 | 0.76 | 0.92 | 1.93 | 0.30 | 0.67 |
| Patates (NESR) | 2.77 | 0.75 | 0.95 | 5.62 | -0.87 | 0.73 |
| Silajlik misir (NESR) | 1.90 | 0.85 | 0.97 | 4.54 | -0.41 | 0.75 |
RF'nin RMSE değeri ortalama verime oranla %6-14 arasında seyrederken, MLR'de bu oran %14-49 arasında kalmistir. Degisken onem analizi, kuresel bugday veriminde azot gübre oraninin (NFERT) en etkili değişken oldugunu, ABD misir veriminde ise yil (YR) faktorunun (teknolojik ilerleme trendi, 30 yilda yaklasik 2.5 ton/ha artis) en belirleyici oldugunu ortaya koymustur. RF'nin temel avantajlari olarak karisik değişken turlerini isleyebilmesi, yüksek korelasyonlu tahmincilelere dayanikliligi ve eğitim verisi arttikca performansinin yukselmesi vurgulanmistir. Önemli bir sinirlilik olarak, RF'nin eğitim veri araligi disina ekstrapolasyon yapamamasi (örneğin gelecek iklim senaryolari) belirtilmistir.
Afrika Kitasi Toprak Haritalamada Rastgele Orman
[Hengl et al., 2015] — Afrika kitasinda 15 toprak ozelliginin 250 m çözünürlüklu haritalanmasinda rastgele orman regresyon-kriging (RF-RK) ile doğrusal regresyon-kriging (LR-RK) sistematik olarak karsilastirilmistir. 28.000'den fazla örnekleme noktasi ve MODIS EVI/MIR, SRTM DEM turevleri, GlobeLand30 arazi ortusu verileri girdi olarak kullanilmistir.
RF vs Doğrusal Regresyon: 5 katli çapraz doğrulamada rastgele orman, tum toprak özellikleri için doğrusal regresyona kiyasla istatistiksel olarak anlamli RMSE azalmasi saglamistir (F-testi, p < 0.01). Gorecelii iyilesme oranlari: hacim yoğunlugu %51.1, aluminyum konsantrasyonu %74.4, degisebilir asitlik %64.6, KDK %38.9, pH %31.6, kum %33.3, organik karbon %15.1, toplam azot %18.4. RF modelleri için aciklanan varyans %40-86 arasında degisirken, doğrusal regresyon için bu oran yalnizca %10-45 olmustur. Degisebilir sodyum (ENAX) için doğrusal regresyon negatif R-kare vermis (ortalamadan dahi kotu tahmin), RF ise %46.7 varyans aciklamistir.
Degisken onem analizi: Daha once 1 km çözünürlüktte kuresel olarak haritanlanmis toprak özellikleri (SoilGrids1km) en önemli tahminciler olarak belirlenmistir; bu durum kuresel tahminlerin yerel modellere transfer edilebilir pedolojik bilgi tasidignini göstermektedir. USDA Toprak Taksonomisi sınıf olasıliklari (özellikle Alfisol ve Mollisol) degisebilir bazlarin tahmininde en etkili ikinci değişken grubu olmustur. RF'nin doğrusal olmayan ilişkileri ve kategorik değişkenleri (toprak sınıflarılari gibi) dogal olarak isleyebilme yetenegi, toprak haritalamadaki baskin performansinin temel nedeni olarak vurgulanmistir.
Hesaplama maliyeti: RF modeli doğrusal regresyona kiyasla büyükluk sirasi daha fazla işlem suresi gerektirmistir (model uydurma + tahmin yaklasik 130-210 dakika/özellik). Ancak geleneksel saha haritalama maliyetinin (ABD standartlarina gore 21 milyon km-kare Afrika için tahmini 6.3 milyar USD) yaninda hesaplama maliyetleri ihmal edilebilir düzeydedir.
Gradyan Artırma Karşılaştırmasinda RF Performansi: Misir Verim Tahmini
[Ennaji et al., 2024] — Cin'deki ZhengDan 958 misir hibriti için 1.700+ veri noktasiyla yapilan karşılaştırmada, hiper parametre ayarlamasi oncesi RF R2=0.71 ile XGBoost (R2=0.84) ve MLP (R2=0.72) ile rekabetci konumda yer almistir. Ancak hiper parametre ayarlamasi sonrasi RF performansi R2=0.51'e dusmus, XGBoost R2=0.87'ye ve GBR R2=0.86'ya yukselmistir. Bu sonuç, RF'nin varsayilan parametrelerle saglam performans gösterdigini ancak ince ayarlama sonrasinda gradyan artırma yöntemlerinin daha fazla fayda gordugunu doğrulamaktadir. Özellik onem analizinde RF, toprak organik maddesi (SOM), Olsen-P ve mevcut potasyum gibi toprak özelliklerini en etkili değişkenler olarak belirlirken, XGBoost meteorolojik değişkenlere (sıcaklık, nem) daha fazla ağırlık vermistir. Bu farklilasma, RF ve gradyan artırmanin ayni veri setinde tamamlayici bilgi sagladigini göstermektedir.