Ders 4: Karar Ağaçları ve Rastgele Orman

derskarar-ağacırandom-foresttopluluk-yöntemleriverim-tahminitoprak-haritalama

4.1 Karar Ağacı: Tarımsal Karar Verme Mantığıyla Öğrenme

Kavramsal Giriş

Karar ağacı, insan karar verme süreçini taklit eden en sezgisel makine öğrenmesi algoritmasıdır. Bir ziraat mühendisinin hasta yaprak teşhis süreci aslında bir karar ağacıdır:

Yaprak sarı mı?
├── Evet → Lekeler daire şeklinde mi?
│   ├── Evet → Lekeler kahverengi halka şeklinde mi?
│   │   ├── Evet → ERKEN YANIKLIK
│   │   └── Hayır → SEPTORİYA LEKE HASTALIĞI
│   └── Hayır → Lekeler yaprak uçlarından başlıyor mu?
│       ├── Evet → GEÇ YANIKLIK
│       └── Hayır → BESİN EKSİKLİĞİ
└── Hayır → Yaprak yüzeyinde beyaz toz var mı?
    ├── Evet → KÜLLEME
    └── Hayır → SAĞLIKLI

Makine öğrenmesinde karar ağacı, tam olarak bu mantığı otomatik olarak veriden öğrenir. Her düğüm noktasında bir özelliğe dayalı bir soru sorulur, her dal bir cevabı temsil eder ve her yaprak düğümü bir tahmin (sınıf veya sayı) içerir.

Karar Ağacının Matematiği -- Tarımsal Dille

Ağacın her düğümünde "hangi soruyu sorayım?" kararını vermesi gerekir. Bunun için veriyi en iyi ikiye bölen soruyu arar. "En iyi" ne demektir? Bölünme sonuçunda oluşan grupların mümkün olduğunca "saf" (homojen) olmasıdır.

Gini Safsızlığı (Gini Impurity):

Bir düğümde n sınıf varsa: Gini = 1 - SUM(p_i^2) burada p_i, i sınıfının oranı.

Tarımsal örnek: Bir düğümde 100 yaprak var, 90'ı sağlıklı, 10'u hasta. - Gini = 1 - (0.9^2 + 0.1^2) = 1 - (0.81 + 0.01) = 0.18 (düşük safsızlık, neredeyse saf)

Başka bir düğümde 50 sağlıklı, 50 hasta: - Gini = 1 - (0.5^2 + 0.5^2) = 1 - 0.50 = 0.50 (yüksek safsızlık, karışık)

Ağaç, bölünme sonuçundaki çocuk düğümlerin ağırlıklı Gini safsızlığını minimize eden özelliği ve eşik değeri seçer.

Entropi ve Bilgi Kazancı (Information Gain):

Entropi = -SUM(p_i x log2(p_i)) -- sistemdeki belirsizliğin ölçüsü.

Tarımsal örnek: Bir tarlada 4 farklı hastalık eşit olasılıkla görülüyor. - Entropi = -4 x (0.25 x log2(0.25)) = -4 x (0.25 x -2) = 2 bit (yüksek belirsizlik)

Eğer toprak nemini sorarak tarlayı ikiye bölersek ve bir yarıda yalnızca 2 hastalık, diğer yarıda yalnızca 2 hastalık kalırsa, entropi azalmıştır. Bu azalma bilgi kazancıdır -- sorumuz bilgi verdi.

Regresyon ağaçlarında ise safsızlık yerine varyans (veya MSE) kullanılır. Ağaç, bölünme sonuçunda hedef değişkenin (örneğin verim) varyansını en çok azaltan bölmeyi arar.

Karar Ağacının Avantaj ve Dezavantajları

Avantaj	Dezavantaj
Çok kolay yorumlanır -- karar süreci görülebilir	Tek ağaç aşırı öğrenmeye çok yatkın
Özellik ölçekleme gerektirmez	Verideki küçük değişikliklere karşı hassas (dengesiz)
Sayısal ve kategorik verileri birlikte işler	Derin ağaçlar karmaşık ve yorumlanması zor olabilir
Eksik verilerle başa çıkabilir	Doğrusal ilişkileri verimli yakalayamaz
Hızlı eğitim ve tahmin	Büyük ağaçlar bellekte yer kaplar

4.2 Neden Tek Ağaç Yetmez? Aşırı Öğrenme Riski

Tek bir karar ağacı, verideki her ayrıntı dahil gürültüyü öğrenmeye çalışır. Örneğin, verim tahmininde tek ağaç şu şekilde bir kural oluşturabilir: "2019'da Konya'nın X ilçesinde, temmuz ayında 32.5 derece üzerinde sıcaklık olan günlerin sayısı 7'den fazla ise verim 3.2 ton/ha'dir." Bu kural, eğitim verisindeki birkaç örneğe mükemmel uyar ama genellenebilir değildir.

Tek ağacın bir diğer sorunu dengesizliktir: eğitim verisinde bir tek örnek değiştiğinde ağacın yapısı tamamen değişebilir. Bu, modelin güvenilmez olduğu anlamına gelir.

Çözüm: Birden fazla ağacı birleştirmek. Bu fikir, topluluk yöntemleri (ensemble methods) kavramının temelidir.

4.3 Rastgele Orman (Random Forest)

Temel Fikir: 100 Ziraat Mühendisinin Çoğunluk Kararı

Rastgele Orman'ın arkasındaki fikir basittir: tek bir uzmanın görüşüne güvenme, birden fazla bağımsız uzmanın çoğunluk kararını al.

Tarımsal benzetme: 100 ziraat mühendisine aynı hasta yaprağı gösterin. Her biri farklı bir bakış açısıyla (farklı özellikler, farklı deneyim) değerlendirme yapar. Sonunda oy kullanılır: 85'i "erken yanıklık" diyorsa, sonuç erken yanıklıktır. Bu çoğunluk kararı, tek bir mühendise kıyasla çok daha güvenilirdir.

Rastgele Orman tam olarak bunu yapar:

Bootstrap örnekleme (Bagging): N örneklik orijinal veri setinden, rastgele yeniden örneklemeyle (tekrara izin vererek) N boyutunda B adet farklı alt küme oluşturulur. Her alt küme, verilerin yaklaşık %63'ünü içerir; geri kalan %37 "dışarıda bırakılan" (out-of-bag, OOB) örneklerdir.
Rastgele özellik seçimi: Her bölme noktasında tüm özellikler yerine rastgele seçilen bir alt küme (tipik olarak sqrt(p) adet özellik) dikkate alınır. Bu yaklaşım, ağaçların birbirinden daha farklı davranmasına yardımcı olur.
Bağımsız ağaç eğitimi: Her alt kümede ayrı bir karar ağacı eğitilir. Ağaçlar birbirinden habersizdir (paralel eğitim).
Toplama: Sınıflandırmada her ağacın oyu sayılır (çoğunluk kararı); regresyonda ağaçların tahminlerinin ortalaması alınır.

Neden Çalışıyor?

Her ağaç bireysel olarak "zayıf" olabilir ve aşırı öğrenmiş olabilir. Ancak farklı ağaçlar farklı yönlerde hata yaptığı için, birleştirildiğinde hatalar birbirini iptal eder. Matematiksel olarak, B adet bağımsız ağacın varyansı tekil ağacın varyansının 1/B katıdır.

Hiperparametre Ayarlama

Parametre	Açıklama	Tarımsal Tavsiye
n_estimators	Ağaç sayısı	300-500 genellikle yeterli; daha fazlası az getiri sağlar
max_features	Her bölmede dikkate alınan özellik sayısı	Sınıflandırma: sqrt(p), Regresyon: p/3
max_depth	Ağaç derinliği sınırı	Varsayılan (sınırsız) çoğu durumda iyi
min_samples_leaf	Yaprak düğümündeki min. örnek	Gürültülü tarla verisinde 5-10'a yükseltmek faydalı

RF'nin en büyük avantajlarından biri, varsayılan parametrelerin çoğu durumda iyi çalışmasıdır. Gradyan artırma yöntemlerinin aksine kapsamlı hiperparametre araması genellikle gereksizdir.

4.4 Özellik Önemliliği -- Hangi Değişken Verimi En Çok Etkiliyor?

Random Forest'un tarımsal uygulamalardaki en değerli özelliği, özellik önem sıralamasını doğal olarak sağlamasıdır.

Ortalama Safsızlık Azalması (MDI -- Mean Decrease Impurity)

Her özelliğin, ağaçlardaki tüm bölmelerde sağladığı toplam safsızlık azalması (Gini azalması) hesaplanır. Bir özellik ne kadar çok ve ne kadar etkili bölmelerde kullanılıyorsa o kadar önemlidir.

Permütasyon Önemliliği

Bir özelliğin değerleri rastgele karıştırılır ve model performansındaki düşüş ölçülür. Önemli bir özellik karıştırıldığında performans büyük ölçüde düşer; önemsiz bir özellik karıştırıldığında performans değişmez.

Tarımsal Örnek: Verimde En Etkili Faktörler

Jeong et al. (2016) çalışmasında RF özellik önem analizi çarpıcı sonuçlar ortaya koymuştur:

Küresel buğday verimi: Azot gübre oranı (NFERT) en etkili değişken. Bu, gübrelemenin verimi belirleyen birincil faktör olduğunu gösterir.
ABD mısır verimi (30 yıllık): Yıl (YR) faktörü en belirleyici değişken. Bu şaşırtıcı görünebilir ama aslında teknolojik ilerleme trendini (iyileştirilen çeşitler, gübre kullanımı, tarım pratikleri) yansıtır -- 30 yılda mısır verimi yaklaşık 2.5 ton/ha artmıştır.

Bu tür bulgular, tarımsal politika ve uygulama için doğrudan değere sahiptir: azot gübrelemesinin optimize edilmesi küresel buğday verimini artırmanın en etkili yoludur.

4.5 Araştırma Örneği 1: Küresel Verim Tahmininde RF

Jeong et al. (2016) -- Rastgele Orman regresyonu, buğday, dane mısır, patates ve silajlık mısır verim tahmininde küresel ve bölgesel ölçeklerde değerlendirilmiştir. RF, tüm test vakalarında çoklu doğrusal regresyona (MLR) kıyasla belirgin biçimde üstün performans göstermiştir.

Detaylı sonuçlar:

Ürün / Ölçek	RF RMSE (ton/ha)	RF R-kare	MLR RMSE (ton/ha)	MLR R-kare	RF İyileşmesi
Buğday (küresel)	0.32 (%11.9)	0.96	1.32 (%49.2)	0.31	%76 RMSE azalması
Dane mısır (ABD 30 yıl)	1.13 (%16.7)	0.76	1.93 (%28.6)	0.30	%41 RMSE azalması
Patates (NESR)	2.77 (%13.9)	0.75	5.62	-0.87	%51 RMSE azalması
Silajlık mısır (NESR)	1.90 (%5.8)	0.85	4.54	-0.41	%58 RMSE azalması

Bu sonuçların önemi birkaç katmanlıdır:

RF'nin tutarlılığı: Tüm ürün ve ölçeklerde RF, RMSE'yi ortalama verime oranla %6-14 arasında tutarken MLR'de bu oran %14-49 arasında kalmıştır. Bu, RF'nin farklı problemlerdeki güvenilirliğini gösterir.

MLR'nin başarısızlığı: Patates ve silajlık mısırda MLR negatif R-kare vermiştir -- yani ortalama değeri tahmin etmekten bile kötü performans. Bu, doğrusal modellerin karmaşık tarımsal ilişkileri yakalayamadığını ve doğrusal olmayan yöntemlerin (RF gibi) neden gerekli olduğunu vurgular.

Ekstrapolasyon sınırı: Yazarlar, RF'nin önemli bir sınırlılığını da belirtmişlerdir: eğitim veri aralığı dışına tahmin yapamaz (ekstrapolasyon). Eğer eğitim verisinde en yüksek verim 10 ton/ha ise, model asla 11 ton/ha tahmin edemez. Bu, gelecek iklim senaryolarında verim tahmininde ciddi bir sınırlılık oluşturur.

4.6 Araştırma Örneği 2: Afrika Toprak Haritalamada RF

Hengl et al. (2015) -- Afrika Toprak Bilgi Servisi (AfSIS) projesi kapsamında, 28.000'den fazla örnekleme noktasından yararlanarak Afrika kıtası için 250 m çözünürlükle 15 toprak özelliği haritalanmıştır.

RF regresyon-kriging (RF-RK) ile doğrusal regresyon-kriging (LR-RK) sistematik olarak karşılaştırılmıştır:

Göreli iyileşme oranları (RF vs doğrusal regresyon):

Toprak Özelliği	RF Açıklanan Varyans	Doğrusal Model	RF İyileşmesi
Hacim yoğunluğu	~%80	~%30	%51.1
Alüminyum kons.	~%75	~%25	%74.4
Değişebilir asitlik	~%70	~%25	%64.6
KDK	~%65	~%30	%38.9
pH	~%67	~%35	%31.6
Kum içeriği	~%65	~%35	%33.3
Organik karbon	~%55	~%45	%15.1
Toplam azot	~%50	~%40	%18.4

Bu sonuçların tarımsal önemi büyüktür:

Afrika için toprak bilgisi: 21 milyon km-karelik bir kıtanın toprak özelliklerini geleneksel yöntemlerle haritalamak tahmini 6.3 milyar USD maliyetindedir. RF tabanlı dijital toprak haritalama, bu bilgiyi ücretsiz uydu verileri ve sınırlı sayıda toprak örneği ile çok düşük maliyetle üretebilmektedir.

RF'nin kategorik veri avantajı: USDA Toprak Taksonomisi sınıfları (kategorik değişken) değişebilir bazların tahmininde çok önemli olmuştur. RF, bu kategorik değişkenleri one-hot kodlama gerektirmeden doğal olarak işleyebilmesi sayesinde üstünlük sağlamıştır.

Küresel-yerel transfer: Daha önce 1 km çözünürlükte haritalanmış küresel toprak tahminleri (SoilGrids1km), yerel modeller için en güçlü tahmin değişkeni olarak belirlenmiştir. Bu, büyük ölçekli modellerin yerel uygulamalara transfer edilebilir bilgi taşıdığını gösterir -- transfer öğrenmenin toprak bilimindeki karşılığı.

4.7 RF'nin Tarımsal Sınırlılıkları

Ekstrapolasyon yapamaz: Eğitim verisindeki en yüksek verimden daha yüksek tahmin üretememesi, iklim değişikliği projeksiyonlarında sorun oluşturur.
Mekânsal otokorelasyonu modelleyemez: Komşu tarlaların benzer olma eğilimini yakalayamaz -- bu nedenle kriging ile hibrit yaklaşımlar (RF-RK) önemlidir.
Zamansal dinamikleri doğrudan işleyemez: Zaman serisi verisi için özellik mühendisliği gerekir (NDVI_maks, GDD toplamı gibi). LSTM gibi derin öğrenme modelleri bu konuda avantajlıdır.
Gradyan artırmaya kıyasla: Temiz ve büyük veri setlerinde XGBoost ve LightGBM genellikle RF'den daha iyi performans gösterir -- ancak RF gürültülü ve küçük veri setlerinde avantajını korur.

4.8 Özet: Rastgele Orman Tarımda Neden Popüler?

Neden	Açıklama
Varsayılan parametrelerle iyi çalışır	Kapsamlı hiperparametre araması gerektirmez
Karışık veri türleri	Sayısal + kategorik verileri birlikte işler
Eksik veriye dayanıklı	Sensör arızaları ve eksik kayıtlarla başa çıkar
Özellik önemliliği	Hangi faktörün en etkili olduğunu gösterir
Aşırı öğrenmeye dayanıklı	Yüzlerce ağacın ortalaması gürültüyü yumuşatır
Paralel eğitim	Her ağaç bağımsız -- büyük veri setlerinde ölçeklenir

Random Forest, tarımsal makine öğrenmesinde "işçi at"tır: her zaman mükemmel olmasa da nadiren çok kötü sonuç verir ve hemen hemen her problem tipinde rekabetçi bir başlangıç noktası sağlar.

Sonraki ders: Gradyan Artırma -- XGBoost ve LightGBM ile Tahmin Gücünü Maksimize Etme