Ders 3: Model Değerlendirme ve Aşırı Öğrenme
3.1 Giriş: Neden %99 Doğruluk Yanıltıcı Olabilir?
Bir makine öğrenmesi makalesi "modelimiz %99 doğruluk elde etti" dediğinde, bu etkileyici görünür. Ancak tarımda bu rakam tek başına neredeyse hiçbir şey ifade etmez. Soru şudur: bu %99 doğruluk hangi veride, hangi koşullarda, nasıl ölçüldü?
PlantVillage veri setinde eğitilmiş bir bitki hastalığı modeli laboratuvar fotoğraflarında %99 doğruluk gösterirken, aynı model gerçek tarlada çekilmiş fotoğraflarda %60-70'e düşebilir. Bu durum, tarımsal makine öğrenmesinin en büyük sorunlarından birini ortaya koyar: aşırı öğrenme (overfitting) ve alan farkı (domain gap).
Bu derste, bir modelin gerçekten ne kadar iyi olduğunu nasıl ölçebileceğimizi, aşırı öğrenmenin ne olduğunu ve nasıl tespit edileceğini, tarımda kullanılan temel değerlendirme metriklerini ve doğru veri bölme stratejilerini öğreneceğiz.
3.2 Eğitim, Doğrulama ve Test Setleri
Temel İlke: Modeli Görmediği Veriyle Değerlendir
Bir modelin eğitim verisindeki performansı, gerçek dünya performansının güvenilir bir göstergesi değildir. Bir öğrencinin sınav sorularını önceden görmesi ve %100 alması, o öğrencinin konuyu gerçekten anladığını göstermez. Aynı mantıkla, modelin eğitildiği veriler üzerindeki doğruluğu gerçek başarısını yansıtmaz.
Bu nedenle veri üç parçaya bölünür:
| Set | Amaç | Tipik Oran | Tarımsal Örnek |
|---|---|---|---|
| Eğitim seti | Modelin öğrendiği veri | %60-70 | 2018-2020 yılları verimi |
| Doğrulama seti | Hiperparametre ayarlama | %15-20 | 2021 yılı verimi |
| Test seti | Nihai performans raporu | %15-20 | 2022 yılı verimi |
Kritik kural: Test seti yalnızca bir kez, en son aşamada kullanılır. Eğer test setine bakarak model değiştirilirse, test seti artık "görülmemiş" veri değildir ve performans tahmini iyimser olur.
Tarımsal Veri Bölme Stratejileri
Tarımsal verilerin özel yapısı, standart rastgele bölmeyi yetersiz kılar. Üç temel strateji vardır:
Zamansal bölme (Temporal split): Geçmiş yıllarda eğitim, gelecek yılda test. Örneğin 2015-2020 verim verileriyle eğit, 2021-2022'de test et. Bu, modelin "geleceği tahmin etme" yeteneğini ölçer -- ki gerçek kullanım tam olarak budur.
Mekânsal bölme (Spatial split): Bazı bölgelerde eğitim, diğer bölgelerde test. Örneğin Konya ve Ankara illerinin verileriyle eğit, Eskişehir'de test et. Bu, modelin farklı coğrafi koşullara genelleme yeteneğini ölçer.
Çeşit bazlı bölme: Bazı bitki çeşitlerinde eğitim, diğer çeşitlerde test. Örneğin Ceyhan-99 ve Bezostaya buğday çeşitlerinde eğit, Sultan-95'te test et. Bu, modelin yeni çeşitlere uyum sağlamasını değerlendirir.
Neden rastgele bölme yanıltıcı? Tarımsal verilerde mekânsal otokorelasyon vardır: yan yana tarlaların verimleri benzerdir (aynı toprak, aynı hava). Eğer rastgele bölme yapılırsa, komşu tarlaların biri eğitim setine diğeri test setine düşer ve model "komşusunun verimini kopyalayarak" yapay yüksek performans gösterir. Mekânsal blok bölme bu sorunu çözer.
3.3 Aşırı Öğrenme (Overfitting) Nedir?
Kavramsal Açıklama
Aşırı öğrenme, modelin eğitim verisindeki gürültüyü ve tesadüfi örüntüleri ezberlemesi, genel örüntüleri öğrenmek yerine spesifik örneklere takılmasıdır. Sonuç: eğitim verisinde mükemmel performans, yeni veride kötü performans.
Tarımsal benzetme: Bir ziraat mühendisi yalnızca kendi çiftliğindeki 50 yaprağa bakarak hastalık teşhisi koymayı öğrenmişse, yalnızca o çiftliğin koşullarına uyum sağlamıştır. Başka bir bölgedeki farklı çeşitlerde, farklı toprak ve iklimdeki hasta yaprakları tanıyamayabilir. Geniş ve çeşitli deneyim (veri) gereklidir.
Aşırı Öğrenmenin İşaretleri
- Eğitim doğruluğu >> Test doğruluğu: Eğitimde %99, testte %70 ise ciddi aşırı öğrenme vardır
- Eğitim kaybı düşmeye devam ederken doğrulama kaybı artmaya başlar: Bu noktada eğitimi durdurmak gerekir (erken durdurma -- early stopping)
- Model karmaşıklığı verimle orantısız: 1000 örneklik bir veri setiyle milyonlarca parametreli bir model eğitmek aşırı öğrenmeye davetiye çıkarır
Aşırı Öğrenmeyi Önleme Yöntemleri
| Yöntem | Nasıl Çalışır | Tarımsal Örnek |
|---|---|---|
| Daha fazla veri topla | Modelin çeşitli örneklere maruz kalması | Birden fazla mevsim ve bölge verisi ekle |
| Veri artırma (augmentation) | Mevcut veriden sentetik örnekler üret | Yaprak fotoğraflarını döndür, kırp, renk değiştir |
| Düzenlileştirme (regularization) | Model karmaşıklığını cezalandır | L1/L2 penaltı, dropout |
| Erken durdurma | Doğrulama kaybı artınca eğitimi durdur | XGBoost'ta early_stopping_rounds=50 |
| Topluluk yöntemleri | Birden fazla modelin ortalamasını al | Random Forest (100 ağacın oyu) |
| Çapraz doğrulama | Birden fazla bölme ile değerlendir | 5-katlı mevsimler arası CV |
3.4 Sınıflandırma Metrikleri -- Tarımsal Örneklerle
Doğruluk (Accuracy)
Formül: Doğru tahminlerin toplam tahminlere oranı = (TP + TN) / (TP + TN + FP + FN)
Tarımsal örnek: 1000 yaprak fotoğrafından 950'sini doğru sınıflandıran model %95 doğruluğa sahiptir.
Sorun -- sınıf dengesizliği: Eğer 1000 yapraktan 950'si sağlıklı ve 50'si hasta ise, "her yaprağa sağlıklı de" diyen bir model de %95 doğruluk elde eder! Ancak bu model hiçbir hasta yaprağı tespit edemez. Tarımda hasta yaprakları tespit etmek kritik olduğu için, yalnızca doğruluk yeterli değildir.
Kesinlik (Precision)
Formül: TP / (TP + FP) -- Model "hasta" dediğinde gerçekten ne kadar hasta?
Tarımsal örnek: Model 100 yaprağa "hasta" demiş. Bunlardan 80'i gerçekten hasta, 20'si sağlıklı ama yanlış alarm. Kesinlik = 80/100 = %80.
Önemi: Düşük kesinlik, gereksiz ilaçlama demektir. Sağlıklı bitkilere ilaçlama yapılması hem maliyet hem de çevre açısından zararlıdır.
Duyarlılık / Geri Çağırma (Recall)
Formül: TP / (TP + FN) -- Gerçekte hasta olanlardan kaçını yakaladık?
Tarımsal örnek: Tarlada gerçekte 50 hasta yaprak var. Model bunların 40'ını tespit etti, 10'unu kaçırdı. Recall = 40/50 = %80.
Önemi: Düşük recall, hasta bitkilerin tespit edilemeden kalmasıdır. Tespit edilemeyen hastalık yayılarak tüm tarlaya zarar verebilir. Erken tespit uygulamalarında yüksek recall kritiktir.
F1 Skoru
Formül: 2 x (Kesinlik x Duyarlılık) / (Kesinlik + Duyarlılık) -- Kesinlik ve duyarlılığın harmonik ortalamasıdır.
Neden harmonik ortalama? Aritmetik ortalama, bir metrik çok düşükken diğeri çok yüksekse yanıltıcı sonuç verir. Harmonik ortalama, her iki metriğin de yüksek olmasını zorlar.
Tarımsal örnek: Kesinlik %90, duyarlılık %60 ise F1 = 2 x (0.90 x 0.60) / (0.90 + 0.60) = 0.72. Her iki metriğin de %80 olması durumunda F1 = 0.80 olur -- daha dengeli bir model.
Karışıklık Matrisi (Confusion Matrix) -- Tarımsal Örnek
3 sınıflı bir patates hastalığı tespiti örneği:
| Tahmin: Sağlıklı | Tahmin: Erken Yanıklık | Tahmin: Geç Yanıklık | |
|---|---|---|---|
| Gerçek: Sağlıklı | 85 | 10 | 5 |
| Gerçek: Erken Yanıklık | 8 | 78 | 14 |
| Gerçek: Geç Yanıklık | 3 | 12 | 85 |
Bu matris, modelin hangi hastalıkları birbirine karıştırdığını gösterir. Erken yanıklık ile geç yanıklığın birbiriyle karıştırılma oranının yüksek olması beklenir çünkü belirtiler görüsel olarak benzerdir. Bu bilgi, modelin iyileştirilmesi için yol gösterir.
3.5 Regresyon Metrikleri -- Tarımsal Örneklerle
RMSE (Kök Ortalama Kare Hata)
Formül: sqrt( (1/n) x SUM(tahmin_i - gerçek_i)^2 )
Tarımsal anlamı: Ortalama olarak modelimizin tahmini gerçek değerden ne kadar uzağında? Birimi hedef değişkenle aynıdır.
Örnek: Buğday verim tahmininde RMSE = 0.32 ton/ha ise, model ortalama 320 kg/ha hata yapmaktadır. Ortalama verim 3 ton/ha ise bu %10.7'lik bir göreli hatadır.
Dikkat: RMSE büyük hatalara hassastır (kare alma nedeniyle). Bir aykırı değer (örneğin kuraklıktan yok olmuş bir tarla) RMSE'yi önemli ölçüde şişirebilir.
R-kare (Belirleme Katsayısı)
Formül: 1 - (SUM(gerçek_i - tahmin_i)^2) / (SUM(gerçek_i - ortalama)^2)
Tarımsal anlamı: Modelimiz, verideki değişkenliğin yüzde kaçını açıklıyor? R-kare = 0.85 ise model verimdeki farklılıkların %85'ini açıklar; geri kalan %15 açıklanamayan değişkenlikledir (ölçülmemiş faktörler, rastgele gürültü).
Yorum rehberi:
| R-kare | Yorum | Tarımsal örnek |
|---|---|---|
| 0.90+ | Mükemmel | Laboratuvar spektroskopisi ile toprak OC tahmini |
| 0.75-0.90 | Çok iyi | Uydu + hava verisiyle ilçe düzeyi verim tahmini |
| 0.50-0.75 | Kabul edilebilir | Erken mevsim verim tahmini (hasat 3 ay önce) |
| < 0.50 | Zayıf | Uzun vadeli iklim değişikliği verim projeksiyonu |
Uyarı: R-kare negatif olabilir! Bu, modelin basitçe ortalama değeri tahmin etmekten bile kötü olduğunu gösterir.
MAE (Ortalama Mutlak Hata)
Formül: (1/n) x SUM( |tahmin_i - gerçek_i| )
RMSE'den farkı, büyük hatalara daha az duyarlı olmasıdır. Tarımda aykırı değerlerin (kuraklık, sel) etkisini azaltmak için MAE tercih edilebilir.
3.6 Çapraz Doğrulama (Cross-Validation)
K-Katlı Çapraz Doğrulama
Veriyi K parçaya böl (örneğin K=5). Her seferinde bir parçayı test, geri kalan K-1 parçayı eğitim olarak kullan. K farklı performans değeri elde et ve ortalamasını al.
Neden önemli? Tek bir eğitim-test bölmesi, tesadüfen kolay veya zor bir test seti seçilebileceği için yanıltıcı olabilir. K-katlı CV, daha güvenilir bir performans tahmini verir.
Tarımsal Çapraz Doğrulama Stratejileri
Mevsimler arası CV: Her kat bir yılın verisidir. 5 yıllık veri ile 5 katlı CV: her seferinde bir yılı test, diğer dördünü eğitim olarak kullan. Bu, modelin yeni bir mevsim için ne kadar iyi tahmin yapacağını ölçer.
Mekânsal blok CV: Tarlaları coğrafi bloklara ayır. Her seferinde bir bloğu test olarak kullan. Mekânsal otokorelasyondan kaynaklanan iyimser performans tahminini önler.
Çeşit bağımsız CV: Her kat bir bitki çeşididir. Modelin yeni çeşitlerde ne kadar iyi çalıştığını ölçer.
3.7 Araştırma Örneği 1: Laboratuvardan Tarlaya Açığı
Mohanty et al. (2016) vs Lu et al. (2017) -- Bu iki çalışma, aşırı öğrenme ve alan farkının tarımsal makine öğrenmesindeki etkisini çarpıcı bir şekilde göstermektedir.
Mohanty et al., PlantVillage veri setinde (54.306 görüntü, kontrollü koşullar: beyaz arka plan, tek yaprak, sabit ışık) GoogLeNet ile %99,35 doğruluk elde etmiştir. Ancak gerçek dünya görüntüleri üzerindeki doğruluk %31-48 aralığına düşmüştür.
Lu et al. (2017) ise tam tersine, başlangıçtan itibaren tarla koşullarında toplanan WDD2017 veri setini (9.230 görüntü, 7 sınıf) kullanmıştır. Bu veri setinde: - Karmaşık arka planlar (toprak, yabani otlar, diğer bitkiler) - Kontrol edilemeyen çekim koşulları (değişen ışık, açı, mesafe) - Tek görüntüde birden fazla yaprak ve hastalık - Farklı gelişim evrelerinde değişen belirtiler
VGG-FCN-VD16 mimarisi ile 5-katlı çapraz doğrulamada %97,95 tanımlama doğruluğu elde edilmiştir -- bu, tarla koşullarında bile yüksek performansın mümkün olduğunu, ancak veri setinin gerçekçi olması gerektiğini gösterir.
Bu karşılaştırmadan çıkarılacak temel ders: Model değerlendirme, model seçimi kadar önemlidir. Aynı algoritma, farklı değerlendirme koşullarında çok farklı sonuçlar verebilir. Kamilaris & Prenafeta-Boldú (2018) derlemesinde, 40 çalışmadan yalnızca 8'inin (%20) eğitim ve test için farklı veri setleri kullandığı tespit edilmiştir -- bu, tarımsal makine öğrenmesi literatüründeki değerlendirme sorunlarının boyutunu gözler önüne serer.
| Senaryo | Lab Doğruluğu | Tarla Doğruluğu | Düşüş |
|---|---|---|---|
| Hastalık tespiti (PlantVillage içinde) | %99 | - | - |
| Hastalık tespiti (PlantVillage → gerçek görüntü) | - | %31-48 | ~%55 |
| Hastalık tespiti (tarla verisi, aynı dağılım) | - | %97.95 | - |
| Yabani ot tespiti (kontrollü → tarla) | %97 | %75-85 | ~%15 |
| Ürün sınıflandırma (bir bölge → diğeri) | %95 | %70-80 | ~%20 |
3.8 Araştırma Örneği 2: Random Forest Verim Tahmini RMSE Karşılaştırması
Jeong et al. (2016) -- Bu çalışma, model değerlendirme metriklerinin ve karşılaştırmalı analizin nasıl yapılacağına dair örnek bir çerçeve sunmaktadır. Dört farklı ürün ve ölçekte RF ve çoklu doğrusal regresyon (MLR) sistematik olarak karşılaştırılmıştır.
Küresel buğday verimi tahmininde: - RF: R-kare = 0.96, RMSE = 0.32 ton/ha (%11.9 göreli hata) - MLR: R-kare = 0.31, RMSE = 1.32 ton/ha (%49.2 göreli hata)
ABD ilçe düzeyinde 30 yıllık dane mısır tahmininde: - RF: R-kare = 0.76, RMSE = 1.13 ton/ha (%16.7) - MLR: R-kare = 0.30, RMSE = 1.93 ton/ha (%28.6)
Bu sonuçların değerlendirme açısından öğrettikleri:
-
Göreli RMSE kullanın: 0.32 ton/ha RMSE, buğday için mükemmel (%11.9) ama mısır için çok düşük olurdu (mısır veriminin %3'ü). RMSE'yi ortalama verime oranlamak (RRMSE) farklı ürünler arasında karşılaştırmayı mümkün kılar.
-
Birden fazla metrik raporlayın: Yalnızca R-kare raporlamak yeterli değildir. Bir model R-kare = 0.80 ile iyi görünebilir ama sistematik bir sapma (bias) taşıyor olabilir -- yani sürekli olarak düşük veya yüksek tahmin edebilir. RMSE, MAE ve sapma birlikte raporlanmalıdır.
-
Referans model kullanın: RF'nin performansını değerlendirmek için MLR gibi basit bir referans gereklidir. "RMSE = 1.13 ton/ha" tek başına anlamlı değildir; "MLR'nin 1.93 ton/ha'sine kıyasla %41 iyileşme" ise anlamlıdır.
-
Farklı ölçeklerde test edin: Jeong et al., aynı algoritmayı küresel, ulusal ve bölgesel ölçeklerde test etmiştir. RF, tüm ölçeklerde RMSE'yi ortalama verime oranla %6-14 arasında tutarken MLR'de bu oran %14-49 arasında kalmıştır. Orantılı RMSE farkı küresel ölçekte en büyük, bölgesel ölçekte en küçüktür -- bu, modelin "kolay" ve "zor" senaryolardaki davranışını gösterir.
3.9 Pratik Kontrol Listesi: Tarımsal Model Değerlendirme
Bir tarımsal makine öğrenmesi çalışması değerlendirilirken sorulması gereken sorular:
- Veri nasıl bölündü? Rastgele mi, zamansal mı, mekânsal mı? Rastgele bölme, tarımsal veride genellikle iyimser sonuç verir.
- Test verisi eğitim verisinden ne kadar farklı? Aynı tarlalardan mı, farklı bölgelerden mi? Aynı mevsimden mi, farklı yıllardan mı?
- Sınıf dengesi nasıl? Nadir hastalıklar için F1 veya sınıf bazlı recall raporlandı mı?
- Referans model var mı? Sonuçlar basit bir modelle (ortalama tahmin, doğrusal regresyon) karşılaştırıldı mı?
- Birden fazla metrik raporlandı mı? Yalnızca doğruluk veya yalnızca R-kare yeterli değildir.
- Çapraz doğrulama kullanıldı mı? Tek bir bölme tesadüfi olabilir.
- Gerçek dünya testi yapıldı mı? Laboratuvar veri setindeki performans, tarla performansını garanti etmez.
Sonraki ders: Karar Ağaçları ve Rastgele Orman -- Tarımsal Verim Tahmininin İşçi Atı