Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

1.1 Bitki Hastalığı Tespiti

bitki-hastaligiCNNtransfer-learningPlantVillageYOLOdomain-gapmobil-dagitim

1. Problem Tanımı ve Sistemik Etki

Bitki hastalıkları, küresel gıda güvenliğinin en kritik tehdit vektörlerinden biridir. FAO tahminlerine göre yalnızca bitki patojenleri küresel ekonomiye yıllık ~220 milyar USD doğrudan maliyet yüklemektedir (Balafas et al., 2023). Hasat edilebilir ürünün %10-16'sı her yıl hastalık kaynaklı kayıplara gitmekte; bu oran tropik iklimlerde ve küçük ölçekli üretim sistemlerinde %30'u aşabilmektedir.

Problemin mühendislik boyutu şudur: Hastalık teşhisi hâlâ ağırlıklı olarak insan gözlemine dayanmaktadır. Bu yaklaşım üç temel kısıtlamaya sahiptir:

  • Ölçeklenebilirlik: Bir uzman günde sınırlı sayıda tarlayı inceleyebilir. Binlerce hektarlık alanların sistematik taranması fiziksel olarak mümkün değildir.
  • Öznellik: Aynı belirti farklı uzmanlar tarafından farklı yorumlanabilir. Erken evre lezyonların besin eksikliği veya abiyotik stresle karıştırılma oranı yüksektir.
  • Gecikme: Belirtiler gözle görünür hale geldiğinde enfeksiyon zaten ilerlemiş durumdadır. Bu aşamada yapılabilecek müdahale seçenekleri daralmakta ve maliyet artmaktadır.

Bu kısıtlamalar, otomatik görüntü tabanlı hastalık teşhis sistemlerine yönelik araştırmayı tarımsal makine öğrenmesinin en yoğun çalışılan alt alanı haline getirmiştir. Veritabanımızdaki 7.714 makalenin içinde bu konu, tek başına en büyük kümeyi oluşturmaktadır.


2. Teknolojik Evrim ve Algoritmalar

2.1 Geleneksel Yöntemler (2000–2014)

Erken dönem otomasyon yaklaşımları, el ile tasarlanmış özellik çıkarma (handcrafted feature extraction) üzerine kuruluydu:

  • Renk uzayı dönüşümleri: RGB → HSI, L*a*b* dönüşümleri ile hastalıklı bölgenin renk imzası izole edilir. Al-Hiary et al. (2011), HSI uzayında yoğunluk (I) bileşenini çıkararak aydınlatma değişkenliğinin etkisini azaltmış ve 5 hastalık sınıfında %94,67 doğruluk elde etmiştir.
  • Doku analizi: GLCM (Grey-Level Co-occurrence Matrix) matrislerinden kontrast, korelasyon, enerji, homojenlik gibi istatistiksel doku tanımlayıcıları çıkarılır. Islam et al. (2017), GLCM + renk istatistikleri (10 özellik) ile patates hastalıklarını SVM aracılığıyla %95 doğrulukla sınıflandırmıştır.
  • Segmentasyon: K-means kümeleme veya Otsu eşikleme ile hastalıklı bölgeler izole edilir; ardından özellik vektörü oluşturularak SVM veya k-NN gibi sığ sınıflandırıcılara beslenir.

Limitasyonlar: Bu yaklaşımların temel zayıflığı, özellik mühendisliğinin her ürün-hastalık kombinasyonu için yeniden yapılması gerekliliğidir. Domates erken yanıklığı için tasarlanmış özellik seti, patates geç yanıklığında performans kaybeder. Ölçeklenebilirlik pratik olarak yoktur.

2.2 Derin Öğrenme Yaklaşımları (2015–Günümüz)

CNN Tabanlı Sınıflandırma

Evrişimli sinir ağları, görüntüden otomatik özellik öğrenme kapasitesiyle el ile tasarlanmış özelliklerin yerini almıştır.

  • Girdi: RGB yaprak görüntüleri (tipik olarak 224×224 veya 256×256 piksel)
  • Çalışma prensibi: Evrişim katmanları hiyerarşik özellik çıkarır (kenarlar → dokular → morfolojik yapılar → semantik sınıf). Son katmandaki softmax, hastalık olasılık dağılımını verir.
  • Eğitim: Transfer öğrenme ağırlıklı. ImageNet üzerinde önceden eğitilmiş ağırlıklar (VGG16, ResNet50, EfficientNet, GoogLeNet) başlangıç noktası olarak kullanılır; son sınıflandırma katmanı hedef veri setine göre yeniden eğitilir.
  • Metrikler: Doğruluk (accuracy), F1 skoru, sınıf bazlı hassasiyet (precision) ve duyarlılık (recall).

Transfer öğrenme bu alandaki en kritik kolaylaştırıcıdır. Mohanty et al. (2016), eğitim verisi yalnızca %20'ye düşürüldüğünde bile transfer öğrenme ile %98,21 doğruluğun korunduğunu göstermiştir. Bu, tarımsal veri setlerinin tipik boyutu (birkaç bin görüntü) düşünüldüğünde vazgeçilmez bir tekniktir.

Nesne Tespiti (Object Detection)

Sınıflandırma, görüntü düzeyinde tek bir etiket atar. Nesne tespiti ise görüntü içindeki hastalıklı bölgeleri lokalize eder ve her biri için ayrı sınıf tahmini üretir.

  • YOLO ailesi: Tek geçişli (single-pass) mimari ile hız-doğruluk dengesinde üstün. Liu ve Wang (2020), geliştirilmiş YOLOv3 ile domates hastalıklarında %92,39 mAP ve 20,39 ms çıkarım süresi raporlamıştır.
  • Faster R-CNN: İki aşamalı (two-stage) mimari ile daha yüksek lokalizasyon doğruluğu sunar ancak çıkarım süresi büyüklük sırası daha yüksektir (2.869 ms — Liu ve Wang, 2020).

Vision Transformer (ViT)

Self-attention mekanizması ile uzun menzilli bağımlılıkları yakalama kapasitesine sahiptir. Büyük veri setlerinde CNN'lere yakın veya üstün performans gösterebilir; ancak tarımsal veri setlerinin tipik boyutunda (5K-50K) CNN + transfer öğrenme hâlâ baskın seçenektir. Küçük veri senaryolarında ViT'in yetersiz tümevarımsal önyargısı (inductive bias) dezavantaj oluşturur.

Yaklaşım Karşılaştırma Tablosu

Yaklaşım Güçlü Yan Zayıf Yan Kullanım Senaryosu
CNN + Transfer Öğrenme Az veriyle yüksek doğruluk; olgun ekosistem; geniş pretrained model havuzu Yalnızca sınıflandırma; lokalizasyon yok Yaprak düzeyinde hastalık/sağlıklı sınıflandırma
YOLO Gerçek zamanlı tespit ve lokalizasyon; edge dağıtımına uygun Küçük lezyonlarda düşük duyarlılık; anchor box tasarımı gerekli Tarlada mobil tespit, drone görüntülerinde tarama
Faster R-CNN Yüksek lokalizasyon doğruluğu Yavaş çıkarım (~3 sn/görüntü); edge dağıtımına uygun değil Araştırma; detaylı lezyon analizi
SVM + El ile Özellik Yorumlanabilir; küçük, iyi tanımlanmış setlerde rekabetçi Her ürün-hastalık çifti için yeniden tasarım; ölçeklenemez Sınırlı sınıf sayılı, kontrollü ortam
ViT Uzun menzilli bağımlılıklar; uydu/multispektral veride potansiyel Büyük veri gereksinimi; hesaplama maliyeti yüksek Büyük ölçekli, çoklu kaynak veri setleri

3. Gerçek Dünya Zorlukları (Domain Gap Analizi)

Aydınlatma Değişkenliği

Kontrollü ortam veri setleri (PlantVillage gibi) sabit aydınlatma koşullarında toplanmıştır. Tarla koşullarında güneş açısı, bulutluluk, yaprak yüzeyindeki su damlacıkları ve bitki gölgeleri sürekli değişen bir aydınlatma ortamı oluşturur. Bu değişkenlik, CNN'in öğrendiği düşük seviyeli özelliklerin (kenar filtreleri, kontrast kalıpları) sistematik olarak kaymasına neden olur. Al-Hiary et al. (2011), HSI renk uzayında I (yoğunluk) bileşenini çıkararak bu etkiyi azaltmayı başarmıştır; derin öğrenme bağlamında ise color jittering ve histogram eşitleme gibi ön işleme adımları kısmen telafi sağlar ancak sorunu tamamen çözmez.

Arka Plan Karmaşıklığı

PlantVillage görüntülerinde yaprak, uniform arka plan üzerinde izole edilmiş durumdadır. Tarlada ise yaprak; toprak, diğer yapraklar, yabancı otlar ve dallarla iç içedir. Model, hastalık belirtisi yerine arka plan dokusuna aşırı uyum sağlayabilir. Mohanty et al. (2016), segmente edilmiş (arka plan kaldırılmış) görüntülerde performansın renkli görüntülerden düşük çıktığını raporlamış — bu, modelin arka plan bilgisini de öğrendiğinin dolaylı kanıtıdır.

Veri Dengesizliği

Doğada sağlıklı bitkiler çoğunluktadır. Nadir hastalıklar için sınıf başına onlarca örnek bulunabilir. Bu dengesizlik, modelin çoğunluk sınıfına (sağlıklı) aşırı yanlı tahminler üretmesine yol açar. Duyarlılık (recall) metriği, dengesiz veri setlerinde doğruluktan (accuracy) daha güvenilir bir performans göstergesidir. Li et al. (2021), GAN tabanlı veri artırmanın (CycleGAN, LeafGAN) sınıflandırma doğruluğunu %5,2'ye kadar iyileştirdiğini raporlamıştır.

Hastalık Evreleri

Eğitim veri setlerinin çoğunluğu ilerlemiş hastalık belirtileri içerir — çünkü bu görüntüler toplamak kolaydır. Ancak agronomik değer, erken evre tespitindedir. Erken evre belirtiler (soluk sarımsı lekeler, hafif doku değişimi) besin eksiklikleri ve abiyotik stresle kolayca karıştırılır. Bu aşamada inter-class benzerlik yüksek, intra-class varyans düşüktür — sınıflandırma performansı belirgin biçimde düşer.

Aşırı Öğrenme (Overfitting) Riski

Küçük tarımsal veri setlerinde derin modeller, eğitim verisinin artefaktlarını (belirli arka plan deseni, spesifik kamera sensörü gürültüsü, tutarlı aydınlatma) öğrenmeye eğilimlidir. Kamilaris ve Prenafeta-Boldú (2018), inceledikleri 40 çalışmadan yalnızca 8'inin (%20) eğitim ve test için farklı veri kaynakları kullandığını tespit etmiştir. Bu, raporlanan yüksek doğruluk değerlerinin genellenebilirliğini ciddi şekilde sorgulatmaktadır.

Bölgesel Senaryo: Siirt Fıstığı

Siirt ilinde yoğun olarak yetiştirilen Siirt fıstığı (Pistacia vera L.), Antraktnoz (Colletotrichum spp.) ve Aflatoksin üreten Aspergillus flavus küf enfeksiyonuna karşı hassastır.

Mühendislik açısından iki farklı problem mevcuttur:

  1. Antraktnoz: Yaprak ve meyve kabuğunda görünür lezyonlar oluşturur — RGB tabanlı CNN sınıflandırması uygulanabilir. Ancak Siirt çeşidinin yaprak morfolojisi, mevcut veri setlerindeki (ağırlıklı olarak ABD, İran çeşitleri) örneklerden farklıdır; transfer öğrenme performansının doğrudan aktarılıp aktarılamayacağı test edilmelidir.

  2. Aflatoksin: Kabuk iç yüzeyinde gelişen küf enfeksiyonudur — görsel yüzey görüntüleme ile tespit edilemez. Bu problem, RGB'nin ötesinde NIR spektroskopi veya hiperspektral görüntüleme gerektirir ve farklı bir sensör-model pipeline'ı tasarlanmalıdır.

Bu ikilik, tek bir algoritmik çözümün tüm tarımsal hastalık problemlerini karşılayamayacağını somut olarak göstermektedir.


4. Literatür: Seminal Çalışmalar

Mohanty et al. (2016) — PlantVillage veri seti (54.306 görüntü, 14 tür, 38 sınıf) üzerinde AlexNet ve GoogLeNet karşılaştırması. GoogLeNet + transfer öğrenme ile %99,35 doğruluk (F1=0,9934). Eğitim verisi %20'ye düşürüldüğünde %98,21 korunmuş. Gerçek dünya görüntülerinde ise %31-48 aralığına düşüş — domain gap'in nicel kanıtı. (4.288 atıf)

Kamilaris & Prenafeta-Boldú (2018) — Tarımda derin öğrenme üzerine 40 çalışmanın taraması. Sınıflandırma çalışmalarının %79'unda doğruluk %90 üzerinde. CNN, SVM'den %1-8, RF'den %3-8 üstün. Yalnızca %20'si bağımsız test seti kullanmış. (4.247 atıf)

Liu & Wang (2020) — Geliştirilmiş YOLOv3 ile domates hastalığı tespiti. Çok ölçekli özellik piramidi ve K-means anchor optimizasyonu uygulanmış. %92,39 mAP, 20,39 ms çıkarım süresi. SSD (%84,32), Faster R-CNN (%90,67, 2.869 ms) ve orijinal YOLOv3 (%88,31) ile karşılaştırmalı analiz. (496 atıf)

Selvaraj et al. (2019) — Afrika ve Güney Hindistan'dan 18.000+ uzman doğrulamalı muz görüntüsü, 18 sınıf. ResNet50 ile yalancı gövde modelinde mAP %99,99; yaprak modelinde %70,17. Şu anda 5 ülkede mobil uygulama olarak sahada test edilmektedir. (417 atıf)

Li et al. (2021) — Derin öğrenme tabanlı hastalık tespiti derlemesi. CNN'in SVM'ye kıyasla %1-8, RF'ye kıyasla %3-8, YSA'ya kıyasla %41'e kadar üstün olduğunu raporlamış. GAN tabanlı veri artırmanın doğruluğu %5,2 artırdığını göstermiş. Grad-CAM görselleştirmesinin model doğrulama açısından kritik önemini vurgulamış. (896 atıf)


5. Gelecek Vizyonu

Edge AI ve Mobil Dağıtım

Tarımsal hastalık tespitinin pratik etkisi, modelin çalıştığı altyapıya bağlıdır. Kırsal bölgelerde internet bağlantısının güvenilmez olduğu düşünüldüğünde, çıkarımın cihaz üzerinde (on-device) gerçekleşmesi çoğu senaryoda daha gerçekçi bir seçenek haline gelir. Model sıkıştırma teknikleri (INT8 kuantalama, yapısal budama, bilgi damıtma) ile 20 MB altı model boyutları ve orta segment akıllı telefonlarda 200 ms altı çıkarım süreleri hedeflenmektedir. TensorFlow Lite ve ONNX Runtime, bu dağıtım modelinin temel çerçeveleridir.

İHA Tabanlı Görüntü Toplama

Tek yaprak düzeyinden tarla ölçeğine geçiş, İHA (Unmanned Aerial Vehicle) platformlarını gerektirir. Multispektral veya hiperspektral kameralı İHA'lar, tarla üzerinden sistematik uçuş yaparak ortomozaik görüntüler üretir; CNN veya U-Net tabanlı segmentasyon modelleri bu görüntülerden enfekte bölgeleri haritalar. Bu haritalar, değişken oranlı (variable-rate) ilaçlama reçetelerine dönüştürülerek pestisit kullanımında %60-90 azalma potansiyeli taşımaktadır.

Hiperspektral Görüntüleme

RGB (3 bant) yerine 380-2500 nm aralığında yüzlerce dar bant kullanan hiperspektral sensörler, insan gözüne ve standart kameralara görünmeyen hastalık izlerini yakalayabilir. Özellikle erken evre tespitinde — semptomlar henüz görsel belirtiye dönüşmeden önce — klorofil bozunması, hücre su içeriği değişimi ve pigment anomalileri spektral imzadan belirlenebilir. Balafas et al. (2023), hiperspektral veri + MLP kombinasyonuyla domates hastalıklarında %97-99 doğruluk raporlamıştır.

Gerçek Zamanlı Karar Destek Sistemleri

Nihai hedef, teşhisten aksiyona uzanan kapalı döngü bir sistemdir: Sensör verisi → model çıkarımı → hastalık tanısı + şiddet haritası → otomatik ilaçlama reçetesi → aktuatör komutu. Bu entegrasyon, IoT sensör ağları, bulut/edge bilişim katmanları ve çiftlik yönetim yazılımları arasında standartlaştırılmış veri akışı protokollerini gerektirmektedir.


6. Zoom Etkileşim Sorusu

PlantVillage veri setinde eğitilen bir CNN modeli %99,35 doğruluk elde ediyor; aynı model gerçek dünya görüntülerinde %31'e düşüyor. Lu et al. ise doğrudan tarla verisi toplayarak %97,95'e ulaşıyor. Bu iki sonucu birlikte değerlendirdiğinizde: Sorun modelin kapasitesinde mi, verinin temsil gücünde mi? Eğer verinin temsil gücündeyse — PlantVillage'a benzer kontrollü veri toplama yaklaşımının herhangi bir bilimsel değeri var mıdır, yoksa doğrudan tarla koşullarında veri toplamak her durumda üstün müdür? Her iki pozisyonun argümanlarını ve mühendislik tradeoff'larını tartışın.


Bu içerik, literatür notları ve seçilmiş kaynak özetleri temel alınarak hazırlanmış editoryal bir ders metnidir.

Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği