Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

PlantVillage Veri Seti (PlantVillage Dataset)

datasetplant-diseaseimage-classificationbenchmarkleaves

Genel Bakis

PlantVillage, bitki hastalığı tespiti araştırmalarinda en yaygin kullanilan karşılaştırma veri setidir. Penn State Universitesi'ndeki PlantVillage projesi tarafından oluşturulmuş olup, 14 ürün turunde 26 hastalık (arti saglikli siniflar) boyunca saglikli ve hastalıkli ürün yapraklarinin 54.306 görüntüsunu içerir ve toplamda 38 sinif içerir.

Veri Seti Özellikleri

Özellik Deger
Toplam görüntü 54.306
Ürün turleri 14 (elma, yabanmersini, kiraz, misir, uzum, portakal, seftali, biber, patates, ahududu, soya fasulyesi, kabak, cilek, domates)
Hastalık sınıfları 26 hastalık + 12 saglikli = toplam 38 sınıf
Görüntü cozunurlugu 256x256 piksel
Arka plan Kontrollü (tek yaprak, duz arka plan üzerinde)
Erisim Kaggle, GitHub üzerinden acik erisim

Tarımsal Makine Öğrenmesindeki Onemi

PlantVillage, bitki patolojisinin ImageNet'i olarak hizmet etmistir -- Crop Disease Detection'da hizli ilerleme saglayan standart karşılaştırma ölçütu. Önemli kilometre taslari:

  1. Hughes & Salathe (2015)Convolutional Neural Networks'un bu veri setinde %99'un üzerinde doğrulukla yaprak görüntüllerinden bitki hastalıklarini tanimlayabileceginin ilk büyük ölçekli gosterimi
  2. Transfer öğrenme karşılaştırmasi — VGG, ResNet, InceptionV3 ve diger ImageNet on-eğitimli modelleri tarima uygulayan Transfer Learning çalışmalari için varsayilan test yatagi haline geldi
  3. Alanin katalizoru — Binlerce makalede atif aldi; muhtemelen bitki hastalığı tespiti alt alanini baslatan etken

Bilinen Sinirliliklar

Veri setinin kontrollü kosullari önemli bir laboratuvardan-tarlaya acigi oluşturur:

  • Duz arka planlar — Gerçek tarla görüntüleri karmaşık arka planlara sahiptir (toprak, diger bitkiler, gokyuzu)
  • Tek yaprak sunumu — Tarlalar kanopiler, çaprazan yapraklar, kismi gorunumler gösterir
  • Aydinlatma tekduzeligli — Tarla kosullari golgeler, değişken gunes isigi, islak yuzeyler içerir
  • Sinirli çeşitlilik — Cogu görüntü ABD/ilman iklim ürünlerinden; tropikal ürünler yetersiz temsil edilir
  • Hastalık asamalari — Cogunlukla ilerlmeis belirtileri gösterir; erken tespit asamalari eksiktir

PlantVillage'da %99+ doğruluk elde eden modeller, tarla toplama görüntülerde genellikle %60-80'e duser. Bu durum, alan uyarlama, Data Augmentation ve tarlaya ozgu veri seti oluşturma araştırmalarini tetiklemistir.

Turevler ve Halefler

  • PlantVillage-Artirilmis — Dondurme, cevirme, renk titresimi içeren çeşitli artirilmis surumler
  • Plant Pathology Challenge (Kaggle/FGVC) — Tarla kosullariiyla daha zorlu veri setleri
  • PlantDoc — Internet kaynakli görüntülere sahip, daha gerçekci kosullu veri seti
  • DiaMOS Plant — Cevresel verileri de içeren cok modlu veri seti
  • Cassava Disease Dataset — Tropikal ürünlere ve tarla kosullarina odaklanan veri seti

Erisim

Kaggle'da (plantvillage-dataset) ve PlantVillage proje web sitesi araciliigiyla erisilebiilir. Araştırma kullanımi için lisanslanmistir.

Etki

2025 itibariyla PlantVillage ile ilgili makaleler binlerce sayidadir. Sinirliiliklarina ragmen, bitki hastalığı tespitine giren yeni araştırmacilar için fiili başlangıç noktasi olmaya devam etmektedir. Rolu, genel bilgisayarli goruedeki MNIST/CIFAR'inkini yansitir -- cozulmus bir karşılaştırma ölçütu olmasina ragmen temel bir basamak tasi gorevi goren bir veri seti.

Ingest Edilen Makalelerden Bulgular

[Mohanty et al., 2016] — PlantVillage veri setini kullanan ilk ve en cok atif alan derin öğrenme çalışmasi (4.288 atif). Veri setinin ayrintili yapisi: 54.306 görüntü, 14 bitki turu (elma, yabanmersini, kiraz, misir, uzum, portakal, seftali, biber, patates, ahududu, soya fasulyesi, kabak, cilek, domates), 26 hastalık ve 12 saglikli sınıf olmak uzere toplam 38 sınıf etiketi. Veri setinin uc versiyonu kullanildi: (1) Renkli orijinal, (2) Gri tonlamali, (3) Segmente edilmis (yalnizca yaprak, arka plan cikarilmis). 41.112 görüntü için ayni yapragin farkli acilardan cekilmis birden fazla görüntüsu haritalandi ve veri sizintisini onlemek için ayni yapragin tum görüntüleri ya eğitim ya da test setine dahil edildi.

Detayli performans sonuçlari (F1 skoru): - En iyi: GoogLeNet + Transfer Learning + Renkli + %80-%20 bolinme = 0,9934 (%99,35 doğruluk) - AlexNet + Transfer Learning + Renkli + %80-%20 = 0,9927 - GoogLeNet + Sifirdan Eğitim + Renkli + %80-%20 = 0,9836 - En düşük: AlexNet + Sifirdan Eğitim + Gri tonlama + %80-%20 = 0,9449 - Aşırı az eğitim verisiyle (%20 eğitim, %80 test): GoogLeNet + Transfer Learning + Renkli = 0,9820

Segmente edilmis görüntülerde performans renkli görüntülerden hafifce düşük ama gri tonlamadan yüksek çıktı; bu, arka planin kismen yararli bilgi de tasiyabilecegini düşündürmektedir. Gerçek dunya doğrulamasi için Bing Görüntü Arama ve IPM Images'tan 121 ve 119 görüntüluk iki küçük doğrulama seti olusturuldu. Bu küçük saha-benzeri setlerde doğruluk %31-48 araligina geriledi; bu da kontrollu PlantVillage kosullari ile daha degisken tarla kosullari arasinda belirgin bir dagilim farki olabilecegine isaret etmektedir. Sonuç, PlantVillage'in model gelistirme ve karsilastirma icin yararli oldugunu; ancak saha genellemesini ayri veri ve ek dogrulama ile test etmek gerektigini gosterir.

[Islam et al., 2017] — PlantVillage'dan 300 patates yapragi görüntüsu (100 saglikli, 100 gec yanikligi, 100 erken yanikligi) kullanarak SVM tabanli sınıflandırma. Lab* renk uzayinda segmentasyon ve yesil piksel maskeleme ile hastalıkli bölgeler izole edildi. Doğrusal cekirdekli cok sinifli SVM ile %95 doğruluk elde edildi. Calismma, PlantVillage'in derin öğrenme disindaki klasik makine öğrenmesi yöntemleri için de etkili bir karşılaştırma ölçütu oldugunu gösterdi. (546 atif)

[Li et al., 2021] — Derleme çalışmasinda PlantVillage, derin öğrenme tabanli bitki hastalığı tespiti alaninda en yaygin kullanilan veri seti olarak teyit edildi. Ayrica çalışmada, PlantVillage üzerinde egitilen modellerin tarla kosullarinda önemli performans kaybi yasadigi vurgulandi; InceptionV3 ile laboratuvar ve tarla veri setleri arasında ortalama %10-15 doğruluk farki rapor edildi. (896 atif)