PlantVillage Veri Seti (PlantVillage Dataset)
Genel Bakis
PlantVillage, bitki hastalığı tespiti araştırmalarinda en yaygin kullanilan karşılaştırma veri setidir. Penn State Universitesi'ndeki PlantVillage projesi tarafından oluşturulmuş olup, 14 ürün turunde 26 hastalık (arti saglikli siniflar) boyunca saglikli ve hastalıkli ürün yapraklarinin 54.306 görüntüsunu içerir ve toplamda 38 sinif içerir.
Veri Seti Özellikleri
| Özellik | Deger |
|---|---|
| Toplam görüntü | 54.306 |
| Ürün turleri | 14 (elma, yabanmersini, kiraz, misir, uzum, portakal, seftali, biber, patates, ahududu, soya fasulyesi, kabak, cilek, domates) |
| Hastalık sınıfları | 26 hastalık + 12 saglikli = toplam 38 sınıf |
| Görüntü cozunurlugu | 256x256 piksel |
| Arka plan | Kontrollü (tek yaprak, duz arka plan üzerinde) |
| Erisim | Kaggle, GitHub üzerinden acik erisim |
Tarımsal Makine Öğrenmesindeki Onemi
PlantVillage, bitki patolojisinin ImageNet'i olarak hizmet etmistir -- Crop Disease Detection'da hizli ilerleme saglayan standart karşılaştırma ölçütu. Önemli kilometre taslari:
- Hughes & Salathe (2015) — Convolutional Neural Networks'un bu veri setinde %99'un üzerinde doğrulukla yaprak görüntüllerinden bitki hastalıklarini tanimlayabileceginin ilk büyük ölçekli gosterimi
- Transfer öğrenme karşılaştırmasi — VGG, ResNet, InceptionV3 ve diger ImageNet on-eğitimli modelleri tarima uygulayan Transfer Learning çalışmalari için varsayilan test yatagi haline geldi
- Alanin katalizoru — Binlerce makalede atif aldi; muhtemelen bitki hastalığı tespiti alt alanini baslatan etken
Bilinen Sinirliliklar
Veri setinin kontrollü kosullari önemli bir laboratuvardan-tarlaya acigi oluşturur:
- Duz arka planlar — Gerçek tarla görüntüleri karmaşık arka planlara sahiptir (toprak, diger bitkiler, gokyuzu)
- Tek yaprak sunumu — Tarlalar kanopiler, çaprazan yapraklar, kismi gorunumler gösterir
- Aydinlatma tekduzeligli — Tarla kosullari golgeler, değişken gunes isigi, islak yuzeyler içerir
- Sinirli çeşitlilik — Cogu görüntü ABD/ilman iklim ürünlerinden; tropikal ürünler yetersiz temsil edilir
- Hastalık asamalari — Cogunlukla ilerlmeis belirtileri gösterir; erken tespit asamalari eksiktir
PlantVillage'da %99+ doğruluk elde eden modeller, tarla toplama görüntülerde genellikle %60-80'e duser. Bu durum, alan uyarlama, Data Augmentation ve tarlaya ozgu veri seti oluşturma araştırmalarini tetiklemistir.
Turevler ve Halefler
- PlantVillage-Artirilmis — Dondurme, cevirme, renk titresimi içeren çeşitli artirilmis surumler
- Plant Pathology Challenge (Kaggle/FGVC) — Tarla kosullariiyla daha zorlu veri setleri
- PlantDoc — Internet kaynakli görüntülere sahip, daha gerçekci kosullu veri seti
- DiaMOS Plant — Cevresel verileri de içeren cok modlu veri seti
- Cassava Disease Dataset — Tropikal ürünlere ve tarla kosullarina odaklanan veri seti
Erisim
Kaggle'da (plantvillage-dataset) ve PlantVillage proje web sitesi araciliigiyla erisilebiilir. Araştırma kullanımi için lisanslanmistir.
Etki
2025 itibariyla PlantVillage ile ilgili makaleler binlerce sayidadir. Sinirliiliklarina ragmen, bitki hastalığı tespitine giren yeni araştırmacilar için fiili başlangıç noktasi olmaya devam etmektedir. Rolu, genel bilgisayarli goruedeki MNIST/CIFAR'inkini yansitir -- cozulmus bir karşılaştırma ölçütu olmasina ragmen temel bir basamak tasi gorevi goren bir veri seti.
Ingest Edilen Makalelerden Bulgular
[Mohanty et al., 2016] — PlantVillage veri setini kullanan ilk ve en cok atif alan derin öğrenme çalışmasi (4.288 atif). Veri setinin ayrintili yapisi: 54.306 görüntü, 14 bitki turu (elma, yabanmersini, kiraz, misir, uzum, portakal, seftali, biber, patates, ahududu, soya fasulyesi, kabak, cilek, domates), 26 hastalık ve 12 saglikli sınıf olmak uzere toplam 38 sınıf etiketi. Veri setinin uc versiyonu kullanildi: (1) Renkli orijinal, (2) Gri tonlamali, (3) Segmente edilmis (yalnizca yaprak, arka plan cikarilmis). 41.112 görüntü için ayni yapragin farkli acilardan cekilmis birden fazla görüntüsu haritalandi ve veri sizintisini onlemek için ayni yapragin tum görüntüleri ya eğitim ya da test setine dahil edildi.
Detayli performans sonuçlari (F1 skoru): - En iyi: GoogLeNet + Transfer Learning + Renkli + %80-%20 bolinme = 0,9934 (%99,35 doğruluk) - AlexNet + Transfer Learning + Renkli + %80-%20 = 0,9927 - GoogLeNet + Sifirdan Eğitim + Renkli + %80-%20 = 0,9836 - En düşük: AlexNet + Sifirdan Eğitim + Gri tonlama + %80-%20 = 0,9449 - Aşırı az eğitim verisiyle (%20 eğitim, %80 test): GoogLeNet + Transfer Learning + Renkli = 0,9820
Segmente edilmis görüntülerde performans renkli görüntülerden hafifce düşük ama gri tonlamadan yüksek çıktı; bu, arka planin kismen yararli bilgi de tasiyabilecegini düşündürmektedir. Gerçek dunya doğrulamasi için Bing Görüntü Arama ve IPM Images'tan 121 ve 119 görüntüluk iki küçük doğrulama seti olusturuldu. Bu küçük saha-benzeri setlerde doğruluk %31-48 araligina geriledi; bu da kontrollu PlantVillage kosullari ile daha degisken tarla kosullari arasinda belirgin bir dagilim farki olabilecegine isaret etmektedir. Sonuç, PlantVillage'in model gelistirme ve karsilastirma icin yararli oldugunu; ancak saha genellemesini ayri veri ve ek dogrulama ile test etmek gerektigini gosterir.
[Islam et al., 2017] — PlantVillage'dan 300 patates yapragi görüntüsu (100 saglikli, 100 gec yanikligi, 100 erken yanikligi) kullanarak SVM tabanli sınıflandırma. Lab* renk uzayinda segmentasyon ve yesil piksel maskeleme ile hastalıkli bölgeler izole edildi. Doğrusal cekirdekli cok sinifli SVM ile %95 doğruluk elde edildi. Calismma, PlantVillage'in derin öğrenme disindaki klasik makine öğrenmesi yöntemleri için de etkili bir karşılaştırma ölçütu oldugunu gösterdi. (546 atif)
[Li et al., 2021] — Derleme çalışmasinda PlantVillage, derin öğrenme tabanli bitki hastalığı tespiti alaninda en yaygin kullanilan veri seti olarak teyit edildi. Ayrica çalışmada, PlantVillage üzerinde egitilen modellerin tarla kosullarinda önemli performans kaybi yasadigi vurgulandi; InceptionV3 ile laboratuvar ve tarla veri setleri arasında ortalama %10-15 doğruluk farki rapor edildi. (896 atif)