Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

Yaygın Tarımsal Makine Öğrenmesi Veri Setleri (Common Agricultural ML Datasets)

datasetbenchmarkagriculturecompilation

Tarımsal makine öğrenmesi araştırmalarinda yaygin olarak kullanilan veri setlerinin katalogu.

Bitki Hastaligi ve Sagligi

Veri Seti Boyut Gorev Ürünler Notlar
Plantvillage 54.000 görüntü Hastalık sınıflandırma 14 tur En cok atif alan; laboratuvar kosullari
PlantDoc 2.598 görüntü Hastalık tespiti 13 tur Internet kaynakli, gerçekci
Plant Pathology (FGVC) 3.651 görüntü Hastalık sınıflandırma Elma Kaggle yarismasi
Cassava Disease 21.397 görüntü Hastalık sınıflandırma Manioka Tarla kosullari, 5 sınıf
Rice Disease Dataset 5.932 görüntü Hastalık sınıflandırma Pirinc Yanıklık (Blast), yaprak yanikligi (Blight), Tungro
PDDB 2.326 görüntü Hastalık tespiti Birden fazla Bitki Hastaligi Veritabani
DiaMOS Plant 3.505 görüntü Hastalık + siddet Armut Cok modlu (görüntü + cevre)

Yabani Ot Tespiti

Veri Seti Boyut Gorev Notlar
DeepWeeds 17.509 görüntü Yabani ot sınıflandırma 8 yabani ot turu, Avustralya
CottonWeedDet12 5.648 görüntü Yabani ot tespiti Pamuk tarlalarinda 12 yabani ot turu
WeedMap IHA mozaikleri Yabani ot segmentasyonu Seker pancari tarlalari, cok spektral
Plant Seedlings 5.539 görüntü Fide sınıflandırma Erken buyume asamasinda 12 tur

Ürün ve Arazi Kullanimi

Veri Seti Boyut Gorev Notlar
EuroSAT 27.000 yama Arazi kullanımi sınıflandırma Sentinel-2, 10 LULC sınıfı
So2Sat LCZ42 400.000 yama Yerel iklim bölgeleri Sentinel-1 + Sentinel-2
BigEarthNet 590.000 yama Cok etiketli arazi ortusu Sentinel-2, 43 CLC sınıfı
CropHarvest Kuresel Ürün varligi/turu 90.000+ farkli kaynaklardan etiket
DOTA 2.806 görüntü Havadan nesne tespiti 188.000 örnek, 15 kategori

Verim ve Üretim

Veri Seti Boyut Gorev Notlar
USDA NASS Ulusal istatistikler Verim tahmini ABD ilce düzeyinde, yillik
FAOSTAT Kuresel istatistikler Üretim analizi Ulke düzeyinde, tum ürünler
Global Wheat Head 6.515 görüntü Bugday basi tespiti Birden fazla ulke, yarisma
Soybean Yield (USDA) Ilce düzeyinde Regresyon 30+ yil, ABD Ortabatisi

Meyve Tespiti

Veri Seti Boyut Gorev Notlar
MinneApple 1.000 görüntü Elma tespiti + sayimi Bahce kosullari
Fuji-SfM 288 görüntü Elma tespiti + boyutlandirma 3 boyutlu rekonstruksiyon verisi
DeepFruits 1.120 görüntü Cok meyveli tespit Elma, mango, badem
Embrapa WGISD 300 görüntü Uzum tespiti Bag kosullari

Toprak ve Cevre

Veri Seti Boyut Gorev Notlar
LUCAS Soil 20.000+ örnek Toprak ozelligi tahmini AB genelinde spektroskopi
ISRIC World Soil Kuresel Toprak haritalama SoilGrids 250m çözünürlük
OpenLandMap Kuresel Arazi/toprak özellikleri Birden fazla çözünürlük katmani
FLUXNET 200+ alan Karbon/su akisi Girdap kovaryans ölçümleri

Hayvancilik

Veri Seti Boyut Gorev Notlar
Animal Pose Dataset 4.608 görüntü Poz tahmini 5 hayvan kategorisi
Cattle Face ID 268 görüntü Bireysel tanimlama Holstein Friesian
VetScan 1.200+ görüntü Saglik değerlendirmesi Veteriner görüntüleme

Veri Seti Kullanim Notlari

Ingest Edilen Makalelerden Bulgular

PlantVillage Kullanim Istatistikleri

[Mohanty et al., 2016] — PlantVillage veri setinin en kapsamli kullanım örneklerinden birini sunmaktadir. 54.306 görüntü üzerinde 14 ürün turu ve 26 hastalık (veya saglikli durum) olmak uzere toplam 38 sınıf tanimlanmistir. AlexNet ve GoogLeNet mimarileriyle %99,35 doğruluk elde edilmistir. Uc farkli veri seti versiyonu test edilmistir: renkli orijinal, gri tonlamali ve segmente edilmis (arka plan kaldirilmis). Farkli eğitim/test bölünmeleri degerlendirilmistir: 80-20, 60-40, 50-50, 20-80 oranlari. 41.112 görüntü için ayni yapraga ait birden fazla cekim bilgisi mevcut olup, eğitim ve test setlerinin bolunemesinde bu dikkate alinmistir. Tum görüntülar 256x256 piksele yeniden boyutlandirilmistir. Veri seti, kontrollü laboratuvar kosullarinda toplanmis olup gerçek tarla kosullarini temsil etmemektedir.

Tarımsal Derin Öğrenme Calismalarinda Veri Seti Kullanim Oruntuleri

[Kamilaris & Prenafeta-Boldu, 2018] — 40 derin öğrenme çalışmasinin taramasi, veri seti kullanım oruntullerini ortaya koymaktadir. PlantVillage, LifeCLEF, MalayaKew, UC Merced ve Flavia en yaygin kullanilan acik erisimli veri setleri olarak tanimlanmistir. Calismalarin büyük cogunlugu binlerce görüntüye sahip büyük veri setleri kullanmistir. IHA (UAV) görüntüleri ve uydu verileri genellikle daha küçük veri setleri (onlarca görüntü) ile calisilmistir. Veri arttirma çalışmalarin %37'sinde uygulanmis olup, özellikle küçük veri setlerine sahip çalışmalar için kritik oneme sahiptir. Sinif ici düşük çeşitlilik (benzer gorunumlu hastalıklar, botanik olarak yakinn ürünler arasında karisiklik) doğruluğu %5'ten fazla dusurebilmektedir. Sentinel-2 uydu verileri uzaktan algılama çalışmalarinda baskin veri kaynagi olarak one cikmaktadir.