Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

Ders 1: Tarımsal Veri ve Özellik Mühendisliği

dersveriözellik-mühendisliğindviuzaktan-algılamaspektroskopi

1.1 Veri Nedir? -- Tarımsal Bakış Açısıyla

Makine öğrenmesi, veriden örüntü çıkarır. Ancak "veri" kavramı soyut bir matematik terimi değildir; tarımda veri, tarladan gelen somut ölçümlerdir. Bir toprak nemi sensörünün her saat başında ölçtüğü yüzdelik değer, bir akıllı telefonla çekilmiş hasta yaprak fotoğrafı, bir Sentinel-2 uydüşünün 10 metre çözünürlükle kaydettiği NDVI değeri -- bunların hepsi veridir. Makine öğrenmesi modelleri bu verileri işleyerek "bu yaprak hasta mı?", "bu tarlanın verimi ne olacak?", "bu toprağın organik karbon içeriği ne kadar?" gibi sorulara cevap üretir.

Tarımsal verinin diğer alanlardan önemli bir farkı, mevsimsellik ve coğrafi çeşitliliktir. Bir büyüme mevsiminde yalnızca bir hasat verisi elde edilir; aynı tohumun Konya ovasında ve Rize'de tamamen farklı performans gösterebileceği unutulmamalıdır. Bu nedenle tarımsal veri toplama, dikkatli planlama ve uzun vadeli kayıt tutma gerektirir.

Tarımsal veride sık karşılaşılan bir diğer sorun da eksik değerlerdir. Sensörler arızalanabilir, bulutlu günlerde uydu görüntüleri kullanılamaz, çiftçiler gübre kayıtlarını düzensiz tutabilir. Makine öğrenmesi modellerinin bu eksikliklerle başa çıkabilmesi, tarımsal uygulamalarda kritik bir gerekliliktir.

1.2 Tarımsal Veri Türleri

Sayısal (Numerik) Veriler

Sayısal veriler, sürekli veya kesikli ölçümlerdir. Tarımda en yaygın sayısal veriler şunlardır:

  • Toprak ölçümleri: pH (örneğin 6.8), organik karbon yüzdesi (%2.3), nem içeriği (%35), kil oranı (%28), katyon değişim kapasitesi (25 meq/100g)
  • Meteorolojik veriler: Günlük sıcaklık (min/maks/ort), yağış (mm), güneş radyasyonu (MJ/m2), nem (%)
  • Verim verileri: Ton/hektar veya kg/dekar cinsinden hasat miktarı

Bu verilerin her biri farklı birimlere ve ölçeklere sahiptir. Örneğin sıcaklık -10 ile +45 derece arasında değişirken, yağış 0 ile 200 mm arasında olabilir. Bazı algoritmalar (özellikle SVM ve kNN) bu farklılıklara duyarlıdır ve verilerin ölçeklenmesi (standardizasyon veya normalizasyon) gerekir.

Kategorik Veriler

Kategorik veriler sınıflara aittir ve sayı değildir. Tarımsal örnekler:

  • Toprak tipi: Killi, kumlu, tınlı, killi-tınlı (USDA sınıflandırması)
  • Bitki çeşidi: Ceyhan-99, Bezostaya, Sultan-95 (buğday çeşitleri)
  • Hastalık sınıfı: Sağlıklı, erken yanıklık, geç yanıklık, külleme
  • Toprak işleme yöntemi: Geleneksel sürüm, azaltılmış sürüm, doğrudan ekim

Karar ağacı tabanlı algoritmalar (Random Forest, XGBoost) kategorik verileri doğal olarak işleyebilirken, sinir ağları ve SVM gibi yöntemler one-hot kodlama veya etiket kodlama gibi dönüşümler gerektirir.

Görüntü Verileri

Görüntü verileri, tarımda özellikle hastalık tespiti ve bitki fenotipleme için kullanılır. Bir dijital görüntü, her pikseli bir renk değerine (RGB: 0-255 aralığında üç kanal) sahip olan iki boyutlu bir matristir. Tarımsal görüntülerin kaynakları:

  • Akıllı telefon kamerası: Yaprak, meyve veya gövde fotoğrafları (RGB, 3 kanal)
  • Multispektral kamera: Kırmızı kenar (red edge) ve yakın kızılötesi (NIR) bantları içeren özel kameralar (tipik olarak 4-12 kanal)
  • Hiperspektral sensör: Yüzlerce dar spektral bant (örneğin 350-2500 nm aralığında 200+ bant) -- her piksel bir "spektral parmak izi" taşır
  • Uydu görüntüleri: Sentinel-2 (13 bant), Landsat (11 bant) gibi platformlardan geniş alanlı görüntüleme

Zaman Serisi Verileri

Zaman serisi verileri, aynı değişkenin zaman içindeki değişimini temsil eder. Tarımda en önemli zaman serisi örnekleri:

  • NDVI zaman serisi: Bir tarlanın büyüme mevsimi boyunca haftalık NDVI değerleri -- çıkış, kardeşlenme, başaklanma, olgunlaşma aşamalarını gösterir
  • Hava durumu zaman serisi: Günlük sıcaklık ve yağış kayıtları -- büyüme derece günleri (GDD) hesaplamak için kullanılır
  • Toprak nemi zaman serisi: IoT sensörlerinden saatlik nem okumaları -- sulama kararları için kritik

Zaman serisi verilerin özel zorluğu, boyutlarının değişken olabilmesidir: bir büyüme mevsimi 120 gün iken diğeri 150 gün sürebilir. LSTM (Uzun Kısa Süreli Bellek) ve Transformer gibi derin öğrenme modelleri bu değişken uzunluklu dizileri işlemek için özel olarak tasarlanmıştır.

1.3 Özellik (Feature) Nedir?

Makine öğrenmesinde "özellik" (feature), modele girdi olarak verilen bir değişkendir. Ham veri ile özellik aynı şey olmak zorunda değildir. Örneğin bir Sentinel-2 uydu görüntüsü ham veridir; bu görüntüden hesaplanan NDVI değeri ise bir özelliktir.

Spektral İndeksler -- En Önemli Tarımsal Özellikler

Spektral indeksler, farklı dalga boylarındaki yansıtma değerlerinin matematiksel kombinasyonlarıdır. Bunlar, bitkinin sağlık durumu, su içeriği ve biyokütle hakkında yoğunlaştırılmış bilgi taşır.

İndeks Formül Ne Ölçer Tarımsal Kullanım
NDVI (NIR - Kırmızı) / (NIR + Kırmızı) Bitki yeşilliği ve canlılık Verim tahmini, büyüme izleme
EVI 2.5 x (NIR - Kırmızı) / (NIR + 6xKırmızı - 7.5xMavi + 1) Gelişmiş bitki örtüsü Yoğun kanopide NDVI'dan daha hassas
NDWI (Yeşil - NIR) / (Yeşil + NIR) Bitki su içeriği Kuraklık stresi tespiti
NDRE (NIR - KırmızıKenar) / (NIR + KırmızıKenar) Klorofil içeriği Azot durumu değerlendirmesi
SAVI 1.5 x (NIR - Kırmızı) / (NIR + Kırmızı + 0.5) Seyrek bitki örtüsü Erken mevsim izleme

NDVI formülünü tarımsal dilde anlamak: NIR (yakın kızılötesi) bantı, sağlıklı yeşil bitkiler tarafından güçlü bir şekilde yansıtılır çünkü yaprak iç yapısı (mezofil hücreleri) bu dalga boyundaki ışığı geri gönderir. Kırmızı bant ise klorofil tarafından emilir -- bitki ne kadar sağlıklı ve yeşil ise kırmızı ışık o kadar az yansır. NDVI, bu iki bandın farkını toplamına bölerek -1 ile +1 arasında bir değer üretir. Sağlıklı bitki örtüsünde NDVI tipik olarak 0.6-0.9 aralığındadır; çıplak toprakta 0.1-0.2, su yüzeylerinde ise negatif değerler alınır.

Görüntü Özellikleri

Görüntülerden çıkarılan özellikler, derin öğrenme öncesi dönemde elle tasarlanıyordu:

  • Renk histogramı: Görüntüdeki renk dağılımları (her kanalın ortalaması, standart sapması, çarpıklığı)
  • Doku özellikleri (GLCM): Gri Seviye Eş-Oluşma Matrisi -- kontrast, korelasyon, enerji, homojenlik değerleri. Yaprak yüzeyindeki leke dokusunu, sağlıklı dokunun düzgünlüğünden ayırt etmek için kullanılır
  • Şekil özellikleri: Leke alanı, çevresi, dairesellik oranı -- hastalık lekelerinin morfolojisini tanımlar

Derin öğrenme (CNN) modelleri bu elle çıkarma adımını ortadan kaldırarak ham görüntüden doğrudan özellik öğrenebilir; ancak küçük veri setlerinde geleneksel özellik çıkarma hala etkilidir.

Topografik Özellikler

Dijital yükseklik modellerinden (DEM) türetilen özellikler, toprak haritalama ve verim modellemesinde kritik rol oynar:

  • Yükseklik: Sıcaklık ve yağış gradyanlarını yansıtır
  • Eğim: Su akıntısını ve erozyon riskini belirler
  • Bakı (aspect): Güneş ışığı maruziyetini kontrol eder
  • Topografik nemlilik indeksi (TWI): Suyun peyzajda nereye birikeceğini tahmin eder

1.4 Özellik Mühendisliği -- Ham Veriden Anlamlı Bilgi Çıkarma

Özellik mühendisliği, ham veriyi makine öğrenmesi modelinin daha iyi anlamlandırabileceği forma dönüştürme sanatıdır. Bu adım, model performansını çoğu zaman algoritma seçiminden daha fazla etkiler.

Zamansal Özelliklerin Toplaştırılması

Bir büyüme mevsimi boyunca toplanan 20 haftalık NDVI zaman serisini doğrudan modele vermek yerine, anlamlı özet istatistikler çıkarılabilir:

  • NDVI_maks: Mevsim boyunca ulaşılan en yüksek NDVI -- biyokütle potansiyelini gösterir
  • NDVI_toplam: Mevsim boyunca NDVI'ların toplamı -- kümülatif fotosentez aktivitesinin ölçüsü
  • NDVI_tepe_zamanı: En yüksek NDVI'nın hangi haftada gerçekleştiği -- fenolojik gelişim hızını yansıtır
  • GDD (Büyüme Derece Günleri): Eşik sıcaklığın (örneğin 10 derece C) üzerindeki günlük sıcaklıkların kümülatif toplamı

Etkileşim Özellikleri

Tek başına anlamsız görünen özellikler, birleştirildiğinde güçlü tahminciler olabilir. Örneğin:

  • Sıcaklık x Nem: Yüksek sıcaklık düşük nemle birleştiğinde kuraklık stresi, yüksek nemle birleştiğinde ise mantarı hastalık riski artar
  • Eğim x Yağış: Dik eğimlerde yüksek yağış erozyon riskini büyük ölçüde artırır

Kategorik Özellik Kodlama

"Toprak tipi = killi-tınlı" gibi bir kategorik değişkeni modele nasıl veririz?

  • One-hot kodlama: Her kategori için ayrı bir sütun oluşturulur (killi=1/0, kumlu=1/0, tınlı=1/0). Ağaç tabanlı modeller için gereksiz, sinir ağları için gerekli.
  • Ordinal kodlama: Doğal sıraya sahip kategoriler (örneğin hastalık şiddeti: yok=0, hafif=1, orta=2, şiddetli=3) sayısal olarak kodlanır.
  • Hedef kodlama: Her kategorinin hedef değişken ortalamasıyla değiştirilmesi -- CatBoost bu yöntemi otomatik olarak uygular.

1.5 Araştırma Örneği 1: NDVI ve İklim Verileriyle Buğday Verim Tahmini

Ashfaq et al. (2024) -- Pakistan'ın Multan bölgesinde 2017-2022 dönemi için kapsamlı bir veri füzyonu çalışması gerçekleştirmişlerdir. Araştırmacılar dört farklı veri kaynağını birleştirmişlerdir: (1) Google Earth Engine üzerinden Landsat 8 görüntüleriyle hesaplanan NDVI zaman serileri, (2) NASA POWER veri erişim sistemi üzerinden toplanan meteorolojik veriler (sıcaklık, yağış, güneş radyasyonu), (3) laboratuvar toprak analizleri ve (4) bölgesel sosyoekonomik veriler.

Üç farklı makine öğrenmesi modeli karşılaştırılmıştır: SVM, Random Forest ve LASSO regresyon. SVM modeli en yüksek tahmin performansını gösterirken, Random Forest mekânsal dağılımın görselleştirilmesinde üstünlük sağlamıştır. Buğday verim dalgalanmaları 35-41 maund/acre arasında seyretmiş; 2022 yılında ekili alan azalmasına rağmen acre başına verim yüksek kalmıştır.

Bu çalışmanın özellik mühendisliği açısından önemi büyüktür: NDVI tek başına bir özellik olarak kullanılmamış, iklim verileri ve toprak özellikleriyle birleştirildiğinde çok daha güçlü tahmin modelleri oluşturulmuştur. NDVI, bitki gelişiminin izlenmesinde ve verim tahmininin iyileştirilmesinde kilit uzaktan algılama girdisi olarak doğrulanmıştır. Farklı veri kaynaklarının füzyonu (birleştirme), tek başına herhangi bir kaynaktan daha üstün sonuç vermiştir.

1.6 Araştırma Örneği 2: Uzaktan Algılama ile Toprak Özellikleri Haritalama

Forkuor et al. (2017) -- Güneybatı Burkina Faso'da 580 km-karelik bir tarımsal havzada, uydu verilerinden toprak özelliklerinin haritalanabilirliğini araştırmışlardır. Yüksek çözünürlüklü RapidEye (5 m) ve Landsat (30 m) uydu görüntüleri, arazi/iklim değişkenleri ve 102 toprak örneğinin laboratuvar analizleri birleştirilmiştir.

Altı toprak özelliği (kum, silt, kil, KDK, toprak organik karbonu ve azot) için dört farklı model karşılaştırılmıştır: çoklu doğrusal regresyon (MLR), Rastgele Orman regresyonu (RFR), destek vektör makinesi (SVM) ve stokastik gradyan artırma (SGB). Sonuçlar çarpıcıdır:

Toprak Özelliği RFR Doğruluğu En Önemli Özellikler
Silt %90 Mayıs-Haziran uydu görüntüleri
Kum %81 SWIR ve NIR bantları
Azot %74 Yükseklik, kırmızılık indeksi
Toprak Organik Karbon %73 Yükseklik, doygunluk indeksi

RFR modeli dört toprak özelliğinde en yüksek tahmin doğruluğunu elde etmiştir. Özellik mühendisliği açısından kritik bulgu: Haziran ve Mayıs aylarında çekilmiş uydu görüntüleri (sürüm/erken bitki gelişimi dönemi, toprak yüzeyi açık) en önemli spektral tahminciler olarak öne çıkmıştır. Bu, zamanlama seçiminin özellik kalitesini ne kadar etkilediğini göstermektedir.

Landsat 8'in kısa dalga kızılötesi (SWIR) bantları ile kırmızılık, renklenme ve doygunluk gibi toprak spesifik indeksleri en belirleyici spektral özellikler olarak tespit edilmiştir. Bu çalışma, Batı Afrika gibi veri yoksunu bölgelerde bile ücretsiz uydu verileriyle (Landsat, SRTM, Sentinel) anlamlı toprak bilgisinin üretilebileceğini göstermiştir.

1.7 Özet ve Anahtar Kavramlar

Kavram Tanım Tarımsal Örnek
Ham veri İşlenmemiş, doğal haliyle ölçüm Sentinel-2 uydu görüntüsü
Özellik (feature) Modele verilen girdi değişkeni NDVI, toprak pH, sıcaklık
Özellik mühendisliği Ham veriden anlamlı özellik çıkarma NDVI zaman serisinden tepe zamanı çıkarma
Sayısal veri Sürekli ölçümler Toprak nemi %35, sıcaklık 28 derece C
Kategorik veri Sınıf etiketi Toprak tipi: killi, bitki çeşidi: Ceyhan-99
Spektral indeks Bant kombinasyonu NDVI = (NIR - Kırmızı) / (NIR + Kırmızı)
Zaman serisi Zamanla değişen ölçümler 20 haftalık NDVI profili

Sonraki ders: Makine Öğrenmesinin Üç Paradigması -- Gözetimli, Gözetimsiz ve Pekiştirmeli Öğrenme