Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

1.0 Tarımda Makine Öğrenmesi — Genel Bakış


1. Tarımda Makine Öğrenmesinin Önemi

Bu giriş sayfası, tarımda makine öğrenmesi alanındaki başlıca problem tiplerini, veri kaynaklarını ve yöntem ailelerini ders bağlamında özetler. Amaç kapsamlı bir meta-analiz üretmek değil; okuru alanın temel tartışmalarına, sık görülen iş akışlarına ve dikkat edilmesi gereken sınırlara yönlendiren temkinli bir çerçeve sunmaktır.

Tarımda makine öğrenmesi çoğunlukla üç işlev etrafında kullanılır:

  • Algılama: Görüntü veya sensör akışından hastalık, zararlı, meyve ya da stres belirtisi ayıklama
  • Tahmin: Verim, kalite, talep, fiyat, su gereksinimi veya risk için öngörü üretme
  • Karar desteği ve kontrol: Sulama, sera yönetimi, robotik hareket veya saha müdahalesi için karar mekanizmasını besleme

Bu ders, çok sayıda alt başlığı tek tek sıralamak yerine bunları problem aileleri altında toparlayarak okunabilir bir mühendislik çerçevesi önermektedir.

Tarımda ML En Çok Nerede Kullanılıyor?

Aşağıdaki tablo, bu sitede en sık döndüğümüz uygulama kümelerini ve her biri için tipik veri/yöntem eşleşmelerini özetler:

Alt AlanTipik VeriSık Kullanılan Yöntemler
Bitki hastalığı ve zararlı tespitiYaprak/gövde görüntüleri, saha fotoğraflarıCNN, transfer öğrenme, nesne tespiti
Ürün verimi tahminiMeteoroloji, toprak, uydu zaman serisiRandom Forest, XGBoost, LSTM
Uzaktan algılama ve arazi haritalamaUydu ve İHA görüntüleriU-Net, zamansal özellik çıkarımı, indeks tabanlı modeller
Yabancı ot ve hassas müdahaleSaha görüntüsü, sıra arası kamera akışıYOLO, segmentasyon, edge modeller
Toprak, su ve besin yönetimiSensör verisi, spektroskopi, laboratuvar ölçümleriSVM, PLS, boosting yöntemleri
Hayvancılık ve davranış izlemeVideo, ivmeölçer, sıcaklık ve konum verisiSensör füzyonu, zaman serisi analizi
Gıda kalitesi ve hasat sonrasıGörüntüleme, hiperspektral veri, kalite ölçümleriCNN, spektroskopik regresyon, kalite sınıflandırma
Sera, robotik ve kontrolIoT akışı, çevresel sensörler, robot sensörleriMPC, RL, hibrit kontrol sistemleri

Bu sınıflama alanın tamamını tüketen resmi bir taksonomi değildir; ders akışını daha anlaşılır hale getirmek için kullanılan pratik bir haritadır.


2. Temel Kavramsal Çerçeve

2.1 ML Pipeline: Veri → Model → Karar

Her tarımsal ML uygulaması aynı zinciri izler: ham veri toplama (sensör, uydu, spektrometre, kamera) → ön işleme (normalizasyon, segmentasyon, atmosferik düzeltme) → öznitelik çıkarma veya öğrenme (el ile mühendislik vs. derin öğrenme) → model eğitimiçıkarımaksiyona dönüştürme (ilaçlama reçetesi, sulama komutu, fiyat kararı).

🍅Temsili öğretim senaryosu — Domates yaprak hastalığı tespiti: Bir serada toplanan yaprak görüntüleri uzman etiketleme, veri temizleme, eğitim/doğrulama/test ayrımı ve model ince ayarı adımlarından geçirilir. Bu örneğin amacı uçtan uca iş akışını göstermektir; doğruluk, F1 ve gecikme gibi performans değerleri veri kalitesine, saha koşullarına, etiketleme standardına ve bağımsız test tasarımına göre önemli ölçüde değişebilir.
Tarımsal ML Pipeline: Ham Veri → Ön İşleme → Öznitelik Çıkarma → Model Eğitimi → Çıkarım → Aksiyon
Şekil 1 — Tarımsal ML pipeline: veri toplama → aksiyon. Alt satır: üç temel fonksiyon kategorisi.

Kritik ayrım: Tarımsal ML'de son adım — aksiyona dönüştürme — çoğu endüstriyel ML uygulamasından daha karmaşıktır. Modelin çıktısı bir tahmin değil, fiziksel dünyada bir müdahaledir.

⚠️Pratik uyarı: Tarımsal ML projelerinde asıl emek çoğu zaman model seçmekten çok veri toplama, etiket tutarlılığı, kalite kontrol, sürümleme ve saha doğrulamasına gider.

Model eğitimi pipeline'ın yalnızca küçük bir parçasıdır. Asıl başarıyı belirleyen, arka planda çalışan dört temel süreçtir:

1. Veri versiyonlama — "Hangi veriyle eğittin?"
Bir deneyi tekrarlamak istediğinizde aynı veriyi, aynı ön işleme adımlarını ve aynı model sürümünü bulabilmeniz gerekir. Kod Git ile takip edilirken, veri dosyaları DVC (Data Version Control) gibi araçlarla versiyonlanır.

2. Veri izlenebilirliği — "Bu tahmin nereden geldi?"
Model bir hastalık teşhisi verdiğinde geriye doğru takip edebilmelisiniz: hangi sensör, hangi tarih, hangi tarla, hangi ön işleme adımı? Bu kayıt zinciri olmadan hatalı bir tahminin kaynağını bulmak imkansızdır.

3. Veri kalite kontrolü — "Veriler güvenilir mi?"
Otomatik kontroller kurulmalıdır: Toprak nemi 0-100% aralığında mı? Ardışık uydu okumaları arasında fiziksel olarak imkansız sıçramalar var mı? Farklı sensörler birbiriyle tutarlı mı? Hatalı veri, hatalı model demektir.

4. Yanlılık denetimi — "Veri gerçeği yansıtıyor mu?"
Eğitim verisindeki hastalık oranı gerçek tarladaki oranla örtüşüyor mu? Sadece bir bölgeden mi yoksa farklı coğrafyalardan mı veri toplandı? Sadece yaz aylarından mı yoksa tüm mevsimlerden mi? Bu dengesizlikler tespit edilmezse model sahada yanıltıcı sonuçlar verir.

2.2 Tarıma Özgü Farklar — Neden Tarım En Zor ML Domainlerinden Biridir?

Tarım, standart ML benchmark'larından üç temel yapısal farkla ayrışır:

ÖzellikStandart MLTarımsal ML
Veri kalitesiTemiz, dengeli, standart formatGürültülü, dengesiz, heterojen sensörler
Ortam kontrolüSabit (laboratuvar, sunucu)Açık hava — aydınlatma, hava, toprak sürekli değişir
Fiziksel süreç bağımlılığıİstatistiksel korelasyon yeterliBitki fizyolojisi, toprak-su dinamikleri modele dahil edilmeli
Domain gapTest≈eğitim dağılımıKontrollü veri ile saha verisi arasında belirgin dağılım kayması
EtiketlemeCrowdsourcing mümkünUzman agronomist gerekli; erken evre belirtiler subjektif
Domain gap şeması: kontrollü veri ile saha koşulları arasındaki dağılım kayması
Şekil 3 — Kontrollü veriyle eğitilen modellerin saha koşullarında aynı performansı göstermeyebileceğini anlatan şematik örnek.
Tarla koşullarında hastalıklı domates yaprağı — Phytophthora infestans (geç yanıklık)
Gerçek tarla koşullarında hastalıklı domates yaprağı (Phytophthora infestans). Karmaşık arka plan, değişken aydınlatma ve yaprak örtüşmesi — kontrollü lab ortamından temelden farklı. Kaynak: Flickr CC.

Tipik hata #1: Kontrollü veri setlerinde elde edilen yüksek skoru saha genellemesiyle eşitlemek. Literatürde, bağımsız saha testine geçildiğinde performansın belirgin biçimde düşebildiği; özellikle bağımsız test seti kullanılmadığında ise sonuçların olduğundan iyimser görünebildiği tekrar tekrar rapor edilmiştir.

Bu fark bazı durumlarda azaltılabilir. Domain adaptasyon, hedef sahadan ek veri toplama ve dikkatli fine-tuning stratejileri performansı iyileştirebilir; ancak beklenen kazanım veri setine, hedef çevreye ve değerlendirme protokolüne sıkı biçimde bağlıdır. Detaylı araç kutusu için bkz. Bölüm 4.6.


3. Problem Aileleri

Aile 1: Bilgisayarla Görme Tabanlı Tarım Uygulamaları

Kapsanan konular: 1.1 Bitki Hastalığı, 1.3 Yabancı Ot, 1.7 Fenotipleme, 1.8 Meyve Tespiti, 1.9 Zararlı, 1.11 Gıda Kalitesi, 1.21 Orman İzleme, 1.22 Tropikal Ürün, 1.28 Yangın Tespiti

A) Problem Tanımı

Tarımsal görme problemleri üç kategoriye ayrılır: sınıflandırma (yaprak sağlıklı mı/hastalıklı mı?), nesne tespiti (meyveyi lokalize et ve say), segmentasyon (yabancı ot haritası çıkar). Ortak nokta: giriş RGB/multispektral görüntü, çıkış semantik bilgidir.

Tarımsal CV üç temel görev: sınıflandırma, nesne tespiti, segmentasyon
Şekil 2 — Tarımsal bilgisayarla görmenin üç temel görev tipi: sınıflandırma, nesne tespiti, segmentasyon.

B) Kullanılan Veri Tipleri

  • RGB görüntü: En yaygın ve en ucuz. 224×224 veya 256×256 piksel standart. PlantVillage (54.306 görüntü, 38 sınıf), IP102 (75.000 zararlı görüntüsü, 102 tür).
  • Multispektral: NIR (Near-Infrared — Yakın Kızılötesi) bandı eklenerek klorofil aktivitesi dolaylı ölçülür.
  • Hiperspektral: 380-2500 nm, yüzlerce bant — erken evre hastalık tespitinde %97-99 doğruluk (Balafas et al., 2023). Ancak veri boyutu ve işleme maliyeti büyüklük sırası artar.
  • Termal: Yangın tespiti, su stresi izleme.
Helicoverpa armigera larvası — yaygın bir tarımsal zararlı örneği
Helicoverpa armigera larvası — sık çalışılan bir tarımsal zararlı örneği. Kamuflaj, ölçek değişkenliği ve arka plan karmaşıklığı nesne tespitini zorlaştırır. Kaynak: David McClenaghan, CSIRO, CC BY 3.0.
Zararlı tespit problemi: IP102 veri setinden yaprak biti, tırtıl, beyaz sinek, tahıl böceği örnekleri ve tespit zorlukları
Zararlı tespit problemi şeması: IP102 veri seti (75.000 görüntü, 102 tür). Ölçek değişkenliği, sınıf dengesizliği ve arka plan karmaşıklığı temel zorlukları oluşturur.
RGB vs Multispektral vs Hiperspektral görüntüleme karşılaştırması
Şekil 6 — Üç görüntüleme modalitesinin spektral kapsam, bant sayısı ve uygulama karşılaştırması.

C) Algoritma Ailesi

AlgoritmaGörevGüçlü YanZayıf YanPerformans Referansı
CNN (Convolutional Neural Network — Evrişimli Sinir Ağı) + Transfer Learning (Transfer Öğrenme)SınıflandırmaAz veriyle yüksek doğruluk; olgun ekosistemLokalizasyon yok; domain gap riskiMohanty 2016: %99,35 (PlantVillage)
YOLO (You Only Look Once) (v3-v8)Nesne tespitiGerçek zamanlı (20 ms); edge uyumluKüçük nesnelerde düşük recall; anchor tasarımı gerekliLiu & Wang 2020: %92,39 mAP (mean Average Precision — Ortalama Hassasiyet) domates
Faster R-CNNNesne tespitiYüksek lokalizasyon doğruluğuYavaş (~3 sn/görüntü); edge uyumsuz%90,67 mAP, 2.869 ms çıkarım
U-Net / DeepLabSegmentasyonPiksel düzeyinde harita; alan hesabı mümkünEğitim maskesi hazırlamak pahalıYabancı ot haritalamasında mIoU (mean Intersection over Union — Ortalama Kesişim/Birleşim Oranı) %85+
SVM (Support Vector Machine — Destek Vektör Makinesi) + GLCM (Gray-Level Co-occurrence Matrix — Gri Düzey Eş Oluşum Matrisi)SınıflandırmaYorumlanabilir; küçük veri setlerinde rekabetçiHer ürün-hastalık çifti için yeniden tasarımIslam et al. 2017: %95 patates
YOLO modeli meyve tespiti çıktısı: her elma etrafında bounding box ve güven skoru
Nesne tespiti çıktı örneği: YOLO modeli her elmayı bounding box ile lokalize eder ve güven skoru atar. mAP metriği bu kutuların doğruluğunu ölçer.
Segmentasyon çıktısı: sol RGB girdi, sağ piksel düzeyinde bitki/yabancı ot/toprak maskesi
Semantik segmentasyon çıktısı: sol — orijinal RGB görüntü, sağ — piksel düzeyinde sınıflandırma maskesi (yeşil=bitki, kırmızı=yabancı ot, kahverengi=toprak). mIoU bu maskenin doğruluğunu ölçer.

D) Kritik Zorluklar

  • Aydınlatma değişkenliği: Tarla koşullarında güneş açısı, bulutluluk, yaprak yüzeyindeki su damlacıkları CNN'in düşük seviyeli filtrelerini sistematik olarak kaydırır. Color jittering kısmen telafi eder ama çözmez.
  • Oklüzyon (örtüşme): Yaprak-yaprak, meyve-dal, ot-bitki örtüşmeleri nesne tespitinde recall'u %10-20 düşürebilir. Küme halinde büyüyen Siirt fıstığında meyve oklüzyonu özellikle kritiktir.
  • Veri dengesizliği: Doğada sağlıklı bitkiler çoğunluktadır. Li et al. (2021), GAN tabanlı artırmanın doğruluğu %5,2 artırdığını göstermiştir. Dengesizlik oranı >20:1 olduğunda model azınlık sınıfını tamamen görmezden gelebilir (F1-macro < 0,40). Focal loss (L = -α(1-p)^γ log(p)) veya SMOTE (Synthetic Minority Over-sampling Technique — Sentetik Azınlık Aşırı Örnekleme) + ensemble (topluluk) stratejileri bu tür durumlarda sık kullanılan seçeneklerdir.
  • Ölçek varyasyonu: İHA'dan (İnsansız Hava Aracı — UAV) (cm/piksel) uyduya (10-250 m/piksel) değişen çözünürlüklerde aynı nesneyi tespit etmek farklı model mimarileri gerektirir.

Tipik hata #2: Eğitim veri setinin tamamını tek bir kameradan, tek bir mevsimden toplamak. Model, hastalık belirtisi yerine kamera sensörü gürültüsünü veya mevsimsel yaprak rengini öğrenir. Doğrulama için Bölüm 4.4'teki stratejiler, domain gap için Bölüm 4.6'daki araç kutusu uygulanmalıdır.

E) Gerçek Saha Problemi: Siirt Fıstığı

Siirt fıstığında iki farklı görme problemi mevcuttur: (1) Antraktnoz: Yaprakta görünür lezyonlar — CNN uygulanabilir, ancak Siirt çeşidinin morfolojisi ABD/İran veri setlerinden farklıdır, transfer öğrenme doğrudan aktarılamayabilir. (2) Aflatoksin: Kabuk iç yüzeyinde küf — RGB ile tespit edilemez, NIR/hiperspektral gerektirir. Bu ikilik, tek algoritmanın tüm tarımsal görme problemlerini çözemeyeceğinin somut kanıtıdır.


Aile 2: Uzay-Zamansal ve Zaman Serisi Problemleri

Kapsanan konular: 1.2 Verim Tahmini, 1.4 Uzaktan Algılama, 1.12 İklim ve Tarım, 1.14 Su Kalitesi, 1.18 Arazi Kullanımı, 1.20 Tarımsal Ekonomi, 1.24 Tedarik Zinciri, 1.25 Hava Kalitesi

A) Problem Tanımı

Bu aile, birden fazla kaynaktan (uydu, meteoroloji, toprak sensörü, piyasa verisi) gelen verilerin zamansal boyutta birleştirilmesini gerektirir. Ortak çıktı: regresyon tahmini (verim kg/ha, fiyat TL/kg, su debisi m³/s) veya sınıflandırma (arazi örtüsü tipi, kuraklık şiddeti).

B) Kullanılan Veri Tipleri

  • Uydu zaman serisi: Sentinel-2 (10 m, 5 gün), MODIS (250-500 m, günlük), Landsat (30 m, 16 gün). NDVI (Normalized Difference Vegetation Index — Normalize Edilmiş Fark Bitki Örtüsü İndeksi), EVI (Enhanced Vegetation Index — Geliştirilmiş Bitki Örtüsü İndeksi), SAVI (Soil-Adjusted Vegetation Index — Toprak Düzeltmeli Bitki Örtüsü İndeksi) indeksleri temel girdi.
  • Meteoroloji: Sıcaklık, yağış, güneş radyasyonu, büyüme derece günleri (GDD). Khaki et al. (2020) güneş radyasyonunun en hassas değişken olduğunu göstermiştir.
  • Toprak: Organik karbon, tekstür, nem. Yıllık veya seyrek ölçüm — zamansal çözünürlük uyumsuzluğu yaratır.
  • Ekonomik: Hal fiyatları (günlük), TÜİK üretim istatistikleri (yıllık).
Tarla düzeyinde NDVI false-color haritası: vejetasyon yoğunluğu renk skalasıyla gösteriliyor
NDVI false-color haritası: buğday tarlasında vejetasyon indeks dağılımı. Koyu tonlar yüksek biyokütle, açık tonlar stres veya çıplak alan. Kaynak: Wikimedia Commons, CC-BY 4.0.
Sentinel-2 vs MODIS vs Landsat mekansal-zamansal çözünürlük karşılaştırması
Şekil 10 — Uydu platformlarının mekansal-zamansal çözünürlük uzayındaki konumu.

C) Algoritma Ailesi

  • Random Forest: Yapısal verilerde güçlü; öznitelik önem sıralaması sağlar. Jeong et al. (2016) — küresel buğday R²=0,96, RMSE=%11,9.
  • XGBoost / LightGBM: RF'den %2-5 düşük RMSE; hiperparametre duyarlılığı yüksek.
  • LSTM (Long Short-Term Memory — Uzun Kısa Süreli Bellek) / GRU (Gated Recurrent Unit — Kapılı Tekrarlayan Birim): Fenolojik ilerlemeyi zamansal kapı mekanizmalarıyla modeller. Khaki et al. (2020) — CNN-RNN mısır RMSE=15,74 bushel/acre, RF'den (25-29) belirgin üstünlük.
  • ARIMA (AutoRegressive Integrated Moving Average — Otoregresif Entegre Hareketli Ortalama) / SARIMA (Seasonal ARIMA — Mevsimsel ARIMA): Klasik zaman serisi; mevsimsellik ve trend ayrıştırma. Tarımsal fiyat tahmininde hâlâ baseline.
  • Proses+ML hibrit: APSIM simülasyon çıktıları + ML. Shahhosseini et al. (2021) — RMSE'yi %7-20 düşürmüş. En büyük katkı toprak nemi değişkenlerinden.
Verim tahmini zaman serisi: CNN-RNN vs Random Forest karşılaştırması
Şekil 8 — CNN-RNN modeli zaman serisi tahmininde RF'ye belirgin üstünlük sağlar (RMSE: 15.74 vs. 25–29).

D) Kritik Zorluklar

  • Zamansal uyumsuzluk: Uydu 5-16 gün, meteoroloji saatlik, toprak yıllık — farklı çözünürlüklerin hizalanması sahte korelasyon riski taşır.
  • Eksik veri: Optik uydu bulut altını göremez. Tropik iklimlerde büyüme mevsiminin kritik dönemlerinde haftalarca boşluk oluşur. SAR füzyon ayrı model gerektirir.
  • Çoklu kaynak füzyonu: Farklı mekansal ve zamansal çözünürlükteki verilerin birleştirilmesi; her kaynak farklı hata profili taşır.
  • Genelleme: Ray et al. (2015) — ABD'nin doğusunda sıcaklık, batısında yağış dominanttır. Tek bir küresel model yetersizdir.
  • Ölçek uyumsuzluğu: 10 ha tarlalarda eğitilen model, 0,5 ha parsellerde deploy edildiğinde öznitelik dağılımı değişir — kenar etkileri ve mikro-iklim farklılaşması büyük tarlalarda önemsizken küçük parsellerde baskındır.
⚠️Kritik doğrulama notu: Verim tahmininde walk-forward validation ve GroupKFold güçlü varsayımlar yerine daha gerçekçi test düzenleri sunar. Tipik protokol: train: yıl ≤ T, validation: T+1, test: T+2. Aynı tarlanın tüm verileri tek bir fold'da kalmalıdır. Random split ile raporlanan R² değerleri, veri sızıntısı varsa olduğundan daha iyimser görünebilir. Detay: Bölüm 4.4.

Gerçek saha problemi: Siirt fıstığında alternans (biennial bearing) — ağaçlar fizyolojik olarak "var yılı" ve "yok yılı" döngüsüne sahiptir. Bu ikili döngü, standart zaman serisi modellerinin varsaydığı ardışık yıl korelasyonunu bozar. Model, 2 yıllık gecikmeli öznitelikleri açıkça kodlamalıdır. Ayrıca Siirt'in dağlık topoğrafyası kısa mesafelerde 2-3°C sıcaklık farkı yaratır — MODIS pikselinin içinde kaybolur.


Aile 3: Spektroskopi ve Kemometrik Modelleme

Kapsanan konular: 1.5 Toprak Analizi, 1.13 Spektroskopi/Kemometri, 1.23 Biyoenerji/Biyokütle

A) Problem Tanımı

Bir malzemenin (toprak, gıda, biyokütle) kimyasal bileşimini, fiziksel numune alımı ve laboratuvar analizi yerine, spektral imzasından tahmin etmek. NIR (700-2500 nm), MIR (Mid-Infrared — Orta Kızılötesi, 2500-25000 nm), FTIR (Fourier Transform Infrared — Fourier Dönüşümlü Kızılötesi Spektroskopi) — yüzlerce dalga boyundaki yansıma/soğurma değeri tek bir ölçümle elde edilir.

Thermo Nicolet iS10 FT-IR spektrometre — laboratuvar ortamında gerçek cihaz fotoğrafı
FT-IR spektrometre (Thermo Nicolet iS10): numune ATR aksesuarına yerleştirilir, kızılötesi ışın soğurma deseni ölçülür. Toprak organik karbon, gıda bileşimi ve biyokütle analizi için standart laboratuvar cihazı. Kaynak: Nick Birse, Wikimedia Commons, CC BY-SA 4.0.
NIR spektrometre çalışma prensibi: ışık kaynağı, numune bölmesi, dedektör ve spektral çıktı
NIR spektrometre çalışma prensibi şeması: yakın kızılötesi ışın numuneden yansır/soğurulur, dedektör yüzlerce dalga boyundaki yanıtı eş zamanlı ölçer. Her soğurma bandı farklı bir kimyasal bağ hakkında bilgi taşır.
Bitki spektral imzası: sağlıklı vs stresli bitki NIR yansıma farkı
Şekil 7 — Sağlıklı bitkinin NIR yansıması yüksek, kırmızı absorpsiyonu derin; stresli bitkide her iki fark azalır.

B) Algoritma Ailesi

  • PLS (Partial Least Squares): Kemometrinin standart aracı. Yüksek boyutlu, kolineer spektral verilerde regresyon. PLS, X = TP' + E ve Y = UQ' + F ayrıştırmalarını eş zamanlı yapar; latent değişkenler (T, U) X-Y korelasyonunu maksimize eder. Latent değişken sayısı cross-validation ile seçilir — çok azsa underfitting, çok fazlası overfitting. OLS'den (Ordinary Least Squares — Sıradan En Küçük Kareler) farkı: kolineerlik altında kararlı çözüm üretir çünkü boyut indirgeme ve regresyon tek adımda yapılır. Viscarra Rossel et al. (2006) — toprak organik karbon R²=0,82-0,92.
  • SVM: Doğrusal olmayan ilişkilerde PLS'ye üstün olabilir; çekirdek seçimi kritik.
  • 1D-CNN: Spektral veriden otomatik öznitelik öğrenme; ön işleme bağımlılığını azaltır. Padarian et al. (2019) — toprak tahmini CNN'in PLS'ye göre %5-10 iyileşme.
Kemometrik modelleme pipeline: numune → spektroskopi → ön işleme → model → kimyasal tahmin
Şekil 11 — Kemometrik pipeline: spektral ölçüm → ön işleme → model → kimyasal tahmin.

C) Kritik Zorluklar

  • Baz çizgisi kayması (baseline drift): Cihaz sıcaklığı, ışık kaynağı yaşlanması gibi faktörlerle spektrum sistematik olarak kayar. SNV (Standard Normal Variate — Standart Normal Değişken), MSC (Multiplicative Scatter Correction — Çarpımsal Saçılma Düzeltmesi) gibi düzeltme algoritmaları bu tür problemlerde sık kullanılır; ancak her düzeltme bilgi kaybı riski taşır.
  • Ön işleme bağımlılığı: Aynı veri setinde SNV vs. MSC vs. Savitzky-Golay türev seçimi, model performansını %5-15 değiştirebilir. Ön işleme bir hiperparametre gibi optimize edilmelidir.
  • Transfer kalibrasyonu: Bir cihazda eğitilmiş model, başka bir cihaza doğrudan aktarılamaz. Cihazlar arası standartlaştırma hâlâ açık problem.

Gerçek saha problemi: Siirt'in kireçli (kalsiyum karbonat bakımından zengin) toprakları, NIR bölgesinde güçlü karbonat absorpsiyon bantları oluşturur ve organik madde sinyalini maskeleyebilir. Bu nedenle bölgeye özgü kalibrasyon çoğu durumda gereklidir.


Aile 4: IoT, Sensör ve Kontrol Sistemleri

Kapsanan konular: 1.6 Akıllı Sulama, 1.10 Hayvancılık İzleme, 1.16 Sera Kontrolü, 1.17 IoT Sensörler

A) Problem Tanımı

Fiziksel tarla/sera/ahır ortamında dağıtılmış sensörlerden sürekli veri toplama, bu veriden anlamlı çıkarım yapma ve fiziksel aktuatörleri (vana, fan, ısıtıcı) kontrol etme. Kapalı döngü (closed-loop) otomasyon hedefidir.

IoT tabanlı tarımsal karar destek sistemi: 4 katmanlı mimari
Şekil 4 — Dört katmanlı IoT mimarisi: algılama → iletişim → işlem → karar. Kesikli çizgi: kapalı döngü kontrol.

B) Kullanılan Veri Tipleri

  • Toprak: Kapasitif nem sensörü, EC, pH — dakikalık örnekleme
  • Atmosferik: Sıcaklık, nem, ışık yoğunluğu, CO₂ (sera)
  • Hayvancılık: Akselerometre (davranış sınıflandırma — RF %92,3, LSTM %93,8), GPS, ruminasyon sensörü
  • İletişim: LoRaWAN (Long Range Wide Area Network — düşük güç, uzun menzil), MQTT (Message Queuing Telemetry Transport — hafif mesajlaşma protokolü) protokolü
CSIRO güneş panelli kablosuz toprak nem sensör istasyonu tarla ortamında
Güneş panelli kablosuz sensör istasyonu: toprak nemi, sıcaklık ve su kalitesi ölçümü. Kaynak: CSIRO, CC-BY 3.0.
CSIRO Fleck kablosuz sensör düğümü — uzaktan algılama istasyonu detayı
Kablosuz sensör düğümü detayı: güneş paneli + anten + sensör kutusu. 3000 mAh pil ile 200-800 gün ömür. Kaynak: CSIRO, CC-BY 3.0.

C) Algoritma Ailesi

  • Bulanık mantık (Fuzzy Logic): Uzman bilgisini kural tabanıyla kodlar; küçük veri setlerinde çalışır.
  • PID (Proportional-Integral-Derivative — Oransal-Tümlevsel-Türevsel kontrolör) / MPC (Model Predictive Control — Model Öngörücü Kontrol): Sera iklim kontrolünde sık kullanılan yaklaşımlardır. MPC, N adım ileriye bakarak (prediction horizon) sera ısı dengesi modelini optimize eder. Karar değişkeni: fan hızı, vana açıklığı, ısıtıcı gücü. Kısıtlar: sıcaklık alt/üst sınırı, pompa kapasitesi, enerji bütçesi. Maliyet fonksiyonu: J = Σ [Q·(T - T_hedef)² + R·u²] — sıcaklık sapma penaltisi + enerji maliyeti. Hesaplama maliyeti yüksektir ancak fiziksel kısıtların açık biçimde modele dahil edilmesine imkân verir.
  • Pekiştirmeli öğrenme (RL): Sulama zamanlamasında ödül fonksiyonu tasarımı kritik: R = α·verim_artışı - β·su_kullanımı - γ·enerji_maliyeti. α, β, γ katsayılarının ayarlanması agronomist + ML mühendisi iş birliği gerektirir. RL fiziksel model gerektirmez ancak güvenlik kısıtlarını doğrudan kodlayamaz — constrained RL veya safe RL gerekir.
  • Hibrit MPC+ML: MPC fizik modelini (toprak-su dengesi) kullanır, ML residual'ı (sapma) düzeltir. Pratikte en güvenilir yaklaşım — fizik kısıtları ihlal edilmez, ML esneklik sağlar. Shahhosseini et al.'ın APSIM+ML yaklaşımının kontrol teorisi karşılığıdır.
  • Kalman filtresi: Sensör gürültüsü azaltma; drift tespiti.
  • Edge AI / TinyML: Modeli sensör düğümüne sığdırma — ARM Cortex-M düzeyinde çıkarım.

D) Kritik Zorluklar

  • Sensör sürüklenmesi (drift): Kapasitif nem sensörleri aylar içinde kalibrasyonunu kaybeder. Siirt'in kireçli toprakları tuzluluk kaynaklı sapma yaratır.
  • Enerji kısıtı: Kırsal tarla ortamında şebeke erişimi yoktur. 3000 mAh pil ile LoRaWAN düğümünün ömrü, gönderim sıklığına bağlı olarak 200-800 gün arasında değişir.
  • Gecikme (latency): Sulama kararı dakikalar içinde fiziksel dünyayı etkiler. Bulut tabanlı çıkarımda ağ gecikmesi, hayvansal stres tespitinde kritik süreyi kaçırabilir.

Tipik hata #3: Sensör ağını kurup veri toplamaya başlamak, ancak sensör kalibrasyonu için zemin doğrulama (ground truth) ölçümü yapmamak. Kalibre edilmemiş kapasitif nem sensörü, killi toprakta %30'a kadar sapma gösterebilir.

Tipik hata #4: Kalibre edilmeyen sensörün 6 ay sonraki sistematik sapması modelin girdi dağılımını değiştirir (covariate shift). Model, sapmış veriyle yanlış sulama kararları verir ama hata ölçülmez çünkü monitoring yoktur. Çözüm: co-located referans sensör ile periyodik karşılaştırma, Kalman filtresi inovasyon istatistiği ile otomatik drift tespiti, drift detection mekanizması (bkz. Bölüm 4.7).

Gerçek saha problemi: Siirt'in dağlık topoğrafyasında LoRaWAN menzili 2-3 km'den 800 m'ye düşebilir. Eğimli fıstık bahçelerinde damla sulama kontrol noktalarının optimum yerleşimi, hem RF kapsama alanı hem de hidrolik basınç kaybı birlikte değerlendirilmelidir.


Aile 5: Genomik ve Mikrobiyom Verisi

Kapsanan konular: 1.15 Bitki Genetiği/Islah, 1.27 Toprak Mikrobiyomu

A) Problem Tanımı

Yüksek boyutlu biyolojik veri (SNP (Single Nucleotide Polymorphism — Tek Nükleotid Polimorfizmi) dizileri, 16S rRNA amplikon sekansları, metagenomik okumalar) üzerinde fenotip tahmini, biyobelirteç keşfi ve fonksiyonel tahmin. Tipik boyut: p >> n — öznitelik sayısı (yüz binlerce SNP) gözlem sayısından (yüzlerce çeşit) büyüklük sırasıyla fazladır.

Genomik veri p >> n boyut problemi: 500K+ SNP vs 200 genotip
Şekil 12 — p >> n problemi: 500K+ öznitelik, 200 gözlem. Koyu sütunlar: fenotip üzerinde etkili az sayıda SNP.

B) Algoritma Ailesi

  • GBLUP (Genomic Best Linear Unbiased Prediction — Genomik En İyi Doğrusal Yansız Tahmin) / Genomik Seleksiyon: Meuwissen et al. (2001) — ıslah değeri tahmini; 6.200+ atıf. Tüm genomu tek tahmine dahil eder.
  • GWAS (Genome-Wide Association Study — Genom Geneli İlişkilendirme Çalışması): Genom genelinde marker-fenotip ilişki taraması; çoklu test düzeltmesi kritik.
  • Random Forest: SNP etkileşimlerini doğal olarak yakalar; öznitelik önem sıralaması biyolojik yorum sağlar.
  • Ağ analizi (Network Analysis): Mikrobiyom etkileşim ağlarının modellenmesi; anahtar türlerin (keystone species) tespiti.

C) Kritik Zorluklar

  • Yüksek boyutluluk: 500K+ SNP, 200 genotip — klasik regresyon çöker. PCA boyut indirgeme veya penalize regresyon (LASSO, Ridge) bu ölçeklerde çoğu durumda gerekir.
  • Seyreklik (sparsity): Çoğu SNP'nin fenotip üzerinde sıfır etkisi vardır; gerçek sinyal gürültü içinde kaybolur.
  • Batch etkileri: Farklı sekanslama çalıştırmalarında sistematik sapmalar; biyolojik sinyali maskeleyebilir.

Gerçek saha problemi: Siirt fıstığının referans genomu henüz tam olarak mevcut değildir. Çok yıllık ağaç ıslahında bir nesil 7-10 yıl sürer — genomik seleksiyon, fiziksel seçimi beklemeden genotip düzeyinde erken tahmin yaparak ıslah süresini %50-70 kısaltma potansiyeli taşır.


Aile 6: Tarımsal Sistemler, Ekonomi ve Veri Altyapıları

Kapsanan konular: 1.19 Blokzincir/İzlenebilirlik, 1.20 Tarımsal Ekonomi, 1.24 Tedarik Zinciri

A) Problem Tanımı

Tarımsal değer zincirinin dijitalleştirilmesi: üretimden tüketime kadar veri akışı, fiyat tahmini, stok optimizasyonu ve izlenebilirlik. Problem, tekil model performansından çok sistem entegrasyonudur.

Tarımsal değer zinciri ve ML müdahale noktaları
Şekil 13 — Tarımsal değer zinciri boyunca ML müdahale noktaları. Alt: uçtan uca blokzincir izlenebilirliği.

B) Temel Yaklaşımlar

  • Fiyat tahmini: ARIMA/SARIMA (baseline), LSTM (zamansal bağımlılık), XGBoost (yapısal veri), hibrit ARIMA+LSTM. Zhang (2003) — hibrit yaklaşımın tek model performansını %10-15 iyileştirdiğini göstermiştir (6.500+ atıf).
  • Talep tahmini: Prophet (mevsimsellik ayrıştırma), Temporal Fusion Transformer (çok değişkenli dikkat mekanizması).
  • Blokzincir: Hyperledger Fabric ile gıda izlenebilirliği — Walmart pilot projesinde mango izleme süresi 7 günden 2,2 saniyeye düşmüştür (Tian, 2017). Not: Blokzincir bir ML yöntemi değil, veri altyapısıdır. Bu dersin kapsamında yalnızca veri izlenebilirlik katmanı olarak konumlandırılmalıdır; kurulumu yazılım mühendisliği uzmanlığı gerektirir.

C) Kritik Zorluklar

  • Dışsal şoklar: Pandemi, savaş, iklim olayları — geçmiş veriden öğrenilemeyen yapısal kırılmalar.
  • Bozulabilirlik: Taze meyve-sebzede raf ömrü 3-7 gün; tahmin hatası doğrudan israfa dönüşür.
  • Aracı zinciri: Siirt fıstığı üretici ile tüketici arasında 5-7 aracıdan geçer; fiyat asimetrisi %100-200 markup oluşturur.

Aile 7: Robotik ve Otonom Sistemler

Kapsanan konular: 1.26 Otonom Tarım Robotları

A) Problem Tanımı

GPS-kılavuzlu veya tam otonom platformların (tekerlekli, paletli, İHA) tarla içinde navigasyonu, nesne tespiti ve fiziksel müdahalesi (hasat, ilaçlama, ekim). Algı-karar-eylem döngüsü gerçek zamanlı çalışmalıdır.

Fendt Xaver otonom tarla robotu — hassas ekim için tasarlanmış kompakt otonom platform
Fendt Xaver otonom tarla robotu: GPS kılavuzlu navigasyon, kompakt gövde, bağımsız tahrik sistemi. Hassas ekim ve sıra arası bakım için tasarlanmış otonom platform. Kaynak: AGCO-Fendt, Wikimedia Commons, CC BY-SA 4.0.
Otonom tarım robotu bileşen mimarisi: RTK-GPS, stereo kamera, edge GPU, müdahale kolu ve boustrophedon yol planlama
Otonom tarla robotu bileşen mimarisi şeması: RTK-GPS (cm hassasiyet), stereo kamera + NIR (nesne tespiti), edge GPU (YOLO <30 ms çıkarım), SLAM + yol planlama ve mekanik müdahale kolu. Sıra aralarında boustrophedon yol planlaması.
Otonom tarım robotu algı-karar-eylem döngüsü
Şekil 14 — Otonom robotun kapalı çevrim döngüsü: algı → karar → eylem.

B) Algoritma Ailesi

  • SLAM (Simultaneous Localization and Mapping — Eş Zamanlı Lokalizasyon ve Haritalama): Eş zamanlı lokalizasyon ve haritalama — GPS sinyalinin zayıf olduğu ağaç altlarında kritik.
  • Boustrophedon (öküz dönüşü) yol planlama: Tarla taramasının standart yöntemi — sıra sonunda 180° dönüşle yılan hareketi yaparak minimum atık alan.
  • Derin pekiştirmeli öğrenme: Düzensiz arazi ve dinamik engellerde adaptif navigasyon.
  • YOLO (gerçek zamanlı): Meyve/dal/engel tespiti 20-30 ms çıkarımla.

C) Kritik Zorluklar

  • Gerçek zamanlı işleme: 30 fps görüntü + SLAM + yol planlama aynı anda — GPU gücü vs. pil ömrü tradeoff'u.
  • Arazi değişkenliği: Çamur, eğim, taş, kök çıkıntısı — laboratuvar testlerinde olmayan fiziksel engeller.
  • Lokalizasyon belirsizliği: Ağaç altında GPS sinyal kaybı; RTK-GPS cm hassasiyeti sağlar ancak maliyetli.

Gerçek saha problemi: Siirt'in eğimli fıstık bahçelerinde (>%15 eğim) tekerlekli robotlar traksiyon kaybeder. Teras tarımı yapılan alanlarda navigasyon, 2D yol planlama yerine 3D topoğrafik haritalama gerektirir.


4. Ortak Teknik Desenler

4.1 Transfer Öğrenme: Tarımsal Makine Öğrenmesinin Temel Kolaylaştırıcısı

Tarımsal görüntü veri setleri çoğu zaman genel amaçlı büyük veri kümelerine göre küçüktür; bu nedenle transfer öğrenme pratikte sık kullanılan bir başlangıç noktasıdır. Bununla birlikte, ön eğitimli bir modelin sahaya doğrudan taşınması yeterli olmayabilir; özellikle kontrollü görüntüler ile gerçek tarla koşulları arasında dağılım farkı varsa ek uyarlama gerekir.

Kural: Transfer learning performansı, kaynak ve hedef domain arasındaki görsel mesafeye bağlıdır. ImageNet → PlantVillage yakın, ImageNet → tarla koşulları uzaktır. Bu mesafe ölçülebilir: MMD (Maximum Mean Discrepancy) öznitelik dağılımları arasındaki farkı, FID (Fréchet Inception Distance) görüntü domain'leri arasındaki mesafeyi sayısallaştırır. Karar kuralı: domain mesafesi eşik değerinin üzerindeyse basit transfer yetmez, adaptasyon gerekir (bkz. Bölüm 4.6).

Fine-tuning stratejisi: Hedef veri miktarına göre katman dondurma derinliği ayarlanır: <500 görüntü → yalnızca son sınıflandırıcı; 500-5000 → son 2-3 blok; >5000 → tam yeniden eğitim. L2-SP regularizasyonu (Li et al., 2018) fine-tuning sırasında ön-eğitimli ağırlıklardan sapmayı penalize eder: L = L_CE(y, ŷ) + λ·||θ - θ₀||². Bu, catastrophic forgetting'i (yıkıcı unutma — modelin yeni görevi öğrenirken eski bilgiyi kaybetmesi) önleyerek kaynak domain bilgisini korur.

GradCAM doğrulama: Transfer sonrası modelin dikkat haritasını kontrol etmek güçlü bir doğrulama adımıdır. Model yaprağa mı yoksa arka plana mı bakıyor? PlantVillage'da beyaz arka plan, EXIF meta verisi veya yaprak kenar desenleri shortcut (kestirme öğrenme — modelin gerçek öznitelik yerine veri setine özgü yapıtaşlarını öğrenmesi) olarak öğrenilmişse GradCAM bunu ortaya çıkarır.

GradCAM görselleştirme: muz, kiraz ve domates yapraklarında hastalık tespitinde CNN modelinin dikkat odakları
GradCAM görselleştirme: farklı bitki yapraklarında hastalık sınıflandırmasında CNN'in dikkat odakları. Kırmızı bölgeler modelin kararını en çok etkileyen alanları gösterir. Kaynak: Scientific Reports (Nature), CC BY 4.0.
GradCAM dikkat haritası doğrulama: sol — model hastalık lezyonuna odaklanıyor (doğru öğrenme), sağ — model arka plana odaklanıyor (shortcut learning)
GradCAM doğrulama kavramsal şeması: sol — model hastalık lezyonuna odaklanıyor (doğru öğrenme); sağ — model arka plana odaklanıyor (shortcut learning). PlantVillage'ın beyaz arka planı shortcut olarak öğrenilmişse transfer sonrası model gerçek tarla koşullarında çöker.
Transfer öğrenme: kaynak domain ağırlıklarının hedef domaine aktarımı
Şekil 9 — Önceden eğitilmiş CNN katmanları aktarılır; yalnızca sınıflandırıcı yeniden eğitilir. Domain gap transferi sınırlar.

4.2 Öznitelik Mühendisliği ve Derin Öğrenme Karşılaştırması

Yapısal verilerde (tablo formatı — uydu indeksleri, meteoroloji, toprak) Random Forest ve XGBoost, derin öğrenmeye genellikle eşdeğer veya üstündür. Derin öğrenme, ham sensör verisinde (görüntü, spektrum, zaman serisi) avantajlıdır. İkisinin karıştırılması — yapısal veri için LSTM kullanmak, görüntü için RF kullanmak — yaygın bir anti-pattern'dir.

4.3 Veri Kalitesinin Model Seçiminden Önce Gelmesi

Tarımsal ML'de performans darboğazı neredeyse hiçbir zaman model mimarisi değildir — veri kalitesi, temsil gücü ve etiketleme tutarlılığıdır. Bu iddia üç bağımsız kanıtla desteklenir:

  • Örnek 1 — Veri zenginleştirme etkisi: Shahhosseini et al. (2021), APSIM simülasyon değişkenlerinin eklenmesiyle aynı model üzerinde RMSE'nin %7-20 düştüğünü rapor etmiştir. Bu tür sonuçlar, model mimarisi sabit kalsa bile veri temsilinin performansı anlamlı biçimde etkileyebileceğini gösterir.
  • Kanıt 2 — Bağımsız test seti eksikliği: Kamilaris & Prenafeta-Boldú (2018), incelediği 40 tarımsal DL çalışmasından yalnızca %20'sinin bağımsız test seti kullandığını tespit etmiştir. Bağımsız test kullanan çalışmalarda ortalama %15 performans düşüşü gözlenmiştir.
  • Kanıt 3 — Etiket gürültüsü: Northcutt et al. (2021), ImageNet gibi yüksek kaliteli benchmark'larda bile %3,3 etiket hatası tespit etmiştir. Uzman olmayan etiketleyicilerin kullanıldığı tarımsal veri setlerinde bu oran çok daha yüksek olabilir — erken evre hastalık belirtilerinde etiketleyiciler arası uyum (Cohen's κ — etiketleyiciler arası güvenilirlik ölçüsü, 0=tesadüfi, 1=tam uyum) tipik olarak 0,4-0,6 aralığındadır.

Siirt bağlamı: Fıstık antraknozu erken evre belirtilerinde "hafif stres" ile "erken enfeksiyon" ayrımı subjektiftir — inter-annotator agreement düşüktür. Bu tutarsızlık doğrudan model performansına yansır.

Sonuç: veri kalitesi > veri miktarı > model karmaşıklığı. İyileştirme önceliği: (a) zemin doğrulama ve etiketleme tutarlılığı, (b) veri çeşitliliği artırma, (c) sensör füzyonu — model mimarisi değişikliği en sona.

MüdahaleTipik İyileşmeMaliyet
Daha karmaşık model%1-3Düşük (kod değişikliği)
Hiperparametre optimizasyonu%2-5Orta (hesaplama süresi)
Veri artırma (augmentation)%3-8Düşük
Veri kalitesi iyileştirme%5-20Yüksek (saha çalışması)
Ek veri kaynağı (sensör füzyon)%7-20Yüksek (altyapı)

Veri seti kartı (Datasheet): Gebru et al. (2021) her veri seti için standart belgeleme önerir — toplama protokolü, bilinen sınırlamalar, coğrafi/zamansal kapsam, etiketleyici nitelikleri. Tarımsal bağlamda: hangi çeşit? Hangi mevsim? Hangi bölge? Hangi kamera/sensör? Bu bilgiler olmadan model transferi yüksek belirsizlik taşır.

🔑Üç soru: (1) Veriyi kim etiketledi? (2) Hangi koşullarda toplandı? (3) Neyi temsil etmiyor? Bu üç soruya cevap veremiyorsanız, model sonuçlarını daha ihtiyatlı yorumlamalısınız.

Tipik hata #5: Etiketleyiciler arası uyumsuzluk (inter-annotator disagreement). Erken evre hastalık belirtilerinde Cohen's κ < 0,60 olduğunda model gürültüyü öğrenir, hastalığı değil. Çözüm: çoklu etiketleme + uzlaşma protokolü (adjudication), label smoothing veya confident learning (güvenli öğrenme — cleanlab kütüphanesi ile gürültülü etiketlerin otomatik tespiti) ile gürültülü etiketlerin tespiti ve düzeltilmesi.

Performans iyileştirme kaynakları: veri kalitesi ve sensör füzyon en yüksek getiriyi sağlar
Şekil 5 — Model karmaşıklığı artırmak en düşük getiriyi sağlar; veri kalitesi ve sensör füzyonu en yüksek iyileşmeyi verir.

4.4 Doğrulama Stratejileri: Zamansal, Mekansal ve Çapraz-Bölge

Standart ML'de rastgele eğitim/test bölümlemesi (random split) geçerlidir çünkü gözlemler bağımsız ve aynı dağılımlıdır (i.i.d.). Tarımda bu varsayım üç nedenle çöker: (1) zamansal otokorelasyon — ardışık yılların verimi, hava koşulları ve toprak durumu üzerinden ilişkilidir; (2) mekansal otokorelasyon — komşu tarlalar benzer toprak, iklim ve yönetim pratiklerine sahiptir; (3) future leakage — rastgele bölümlemede gelecek yılın verileri eğitim setine sızar ve model "gelecekten hile yapar".

StratejiTanımUygun KullanımRisk / Not
Random splitGözlemlerin rastgele %80/20 bölünmesiYalnızca i.i.d. veriler (nadir tarımsal durum)Zamansal/mekansal leakage → R² 0,15-0,30 şişirilir
Temporal splittrain: yıl ≤ T, val: T+1, test: T+2 (walk-forward)Verim tahmini, fiyat tahmini, iklim modelleriGeriye dönük (backtesting) yetersiz olabilir; rejim değişikliklerinde dikkat
Spatial splitCoğrafi bloklar halinde bölümleme (spatial blocking)Uzaktan algılama, arazi sınıflandırma, toprak haritalamaBlok boyutu otokorelasyon menzilinden büyük olmalı
GroupKFoldAynı birim (tarla, ağaç, çiftlik) tek bir fold'da kalırAynı bitkinin farklı yaprakları, aynı tarladan çoklu ölçümlerBirim sayısı az olduğunda fold'lar dengesiz olabilir
Cross-regionBölge A'da eğit, Bölge B'de test et (leave-one-region-out)Modelin coğrafi genellenebilirliğini ölçmeBölgeler arası iklim/toprak farkı performansı %20-40 düşürebilir
Doğrulama stratejileri karşılaştırması: random split, temporal split, spatial split, GroupKFold şematik gösterimi
Şekil 17 — Dört doğrulama stratejisinin şematik karşılaştırması. Kırmızı: eğitim, mavi: test. Random split'te zaman/mekan karışır; temporal ve spatial split'te ayrılır.
⚠️Future leakage uyarısı: Verim tahmininde eğitim setinde 2022 verisi, test setinde 2021 varsa model geleceği görmüştür. Bu durum R² değerini 0,15-0,30 şişirir. Random split ile raporlanan yüksek doğrulukları bu düzeltmeyle oku.

Tipik hata #6: Zaman serisi verim verisine random split uygulamak. Ardışık yılların otokorelasyonu modelin "hile yapmasını" sağlar. Ayrıca aynı bitkinin farklı yapraklarının eğitim ve teste düşmesi (plant-level leakage) doğruluğu %5-15 şişirir — GroupKFold(groups=plant_id) bu tür durumlarda genellikle gerekir.

4.5 Belirsizlik Ölçümü (Uncertainty Quantification)

Tarımsal ML'de tek bir nokta tahmin çoğu zaman yeterli değildir: "bu tarlada 4,2 ton/ha verim bekleniyor" ifadesinin yanında bu tahminin ne kadar belirsiz olduğunun da bilinmesi gerekir. Aynı merkez tahmin, farklı güven düzeylerinde farklı karar eşikleri doğurabilir. Tarımsal kararların maliyeti çoğu zaman asimetriktir: hastalığı kaçırmak (false negative) ürün kaybına, gereksiz ilaçlama (false positive) ise maliyet ve çevresel yük artışına neden olabilir.

Üç temel belirsizlik ölçüm yaklaşımı:

  • Bayesian Neural Networks / MC-Dropout: Ağırlıklar üzerinde posterior dağılım. Pratikte MC-Dropout (Gal & Ghahramani, 2016): dropout aktif bırakılarak N ileri geçiş yapılır, çıktıların varyansı epistemik belirsizliği verir. Varyans yüksekse model "emin değilim" diyor demektir.
  • Conformal Prediction: Uygun kalibrasyon ve varsayımlar altında kapsama güvencesi sağlayan bir çerçeve. Kalibrasyon seti üzerinde uyumsuzluk skorları hesaplanır; yeni tahmin için belirli bir güven düzeyinde (ör. %90) aralık üretilir. Çoğu durumda mevcut modele sonradan eklenebilir.
  • Ensemble disagreement: Random Forest'ta ağaçların veya deep ensemble üyelerinin varyansı. En ucuz yaklaşım — ek hesaplama maliyeti düşük. Ancak yalnızca epistemik belirsizliği yakalar, aleatorik (veri kaynaklı) belirsizliği kodlamaz.

Kalibrasyon: Model %80 güvenle "hastalıklı" diyorsa, gerçekten vakaların %80'i hastalıklı mı? Kalibre edilmemiş model aşırı güvenli tahminler verir. Expected Calibration Error (ECE) metriği, tahmin edilen güven ile gözlenen doğruluk arasındaki farkı ölçer. Tarımsal karar destek sistemlerinde ECE < 0,05 hedeflenmelidir.

Belirsizlik ölçüm yöntemleri: MC-Dropout, conformal prediction tahmin aralığı, kalibrasyon eğrisi
Şekil 18 — Sol: MC-Dropout ile belirsizlik haritası (kırmızı=yüksek belirsizlik). Orta: Conformal prediction tahmin aralığı. Sağ: Kalibrasyon eğrisi — mükemmel kalibrasyon köşegen üzerinde.
🔑Tarımsal kararlarda güven aralığı olmayan tahmin çoğu zaman eksik kalır. Çiftçi için "4,2 ton/ha" kadar bunun hangi belirsizlikle verildiği bilgisi de önemlidir.

Gerçek saha problemi: Siirt fıstığında alternans (var/yok yılı döngüsü) belirsizlik modellemesini önemli hale getirir. "Yok yılı"nda yüksek güvenle verilen tek değerli tahminler yanıltıcı olabilir; bu nedenle modelin alternans rejimini ve olası tahmin aralığını ayrıca yansıtması beklenir.

4.6 Domain Adaptasyon Araç Kutusu

Bölüm 2.2'de tanımlanan domain gap problemi pratikte önemlidir. Aşağıdaki araç kutusu, kaynak domain'den (kontrollü ortam) hedef domain'e (tarla koşulları) geçerken hangi uyarlama seçeneklerinin değerlendirilebileceğini özetler:

TeknikMekanizmaGereksinimBeklenen İyileşme
DANN (Domain-Adversarial NN)Gradient reversal layer ile domain-invariant öznitelikler öğrenme (Ganin et al., 2016)Hedef domain'den etiketsiz veri%15-25 doğruluk artışı
L2-SP regularizasyonFine-tuning sırasında ön-eğitimli ağırlıklardan sapmayı penalize etme: L = L_task + λ·||θ-θ₀||²Ön-eğitimli model + hedef etiketli veriCatastrophic forgetting'i %30-50 azaltma
Few-shot adaptasyonHedef domain'den 5-20 etiketli örnek ile prototypical networks veya son katman fine-tuningAz sayıda etiketli hedef veri%31 → %65-75 arası
TTA (Test-Time Adaptation)Çıkarım sırasında batch normalization istatistiklerini hedef veriye adapte etme (TENT, DUA)Etiketsiz hedef veri; yeniden eğitim gerektirmez%5-15 iyileşme
Domain-spesifik augmentationHedef koşulları simüle eden veri artırma: değişken aydınlatma, karmaşık arka plan, yaprak örtüşmesiHedef ortam bilgisi%5-10 iyileşme

Domain mesafesi ölçümü: Adaptasyon öncesinde kaynak-hedef mesafesini ölçmek kritiktir. MMD (Maximum Mean Discrepancy) öznitelik dağılımları arasındaki farkı, FID (Fréchet Inception Distance) görüntü domain'leri arasındaki mesafeyi ölçer. Karar kuralı: domain mesafesi eşik değerinin üzerindeyse basit transfer öğrenme yetmez, yukarıdaki adaptasyon tekniklerinden biri gerekir.

GradCAM doğrulama: Adaptasyon sonrası modelin dikkat haritası kontrol edilmelidir — model hastalık lezyonuna mı, yoksa arka plan dokusuna veya veri seti yapıtaşlarına mı (watermark, çerçeve rengi) bakıyor? Shortcut learning tespitinin en güvenilir aracıdır.

Domain adaptasyon araç kutusu: DANN, few-shot, TTA, augmentation pipeline karşılaştırması
Şekil 19 — Domain adaptasyon araç kutusu: teknik seçimi hedef domain'deki etiketli veri miktarına bağlıdır. 0 etiket → UDA/TTA; <100 → few-shot; >500 → tam fine-tuning.

4.7 MLOps: Modelden Üretime

Jupyter notebook'ta çalışan model, üretim modeli değildir. MLOps, deney ile canlı sistem arasındaki mühendislik köprüsüdür. Tarımsal bağlamda bu köprü özellikle kritiktir: modelin çıktısı fiziksel bir müdahaleye (ilaçlama, sulama, hasat zamanlaması) dönüşür ve hata maliyeti bir mevsimlik üretim kaybı olabilir.

AşamaTanımAraçlarTarımsal Örnek
CI/CD for MLOtomatik yeniden eğitim tetikleyicileri; performans kapıları (baseline'ı geçmeli)GitHub Actions, Jenkins, KubeflowYeni hasat mevsimi verisi geldiğinde verim modelini yeniden eğit
Model RegistrySürümlenmiş model yapıtları + meta veri (veri hash'i, metrikler, eğitim tarihi)MLflow, Weights & Biases, DVCHangi model sürümü hangi mevsimde deploy edildi? Geri izlenebilirlik
Drift DetectionVeri drifti (öznitelik dağılımı kayması) + concept drift (hedef dağılım kayması)Evidently AI, WhyLabs, PSI/KS-testSensör yaşlanması → öznitelik drifti; yeni hastalık suşu → concept drift
A/B TestingCanary deployment: tarlaların %10'unda yeni model, %90'ında eskiFeature flags, split testingYeni ilaçlama reçetesi modelini pilot tarlalarda test et, mevsim sonu karşılaştır
MonitoringTahmin gecikmesi, hata oranı, öznitelik önem stabilitesi izlemePrometheus, Grafana, custom dashboardsEdge cihazda çıkarım süresi artıyorsa → model veya donanım degradasyonu
MLOps pipeline döngüsü: veri toplama → eğitim → registry → deployment → izleme → yeniden eğitim
Şekil 20 — MLOps döngüsü: veri → eğitim → kayıt → dağıtım → izleme → yeniden eğitim. Kesikli ok: drift tespit edildiğinde tetiklenen otomatik yeniden eğitim.
🎯Model eğitmek işin %20'sidir; geri kalan %80 modeli canlıda tutmak, izlemek ve güncellemektir.

Tipik hata #7: Bitki hastalığı tespiti modelini deploy edip hiç yeniden eğitmemek. Yeni hastalık suşları ortaya çıkar, kamera donanımı değişir, tarla koşulları kayar — model performansı yıldan yıla düşer ve kullanıcı güveni kaybolur. Minimum yeniden eğitim sıklığı: yılda bir kez, yeni mevsim verisiyle.

Concept drift kaynakları: Tarımda concept drift dört temel kaynaktan gelir: (1) yeni hastalık suşları veya pestisit direnci evrimi, (2) iklim rejimi kayması (uzun vadeli sıcaklık/yağış trendleri), (3) çeşit portföyü değişimi (çiftçiler yeni kültürvarları benimser), (4) tarım pratikleri değişimi (organik geçiş, minimal toprak işleme). Bu kaynakların her biri modelin hedef dağılımını kaydırır.

Geri besleme döngüsü riski: Model ilaçlama tavsiyesi verir → çiftçi uygular → zararlı popülasyonu değişir → gelecek yılın eğitim verisi artık geçmişi temsil etmez. Bu kapalı döngü, modelin kendi çıktısını eğitim verisine sızdırmasıdır. Çözüm: causal-aware monitoring ve kontrol grubu (ilaçlanmayan referans parseller) tutulması.

Veri yönetişimi notu (KVKK): Tarımsal verinin mülkiyeti ve gizliliği ihmal edilmemelidir. GPS koordinatları kişisel veri kapsamındadır — çiftlik konumu üzerinden kimlik tespiti mümkündür. Kooperatif düzeyinde veri paylaşımı rıza gerektirir. Uydu verisi açık (Copernicus) veya lisanslı (ticari) olabilir — veri seti kartında kaynak lisansı belirtilmelidir.

4.8 Aktif Öğrenme ve İnsan-Döngü İçinde (Active Learning)

Uzman agronomist etiketleme zamanı tarımsal ML'in en kıt kaynağıdır. Aktif öğrenme, modelin en belirsiz olduğu örnekleri seçerek etiketleme verimliliğini maksimize eder — rastgele etiketlemeye kıyasla aynı performansa %30-50 daha az etiketli veriyle ulaşılabilir.

İki temel strateji:

  • Uncertainty sampling: Model en düşük güvenle tahmin ettiği örnekleri uzman incelemesine gönderir. Bölüm 4.5'teki MC-Dropout veya ensemble variance doğrudan kullanılır.
  • Query-by-committee: Birden fazla model (committee) eğitilir; üzerinde en çok anlaşmazlık olan örnekler seçilir. RF + SVM + CNN committee gibi farklı model aileleri daha zengin çeşitlilik sağlar.

Pratik iş akışı: (1) Mevcut etiketli veriyle ilk modeli eğit → (2) etiketsiz havuza çıkarım yap → (3) en belirsiz N örneği seç → (4) agronomist etiketlesin → (5) modeli yeniden eğit → tekrarla. Bu döngü, saha mevsimi boyunca sürer ve model her iterasyonda güçlenir.


5. Gelecek Perspektifi

5.1 Uç Bilişim (Edge AI) ve Saha Dağıtımı

Kırsal bölgelerde internet güvenilmez. Model sıkıştırma (INT8 kuantalama (quantization), yapısal budama (pruning), bilgi damıtma (knowledge distillation)) ile 20 MB altı model boyutu ve ARM işlemcilerde 200 ms altı çıkarım süresi hedeflenir. TensorFlow Lite ve ONNX (Open Neural Network Exchange — Açık Sinir Ağı Değişim Formatı) Runtime temel çerçevelerdir.

Edge AI model sıkıştırma zinciri: kuantalama, budama, damıtma
Şekil 15 — Model sıkıştırma zinciri: kuantalama + budama + damıtma ile <20 MB, <200 ms hedeflenir.

Tipik hata #8: INT8 kuantalama doğruluk kaybını GPU üzerinde test edip ARM (hedef donanım) üzerinde test etmemek. Kuantalama kaybı donanıma bağlıdır; özellikle erken evre hastalık tespitinde subtil sınıf farkları kuantalama sırasında kaybolabilir. Çözüm: QAT (Quantization-Aware Training — kuantalama farkındalıklı eğitim), hedef donanımda end-to-end doğrulama ve kritik sınıflar için per-class sensitivity analizi.

5.2 Çok Modlu Öğrenme ve Sensör Füzyonu

RGB + termal + LiDAR + spektral verilerin tek bir modelde birleştirilmesi. Mevcut yaklaşımlar erken füzyon (concat) veya geç füzyon (ensemble) — dikkat mekanizması tabanlı çapraz-modal füzyon (cross-modal attention) henüz tarımda yaygınlaşmamıştır.

5.3 Dijital İkiz Tarım Sistemleri

Shahhosseini et al.'ın APSIM+ML yaklaşımının evrimleşmiş hali: tarlayı sensör verileriyle sürekli güncellenen mekanistik simülasyonla temsil eden dijital ikiz. Gerçek zamanlı senaryo analizi (kuraklık etkisi, gübre optimizasyonu) ve sigorta fiyatlandırması potansiyeli.

Dijital ikiz tarım sistemi: fiziksel tarla ve mekanistik simülasyon + ML hibrit model
Şekil 16 — Dijital ikiz: fiziksel tarla sensör verileriyle sürekli güncellenen mekanistik simülasyon + ML hibrit model.

5.4 Temel Modeller (Foundation Models) ve Tarımsal Uygulamaları

Büyük ölçekli önceden eğitilmiş modeller (uydu görüntüleri için SatMAE, tarımsal metin için AgGPT benzeri yapılar) çok görevli ince ayarla farklı tarımsal problemlere adapte edilebilir. Veri kıtlığı probleminin yapısal çözümü olabilir — ancak hesaplama maliyeti ve erişilebilirlik henüz darboğazdır.

5.5 Fizik-Bilgili Makine Öğrenmesi (Physics-Informed ML)

Bölüm 2.2'de tarımın fiziksel süreç bağımlılığı vurgulanmıştı. Physics-Informed Neural Networks (PINNs), fiziksel yasaları doğrudan loss fonksiyonuna entegre ederek saf veri-güdümlü modellerin iki temel zayıflığını giderir: (1) fiziksel olarak imkansız tahminler üretme (negatif evapotranspirasyon, enerji korunumu ihlali), (2) küçük veri setlerinde yetersiz genelleme.

Hibrit loss fonksiyonu: L = L_data + λ · L_physics burada L_data standart gözetimli kayıp (MSE, cross-entropy), L_physics ise fiziksel denklemlerin residual'ı. Örneğin sulama modelinde Penman-Monteith evapotranspirasyon denklemi kısıt olarak eklenir; toprak su dinamiklerinde Richards denklemi modelin tahminlerini fiziksel olarak tutarlı olmaya zorlar. λ hiperparametresi veri-fizik dengesini kontrol eder: az veri → yüksek λ (fizik dominant), çok veri → düşük λ (veri dominant).

Tarımsal uygulamalar: Shahhosseini et al.'ın APSIM+ML hibrit yaklaşımı (%7-20 RMSE iyileşme) bu paradigmanın erken örneğidir. Tam PINN yaklaşımında simülasyon modeli ayrı çalıştırılmaz — fiziksel denklemler doğrudan sinir ağının eğitimine dahil edilir.

Physics-Informed Neural Network: veri kaybı + fizik kaybı ikili loss yapısı
Şekil 21 — PINN mimarisi: sinir ağı hem veriye hem fiziksel denklemlere uyum sağlar. λ parametresi veri-fizik dengesini kontrol eder.

5.6 Nedensellik Çıkarımı (Causal Inference)

Bu dersteki tüm modeller korelasyoneldir: "NDVI yüksekse verim yüksek" der ama "NDVI'yı artırırsak verim artar mı?" sorusuna cevap veremez. Tarımsal kararlar ise müdahale (intervention) gerektirir — ne kadar gübre, ne kadar su, hangi ilaç? Bu sorular nedensel çıkarım gerektirir.

Yönlendirilmiş Çevrimsiz Grafik (DAG) örneği: Gübre → Toprak Azotu → Verim, ancak Çiftlik Yönetim Kalitesi hem gübre kullanımını hem verimi etkiler (confounding). Gözlemsel veride gübre-verim korelasyonu, yönetim kalitesinin etkisini de içerir. Nedensel etki için do-calculus (P(Y|do(X))) veya instrumental variables gerekir.

Pratik değer: Nedensel modeller (a) gerçek müdahale etkisini ölçer — gübre reçetesinin marjinal getirisi, (b) dağılım dışı genelleme sağlar — yeni bölgede korelasyonlar değişir ama nedensel mekanizma korunur, (c) adil kaynak dağılımını destekler — sulama önceliklendirmesinde nedensel katkı sıralaması.

Tarımsal nedensel DAG: gübre, toprak azotu, verim ve karıştırıcı değişkenler
Şekil 22 — Tarımsal nedensel DAG: düz oklar nedensel etkiyi, kesikli oklar karıştırıcı (confounding) ilişkiyi gösterir.

5.7 Federatif Öğrenme (Federated Learning)

Birden fazla çiftliğin verisini merkezi sunucuya göndermeden ortak model eğitmesi. Federatif öğrenme'de her çiftlik yerel model güncellemelerini (gradyan) hesaplar, yalnızca bu gradyanları paylaşır — ham veri çiftlikten çıkmaz. Bu yaklaşım iki kritik sorunu çözer: (1) veri gizliliği — çiftlik verisi ticari sırdır, rakiplerle paylaşılamaz; (2) ölçeklenebilirlik — binlerce çiftlikten merkeze veri taşıma bant genişliği açısından pratik değildir.

Tarıma özgü zorluk — non-IID veri: Her çiftliğin farklı iklimi, toprağı ve çeşitleri vardır (non-IID: non-independent and identically distributed). Standart federatif ortalamalama (FedAvg) bu heterojenlikte yakınsamada zorlanır. FedProx veya kişiselleştirilmiş federatif öğrenme yaklaşımları gerekir.


6. Kapanış

Tarım, makine öğrenmesinin en zor uygulama domainlerinden biridir. Kontrollü ortam yok, veri seti küçük, fiziksel süreçler karmaşık, domain gap büyük, aksiyona dönüşüm doğrudan fiziksel dünyayı etkiler.

Bu dersin ana mesajları:

  1. Model değil, sistem düşün. En iyi CNN, kalibre edilmemiş kamera ile çöker. En iyi LSTM, senkronize edilmemiş veriyle öğrenemez.
  2. Veri kalitesi her zaman model seçiminden önemlidir. %99 doğruluk, eğitim-test dağılımı aynıysa anlamsızdır.
  3. Domain bilgisi vazgeçilmezdir. Fıstıkta alternans, toprakta karbonat müdahalesi, sensörde drift — bunları bilmeden model kurmak, sistematik hata kaynağıdır.
  4. Her çözümün bir bedeli var. YOLO hızlıdır ama küçük nesnelerde zayıftır. LSTM güçlüdür ama veri açtır. Transfer learning işe yarar ama domain gap'i kapatmaz.
  5. Doğrulama stratejisi, model seçimi kadar önemlidir. Random split tarımda yanıltıcıdır — zamansal ve mekansal bölme çoğu durumda daha uygundur (bkz. Bölüm 4.4).
  6. Belirsizlik ölçümü olmayan tahmin, karar desteği değildir. Çiftçi nokta tahminiyle değil, güven aralığıyla karar alır (bkz. Bölüm 4.5).
  7. Aksiyona dönüşmeyen tahmin değer üretmez. Model "hasat erken yapılmalı" derse ama çiftçinin el gücü veya depolama kapasitesi yoksa, tahmin aksiyona dönüşmez. Modelin çıktısı, çiftçinin operasyonel kısıtlarıyla uyumlu olmalıdır.

28 konunun tamamı bu çerçevenin farklı izdüşümleridir. Derinlemesine içerik için her konunun detay sayfasına başvurunuz.

Hızlı referans tablosu:

Problem AilesiTemel TeknikBirincil VeriEn Sık Hata Modu
1. Bilgisayarla GörmeCNN + Transfer LearningRGB / Multispektral görüntüDomain gap (lab→tarla)
2. Uzay-ZamansalLSTM / XGBoost / HibritUydu zaman serisi + meteorolojiTemporal leakage + alternans
3. SpektroskopiPLS / 1D-CNNNIR / MIR spektrumuBaseline drift + cihaz transferi
4. IoT / KontrolMPC + ML hibrit / RLSensör akışı (nem, sıcaklık)Sensör drift + enerji kısıtı
5. GenomikGBLUP / RFSNP dizileri (p >> n)Overfitting + batch etkisi
6. Sistemler / EkonomiARIMA+LSTM hibritFiyat / üretim zaman serisiDışsal şoklar (iklim, pandemi)
7. RobotikSLAM + YOLOKamera + LiDAR + GPSArazi değişkenliği + GPS kaybı

Bu sayfa, sitedeki konu başlıklarını bir araya getiren editoryal bir giriş dersidir. Sistematik derleme veya meta-analiz olarak değil, yönlendirici bir çerçeve metni olarak okunmalıdır.

Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği