1.0 Tarımda Makine Öğrenmesi — Genel Bakış
1. Tarımda Makine Öğrenmesinin Önemi
Bu giriş sayfası, tarımda makine öğrenmesi alanındaki başlıca problem tiplerini, veri kaynaklarını ve yöntem ailelerini ders bağlamında özetler. Amaç kapsamlı bir meta-analiz üretmek değil; okuru alanın temel tartışmalarına, sık görülen iş akışlarına ve dikkat edilmesi gereken sınırlara yönlendiren temkinli bir çerçeve sunmaktır.
Tarımda makine öğrenmesi çoğunlukla üç işlev etrafında kullanılır:
- Algılama: Görüntü veya sensör akışından hastalık, zararlı, meyve ya da stres belirtisi ayıklama
- Tahmin: Verim, kalite, talep, fiyat, su gereksinimi veya risk için öngörü üretme
- Karar desteği ve kontrol: Sulama, sera yönetimi, robotik hareket veya saha müdahalesi için karar mekanizmasını besleme
Bu ders, çok sayıda alt başlığı tek tek sıralamak yerine bunları problem aileleri altında toparlayarak okunabilir bir mühendislik çerçevesi önermektedir.
Tarımda ML En Çok Nerede Kullanılıyor?
Aşağıdaki tablo, bu sitede en sık döndüğümüz uygulama kümelerini ve her biri için tipik veri/yöntem eşleşmelerini özetler:
| Alt Alan | Tipik Veri | Sık Kullanılan Yöntemler |
|---|---|---|
| Bitki hastalığı ve zararlı tespiti | Yaprak/gövde görüntüleri, saha fotoğrafları | CNN, transfer öğrenme, nesne tespiti |
| Ürün verimi tahmini | Meteoroloji, toprak, uydu zaman serisi | Random Forest, XGBoost, LSTM |
| Uzaktan algılama ve arazi haritalama | Uydu ve İHA görüntüleri | U-Net, zamansal özellik çıkarımı, indeks tabanlı modeller |
| Yabancı ot ve hassas müdahale | Saha görüntüsü, sıra arası kamera akışı | YOLO, segmentasyon, edge modeller |
| Toprak, su ve besin yönetimi | Sensör verisi, spektroskopi, laboratuvar ölçümleri | SVM, PLS, boosting yöntemleri |
| Hayvancılık ve davranış izleme | Video, ivmeölçer, sıcaklık ve konum verisi | Sensör füzyonu, zaman serisi analizi |
| Gıda kalitesi ve hasat sonrası | Görüntüleme, hiperspektral veri, kalite ölçümleri | CNN, spektroskopik regresyon, kalite sınıflandırma |
| Sera, robotik ve kontrol | IoT akışı, çevresel sensörler, robot sensörleri | MPC, RL, hibrit kontrol sistemleri |
Bu sınıflama alanın tamamını tüketen resmi bir taksonomi değildir; ders akışını daha anlaşılır hale getirmek için kullanılan pratik bir haritadır.
2. Temel Kavramsal Çerçeve
2.1 ML Pipeline: Veri → Model → Karar
Her tarımsal ML uygulaması aynı zinciri izler: ham veri toplama (sensör, uydu, spektrometre, kamera) → ön işleme (normalizasyon, segmentasyon, atmosferik düzeltme) → öznitelik çıkarma veya öğrenme (el ile mühendislik vs. derin öğrenme) → model eğitimi → çıkarım → aksiyona dönüştürme (ilaçlama reçetesi, sulama komutu, fiyat kararı).
Kritik ayrım: Tarımsal ML'de son adım — aksiyona dönüştürme — çoğu endüstriyel ML uygulamasından daha karmaşıktır. Modelin çıktısı bir tahmin değil, fiziksel dünyada bir müdahaledir.
Model eğitimi pipeline'ın yalnızca küçük bir parçasıdır. Asıl başarıyı belirleyen, arka planda çalışan dört temel süreçtir:
1. Veri versiyonlama — "Hangi veriyle eğittin?"
Bir deneyi tekrarlamak istediğinizde aynı veriyi, aynı ön işleme adımlarını ve aynı model sürümünü bulabilmeniz gerekir. Kod Git ile takip edilirken, veri dosyaları DVC (Data Version Control) gibi araçlarla versiyonlanır.
2. Veri izlenebilirliği — "Bu tahmin nereden geldi?"
Model bir hastalık teşhisi verdiğinde geriye doğru takip edebilmelisiniz: hangi sensör, hangi tarih, hangi tarla, hangi ön işleme adımı? Bu kayıt zinciri olmadan hatalı bir tahminin kaynağını bulmak imkansızdır.
3. Veri kalite kontrolü — "Veriler güvenilir mi?"
Otomatik kontroller kurulmalıdır: Toprak nemi 0-100% aralığında mı? Ardışık uydu okumaları arasında fiziksel olarak imkansız sıçramalar var mı? Farklı sensörler birbiriyle tutarlı mı? Hatalı veri, hatalı model demektir.
4. Yanlılık denetimi — "Veri gerçeği yansıtıyor mu?"
Eğitim verisindeki hastalık oranı gerçek tarladaki oranla örtüşüyor mu? Sadece bir bölgeden mi yoksa farklı coğrafyalardan mı veri toplandı? Sadece yaz aylarından mı yoksa tüm mevsimlerden mi? Bu dengesizlikler tespit edilmezse model sahada yanıltıcı sonuçlar verir.
2.2 Tarıma Özgü Farklar — Neden Tarım En Zor ML Domainlerinden Biridir?
Tarım, standart ML benchmark'larından üç temel yapısal farkla ayrışır:
| Özellik | Standart ML | Tarımsal ML |
|---|---|---|
| Veri kalitesi | Temiz, dengeli, standart format | Gürültülü, dengesiz, heterojen sensörler |
| Ortam kontrolü | Sabit (laboratuvar, sunucu) | Açık hava — aydınlatma, hava, toprak sürekli değişir |
| Fiziksel süreç bağımlılığı | İstatistiksel korelasyon yeterli | Bitki fizyolojisi, toprak-su dinamikleri modele dahil edilmeli |
| Domain gap | Test≈eğitim dağılımı | Kontrollü veri ile saha verisi arasında belirgin dağılım kayması |
| Etiketleme | Crowdsourcing mümkün | Uzman agronomist gerekli; erken evre belirtiler subjektif |
Tipik hata #1: Kontrollü veri setlerinde elde edilen yüksek skoru saha genellemesiyle eşitlemek. Literatürde, bağımsız saha testine geçildiğinde performansın belirgin biçimde düşebildiği; özellikle bağımsız test seti kullanılmadığında ise sonuçların olduğundan iyimser görünebildiği tekrar tekrar rapor edilmiştir.
Bu fark bazı durumlarda azaltılabilir. Domain adaptasyon, hedef sahadan ek veri toplama ve dikkatli fine-tuning stratejileri performansı iyileştirebilir; ancak beklenen kazanım veri setine, hedef çevreye ve değerlendirme protokolüne sıkı biçimde bağlıdır. Detaylı araç kutusu için bkz. Bölüm 4.6.
3. Problem Aileleri
Aile 1: Bilgisayarla Görme Tabanlı Tarım Uygulamaları
Kapsanan konular: 1.1 Bitki Hastalığı, 1.3 Yabancı Ot, 1.7 Fenotipleme, 1.8 Meyve Tespiti, 1.9 Zararlı, 1.11 Gıda Kalitesi, 1.21 Orman İzleme, 1.22 Tropikal Ürün, 1.28 Yangın Tespiti
A) Problem Tanımı
Tarımsal görme problemleri üç kategoriye ayrılır: sınıflandırma (yaprak sağlıklı mı/hastalıklı mı?), nesne tespiti (meyveyi lokalize et ve say), segmentasyon (yabancı ot haritası çıkar). Ortak nokta: giriş RGB/multispektral görüntü, çıkış semantik bilgidir.
B) Kullanılan Veri Tipleri
- RGB görüntü: En yaygın ve en ucuz. 224×224 veya 256×256 piksel standart. PlantVillage (54.306 görüntü, 38 sınıf), IP102 (75.000 zararlı görüntüsü, 102 tür).
- Multispektral: NIR (Near-Infrared — Yakın Kızılötesi) bandı eklenerek klorofil aktivitesi dolaylı ölçülür.
- Hiperspektral: 380-2500 nm, yüzlerce bant — erken evre hastalık tespitinde %97-99 doğruluk (Balafas et al., 2023). Ancak veri boyutu ve işleme maliyeti büyüklük sırası artar.
- Termal: Yangın tespiti, su stresi izleme.
C) Algoritma Ailesi
| Algoritma | Görev | Güçlü Yan | Zayıf Yan | Performans Referansı |
|---|---|---|---|---|
| CNN (Convolutional Neural Network — Evrişimli Sinir Ağı) + Transfer Learning (Transfer Öğrenme) | Sınıflandırma | Az veriyle yüksek doğruluk; olgun ekosistem | Lokalizasyon yok; domain gap riski | Mohanty 2016: %99,35 (PlantVillage) |
| YOLO (You Only Look Once) (v3-v8) | Nesne tespiti | Gerçek zamanlı (20 ms); edge uyumlu | Küçük nesnelerde düşük recall; anchor tasarımı gerekli | Liu & Wang 2020: %92,39 mAP (mean Average Precision — Ortalama Hassasiyet) domates |
| Faster R-CNN | Nesne tespiti | Yüksek lokalizasyon doğruluğu | Yavaş (~3 sn/görüntü); edge uyumsuz | %90,67 mAP, 2.869 ms çıkarım |
| U-Net / DeepLab | Segmentasyon | Piksel düzeyinde harita; alan hesabı mümkün | Eğitim maskesi hazırlamak pahalı | Yabancı ot haritalamasında mIoU (mean Intersection over Union — Ortalama Kesişim/Birleşim Oranı) %85+ |
| SVM (Support Vector Machine — Destek Vektör Makinesi) + GLCM (Gray-Level Co-occurrence Matrix — Gri Düzey Eş Oluşum Matrisi) | Sınıflandırma | Yorumlanabilir; küçük veri setlerinde rekabetçi | Her ürün-hastalık çifti için yeniden tasarım | Islam et al. 2017: %95 patates |
D) Kritik Zorluklar
- Aydınlatma değişkenliği: Tarla koşullarında güneş açısı, bulutluluk, yaprak yüzeyindeki su damlacıkları CNN'in düşük seviyeli filtrelerini sistematik olarak kaydırır. Color jittering kısmen telafi eder ama çözmez.
- Oklüzyon (örtüşme): Yaprak-yaprak, meyve-dal, ot-bitki örtüşmeleri nesne tespitinde recall'u %10-20 düşürebilir. Küme halinde büyüyen Siirt fıstığında meyve oklüzyonu özellikle kritiktir.
- Veri dengesizliği: Doğada sağlıklı bitkiler çoğunluktadır. Li et al. (2021), GAN tabanlı artırmanın doğruluğu %5,2 artırdığını göstermiştir. Dengesizlik oranı >20:1 olduğunda model azınlık sınıfını tamamen görmezden gelebilir (F1-macro < 0,40). Focal loss (
L = -α(1-p)^γ log(p)) veya SMOTE (Synthetic Minority Over-sampling Technique — Sentetik Azınlık Aşırı Örnekleme) + ensemble (topluluk) stratejileri bu tür durumlarda sık kullanılan seçeneklerdir. - Ölçek varyasyonu: İHA'dan (İnsansız Hava Aracı — UAV) (cm/piksel) uyduya (10-250 m/piksel) değişen çözünürlüklerde aynı nesneyi tespit etmek farklı model mimarileri gerektirir.
Tipik hata #2: Eğitim veri setinin tamamını tek bir kameradan, tek bir mevsimden toplamak. Model, hastalık belirtisi yerine kamera sensörü gürültüsünü veya mevsimsel yaprak rengini öğrenir. Doğrulama için Bölüm 4.4'teki stratejiler, domain gap için Bölüm 4.6'daki araç kutusu uygulanmalıdır.
E) Gerçek Saha Problemi: Siirt Fıstığı
Siirt fıstığında iki farklı görme problemi mevcuttur: (1) Antraktnoz: Yaprakta görünür lezyonlar — CNN uygulanabilir, ancak Siirt çeşidinin morfolojisi ABD/İran veri setlerinden farklıdır, transfer öğrenme doğrudan aktarılamayabilir. (2) Aflatoksin: Kabuk iç yüzeyinde küf — RGB ile tespit edilemez, NIR/hiperspektral gerektirir. Bu ikilik, tek algoritmanın tüm tarımsal görme problemlerini çözemeyeceğinin somut kanıtıdır.
Aile 2: Uzay-Zamansal ve Zaman Serisi Problemleri
Kapsanan konular: 1.2 Verim Tahmini, 1.4 Uzaktan Algılama, 1.12 İklim ve Tarım, 1.14 Su Kalitesi, 1.18 Arazi Kullanımı, 1.20 Tarımsal Ekonomi, 1.24 Tedarik Zinciri, 1.25 Hava Kalitesi
A) Problem Tanımı
Bu aile, birden fazla kaynaktan (uydu, meteoroloji, toprak sensörü, piyasa verisi) gelen verilerin zamansal boyutta birleştirilmesini gerektirir. Ortak çıktı: regresyon tahmini (verim kg/ha, fiyat TL/kg, su debisi m³/s) veya sınıflandırma (arazi örtüsü tipi, kuraklık şiddeti).
B) Kullanılan Veri Tipleri
- Uydu zaman serisi: Sentinel-2 (10 m, 5 gün), MODIS (250-500 m, günlük), Landsat (30 m, 16 gün). NDVI (Normalized Difference Vegetation Index — Normalize Edilmiş Fark Bitki Örtüsü İndeksi), EVI (Enhanced Vegetation Index — Geliştirilmiş Bitki Örtüsü İndeksi), SAVI (Soil-Adjusted Vegetation Index — Toprak Düzeltmeli Bitki Örtüsü İndeksi) indeksleri temel girdi.
- Meteoroloji: Sıcaklık, yağış, güneş radyasyonu, büyüme derece günleri (GDD). Khaki et al. (2020) güneş radyasyonunun en hassas değişken olduğunu göstermiştir.
- Toprak: Organik karbon, tekstür, nem. Yıllık veya seyrek ölçüm — zamansal çözünürlük uyumsuzluğu yaratır.
- Ekonomik: Hal fiyatları (günlük), TÜİK üretim istatistikleri (yıllık).
C) Algoritma Ailesi
- Random Forest: Yapısal verilerde güçlü; öznitelik önem sıralaması sağlar. Jeong et al. (2016) — küresel buğday R²=0,96, RMSE=%11,9.
- XGBoost / LightGBM: RF'den %2-5 düşük RMSE; hiperparametre duyarlılığı yüksek.
- LSTM (Long Short-Term Memory — Uzun Kısa Süreli Bellek) / GRU (Gated Recurrent Unit — Kapılı Tekrarlayan Birim): Fenolojik ilerlemeyi zamansal kapı mekanizmalarıyla modeller. Khaki et al. (2020) — CNN-RNN mısır RMSE=15,74 bushel/acre, RF'den (25-29) belirgin üstünlük.
- ARIMA (AutoRegressive Integrated Moving Average — Otoregresif Entegre Hareketli Ortalama) / SARIMA (Seasonal ARIMA — Mevsimsel ARIMA): Klasik zaman serisi; mevsimsellik ve trend ayrıştırma. Tarımsal fiyat tahmininde hâlâ baseline.
- Proses+ML hibrit: APSIM simülasyon çıktıları + ML. Shahhosseini et al. (2021) — RMSE'yi %7-20 düşürmüş. En büyük katkı toprak nemi değişkenlerinden.
D) Kritik Zorluklar
- Zamansal uyumsuzluk: Uydu 5-16 gün, meteoroloji saatlik, toprak yıllık — farklı çözünürlüklerin hizalanması sahte korelasyon riski taşır.
- Eksik veri: Optik uydu bulut altını göremez. Tropik iklimlerde büyüme mevsiminin kritik dönemlerinde haftalarca boşluk oluşur. SAR füzyon ayrı model gerektirir.
- Çoklu kaynak füzyonu: Farklı mekansal ve zamansal çözünürlükteki verilerin birleştirilmesi; her kaynak farklı hata profili taşır.
- Genelleme: Ray et al. (2015) — ABD'nin doğusunda sıcaklık, batısında yağış dominanttır. Tek bir küresel model yetersizdir.
- Ölçek uyumsuzluğu: 10 ha tarlalarda eğitilen model, 0,5 ha parsellerde deploy edildiğinde öznitelik dağılımı değişir — kenar etkileri ve mikro-iklim farklılaşması büyük tarlalarda önemsizken küçük parsellerde baskındır.
Gerçek saha problemi: Siirt fıstığında alternans (biennial bearing) — ağaçlar fizyolojik olarak "var yılı" ve "yok yılı" döngüsüne sahiptir. Bu ikili döngü, standart zaman serisi modellerinin varsaydığı ardışık yıl korelasyonunu bozar. Model, 2 yıllık gecikmeli öznitelikleri açıkça kodlamalıdır. Ayrıca Siirt'in dağlık topoğrafyası kısa mesafelerde 2-3°C sıcaklık farkı yaratır — MODIS pikselinin içinde kaybolur.
Aile 3: Spektroskopi ve Kemometrik Modelleme
Kapsanan konular: 1.5 Toprak Analizi, 1.13 Spektroskopi/Kemometri, 1.23 Biyoenerji/Biyokütle
A) Problem Tanımı
Bir malzemenin (toprak, gıda, biyokütle) kimyasal bileşimini, fiziksel numune alımı ve laboratuvar analizi yerine, spektral imzasından tahmin etmek. NIR (700-2500 nm), MIR (Mid-Infrared — Orta Kızılötesi, 2500-25000 nm), FTIR (Fourier Transform Infrared — Fourier Dönüşümlü Kızılötesi Spektroskopi) — yüzlerce dalga boyundaki yansıma/soğurma değeri tek bir ölçümle elde edilir.
B) Algoritma Ailesi
- PLS (Partial Least Squares): Kemometrinin standart aracı. Yüksek boyutlu, kolineer spektral verilerde regresyon. PLS,
X = TP' + EveY = UQ' + Fayrıştırmalarını eş zamanlı yapar; latent değişkenler (T, U) X-Y korelasyonunu maksimize eder. Latent değişken sayısı cross-validation ile seçilir — çok azsa underfitting, çok fazlası overfitting. OLS'den (Ordinary Least Squares — Sıradan En Küçük Kareler) farkı: kolineerlik altında kararlı çözüm üretir çünkü boyut indirgeme ve regresyon tek adımda yapılır. Viscarra Rossel et al. (2006) — toprak organik karbon R²=0,82-0,92. - SVM: Doğrusal olmayan ilişkilerde PLS'ye üstün olabilir; çekirdek seçimi kritik.
- 1D-CNN: Spektral veriden otomatik öznitelik öğrenme; ön işleme bağımlılığını azaltır. Padarian et al. (2019) — toprak tahmini CNN'in PLS'ye göre %5-10 iyileşme.
C) Kritik Zorluklar
- Baz çizgisi kayması (baseline drift): Cihaz sıcaklığı, ışık kaynağı yaşlanması gibi faktörlerle spektrum sistematik olarak kayar. SNV (Standard Normal Variate — Standart Normal Değişken), MSC (Multiplicative Scatter Correction — Çarpımsal Saçılma Düzeltmesi) gibi düzeltme algoritmaları bu tür problemlerde sık kullanılır; ancak her düzeltme bilgi kaybı riski taşır.
- Ön işleme bağımlılığı: Aynı veri setinde SNV vs. MSC vs. Savitzky-Golay türev seçimi, model performansını %5-15 değiştirebilir. Ön işleme bir hiperparametre gibi optimize edilmelidir.
- Transfer kalibrasyonu: Bir cihazda eğitilmiş model, başka bir cihaza doğrudan aktarılamaz. Cihazlar arası standartlaştırma hâlâ açık problem.
Gerçek saha problemi: Siirt'in kireçli (kalsiyum karbonat bakımından zengin) toprakları, NIR bölgesinde güçlü karbonat absorpsiyon bantları oluşturur ve organik madde sinyalini maskeleyebilir. Bu nedenle bölgeye özgü kalibrasyon çoğu durumda gereklidir.
Aile 4: IoT, Sensör ve Kontrol Sistemleri
Kapsanan konular: 1.6 Akıllı Sulama, 1.10 Hayvancılık İzleme, 1.16 Sera Kontrolü, 1.17 IoT Sensörler
A) Problem Tanımı
Fiziksel tarla/sera/ahır ortamında dağıtılmış sensörlerden sürekli veri toplama, bu veriden anlamlı çıkarım yapma ve fiziksel aktuatörleri (vana, fan, ısıtıcı) kontrol etme. Kapalı döngü (closed-loop) otomasyon hedefidir.
B) Kullanılan Veri Tipleri
- Toprak: Kapasitif nem sensörü, EC, pH — dakikalık örnekleme
- Atmosferik: Sıcaklık, nem, ışık yoğunluğu, CO₂ (sera)
- Hayvancılık: Akselerometre (davranış sınıflandırma — RF %92,3, LSTM %93,8), GPS, ruminasyon sensörü
- İletişim: LoRaWAN (Long Range Wide Area Network — düşük güç, uzun menzil), MQTT (Message Queuing Telemetry Transport — hafif mesajlaşma protokolü) protokolü
C) Algoritma Ailesi
- Bulanık mantık (Fuzzy Logic): Uzman bilgisini kural tabanıyla kodlar; küçük veri setlerinde çalışır.
- PID (Proportional-Integral-Derivative — Oransal-Tümlevsel-Türevsel kontrolör) / MPC (Model Predictive Control — Model Öngörücü Kontrol): Sera iklim kontrolünde sık kullanılan yaklaşımlardır. MPC, N adım ileriye bakarak (prediction horizon) sera ısı dengesi modelini optimize eder. Karar değişkeni: fan hızı, vana açıklığı, ısıtıcı gücü. Kısıtlar: sıcaklık alt/üst sınırı, pompa kapasitesi, enerji bütçesi. Maliyet fonksiyonu:
J = Σ [Q·(T - T_hedef)² + R·u²]— sıcaklık sapma penaltisi + enerji maliyeti. Hesaplama maliyeti yüksektir ancak fiziksel kısıtların açık biçimde modele dahil edilmesine imkân verir. - Pekiştirmeli öğrenme (RL): Sulama zamanlamasında ödül fonksiyonu tasarımı kritik:
R = α·verim_artışı - β·su_kullanımı - γ·enerji_maliyeti. α, β, γ katsayılarının ayarlanması agronomist + ML mühendisi iş birliği gerektirir. RL fiziksel model gerektirmez ancak güvenlik kısıtlarını doğrudan kodlayamaz — constrained RL veya safe RL gerekir. - Hibrit MPC+ML: MPC fizik modelini (toprak-su dengesi) kullanır, ML residual'ı (sapma) düzeltir. Pratikte en güvenilir yaklaşım — fizik kısıtları ihlal edilmez, ML esneklik sağlar. Shahhosseini et al.'ın APSIM+ML yaklaşımının kontrol teorisi karşılığıdır.
- Kalman filtresi: Sensör gürültüsü azaltma; drift tespiti.
- Edge AI / TinyML: Modeli sensör düğümüne sığdırma — ARM Cortex-M düzeyinde çıkarım.
D) Kritik Zorluklar
- Sensör sürüklenmesi (drift): Kapasitif nem sensörleri aylar içinde kalibrasyonunu kaybeder. Siirt'in kireçli toprakları tuzluluk kaynaklı sapma yaratır.
- Enerji kısıtı: Kırsal tarla ortamında şebeke erişimi yoktur. 3000 mAh pil ile LoRaWAN düğümünün ömrü, gönderim sıklığına bağlı olarak 200-800 gün arasında değişir.
- Gecikme (latency): Sulama kararı dakikalar içinde fiziksel dünyayı etkiler. Bulut tabanlı çıkarımda ağ gecikmesi, hayvansal stres tespitinde kritik süreyi kaçırabilir.
Tipik hata #3: Sensör ağını kurup veri toplamaya başlamak, ancak sensör kalibrasyonu için zemin doğrulama (ground truth) ölçümü yapmamak. Kalibre edilmemiş kapasitif nem sensörü, killi toprakta %30'a kadar sapma gösterebilir.
Tipik hata #4: Kalibre edilmeyen sensörün 6 ay sonraki sistematik sapması modelin girdi dağılımını değiştirir (covariate shift). Model, sapmış veriyle yanlış sulama kararları verir ama hata ölçülmez çünkü monitoring yoktur. Çözüm: co-located referans sensör ile periyodik karşılaştırma, Kalman filtresi inovasyon istatistiği ile otomatik drift tespiti, drift detection mekanizması (bkz. Bölüm 4.7).
Gerçek saha problemi: Siirt'in dağlık topoğrafyasında LoRaWAN menzili 2-3 km'den 800 m'ye düşebilir. Eğimli fıstık bahçelerinde damla sulama kontrol noktalarının optimum yerleşimi, hem RF kapsama alanı hem de hidrolik basınç kaybı birlikte değerlendirilmelidir.
Aile 5: Genomik ve Mikrobiyom Verisi
Kapsanan konular: 1.15 Bitki Genetiği/Islah, 1.27 Toprak Mikrobiyomu
A) Problem Tanımı
Yüksek boyutlu biyolojik veri (SNP (Single Nucleotide Polymorphism — Tek Nükleotid Polimorfizmi) dizileri, 16S rRNA amplikon sekansları, metagenomik okumalar) üzerinde fenotip tahmini, biyobelirteç keşfi ve fonksiyonel tahmin. Tipik boyut: p >> n — öznitelik sayısı (yüz binlerce SNP) gözlem sayısından (yüzlerce çeşit) büyüklük sırasıyla fazladır.
B) Algoritma Ailesi
- GBLUP (Genomic Best Linear Unbiased Prediction — Genomik En İyi Doğrusal Yansız Tahmin) / Genomik Seleksiyon: Meuwissen et al. (2001) — ıslah değeri tahmini; 6.200+ atıf. Tüm genomu tek tahmine dahil eder.
- GWAS (Genome-Wide Association Study — Genom Geneli İlişkilendirme Çalışması): Genom genelinde marker-fenotip ilişki taraması; çoklu test düzeltmesi kritik.
- Random Forest: SNP etkileşimlerini doğal olarak yakalar; öznitelik önem sıralaması biyolojik yorum sağlar.
- Ağ analizi (Network Analysis): Mikrobiyom etkileşim ağlarının modellenmesi; anahtar türlerin (keystone species) tespiti.
C) Kritik Zorluklar
- Yüksek boyutluluk: 500K+ SNP, 200 genotip — klasik regresyon çöker. PCA boyut indirgeme veya penalize regresyon (LASSO, Ridge) bu ölçeklerde çoğu durumda gerekir.
- Seyreklik (sparsity): Çoğu SNP'nin fenotip üzerinde sıfır etkisi vardır; gerçek sinyal gürültü içinde kaybolur.
- Batch etkileri: Farklı sekanslama çalıştırmalarında sistematik sapmalar; biyolojik sinyali maskeleyebilir.
Gerçek saha problemi: Siirt fıstığının referans genomu henüz tam olarak mevcut değildir. Çok yıllık ağaç ıslahında bir nesil 7-10 yıl sürer — genomik seleksiyon, fiziksel seçimi beklemeden genotip düzeyinde erken tahmin yaparak ıslah süresini %50-70 kısaltma potansiyeli taşır.
Aile 6: Tarımsal Sistemler, Ekonomi ve Veri Altyapıları
Kapsanan konular: 1.19 Blokzincir/İzlenebilirlik, 1.20 Tarımsal Ekonomi, 1.24 Tedarik Zinciri
A) Problem Tanımı
Tarımsal değer zincirinin dijitalleştirilmesi: üretimden tüketime kadar veri akışı, fiyat tahmini, stok optimizasyonu ve izlenebilirlik. Problem, tekil model performansından çok sistem entegrasyonudur.
B) Temel Yaklaşımlar
- Fiyat tahmini: ARIMA/SARIMA (baseline), LSTM (zamansal bağımlılık), XGBoost (yapısal veri), hibrit ARIMA+LSTM. Zhang (2003) — hibrit yaklaşımın tek model performansını %10-15 iyileştirdiğini göstermiştir (6.500+ atıf).
- Talep tahmini: Prophet (mevsimsellik ayrıştırma), Temporal Fusion Transformer (çok değişkenli dikkat mekanizması).
- Blokzincir: Hyperledger Fabric ile gıda izlenebilirliği — Walmart pilot projesinde mango izleme süresi 7 günden 2,2 saniyeye düşmüştür (Tian, 2017). Not: Blokzincir bir ML yöntemi değil, veri altyapısıdır. Bu dersin kapsamında yalnızca veri izlenebilirlik katmanı olarak konumlandırılmalıdır; kurulumu yazılım mühendisliği uzmanlığı gerektirir.
C) Kritik Zorluklar
- Dışsal şoklar: Pandemi, savaş, iklim olayları — geçmiş veriden öğrenilemeyen yapısal kırılmalar.
- Bozulabilirlik: Taze meyve-sebzede raf ömrü 3-7 gün; tahmin hatası doğrudan israfa dönüşür.
- Aracı zinciri: Siirt fıstığı üretici ile tüketici arasında 5-7 aracıdan geçer; fiyat asimetrisi %100-200 markup oluşturur.
Aile 7: Robotik ve Otonom Sistemler
Kapsanan konular: 1.26 Otonom Tarım Robotları
A) Problem Tanımı
GPS-kılavuzlu veya tam otonom platformların (tekerlekli, paletli, İHA) tarla içinde navigasyonu, nesne tespiti ve fiziksel müdahalesi (hasat, ilaçlama, ekim). Algı-karar-eylem döngüsü gerçek zamanlı çalışmalıdır.
B) Algoritma Ailesi
- SLAM (Simultaneous Localization and Mapping — Eş Zamanlı Lokalizasyon ve Haritalama): Eş zamanlı lokalizasyon ve haritalama — GPS sinyalinin zayıf olduğu ağaç altlarında kritik.
- Boustrophedon (öküz dönüşü) yol planlama: Tarla taramasının standart yöntemi — sıra sonunda 180° dönüşle yılan hareketi yaparak minimum atık alan.
- Derin pekiştirmeli öğrenme: Düzensiz arazi ve dinamik engellerde adaptif navigasyon.
- YOLO (gerçek zamanlı): Meyve/dal/engel tespiti 20-30 ms çıkarımla.
C) Kritik Zorluklar
- Gerçek zamanlı işleme: 30 fps görüntü + SLAM + yol planlama aynı anda — GPU gücü vs. pil ömrü tradeoff'u.
- Arazi değişkenliği: Çamur, eğim, taş, kök çıkıntısı — laboratuvar testlerinde olmayan fiziksel engeller.
- Lokalizasyon belirsizliği: Ağaç altında GPS sinyal kaybı; RTK-GPS cm hassasiyeti sağlar ancak maliyetli.
Gerçek saha problemi: Siirt'in eğimli fıstık bahçelerinde (>%15 eğim) tekerlekli robotlar traksiyon kaybeder. Teras tarımı yapılan alanlarda navigasyon, 2D yol planlama yerine 3D topoğrafik haritalama gerektirir.
4. Ortak Teknik Desenler
4.1 Transfer Öğrenme: Tarımsal Makine Öğrenmesinin Temel Kolaylaştırıcısı
Tarımsal görüntü veri setleri çoğu zaman genel amaçlı büyük veri kümelerine göre küçüktür; bu nedenle transfer öğrenme pratikte sık kullanılan bir başlangıç noktasıdır. Bununla birlikte, ön eğitimli bir modelin sahaya doğrudan taşınması yeterli olmayabilir; özellikle kontrollü görüntüler ile gerçek tarla koşulları arasında dağılım farkı varsa ek uyarlama gerekir.
Kural: Transfer learning performansı, kaynak ve hedef domain arasındaki görsel mesafeye bağlıdır. ImageNet → PlantVillage yakın, ImageNet → tarla koşulları uzaktır. Bu mesafe ölçülebilir: MMD (Maximum Mean Discrepancy) öznitelik dağılımları arasındaki farkı, FID (Fréchet Inception Distance) görüntü domain'leri arasındaki mesafeyi sayısallaştırır. Karar kuralı: domain mesafesi eşik değerinin üzerindeyse basit transfer yetmez, adaptasyon gerekir (bkz. Bölüm 4.6).
Fine-tuning stratejisi: Hedef veri miktarına göre katman dondurma derinliği ayarlanır: <500 görüntü → yalnızca son sınıflandırıcı; 500-5000 → son 2-3 blok; >5000 → tam yeniden eğitim. L2-SP regularizasyonu (Li et al., 2018) fine-tuning sırasında ön-eğitimli ağırlıklardan sapmayı penalize eder: L = L_CE(y, ŷ) + λ·||θ - θ₀||². Bu, catastrophic forgetting'i (yıkıcı unutma — modelin yeni görevi öğrenirken eski bilgiyi kaybetmesi) önleyerek kaynak domain bilgisini korur.
GradCAM doğrulama: Transfer sonrası modelin dikkat haritasını kontrol etmek güçlü bir doğrulama adımıdır. Model yaprağa mı yoksa arka plana mı bakıyor? PlantVillage'da beyaz arka plan, EXIF meta verisi veya yaprak kenar desenleri shortcut (kestirme öğrenme — modelin gerçek öznitelik yerine veri setine özgü yapıtaşlarını öğrenmesi) olarak öğrenilmişse GradCAM bunu ortaya çıkarır.
4.2 Öznitelik Mühendisliği ve Derin Öğrenme Karşılaştırması
Yapısal verilerde (tablo formatı — uydu indeksleri, meteoroloji, toprak) Random Forest ve XGBoost, derin öğrenmeye genellikle eşdeğer veya üstündür. Derin öğrenme, ham sensör verisinde (görüntü, spektrum, zaman serisi) avantajlıdır. İkisinin karıştırılması — yapısal veri için LSTM kullanmak, görüntü için RF kullanmak — yaygın bir anti-pattern'dir.
4.3 Veri Kalitesinin Model Seçiminden Önce Gelmesi
Tarımsal ML'de performans darboğazı neredeyse hiçbir zaman model mimarisi değildir — veri kalitesi, temsil gücü ve etiketleme tutarlılığıdır. Bu iddia üç bağımsız kanıtla desteklenir:
- Örnek 1 — Veri zenginleştirme etkisi: Shahhosseini et al. (2021), APSIM simülasyon değişkenlerinin eklenmesiyle aynı model üzerinde RMSE'nin %7-20 düştüğünü rapor etmiştir. Bu tür sonuçlar, model mimarisi sabit kalsa bile veri temsilinin performansı anlamlı biçimde etkileyebileceğini gösterir.
- Kanıt 2 — Bağımsız test seti eksikliği: Kamilaris & Prenafeta-Boldú (2018), incelediği 40 tarımsal DL çalışmasından yalnızca %20'sinin bağımsız test seti kullandığını tespit etmiştir. Bağımsız test kullanan çalışmalarda ortalama %15 performans düşüşü gözlenmiştir.
- Kanıt 3 — Etiket gürültüsü: Northcutt et al. (2021), ImageNet gibi yüksek kaliteli benchmark'larda bile %3,3 etiket hatası tespit etmiştir. Uzman olmayan etiketleyicilerin kullanıldığı tarımsal veri setlerinde bu oran çok daha yüksek olabilir — erken evre hastalık belirtilerinde etiketleyiciler arası uyum (Cohen's κ — etiketleyiciler arası güvenilirlik ölçüsü, 0=tesadüfi, 1=tam uyum) tipik olarak 0,4-0,6 aralığındadır.
Siirt bağlamı: Fıstık antraknozu erken evre belirtilerinde "hafif stres" ile "erken enfeksiyon" ayrımı subjektiftir — inter-annotator agreement düşüktür. Bu tutarsızlık doğrudan model performansına yansır.
Sonuç: veri kalitesi > veri miktarı > model karmaşıklığı. İyileştirme önceliği: (a) zemin doğrulama ve etiketleme tutarlılığı, (b) veri çeşitliliği artırma, (c) sensör füzyonu — model mimarisi değişikliği en sona.
| Müdahale | Tipik İyileşme | Maliyet |
|---|---|---|
| Daha karmaşık model | %1-3 | Düşük (kod değişikliği) |
| Hiperparametre optimizasyonu | %2-5 | Orta (hesaplama süresi) |
| Veri artırma (augmentation) | %3-8 | Düşük |
| Veri kalitesi iyileştirme | %5-20 | Yüksek (saha çalışması) |
| Ek veri kaynağı (sensör füzyon) | %7-20 | Yüksek (altyapı) |
Veri seti kartı (Datasheet): Gebru et al. (2021) her veri seti için standart belgeleme önerir — toplama protokolü, bilinen sınırlamalar, coğrafi/zamansal kapsam, etiketleyici nitelikleri. Tarımsal bağlamda: hangi çeşit? Hangi mevsim? Hangi bölge? Hangi kamera/sensör? Bu bilgiler olmadan model transferi yüksek belirsizlik taşır.
Tipik hata #5: Etiketleyiciler arası uyumsuzluk (inter-annotator disagreement). Erken evre hastalık belirtilerinde Cohen's κ < 0,60 olduğunda model gürültüyü öğrenir, hastalığı değil. Çözüm: çoklu etiketleme + uzlaşma protokolü (adjudication), label smoothing veya confident learning (güvenli öğrenme — cleanlab kütüphanesi ile gürültülü etiketlerin otomatik tespiti) ile gürültülü etiketlerin tespiti ve düzeltilmesi.
4.4 Doğrulama Stratejileri: Zamansal, Mekansal ve Çapraz-Bölge
Standart ML'de rastgele eğitim/test bölümlemesi (random split) geçerlidir çünkü gözlemler bağımsız ve aynı dağılımlıdır (i.i.d.). Tarımda bu varsayım üç nedenle çöker: (1) zamansal otokorelasyon — ardışık yılların verimi, hava koşulları ve toprak durumu üzerinden ilişkilidir; (2) mekansal otokorelasyon — komşu tarlalar benzer toprak, iklim ve yönetim pratiklerine sahiptir; (3) future leakage — rastgele bölümlemede gelecek yılın verileri eğitim setine sızar ve model "gelecekten hile yapar".
| Strateji | Tanım | Uygun Kullanım | Risk / Not |
|---|---|---|---|
| Random split | Gözlemlerin rastgele %80/20 bölünmesi | Yalnızca i.i.d. veriler (nadir tarımsal durum) | Zamansal/mekansal leakage → R² 0,15-0,30 şişirilir |
| Temporal split | train: yıl ≤ T, val: T+1, test: T+2 (walk-forward) | Verim tahmini, fiyat tahmini, iklim modelleri | Geriye dönük (backtesting) yetersiz olabilir; rejim değişikliklerinde dikkat |
| Spatial split | Coğrafi bloklar halinde bölümleme (spatial blocking) | Uzaktan algılama, arazi sınıflandırma, toprak haritalama | Blok boyutu otokorelasyon menzilinden büyük olmalı |
| GroupKFold | Aynı birim (tarla, ağaç, çiftlik) tek bir fold'da kalır | Aynı bitkinin farklı yaprakları, aynı tarladan çoklu ölçümler | Birim sayısı az olduğunda fold'lar dengesiz olabilir |
| Cross-region | Bölge A'da eğit, Bölge B'de test et (leave-one-region-out) | Modelin coğrafi genellenebilirliğini ölçme | Bölgeler arası iklim/toprak farkı performansı %20-40 düşürebilir |
Tipik hata #6: Zaman serisi verim verisine random split uygulamak. Ardışık yılların otokorelasyonu modelin "hile yapmasını" sağlar. Ayrıca aynı bitkinin farklı yapraklarının eğitim ve teste düşmesi (plant-level leakage) doğruluğu %5-15 şişirir — GroupKFold(groups=plant_id) bu tür durumlarda genellikle gerekir.
4.5 Belirsizlik Ölçümü (Uncertainty Quantification)
Tarımsal ML'de tek bir nokta tahmin çoğu zaman yeterli değildir: "bu tarlada 4,2 ton/ha verim bekleniyor" ifadesinin yanında bu tahminin ne kadar belirsiz olduğunun da bilinmesi gerekir. Aynı merkez tahmin, farklı güven düzeylerinde farklı karar eşikleri doğurabilir. Tarımsal kararların maliyeti çoğu zaman asimetriktir: hastalığı kaçırmak (false negative) ürün kaybına, gereksiz ilaçlama (false positive) ise maliyet ve çevresel yük artışına neden olabilir.
Üç temel belirsizlik ölçüm yaklaşımı:
- Bayesian Neural Networks / MC-Dropout: Ağırlıklar üzerinde posterior dağılım. Pratikte MC-Dropout (Gal & Ghahramani, 2016): dropout aktif bırakılarak N ileri geçiş yapılır, çıktıların varyansı epistemik belirsizliği verir. Varyans yüksekse model "emin değilim" diyor demektir.
- Conformal Prediction: Uygun kalibrasyon ve varsayımlar altında kapsama güvencesi sağlayan bir çerçeve. Kalibrasyon seti üzerinde uyumsuzluk skorları hesaplanır; yeni tahmin için belirli bir güven düzeyinde (ör. %90) aralık üretilir. Çoğu durumda mevcut modele sonradan eklenebilir.
- Ensemble disagreement: Random Forest'ta ağaçların veya deep ensemble üyelerinin varyansı. En ucuz yaklaşım — ek hesaplama maliyeti düşük. Ancak yalnızca epistemik belirsizliği yakalar, aleatorik (veri kaynaklı) belirsizliği kodlamaz.
Kalibrasyon: Model %80 güvenle "hastalıklı" diyorsa, gerçekten vakaların %80'i hastalıklı mı? Kalibre edilmemiş model aşırı güvenli tahminler verir. Expected Calibration Error (ECE) metriği, tahmin edilen güven ile gözlenen doğruluk arasındaki farkı ölçer. Tarımsal karar destek sistemlerinde ECE < 0,05 hedeflenmelidir.
Gerçek saha problemi: Siirt fıstığında alternans (var/yok yılı döngüsü) belirsizlik modellemesini önemli hale getirir. "Yok yılı"nda yüksek güvenle verilen tek değerli tahminler yanıltıcı olabilir; bu nedenle modelin alternans rejimini ve olası tahmin aralığını ayrıca yansıtması beklenir.
4.6 Domain Adaptasyon Araç Kutusu
Bölüm 2.2'de tanımlanan domain gap problemi pratikte önemlidir. Aşağıdaki araç kutusu, kaynak domain'den (kontrollü ortam) hedef domain'e (tarla koşulları) geçerken hangi uyarlama seçeneklerinin değerlendirilebileceğini özetler:
| Teknik | Mekanizma | Gereksinim | Beklenen İyileşme |
|---|---|---|---|
| DANN (Domain-Adversarial NN) | Gradient reversal layer ile domain-invariant öznitelikler öğrenme (Ganin et al., 2016) | Hedef domain'den etiketsiz veri | %15-25 doğruluk artışı |
| L2-SP regularizasyon | Fine-tuning sırasında ön-eğitimli ağırlıklardan sapmayı penalize etme: L = L_task + λ·||θ-θ₀||² | Ön-eğitimli model + hedef etiketli veri | Catastrophic forgetting'i %30-50 azaltma |
| Few-shot adaptasyon | Hedef domain'den 5-20 etiketli örnek ile prototypical networks veya son katman fine-tuning | Az sayıda etiketli hedef veri | %31 → %65-75 arası |
| TTA (Test-Time Adaptation) | Çıkarım sırasında batch normalization istatistiklerini hedef veriye adapte etme (TENT, DUA) | Etiketsiz hedef veri; yeniden eğitim gerektirmez | %5-15 iyileşme |
| Domain-spesifik augmentation | Hedef koşulları simüle eden veri artırma: değişken aydınlatma, karmaşık arka plan, yaprak örtüşmesi | Hedef ortam bilgisi | %5-10 iyileşme |
Domain mesafesi ölçümü: Adaptasyon öncesinde kaynak-hedef mesafesini ölçmek kritiktir. MMD (Maximum Mean Discrepancy) öznitelik dağılımları arasındaki farkı, FID (Fréchet Inception Distance) görüntü domain'leri arasındaki mesafeyi ölçer. Karar kuralı: domain mesafesi eşik değerinin üzerindeyse basit transfer öğrenme yetmez, yukarıdaki adaptasyon tekniklerinden biri gerekir.
GradCAM doğrulama: Adaptasyon sonrası modelin dikkat haritası kontrol edilmelidir — model hastalık lezyonuna mı, yoksa arka plan dokusuna veya veri seti yapıtaşlarına mı (watermark, çerçeve rengi) bakıyor? Shortcut learning tespitinin en güvenilir aracıdır.
4.7 MLOps: Modelden Üretime
Jupyter notebook'ta çalışan model, üretim modeli değildir. MLOps, deney ile canlı sistem arasındaki mühendislik köprüsüdür. Tarımsal bağlamda bu köprü özellikle kritiktir: modelin çıktısı fiziksel bir müdahaleye (ilaçlama, sulama, hasat zamanlaması) dönüşür ve hata maliyeti bir mevsimlik üretim kaybı olabilir.
| Aşama | Tanım | Araçlar | Tarımsal Örnek |
|---|---|---|---|
| CI/CD for ML | Otomatik yeniden eğitim tetikleyicileri; performans kapıları (baseline'ı geçmeli) | GitHub Actions, Jenkins, Kubeflow | Yeni hasat mevsimi verisi geldiğinde verim modelini yeniden eğit |
| Model Registry | Sürümlenmiş model yapıtları + meta veri (veri hash'i, metrikler, eğitim tarihi) | MLflow, Weights & Biases, DVC | Hangi model sürümü hangi mevsimde deploy edildi? Geri izlenebilirlik |
| Drift Detection | Veri drifti (öznitelik dağılımı kayması) + concept drift (hedef dağılım kayması) | Evidently AI, WhyLabs, PSI/KS-test | Sensör yaşlanması → öznitelik drifti; yeni hastalık suşu → concept drift |
| A/B Testing | Canary deployment: tarlaların %10'unda yeni model, %90'ında eski | Feature flags, split testing | Yeni ilaçlama reçetesi modelini pilot tarlalarda test et, mevsim sonu karşılaştır |
| Monitoring | Tahmin gecikmesi, hata oranı, öznitelik önem stabilitesi izleme | Prometheus, Grafana, custom dashboards | Edge cihazda çıkarım süresi artıyorsa → model veya donanım degradasyonu |
Tipik hata #7: Bitki hastalığı tespiti modelini deploy edip hiç yeniden eğitmemek. Yeni hastalık suşları ortaya çıkar, kamera donanımı değişir, tarla koşulları kayar — model performansı yıldan yıla düşer ve kullanıcı güveni kaybolur. Minimum yeniden eğitim sıklığı: yılda bir kez, yeni mevsim verisiyle.
Concept drift kaynakları: Tarımda concept drift dört temel kaynaktan gelir: (1) yeni hastalık suşları veya pestisit direnci evrimi, (2) iklim rejimi kayması (uzun vadeli sıcaklık/yağış trendleri), (3) çeşit portföyü değişimi (çiftçiler yeni kültürvarları benimser), (4) tarım pratikleri değişimi (organik geçiş, minimal toprak işleme). Bu kaynakların her biri modelin hedef dağılımını kaydırır.
Geri besleme döngüsü riski: Model ilaçlama tavsiyesi verir → çiftçi uygular → zararlı popülasyonu değişir → gelecek yılın eğitim verisi artık geçmişi temsil etmez. Bu kapalı döngü, modelin kendi çıktısını eğitim verisine sızdırmasıdır. Çözüm: causal-aware monitoring ve kontrol grubu (ilaçlanmayan referans parseller) tutulması.
Veri yönetişimi notu (KVKK): Tarımsal verinin mülkiyeti ve gizliliği ihmal edilmemelidir. GPS koordinatları kişisel veri kapsamındadır — çiftlik konumu üzerinden kimlik tespiti mümkündür. Kooperatif düzeyinde veri paylaşımı rıza gerektirir. Uydu verisi açık (Copernicus) veya lisanslı (ticari) olabilir — veri seti kartında kaynak lisansı belirtilmelidir.
4.8 Aktif Öğrenme ve İnsan-Döngü İçinde (Active Learning)
Uzman agronomist etiketleme zamanı tarımsal ML'in en kıt kaynağıdır. Aktif öğrenme, modelin en belirsiz olduğu örnekleri seçerek etiketleme verimliliğini maksimize eder — rastgele etiketlemeye kıyasla aynı performansa %30-50 daha az etiketli veriyle ulaşılabilir.
İki temel strateji:
- Uncertainty sampling: Model en düşük güvenle tahmin ettiği örnekleri uzman incelemesine gönderir. Bölüm 4.5'teki MC-Dropout veya ensemble variance doğrudan kullanılır.
- Query-by-committee: Birden fazla model (committee) eğitilir; üzerinde en çok anlaşmazlık olan örnekler seçilir. RF + SVM + CNN committee gibi farklı model aileleri daha zengin çeşitlilik sağlar.
Pratik iş akışı: (1) Mevcut etiketli veriyle ilk modeli eğit → (2) etiketsiz havuza çıkarım yap → (3) en belirsiz N örneği seç → (4) agronomist etiketlesin → (5) modeli yeniden eğit → tekrarla. Bu döngü, saha mevsimi boyunca sürer ve model her iterasyonda güçlenir.
5. Gelecek Perspektifi
5.1 Uç Bilişim (Edge AI) ve Saha Dağıtımı
Kırsal bölgelerde internet güvenilmez. Model sıkıştırma (INT8 kuantalama (quantization), yapısal budama (pruning), bilgi damıtma (knowledge distillation)) ile 20 MB altı model boyutu ve ARM işlemcilerde 200 ms altı çıkarım süresi hedeflenir. TensorFlow Lite ve ONNX (Open Neural Network Exchange — Açık Sinir Ağı Değişim Formatı) Runtime temel çerçevelerdir.
Tipik hata #8: INT8 kuantalama doğruluk kaybını GPU üzerinde test edip ARM (hedef donanım) üzerinde test etmemek. Kuantalama kaybı donanıma bağlıdır; özellikle erken evre hastalık tespitinde subtil sınıf farkları kuantalama sırasında kaybolabilir. Çözüm: QAT (Quantization-Aware Training — kuantalama farkındalıklı eğitim), hedef donanımda end-to-end doğrulama ve kritik sınıflar için per-class sensitivity analizi.
5.2 Çok Modlu Öğrenme ve Sensör Füzyonu
RGB + termal + LiDAR + spektral verilerin tek bir modelde birleştirilmesi. Mevcut yaklaşımlar erken füzyon (concat) veya geç füzyon (ensemble) — dikkat mekanizması tabanlı çapraz-modal füzyon (cross-modal attention) henüz tarımda yaygınlaşmamıştır.
5.3 Dijital İkiz Tarım Sistemleri
Shahhosseini et al.'ın APSIM+ML yaklaşımının evrimleşmiş hali: tarlayı sensör verileriyle sürekli güncellenen mekanistik simülasyonla temsil eden dijital ikiz. Gerçek zamanlı senaryo analizi (kuraklık etkisi, gübre optimizasyonu) ve sigorta fiyatlandırması potansiyeli.
5.4 Temel Modeller (Foundation Models) ve Tarımsal Uygulamaları
Büyük ölçekli önceden eğitilmiş modeller (uydu görüntüleri için SatMAE, tarımsal metin için AgGPT benzeri yapılar) çok görevli ince ayarla farklı tarımsal problemlere adapte edilebilir. Veri kıtlığı probleminin yapısal çözümü olabilir — ancak hesaplama maliyeti ve erişilebilirlik henüz darboğazdır.
5.5 Fizik-Bilgili Makine Öğrenmesi (Physics-Informed ML)
Bölüm 2.2'de tarımın fiziksel süreç bağımlılığı vurgulanmıştı. Physics-Informed Neural Networks (PINNs), fiziksel yasaları doğrudan loss fonksiyonuna entegre ederek saf veri-güdümlü modellerin iki temel zayıflığını giderir: (1) fiziksel olarak imkansız tahminler üretme (negatif evapotranspirasyon, enerji korunumu ihlali), (2) küçük veri setlerinde yetersiz genelleme.
Hibrit loss fonksiyonu: L = L_data + λ · L_physics burada L_data standart gözetimli kayıp (MSE, cross-entropy), L_physics ise fiziksel denklemlerin residual'ı. Örneğin sulama modelinde Penman-Monteith evapotranspirasyon denklemi kısıt olarak eklenir; toprak su dinamiklerinde Richards denklemi modelin tahminlerini fiziksel olarak tutarlı olmaya zorlar. λ hiperparametresi veri-fizik dengesini kontrol eder: az veri → yüksek λ (fizik dominant), çok veri → düşük λ (veri dominant).
Tarımsal uygulamalar: Shahhosseini et al.'ın APSIM+ML hibrit yaklaşımı (%7-20 RMSE iyileşme) bu paradigmanın erken örneğidir. Tam PINN yaklaşımında simülasyon modeli ayrı çalıştırılmaz — fiziksel denklemler doğrudan sinir ağının eğitimine dahil edilir.
5.6 Nedensellik Çıkarımı (Causal Inference)
Bu dersteki tüm modeller korelasyoneldir: "NDVI yüksekse verim yüksek" der ama "NDVI'yı artırırsak verim artar mı?" sorusuna cevap veremez. Tarımsal kararlar ise müdahale (intervention) gerektirir — ne kadar gübre, ne kadar su, hangi ilaç? Bu sorular nedensel çıkarım gerektirir.
Yönlendirilmiş Çevrimsiz Grafik (DAG) örneği: Gübre → Toprak Azotu → Verim, ancak Çiftlik Yönetim Kalitesi hem gübre kullanımını hem verimi etkiler (confounding). Gözlemsel veride gübre-verim korelasyonu, yönetim kalitesinin etkisini de içerir. Nedensel etki için do-calculus (P(Y|do(X))) veya instrumental variables gerekir.
Pratik değer: Nedensel modeller (a) gerçek müdahale etkisini ölçer — gübre reçetesinin marjinal getirisi, (b) dağılım dışı genelleme sağlar — yeni bölgede korelasyonlar değişir ama nedensel mekanizma korunur, (c) adil kaynak dağılımını destekler — sulama önceliklendirmesinde nedensel katkı sıralaması.
5.7 Federatif Öğrenme (Federated Learning)
Birden fazla çiftliğin verisini merkezi sunucuya göndermeden ortak model eğitmesi. Federatif öğrenme'de her çiftlik yerel model güncellemelerini (gradyan) hesaplar, yalnızca bu gradyanları paylaşır — ham veri çiftlikten çıkmaz. Bu yaklaşım iki kritik sorunu çözer: (1) veri gizliliği — çiftlik verisi ticari sırdır, rakiplerle paylaşılamaz; (2) ölçeklenebilirlik — binlerce çiftlikten merkeze veri taşıma bant genişliği açısından pratik değildir.
Tarıma özgü zorluk — non-IID veri: Her çiftliğin farklı iklimi, toprağı ve çeşitleri vardır (non-IID: non-independent and identically distributed). Standart federatif ortalamalama (FedAvg) bu heterojenlikte yakınsamada zorlanır. FedProx veya kişiselleştirilmiş federatif öğrenme yaklaşımları gerekir.
6. Kapanış
Tarım, makine öğrenmesinin en zor uygulama domainlerinden biridir. Kontrollü ortam yok, veri seti küçük, fiziksel süreçler karmaşık, domain gap büyük, aksiyona dönüşüm doğrudan fiziksel dünyayı etkiler.
Bu dersin ana mesajları:
- Model değil, sistem düşün. En iyi CNN, kalibre edilmemiş kamera ile çöker. En iyi LSTM, senkronize edilmemiş veriyle öğrenemez.
- Veri kalitesi her zaman model seçiminden önemlidir. %99 doğruluk, eğitim-test dağılımı aynıysa anlamsızdır.
- Domain bilgisi vazgeçilmezdir. Fıstıkta alternans, toprakta karbonat müdahalesi, sensörde drift — bunları bilmeden model kurmak, sistematik hata kaynağıdır.
- Her çözümün bir bedeli var. YOLO hızlıdır ama küçük nesnelerde zayıftır. LSTM güçlüdür ama veri açtır. Transfer learning işe yarar ama domain gap'i kapatmaz.
- Doğrulama stratejisi, model seçimi kadar önemlidir. Random split tarımda yanıltıcıdır — zamansal ve mekansal bölme çoğu durumda daha uygundur (bkz. Bölüm 4.4).
- Belirsizlik ölçümü olmayan tahmin, karar desteği değildir. Çiftçi nokta tahminiyle değil, güven aralığıyla karar alır (bkz. Bölüm 4.5).
- Aksiyona dönüşmeyen tahmin değer üretmez. Model "hasat erken yapılmalı" derse ama çiftçinin el gücü veya depolama kapasitesi yoksa, tahmin aksiyona dönüşmez. Modelin çıktısı, çiftçinin operasyonel kısıtlarıyla uyumlu olmalıdır.
28 konunun tamamı bu çerçevenin farklı izdüşümleridir. Derinlemesine içerik için her konunun detay sayfasına başvurunuz.
Hızlı referans tablosu:
| Problem Ailesi | Temel Teknik | Birincil Veri | En Sık Hata Modu |
|---|---|---|---|
| 1. Bilgisayarla Görme | CNN + Transfer Learning | RGB / Multispektral görüntü | Domain gap (lab→tarla) |
| 2. Uzay-Zamansal | LSTM / XGBoost / Hibrit | Uydu zaman serisi + meteoroloji | Temporal leakage + alternans |
| 3. Spektroskopi | PLS / 1D-CNN | NIR / MIR spektrumu | Baseline drift + cihaz transferi |
| 4. IoT / Kontrol | MPC + ML hibrit / RL | Sensör akışı (nem, sıcaklık) | Sensör drift + enerji kısıtı |
| 5. Genomik | GBLUP / RF | SNP dizileri (p >> n) | Overfitting + batch etkisi |
| 6. Sistemler / Ekonomi | ARIMA+LSTM hibrit | Fiyat / üretim zaman serisi | Dışsal şoklar (iklim, pandemi) |
| 7. Robotik | SLAM + YOLO | Kamera + LiDAR + GPS | Arazi değişkenliği + GPS kaybı |
Bu sayfa, sitedeki konu başlıklarını bir araya getiren editoryal bir giriş dersidir. Sistematik derleme veya meta-analiz olarak değil, yönlendirici bir çerçeve metni olarak okunmalıdır.
Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği