Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

0.0 Temel Kavramlar — Makine Öğrenmesine Giriş

Dr. Mehmet Solak · Siirt Üniversitesi · Biyosistem Mühendisliği

Bu metin, makine öğrenmesinin temel kavramlarını, herhangi bir uygulama alanına geçmeden önce edinilmesi gereken düzeyde sunar. Anlatım, teknik doğruluğu korurken kavramsal erişilebilirliği ön planda tutar. Tarımsal örnekler yalnızca kavramı somutlaştırmak için ve epistemik durumları açıkça belirtilerek verilmiştir.

1. Veri Yapıları ve Ön İşleme

1.1 Veri Türleri

Tanım

Makine öğrenmesi modelleri farklı biçimlerdeki verilerle çalışır. Temel ayrım şu şekilde yapılabilir:

  • Sayısal (Numerical): Sürekli veya kesikli ölçülebilir büyüklükler. Sürekli örnek: sıcaklık (C); kesikli örnek: dal sayısı.
  • Kategorik (Categorical): Sonlu sayıda sınıf veya etiket. Nominal (sırasız: toprak tipi) veya ordinal (sıralı: düşük/orta/yüksek verimlilik) olabilir.
  • Metin (Text): Doğal dil biçiminde yapılandırılmamış veri.
  • Görüntü (Image): Piksel değerlerinden oluşan matris ya da tensör yapısı.
  • Zaman Serisi (Time Series): Zamana göre indekslenmiş ardışık gözlemler.

Neden Gerekli?

Veri türü, uygulanabilecek ön işleme adımlarını, uygun model ailelerini ve değerlendirme stratejilerini doğrudan belirler. Kategorik bir değişkeni sayısal olarak kodlamadan birçok algoritmaya girdi olarak vermek mümkün değildir; görüntü verisine tablolu veri yöntemleri doğrudan uygulanamaz.

Tarımsal Bağlamda Yeri

Tarım, doğası gereği çok kaynaklı ve çok türlü veri üreten bir alandır. Bu çeşitlilik, tarımsal makine öğrenmesi projelerini diğer uygulama alanlarından ayıran temel bir özelliktir. Aşağıda her veri türü, tarımsal kaynakları ve modelleme açısından önemiyle birlikte sunulmaktadır.

Sayısal Veriler

Temsili veri şeması (gerçek veri değildir):

KaynakDeğişkenBirimTipik AralıkTemsil Ettiği Süreç
Toprak sensörüToprak nemi%10–55Kök bölgesi su erişilebilirliği
Toprak sensörüpH4.0–9.0Besin elementi alınabilirliği
Toprak sensörüElektriksel iletkenlik (EC)dS/m0–20Tuzluluk stresi
Meteoroloji ist.Günlük yağışmm0–150Su bütçesi girdisi
Meteoroloji ist.Günlük ortalama sıcaklık°C-5–45Büyüme hızı, don riski
Meteoroloji ist.Bağıl nem%20–100Evapotranspirasyon, hastalık riski
Bitki ölçümüYaprak alanı indeksi (LAI)m2/m20–8Fotosentetik kapasite
Bitki ölçümüKlorofil içeriği (SPAD)20–60Azot durumu
Hasat kaydıVerimton/ha1–12Üretim çıktısı (hedef değişken)

Bu değişkenlerin ölçek farklılıkları (pH: 4–9, yağış: 0–150, LAI: 0–8) modelleme öncesinde ölçekleme gerekliliğini doğrudan ortaya koyar.

Kategorik Veriler

Temsili değişken şeması:

DeğişkenTürOlası DeğerlerModeldeki Rolü
Toprak tipiNominalKumlu, killi, tınlı, siltli-killi-tınlı, ...Su tutma kapasitesi ve drenaj farklılıkları
Sulama yöntemiNominalDamla, yağmurlama, karık, kuru tarımSu kullanım verimliliği ayrımı
Arazi kullanımıNominalTarla, mera, orman, yerleşimArazi örtüsü sınıflandırması
Çeşit/KultivarNominalYüzlerce olası değerGenetik verim potansiyeli
Hastalık varlığıİkiliVar / YokSınıflandırma hedef değişkeni
Hastalık şiddetiOrdinalYok / Hafif / Orta / ŞiddetliSıralı regresyon veya sınıflandırma
Ekim sistemiNominalMonoculture, münavebe, karışık ekimVerim ve hastalık dinamiği ayrımı

Kategorik değişkenler, modelin koşulları ayırt etmesini sağlar: aynı iklim verisi altında damla sulama ile kuru tarım yapılan iki parselin verim dinamikleri farklıdır.

Görüntü Verileri

Tarımda son on yılda en hızlı büyüyen veri türüdür. Farklı platformlar farklı bilgi katmanları sunar:

1. RGB hava fotoğrafı (drone/uçak): Santimetre düzeyinde çözünürlükte görünür bant görüntüleri. Bitki sıra yapısı, boşluk oranı ve genel tarla durumu gözlemlenir.

Tarımsal drone ile çekilmiş pirinç tarlası RGB hava fotoğrafı

Drone ile çekilmiş pirinç tarlası RGB görüntüsü (Aomori, Japonya). Kaynak: Wikimedia Commons, CC BY-SA 4.0.

2. Uydu görüntüsü (Sentinel-2 / Copernicus): Çok bantlı (multispektral) uydu verileri, tarla ölçeğinde mekansal heterojenliği ve zaman içindeki bitki örtüsü değişimini yansıtır. Tipik çözünürlük: 10–60 m/piksel.

Sentinel-2 Copernicus tarımsal uydu görüntüsü

Sentinel-2 uydu görüntüsü — Avusturya ve Slovakya tarım arazileri (Copernicus, 2024). Kaynak: Wikimedia Commons, CC BY-SA 4.0, ESA.

3. Hava fotoğrafı (yüksek irtifa): Tarla parsellerinin mekansal düzeni, ürün çeşitliliği ve arazi kullanım yapısı makro ölçekte görülür.

Yüksek irtifa hava fotoğrafı — tarla parselleri

Tarla parsellerinin hava fotoğrafı (Dülmen, Almanya, 2024). Kaynak: Wikimedia Commons, CC BY-SA 4.0, Dietmar Rabich.

4. NDVI haritası: Normalized Difference Vegetation Index — NIR ve kırmızı bantlardan türetilen bitki sağlığı indeksi. Yeşil alanlar yüksek fotosentetik aktiviteyi, sarı-kırmızı alanlar stres veya çıplak toprağı gösterir.

NDVI bitki sağlığı haritası

NDVI haritası (Lublin bölgesi). Kaynak: Wikimedia Commons, CC BY-SA 4.0.

5. NDVI — sulanan tarla detayı: Parsel düzeyinde NDVI dağılımı, sulama ve verimlilik farklılıklarını görsel olarak ayırt etmeye olanak tanır.

Sulanan tarla parselleri NDVI görüntüsü

Sulanan tarla parsellerinin NDVI görüntüsü. Kaynak: Wikimedia Commons, CC BY-SA 3.0.

Bu görüntülerin her biri farklı piksel boyutu, bant sayısı ve mekansal referans sistemiyle gelir; ön işleme gereksinimleri (geometrik düzeltme, atmosferik düzeltme, bant hizalama) tablolu veriden temelden farklıdır.

Zaman Serisi Verileri

Bitki büyümesi, toprak nemi değişimi ve iklimsel koşullar zamanla değişen süreçlerdir. Bu verilerin temel özelliği, gözlemlerin birbirinden bağımsız olmamasıdır (otokorelasyon). Bu yapı, hem model seçimini (LSTM, ARIMA, Transformer) hem de doğrulama stratejisini (kronolojik bölünme zorunluluğu) doğrudan etkiler.

Temsili veri (gerçek ölçüm değildir) — 6 aylık büyüme dönemi izleme:

Tarımsal zaman serisi verisi — toprak nemi, NDVI ve sıcaklık

Temsili zaman serisi: toprak nemi (%), NDVI ve günlük sıcaklık (°C). Yağış olaylarının toprak nemine ani etkisi, NDVI'nın mevsimsel büyüme eğrisi ve sıcaklığın sinüzoidal yapısı gözlemlenmektedir. Bu veri gerçek ölçüm değildir.

Metin ve Mekansal Veriler

Metin verileri (tarla notları, uzman raporları, araştırma makaleleri) yapılandırılmış veri setlerinde yer almayan bağlamsal bilgi taşır. Mekansal veriler (GPS koordinatlı örnekler, parsel sınırları, eğim haritaları) diğer türlere ek boyut olarak eşlik eder. Mekansal otokorelasyon, modelleme ve doğrulamada dikkate alınması gereken bir yapıdır.

Bütünsel değerlendirme: Tek bir verim tahmini çalışmasında bu türlerin çoğu bir arada bulunabilir. Bu çok kaynaklı yapı, veri birleştirme (data fusion) ve her türe özgü ön işleme adımlarını zorunlu kılar.

1.2 Eğitim / Doğrulama / Test Ayrımı

Tanım

Veri seti, modelin öğrenme ve değerlendirme süreçlerini birbirinden ayırmak için alt kümelere bölünür:

KümeİşlevYaygın Oran
Eğitim (Train)Model parametrelerinin öğrenilmesi%60–80
Doğrulama (Validation)Hiperparametre seçimi, erken durdurma kararı%10–20
TestModelin nihai, bağımsız performans ölçümü%10–20

Neden Gerekli?

Test verisi, model geliştirme sürecinde herhangi bir karar için kullanılırsa, performans tahminleri yukarı yönlü sapma gösterir. Bu durum veri sızıntısı (data leakage) olarak adlandırılır ve modelin gerçek genelleme kapasitesinin olduğundan yüksek görünmesine yol açar.

Sınırlar / Hatalı Kullanımlar

  • Küçük veri setlerinde sabit bölünme, yüksek varyansa sahip performans tahminleri üretebilir. Bu durumda çapraz doğrulama tercih edilmelidir (bkz. 4.4).
  • Zaman serisi verisinde rastgele bölünme, zamansal sızıntıya neden olabilir. Kronolojik bölünme kullanılmalıdır.

1.3 Özellik Mühendisliği (Feature Engineering)

Tanım

Ham veriden, modelin öğrenme kapasitesini artırması beklenen yeni girdi değişkenleri türetme sürecidir.

Neden Gerekli?

Ham değişkenler, hedef değişkenle doğrudan ilişkili olmayabilir. Türetilmiş özellikler, verinin bilgi içeriğini modelin erişebileceği biçime dönüştürür. Özellik mühendisliğinin kalitesi, özellikle klasik (derin olmayan) modellerde, model performansını belirleyen başlıca etkenlerden biridir.

Tarımsal Bağlamda Yeri

Tipik uygulama örneği: Uzaktan algılama çalışmalarında, ham spektral bant değerleri yerine bu bantlardan türetilen indeksler (örn. NDVI = (NIR − Red) / (NIR + Red)) kullanılması yaygındır. Bu tür türetmelerin gerçek katkısı probleme ve verinin yapısına bağlıdır; otomatik olarak ham bantlardan üstün olduğu varsayılmamalıdır.

1.4 Veri Ön İşleme

Tanım

Ham veriyi, modelin girdi gereksinimlerine uygun hale getirmek için uygulanan dönüşüm adımlarıdır.

Temel İşlemler

Ölçekleme (Scaling)

Farklı birim ve aralıklardaki özellikleri ortak ölçeğe getirme işlemidir. Min-Max normalizasyonu değerleri [0,1] aralığına, Z-score standardizasyonu sıfır ortalama ve birim varyansa dönüştürür. Uzaklık tabanlı algoritmalar (k-NN, SVM) ölçeklemeye özellikle duyarlıdır.

Tarımsal bağlam: pH (4–9), yağış (0–150 mm), LAI (0–8 m2/m2) gibi değişkenler çok farklı ölçeklerdedir. Ölçekleme yapılmazsa, geniş aralıklı değişkenler uzaklık tabanlı algoritmalarda dar aralıklıları baskılar — agronomik açıdan kritik olan pH, modelde görünmez hale gelebilir.

Eksik Veri İşleme

Silme (listwise/pairwise), ortalama/medyan ile doldurma veya model tabanlı impütasyon yöntemleri uygulanabilir. Yöntem seçimi, eksikliğin mekanizmasına (MCAR — tamamen rastgele, MAR — koşullu rastgele, MNAR — rastgele olmayan) bağlıdır.

Tarımsal bağlam: Tarla koşullarında eksik veri sıradan değil, yapısaldır. Toprak nem sensörleri aşırı kuraklıkta ölçüm aralığının dışına çıkabilir; yağış ölçerler donma döneminde çalışmayabilir; drone uçuşları bulutlu veya rüzgarlı günlerde iptal edilir; uydu görüntüleri bulut örtüsü altında kayıp piksel içerir. Bu eksikliklerin her birinin mekanizması farklıdır: sensör arızası rastgele olabilir, ancak bulut örtüsü nedeniyle kayıp uydu pikselleri sistematik olarak yağışlı dönemlere denk gelir — yani bitki stresinin en kritik olabileceği dönemler paradoksal biçimde en az gözlemlenen dönemlerdir. Bu durumda basit ortalama ile doldurma ciddi bir bilgi kaybı yaratır: kuraklık dönemindeki toprak nemini yıllık ortalamayla doldurmak, gerçek stres koşullarını maskeleyerek modelin stres-verim ilişkisini öğrenme kapasitesini zayıflatır. Zamansal yapıyı koruyan impütasyon yöntemleri (zaman pencereli interpolasyon, Kalman filtresi tabanlı yaklaşımlar) veya en azından mevsimsel medyan ile doldurma, tarımsal verilerde koşulsuz ortalamaya göre daha savunulabilir seçeneklerdir.

Kategorik Kodlama

Nominal değişkenlerde One-Hot Encoding, ordinal değişkenlerde sıralı tamsayı kodlama yaygındır. Yüksek kardinalite durumunda target encoding gibi alternatifler değerlendirilebilir.

Tarımsal bağlam: Tarımsal veri setlerinde kategorik değişkenler genellikle alan bilgisiyle doğrudan ilişkili sınıflandırmalardır. Toprak tipi (kumlu, killi, tınlı, siltli-killi-tınlı vb.), sulama yöntemi (damla, yağmurlama, karık, yüzey, kuru tarım), ekim sistemi (monoculture, münavebe, consociasyon), çeşit/kultivar adı ve hastalık türü gibi değişkenler modele dahil edilir. Bu değişkenlerin kodlama yöntemi, modelin bunları nasıl kullandığını doğrudan belirler. Toprak sınıflandırma sistemlerinde (USDA, FAO) düzinelerce alt sınıf bulunabilir; bu yüksek kardinaliteyi One-Hot ile kodlamak özellik uzayını aşırı genişletir ve seyreklik (sparsity) problemi yaratır. Çeşit adları da benzer biçimde yüzlerce kategori içerebilir. Bu durumlarda target encoding (hedef değişkenin sınıf bazında ortalamasıyla kodlama) veya ağaç tabanlı modellerin doğal kategorik desteği daha uygun olabilir. Ordinal yapılar da dikkate alınmalıdır: hastalık şiddeti (yok / hafif / orta / şiddetli) sıralı bir yapı taşır ve bu sıralılığı koruyan kodlama (0, 1, 2, 3) modelin gradyan ilişkisini öğrenmesine yardımcı olabilirken, One-Hot kodlama bu bilgiyi yok eder.

Aykırı Değer İşleme

Tarımsal bağlam: Tarla verisinde aykırı değerler iki farklı kaynaktan gelebilir: ölçüm hatası veya gerçek biyolojik/çevresel olay. Toprak nem sensörünün geçici olarak hava ile temas kaybetmesi sonucu verdiği negatif değer bir ölçüm hatasıdır ve temizlenmelidir. Ancak bir parseldeki beklenmedik verim düşüşü, yerel dolu hasarı veya kök çürüklüğü gibi gerçek bir olayı yansıtıyor olabilir — bu gözlemi otomatik olarak silmek, modelin olağandışı koşulları öğrenme kapasitesini kısıtlar. Tarımsal verilerde aykırı değer kararı, alan bilgisi gerektiren bir değerlendirme sürecidir; istatistiksel eşik (IQR, z-skoru) tek başına yeterli bir kriter değildir.

Sınırlar / Hatalı Kullanımlar

  • Ölçekleme parametrelerinin (ortalama, standart sapma) test verisi dahil edilerek hesaplanması veri sızıntısı oluşturur. Bu parametreler yalnızca eğitim setinden türetilmelidir.
  • Mevsimsel yapı taşıyan eksik verilerde koşulsuz ortalama ile doldurma, yapay olarak düşük varyans üretebilir ve gerçek stres dönemlerini maskeleyebilir.
  • Yüksek kardinaliteli kategorik değişkenlerde One-Hot kodlama, seyrek ve yüksek boyutlu özellik uzayı oluşturarak küçük veri setlerinde overfitting riskini artırır.
  • Tarla verisindeki aykırı değerlerin otomatik silinmesi, gerçek biyolojik olayların kaybına yol açabilir; alan bilgisi olmadan istatistiksel eşik uygulamak risklidir.

Kısa Kavrama Kontrolü

? Eğitim ve test seti birleştirilerek Z-score standardizasyonu yapılırsa, test seti performans tahmini üzerinde nasıl bir etki beklenir ve bu neden sorunludur?
Yanıt

Birleşik hesaplama durumunda, test verisinin ortalama ve standart sapma bilgisi ölçekleme parametrelerine sızar. Bu, test örneklerinin dönüştürülmüş değerlerinin eğitim sırasında dolaylı olarak "görülmüş" olması anlamına gelir. Sonuç olarak test seti performansı yukarı yönlü sapma gösterir — model, gerçekte sahip olmadığı bir genelleme kapasitesine sahipmiş gibi görünür. Bu durum veri sızıntısı (data leakage) olarak adlandırılır. Doğru yaklaşım, ölçekleme parametrelerinin yalnızca eğitim setinden hesaplanması ve aynı parametrelerin test setine uygulanmasıdır (fit yalnızca eğitimde, transform hem eğitim hem testte).

2. Öğrenme Paradigmaları

2.1 Denetimli Öğrenme (Supervised Learning)

Tanım

Girdi-çıktı çiftlerinden (X, y) oluşan etiketli veri kullanılarak, f: X → y eşlemesini yaklaştıran bir model öğrenilir.

  • Sınıflandırma: Hedef değişken sonlu sayıda kategoriden oluşur.
  • Regresyon: Hedef değişken sürekli bir niceliktir.

Neden Gerekli?

Etiketli verinin mevcut olduğu ve spesifik bir tahmin hedefinin tanımlanabildiği durumlarda en doğrudan yaklaşımdır. Model başarısı, etiketlerin kalitesine ve temsil gücüne doğrudan bağlıdır.

Tarımsal Bağlamda Yeri

Sınıflandırma örneği — Yaprak hastalığı tespiti: Denetimli sınıflandırmanın tarımdaki en yaygın uygulamalarından biri, yaprak görüntülerinden hastalık tanımadır. Model, etiketlenmiş görüntülerden (sağlıklı / hasta) hastalık belirtilerinin görsel örüntülerini öğrenir. Aşağıdaki görüntü, domates yaprağında geç yanıklık (Phytophthora infestans) belirtilerini göstermektedir — koyu kahverengi nekrotik lezyonlar ve yaprak kıvrılması tipik sınıflandırma etiketleme unsurlarıdır.

Domates yaprağında geç yanıklık (late blight) belirtileri

Domates yaprağında geç yanıklık (Phytophthora infestans). Kaynak: Wikimedia Commons, CC BY 2.0, Scot Nelson.

Bir sınıflandırma modelinin bu görüntüyü işleme biçimi şu şekilde özetlenebilir: girdi olarak yaprak görüntüsü (piksel matrisi) alınır; model, eğitim aşamasında binlerce etiketli görüntüden hastalık belirtilerinin uzamsal ve renk örüntülerini öğrenir; çıktı olarak sınıf etiketi (sağlıklı / geç yanıklık / erken yanıklık / septoria vb.) ve her sınıfa ait olasılık tahmini üretir. Sınıflandırma doğruluğu, etiketlerin tutarlılığına (uzman doğrulaması), görüntü kalitesine (çözünürlük, aydınlatma koşulları) ve eğitim setinin sınıf dağılımına doğrudan bağlıdır.

Regresyon örneği — Verim tahmini: Denetimli regresyon, sürekli bir niceliktir olan hedef değişkeni tahmin eder. Tarımda en yaygın regresyon problemi verim tahminidir: iklim değişkenleri, toprak parametreleri ve yönetim uygulamalarından hareketle birim alan başına ürün miktarı (ton/ha) öngörülmeye çalışılır.

Aşağıdaki grafik, yıllık yağış miktarı ile buğday verimi arasındaki doğrusal regresyon ilişkisini göstermektedir:

Doğrusal regresyon örneği: yağış-verim ilişkisi (temsili veri)

Temsili veri ile doğrusal regresyon örneği. Bu veri gerçek ölçüm değildir; yalnızca kavramsal açıklama amaçlıdır.

Grafiğin yorumu:

  • Model denklemi: Verim = 0.0070 x Yagis + 1.01. Bu, yağış miktarındaki her 100 mm artışın verimde yaklaşık 0.70 ton/ha artışla ilişkili olduğunu ifade eder.
  • R2 = 0.929: Modelin, verim değişkenliğinin yaklaşık %93'ünü açıkladığını gösterir. Kalan %7 açıklanmayan varyans, modele dahil edilmeyen diğer faktörlere (toprak yapısı, gübre uygulaması, çeşit farklılıkları, sıcaklık vb.) veya ölçüm gürültüsüne atfedilebilir.
  • Eğim katsayısı (w = 0.0070): Her değişkenin hedef üzerindeki marjinal etkisini doğrudan gösterir — doğrusal regresyonun yorumlanabilirlik avantajı budur.
  • Kesişim (b = 1.01): Yağış sıfır olduğunda bile tahmin edilen verim değeri. Biyolojik açıdan bu değer, kuru koşullarda minimum verim kapasitesi olarak yorumlanabilir; ancak model, eğitim aralığı dışında güvenilir ekstrapolasyon garanti etmez.
! Sınırlılık notu: Gerçek yağış-verim ilişkisi nadiren doğrusaldır. Çok düşük yağışta kuraklık stresi, çok yüksek yağışta su baskını ve fungal hastalık riski nedeniyle ilişki tipik olarak parabolik veya doygunluk eğrisi biçimindedir. Doğrusal regresyon burada yalnızca kavramsal giriş amaçlıdır; gerçek uygulamalarda polinom regresyon, karar ağaçları veya parçalı doğrusal modeller daha uygun olabilir.

Her iki uygulama türünde de model başarısı, etiketlerin kalitesine (uzman doğrulaması, tutarlılık) ve eğitim verisinin temsil gücüne doğrudan bağlıdır.

2.2 Denetimsiz Öğrenme (Unsupervised Learning)

Tanım

Hedef değişken (y) bulunmaksızın, yalnızca girdi verisinin (X) yapısal özelliklerini modellemeye yönelik öğrenme paradigmasıdır. Amaç, veri dağılımındaki örüntüleri, benzerlik ilişkilerini veya sapmaları ortaya çıkarmaktır.

Denetimsiz öğrenmede üç temel problem türü vardır:

  • Yapı keşfi (Clustering): Benzer gözlemleri gruplama.
  • Temsil öğrenme (Dimensionality Reduction): Veriyi daha düşük boyutlu temsile indirgeme.
  • Sapma tespiti (Anomaly Detection): Veri dağılımından belirgin biçimde sapan gözlemleri belirleme.

Neden Gerekli?

Etiketli verinin bulunmadığı veya veri yapısının önceden bilinmediği durumlarda keşifsel analiz sağlar. Ayrıca denetimli öğrenme öncesinde veri yapısını anlamak, gürültüyü azaltmak ve temsil kalitesini iyileştirmek için kullanılır.

Tarımsal Bağlamda Kullanım

Denetimsiz öğrenme, tarımda çoğunlukla veri yapısının keşfi ve karar destek sistemlerinin ön aşaması olarak kullanılır. Aşağıdaki uygulamalar literatürde yaygın biçimde raporlanmıştır.

1. Yönetim Bölgesi Belirleme ve VRA Pipeline'ı

Tarla içi heterojenliği modellemek amacıyla toprak özellikleri (EC, pH, organik madde), çok yıllık verim haritaları ve NDVI verileri üzerinde k-Means veya Fuzzy C-Means kümeleme uygulanır. Elde edilen kümeler, benzer üretim davranışına sahip yönetim bölgelerini tanımlar. Bu bölgeler, bir sonraki aşamada değişken oranlı gübreleme (VRA) ve sulama optimizasyonu gibi uygulamalara doğrudan girdi sağlar. Mekansal gürültüyü temizlemek için DBSCAN yumuşatma adımı eklenebilir.

Bu süreç tek başına bir "uygulama" değil, bir pipeline'dır: Kümeleme → Bölge tanımlama → VRA uygulama. Operasyonel sistemlerde sınırlı fakat artan kullanım alanı bulunmaktadır.

2. Uydu Verisinde Kümeleme Tabanlı Arazi Analizi

Çok bantlı uydu verisinde (Sentinel-2, SAR) piksel vektörleri spektral uzayda kümeleme ile gruplanır. Oluşan kümeler, benzer bitki örtüsü davranışını temsil eder. Bu işlem doğrudan "sınıflandırma" değildir: küme → sınıf eşlemesi sonradan uzman bilgisiyle yapılır (post-labeling). Zaman serisi kümeleme (SITS — Satellite Image Time Series) yaklaşımları, mevsimsel bitki gelişim eğrilerine göre farklı ürün türlerini ayırt edebilmektedir.

3. Sensör Verilerinde Anomali Tespiti

Tarla sensörlerinden gelen zaman serisi verilerinde iki temel denetimsiz anomali tespiti yaklaşımı kullanılır:

  • Yoğunluk tabanlı (density-based): Isolation Forest — veri dağılımındaki seyrek bölgeleri anomali olarak işaretler.
  • Yeniden yapılandırma tabanlı (reconstruction-based): Autoencoder — normal veriyi sıkıştırıp yeniden oluşturmayı öğrenir; yüksek yeniden yapılandırma hatası anomali göstergesidir.

Her iki yaklaşım da sensör hatası (takılı değer, drift, ani sıçrama) ile gerçek çevresel değişimi ayırt etmeyi amaçlar. Zaman serisi verilerinde gözlemler arası bağımlılık yapısı dikkate alınmalıdır: ardışık gözlemlerde anlık bir sapma ile kademeli bir trend kayması farklı anomali türleridir.

4. Hiperspektral Veride Boyut Azaltma

İHA veya yer tabanlı hiperspektral kameralar 50–200+ bant üretir. PCA uygulanarak bu bantlar, varyansı en çok açıklayan 5–10 temel bileşene indirgenir; hesaplama maliyeti düşer ve gürültü filtrelenir. Ancak PCA bileşenleri fiziksel anlamlılık garanti etmez — yalnızca varyansı optimize eder. Bileşenlerin agronomik yorumlanabilirliği ek analiz gerektirir.

Sınırlar / Hatalı Kullanımlar

  • Kümeleme sonuçları benzersiz değildir; başlangıç noktalarına duyarlıdır (k-means++ bu sorunu azaltır).
  • Küme sayısı (k) çoğu durumda dışsal olarak belirlenir; elbow ve silhouette yöntemleri rehberlik eder ancak kesin garanti sunmaz.
  • Boyut azaltma yöntemleri bilgi kaybına neden olabilir; açıklanan varyans oranı izlenmelidir.
  • Anomali tespiti sonuçları, "anomali" tanımına yüksek derecede bağımlıdır; alan bilgisi olmadan yorumlanmamalıdır.

Yöntem Seçimi Bağlamı

AmaçUygun YöntemVeri Yapısı Koşulu
Tarla içi heterojenlik keşfik-Means, Fuzzy C-MeansTablolu, sayısal, düşük-orta boyut
Mekansal gürültü temizlemeDBSCANKoordinatlı veriler, değişken yoğunluklu kümeler
Yüksek boyutlu veri indirgemePCAKorelasyonlu çok sayıda özellik (hiperspektral)
Sensör hatası / sapma tespitiIsolation Forest, AutoencoderZaman serisi, etiket yok

2.3 Pekiştirmeli Öğrenme (Reinforcement Learning)

Tanım

Pekiştirmeli öğrenme, bir ajanın bir çevre ile etkileşerek zaman içinde eylemler seçtiği ve bu eylemler sonucunda elde ettiği ödüller üzerinden bir karar politikası (policy) öğrendiği paradigmadır. Amaç, beklenen kümülatif ödülü maksimize eden politikayı bulmaktır.

Problem genellikle bir Markov Karar Süreci (MDP) ile tanımlanır:

  • Durum: s ∈ S — sistemin anlık durumu
  • Eylem: a ∈ A — ajanın alabileceği kararlar
  • Geçiş: P(s'|s, a) — eylem sonrası yeni duruma geçiş olasılığı
  • Ödül: R(s, a) — anlık geri bildirim

Amaç fonksiyonu: maxπ E[∑t=0 γt R(st, at)] — burada γ indirgeme faktörü, uzak gelecekteki ödüllerin bugünkü değerini belirler.

Neden Gerekli?

Denetimli öğrenme statik eşleşmeleri öğrenir (X → y). Pekiştirmeli öğrenme ise zaman bağımlı karar zincirlerini, eylem → sonuç → geri besleme döngüsünü ve uzun vadeli etkileri modelleyebilir. Bu nedenle RL, yalnızca "tahmin" değil, karar verme optimizasyonu problemidir.

Nasıl Çalışır?

Temel bileşenler:

  • Policy (π): Durumdan eyleme haritalama — ajan her durumda ne yapacağını politikadan belirler.
  • Value function (V, Q): Bir durumun veya durum-eylem çiftinin uzun vadeli beklenen değeri.
  • Exploration vs Exploitation: Yeni eylem deneyerek bilgi kazanma ile bilinen iyi eylemi seçerek ödül toplama arasındaki denge.

Yaygın yöntemler:

YöntemYaklaşımÖzellik
Q-LearningModel-free, off-policyDurum-eylem değer fonksiyonunu öğrenir
Policy GradientModel-free, on-policyPolitikayı doğrudan optimize eder
Actor–CriticHibritPolitika (actor) + değer tahmini (critic) birlikte öğrenir

Tarımsal Bağlamda Yeri

RL, tarımda doğrudan tahmin problemlerinden ziyade kontrol ve optimizasyon problemlerinde anlamlıdır.

1. Dinamik Sulama Planlaması

  • Durum: toprak nemi, hava durumu tahmini, bitki gelişim aşaması
  • Eylem: sulama miktarı ve zamanlaması
  • Ödül: verim + su verimliliği − maliyet

RL burada kısa vadeli su ihtiyacı ile uzun vadeli verim arasındaki dengeyi öğrenir. Kritik zorluk: ödül fonksiyonunun doğru tanımlanmasıdır — su tasarrufu aşırı optimize edilirse verim düşebilir.

2. Sera İklim Kontrolü

  • Durum: sıcaklık, nem, CO2 seviyesi
  • Eylem: fan, ısıtıcı, havalandırma ayarları
  • Amaç: bitki büyümesini optimize ederken enerji tüketimini minimize etmek

Bu problem, klasik PID kontrolün ötesinde çok değişkenli ve gecikmeli bir sistemdir. RL, değişen dış koşullara adaptif kontrol sağlayabilir.

3. Tarımsal Robotik

  • Hasat robotu yol planlama, yabancı ot temizleme rotası optimizasyonu
  • RL avantajı: çevre belirsizliği altında karar verebilme
  • Sınırlılık: güvenlik ve hata maliyeti çok yüksek — keşif sırasında gerçek ürüne zarar verilebilir

Kritik Sınırlamalar

SınırlamaAçıklamaTarımsal Sonuç
Veri verimsizliğiRL genellikle milyonlarca etkileşim gerektirirGerçek tarlada bu denli deneme mümkün değildir
Sim-to-real açığıSimülasyonda eğitilen politika sahada başarısız olabilirToprak, bitki ve hava modelleri gerçeği tam temsil etmez
Ödül tasarımıYanlış tanımlanmış ödül istenmeyen davranışlara yol açarSu tasarrufu aşırı optimize edilirse verim düşebilir
Stabilite ve güvenlikKeşif aşamasında zarar verebilirTarım sistemleri yavaş dinamikli ve geri dönüşü zordur

Yöntem Seçimi Bağlamı

Problem TipiRL Uygunluğu
Statik tahmin (verim, sınıflandırma)Uygun değil — denetimli öğrenme tercih edilir
Görüntü sınıflandırmaUygun değil — CNN/denetimli yöntemler tercih edilir
Ardışık kontrol (sulama zamanlaması)Uygun
Kapalı döngü optimizasyon (sera kontrolü)Uygun

Kısa Kavrama Kontrolü

? Pekiştirmeli öğrenme ile denetimli öğrenme arasındaki temel fark nedir?
Yanıt

Denetimli öğrenmede model, her girdi için doğru çıktının (etiketin) doğrudan verildiği veri çiftlerinden öğrenir. Pekiştirmeli öğrenmede ise model, doğru etiketler yerine eylem sonuçlarından gelen gecikmeli ödül sinyalinden öğrenir. Ajan, bir eylemi gerçekleştirdikten sonra bunun iyi mi kötü mü olduğunu ancak zaman geçtikçe — bazen çok sayıda adım sonra — anlayabilir. Bu gecikmeli geri bildirim yapısı (credit assignment problemi), RL'yi denetimli öğrenmeden temelden ayırır ve öğrenmeyi çok daha zorlaştırır.

2.4 Yarı-Denetimli ve Öz-Denetimli Öğrenme

Tanım

Yarı-denetimli öğrenme (Semi-supervised learning): Az sayıda etiketli veri (Xl, yl) ile çok sayıda etiketsiz veri (Xu) birlikte kullanılarak modelin genelleme performansını artırmayı amaçlayan yaklaşımlardır.

Öz-denetimli öğrenme (Self-supervised learning): Etiket gerektirmeden, verinin kendi yapısından türetilen yardımcı görevler (pretext tasks) üzerinden temsil (representation) öğrenmeyi hedefler. Öğrenilen temsil daha sonra denetimli görevlerde kullanılır (pretraining + fine-tuning).

Neden Gerekli?

Makine öğrenmesinde performans çoğunlukla veri miktarına bağlıdır; ancak etiketli veri üretimi pahalıdır (uzman gerektirir), etiketsiz veri ise genellikle bol miktarda mevcuttur. Bu durumda yarı-denetimli öğrenme mevcut az etiketli veriyi güçlendirir; öz-denetimli öğrenme ise veri temsillerini etiket olmadan öğrenir.

Nasıl Çalışır?

1. Yarı-denetimli öğrenme mekanizmaları

Temel varsayım: benzer girdiler benzer çıktılara sahiptir (cluster assumption).

YaklaşımMekanizma
Pseudo-labelingModel etiketsiz veriye tahmin üretir; yüksek güvenli tahminler "sahte etiket" olarak eğitime dahil edilir
Consistency regularizationAynı girdinin farklı bozunumları (augmentation) altında model çıktısı değişmemelidir
Graph-based yöntemlerVeri noktaları arası benzerlik grafı üzerinden etiket yayılımı (label propagation)

2. Öz-denetimli öğrenme mekanizmaları

Amaç: doğrudan hedef değişkeni değil, verinin anlamlı bir temsil uzayını z = f(x) öğrenmektir.

YaklaşımMekanizmaÖrnekler
Contrastive learningBenzer örnekleri yakın, farklıları uzak temsil etSimCLR, MoCo
Masking-basedVerinin bir kısmını gizle ve tahmin etBERT, MAE
Temporal predictionZaman serisinde gelecek adımı tahmin etZaman serisi ön-eğitim

Tarımsal Bağlamda Yeri

1. Görüntü verilerinde ön-eğitim: Çok sayıda etiketsiz tarla/drone görüntüsü üzerinde öz-denetimli öğrenme ile temsil öğrenilir, ardından az sayıda etiketli veriyle fine-tuning yapılır. Etiket ihtiyacı önemli ölçüde azalır.

2. Sensör zaman serilerinde temsil öğrenme: Uzun süreli meteorolojik ve toprak verileri üzerinde self-supervised sequence modeling ile mevsimsel ve dinamik yapılar etiket olmadan öğrenilir.

3. Yarı-denetimli hastalık tespiti: Az sayıda etiketli yaprak görüntüsü + çok sayıda etiketsiz görüntü ile pseudo-labeling + fine-tuning uygulanır. Risk: yanlış pseudo-label, modeli bozabilir (hata yayılımı).

Kritik Sınırlamalar

SınırlamaAçıklama
Varsayım bağımlılığıYarı-denetimli öğrenme, cluster assumption ve low-density separation varsayımlarına dayanır; bu varsayımlar sağlanmazsa performans düşer
Hata yayılımıPseudo-labeling'de yanlış etiketler modele geri beslenir ve hatayı büyütebilir
Temsil-görev uyumuÖz-denetimli öğrenmede öğrenilen temsil, downstream görevle uyumlu olmayabilir
Dağılım uyumsuzluğuEtiketsiz ve etiketli veri farklı dağılımdaysa negatif transfer oluşur

Yöntem Seçimi Bağlamı

DurumUygun Yaklaşım
Bol etiketli veri mevcutDenetimli öğrenme
Etiket yok, yapı keşfi hedefleniyorDenetimsiz öğrenme
Az etiketli + çok etiketsiz veriYarı-denetimli öğrenme
Çok veri, etiket yok, temsil öğrenmeÖz-denetimli öğrenme
Ardışık karar problemiPekiştirmeli öğrenme

Kısa Kavrama Kontrolü

? Öz-denetimli öğrenmede model doğrudan hedef değişkeni öğrenmez. Buna rağmen neden downstream (örneğin sınıflandırma) performansını artırabilir?
Yanıt

Öz-denetimli öğrenme, veri dağılımını temsil eden anlamlı bir özellik uzayı öğrenir. Pretext görevleri (maskeleme, contrastive karşılaştırma, gelecek adım tahmini) sırasında model, verinin yapısal düzenliliklerini — kenarlar, dokular, mevsimsel kalıplar, mekansal ilişkiler — yakalamak zorunda kalır. Bu temsiller, downstream görevde hedef değişkenle doğrudan ilişkili olacak şekilde tasarlanmamış olsa da, genellikle ham piksellere veya ham sensör değerlerine kıyasla çok daha bilgilendirici bir başlangıç noktası sağlar. Fine-tuning aşamasında model sıfırdan özellik öğrenmek yerine, önceden edinilmiş temsilleri hedefe uyarlar — bu, özellikle etiketli verinin az olduğu durumlarda az örnekle hızlı genelleme (few-shot generalization) kapasitesini artırır.

3. Temel Algoritmalar

3.1 Doğrusal Regresyon (Linear Regression)

Tanım

Doğrusal regresyon, hedef değişkeni girdi değişkenlerinin doğrusal bir kombinasyonu olarak modeller:

y = w1x1 + w2x2 + ... + wpxp + b

Parametreler w ve b, genellikle en küçük kareler (Ordinary Least Squares, OLS) yaklaşımıyla belirlenir:

minw,bi=1n (yi - ŷi

OLS kapalı form çözümü: w = (XTX)-1XTy. Büyük veri setleri için gradient descent alternatif olarak kullanılır.

Neden Gerekli?

Doğrusal regresyon üç temel işlev görür:

  • Referans model (baseline): Daha karmaşık modellerin gerçekten gerekli olup olmadığını test etmek için karşılaştırma noktası oluşturur.
  • Yorumlanabilir içgörü: Her katsayı, ilgili değişkenin hedef üzerindeki marjinal etkisini doğrudan gösterir.
  • İlişki analizi: Girdi-çıktı ilişkileri hakkında istatistiksel çıkarım yapmaya imkan tanır.

Özellikle veri ile hedef arasında yaklaşık doğrusal ilişki varsa ve yorumlanabilirlik önemliyse anlamlıdır.

Nasıl Çalışır?

Model, her gözlem için tahmin hatasını (hata = y - ŷ) minimize eder. OLS çözümü hata karelerini minimize eden kapalı form çözüm sağlar.

Katsayıların operasyonel yorumu:

wj = ∂y / ∂xj — diğer değişkenler sabitken xj'deki bir birim artışın y'deki marjinal etkisi.

Temel Varsayımlar

Doğrusal regresyon şu varsayımlara dayanır; ihlal edilirse model tahmini yapılabilir ancak yorumlar güvenilmez olur:

VarsayımAçıklama
Doğrusallıky, X'in doğrusal fonksiyonudur
BağımsızlıkGözlemler birbirinden bağımsızdır
HomoskedastisiteHata varyansı sabittir (tüm x değerlerinde)
Normal dağılımHatalar normal dağılır (özellikle istatistiksel çıkarım için gerekli)

Tarımsal Bağlamda Yeri

Doğrusal regresyon genellikle verim tahmini (ilk yaklaşım), girdi-çıktı ilişkisi analizi ve faktör etkisi yorumlama amaçlarıyla kullanılır. Ancak çoğu biyofiziksel süreç (doygunluk, eşik etkisi, etkileşimler) doğrusal değildir; bu nedenle doğrusal model çoğunlukla bir yaklaşım (approximation) olarak değerlendirilmelidir.

Sınırlar / Hatalı Kullanımlar

SınırlamaAçıklamaSonuç
Doğrusal olmayan ilişkilerDoygunluk, eşik etkisi, etkileşimlerModel sistematik hata üretir
Aykırı değer duyarlılığıMSE = (y - ŷ)² büyük hataları aşırı cezalandırırBirkaç outlier tüm modeli bozabilir
MulticollinearityXTX matrisi kötü koşullu veya terslenemezKatsayılar büyük, kararsız ve yorumlanamaz hale gelir
EkstrapolasyonModel yalnızca eğitim aralığında güvenilirAralık dışında fiziksel olarak anlamsız sonuçlar üretebilir

Ne Zaman Kullanılır / Kullanılmaz

KullanılırKullanılmaz
Küçük-orta veri setiGüçlü nonlinearity varsa
Yorumlanabilirlik önemliFeature interaction önemliyse
Yaklaşık doğrusal ilişkiYüksek boyut + korelasyon varsa

Alternatifler

ProblemAlternatif
NonlinearityPolinom regresyon, ağaç tabanlı modeller
MulticollinearityRidge (L2), Lasso (L1)
OutlierRobust regresyon (Huber, RANSAC)
Kompleks yapıRandom Forest, Gradient Boosting

Özellik Tablosu

ÖzellikDeğer
Problem türüRegresyon
Uygun veri yapısıTablolu, sayısal özellikler
Güçlü yönlerYorumlanabilirlik, hesaplama hızı, baseline olarak kullanım
Başlıca sınırlarNonlinearity, aykırı değer hassasiyeti, multicollinearity
YorumlanabilirlikYüksek

Kısa Kavrama Kontrolü

? Multicollinearity durumunda model tahmini yapılabilir, ancak katsayı yorumları neden güvenilmez hale gelir?
Yanıt

Multicollinearity durumunda bağımsız değişkenler birbirine bağımlıdır (yüksek korelasyon). Bu durumda XTX matrisi kötü koşullu hale gelir ve katsayı tahminleri yüksek varyansa sahip olur — küçük veri değişiklikleri katsayılarda büyük dalgalanmalara yol açar. Model, her değişkenin hedef üzerindeki bağımsız etkisini ayrıştıramaz çünkü korelasyonlu değişkenlerin etkileri iç içe geçmiştir. Sonuç: model toplamda makul tahmin üretebilir (tahmin performansı korunabilir), ancak bireysel katsayıların "xj bir birim artarsa y şu kadar artar" biçiminde yorumlanması yanıltıcı olur. Ridge regresyon (L2 düzenleme) bu sorunu katsayıları küçülterek hafifletir.

3.2 Lojistik Regresyon (Logistic Regression)

Tanım

Lojistik regresyon, adına rağmen bir sınıflandırma yöntemidir. Doğrusal bir skor üretir ve bu skoru lojistik (sigmoid) fonksiyon ile olasılığa dönüştürür:

P(y=1|X) = σ(z) = 1 / (1 + e-z),   z = wTX + b

Karar kuralı: ŷ = 1 [P(y=1|X) ≥ τ] — burada τ karar eşiğidir (varsayılan 0.5).

Amaç Fonksiyonu

Parametreler log-loss (binary cross-entropy) minimize edilerek öğrenilir:

minw,b -∑i=1n [yi log pi + (1-yi) log(1-pi)]

Bu, maksimum olabilirlik (MLE) ile eşdeğerdir ve Bernoulli dağılımı varsayımına dayanır. Kayıp fonksiyonu konvekstir — global optimum garantisi sağlar.

Olasılık ve Yorum

Model, log-odds (logit) değerini doğrusal olarak modeller:

log(p / (1-p)) = wTX + b

  • wj: xj'deki bir birim artışın log-odds üzerindeki marjinal etkisi.
  • ewj: Odds ratio — yorumlanabilirlik için kritik. "xj bir birim artarsa pozitif sınıfa ait olma odds'u ewj kat değişir."

Neden Gerekli?

  • Olasılık çıktısı: Karar eşiği (τ) probleme göre ayarlanabilir.
  • Yorumlanabilirlik: Odds ratio aracılığıyla her değişkenin etkisi yorumlanabilir.
  • Konveks optimizasyon: Global optimum garantisi — yerel minimuma takılma riski yoktur.
  • Güçlü baseline: Küçük-orta veri setlerinde daha karmaşık modellerin gerekli olup olmadığını test etmek için referans.

Operasyonel Kullanım

Karar eşiği ayarı: Varsayılan τ = 0.5 her zaman optimal değildir. Maliyet duyarlı problemlerde yanlış negatif maliyeti yüksekse τ düşürülür (daha fazla pozitif tahmin); yanlış pozitif maliyeti yüksekse τ artırılır.

Düzenlileştirme: Multicollinearity ve overfitting için kayıp fonksiyonuna ceza terimi eklenir:

  • + λ||w||1 (L1) → sparsity, özellik seçimi
  • + λ||w||22 (L2) → katsayı stabilizasyonu

Özellik ölçekleme: Gradient tabanlı optimizasyon için önemlidir; özellikle L1/L2 düzenleme kullanılıyorsa kritiktir.

Çok sınıflı genişleme: One-vs-Rest (OvR) veya Softmax (multinomial logistic regression) ile çok sınıflı problemlere genişletilebilir:

P(y=k|X) = ewkTX / ∑j ewjTX

Tarımsal Bağlamda Yeri

Tipik kullanım alanları: hastalık var/yok tespiti, zararlı varlığı (presence/absence), sulama ihtiyacı (ikili karar). Karar sınırı + olasılık birlikte sağlanması, tarımsal karar destek sistemlerinde eşik ayarına olanak tanır. Ancak çoğu biyolojik süreç doğrusal olarak ayrılabilir olmadığından, karmaşık problemlerde yetersiz kalabilir.

Sınırlar / Hatalı Kullanımlar

SınırlamaAçıklama
Doğrusal karar sınırıKarar sınırı wTX + b = 0 bir lineer hiper-düzlemdir. Nonlinearity varsa model sistematik hata üretir.
Özellik etkileşimleriVarsayılan olarak feature interaction öğrenmez; manuel feature engineering gerekir.
Complete separationVeri tamamen doğrusal ayrılabiliyorsa katsayılar → ∞, çözüm kararsızlaşır.
KalibrasyonTeorik olarak olasılık üretir; pratikte kalibrasyon hatası olabilir (Platt scaling / isotonic regression gerekebilir).
Dengesiz veriModel çoğunluk sınıfına kayabilir. Çözüm: class weighting veya threshold tuning.

Ne Zaman Kullanılır / Kullanılmaz

KullanılırKullanılmaz
Yorumlanabilirlik önemliKarmaşık nonlinearity
Veri yaklaşık doğrusal ayrılabilirYüksek feature interaction
Küçük-orta veri setiGörüntü / ham sinyal verisi

Özellik Tablosu

ÖzellikDeğer
Problem türüSınıflandırma (ikili; Softmax ile çok sınıflıya genişletilebilir)
ÇıktıOlasılık [0, 1]
OptimizasyonLog-loss (MLE), konveks
Güçlü yönlerYorumlanabilirlik (odds ratio), hız, olasılık çıktısı
Başlıca sınırlarDoğrusal karar sınırı, feature interaction eksikliği
YorumlanabilirlikYüksek

Kısa Kavrama Kontrolü

? Lojistik regresyonda katsayılar doğrudan olasılığı değil log-odds'u modeller. Bunun pratik avantajı nedir?
Yanıt

Log-odds dönüşümü iki kritik avantaj sağlar: (1) Olasılık [0, 1] aralığında sınırlıyken, log-odds (-∞, +∞) aralığında tanımlıdır. Bu, doğrusal modelin sınırsız çıktısı ile olasılığın sınırlı aralığı arasında uyum sağlar — sigmoid fonksiyonu bu eşlemeyi gerçekleştirir. (2) Kayıp fonksiyonu (log-loss) parametrelere göre konveks kalır, bu da gradient tabanlı optimizasyonun global optimuma yakınsamasını garanti eder. Eğer olasılık doğrudan doğrusal olarak modellenmeye çalışılsaydı, tahminler [0, 1] aralığı dışına çıkabilir ve optimizasyon konveksliğini kaybedebilirdi.

3.3 k-En Yakın Komşu (k-NN)

Tanım

k-NN, parametrik olmayan ve lazy learning yaklaşımına sahip bir yöntemdir. Eğitim aşamasında açık bir model öğrenmez; tahmin aşamasında yeni bir gözlem için veri setindeki en yakın k komşuya bakarak karar verir.

  • Sınıflandırma: ŷ = mode(y(1), ..., y(k)) — çoğunluk oyu
  • Regresyon: ŷ = (1/k) ∑i=1k y(i) — ortalama (veya mesafeye göre ağırlıklı ortalama: wi = 1/d(x, xi))

Nasıl Çalışır?

Verilen bir x için: (1) tüm eğitim örnekleri ile mesafe hesaplanır, (2) en küçük mesafeye sahip k örnek seçilir, (3) seçilen komşuların etiketlerine göre tahmin üretilir.

Mesafe metrikleri — seçilen metrik modelin davranışını doğrudan belirler:

MetrikFormülUygun Durum
Öklid (L2)(∑|xi - x'i|2)1/2Sürekli ve izotropik veri
Manhattan (L1)∑|xi - x'i|Aykırı değerlere daha dayanıklı
Minkowski(∑|xi - x'i|p)1/pGenel form (p=1: Manhattan, p=2: Öklid)
HammingFarklı konumların sayısıKategorik veri

Neden Gerekli?

  • Model varsayımı yok — esnek karar sınırı, nonlinearity'yi doğal olarak yakalar.
  • Küçük veri setlerinde güçlü baseline.
  • Lokal yapıların korunması — verinin yerel komşuluk yapısını doğrudan kullanır.

Operasyonel Parametreler

1. k seçimi: Küçük k → düşük bias, yüksek varyans (gürültüye duyarlı). Büyük k → yüksek bias, düşük varyans (aşırı yumuşatma). Tipik olarak çapraz doğrulama ile belirlenir.

2. Ölçekleme (zorunlu): Mesafe temelli olduğu için x' = (x - μ) / σ standardizasyonu uygulanmalıdır. Aksi halde büyük ölçekli değişkenler mesafeyi domine eder.

3. Özellik seçimi: İlgisiz özellikler mesafeyi bozarak performansı düşürür. Boyut azaltma (PCA) veya özellik seçimi ön adım olarak değerlendirilmelidir.

Tarımsal Bağlamda Yeri

Tipik kullanım: benzer tarla koşullarına göre verim tahmini, hastalık benzerlik tabanlı sınıflandırma, sensör verisinde pattern matching. Lokal benzerlik üzerinden karar verir ve fiziksel model gerektirmez.

Sınırlar / Hatalı Kullanımlar

SınırlamaAçıklamaSonuç
Boyut lanetiBoyut arttıkça mesafeler uniform dağılıma yaklaşırYakın/uzak farkı kaybolur, model anlamsızlaşır
Hesaplama maliyetiTahmin zamanında O(n · d)Büyük veri setlerinde pratik değil
Bellek kullanımıTüm eğitim verisi bellekte tutulurMemory-bound
Gürültü duyarlılığıAykırı değerler komşu setine girerseTahmin bozulur
Seyrek bölgelerVeri yoğunluğu düşük bölgelerdeYanlış komşular seçilir

Hızlandırma Yöntemleri

Büyük veri setleri için: KD-Tree, Ball Tree, Approximate Nearest Neighbor (FAISS, Annoy). Ancak yüksek boyutta bu yapılar da etkisini kaybeder.

Ne Zaman Kullanılır / Kullanılmaz

KullanılırKullanılmaz
Düşük boyut (<20-30 özellik)Yüksek boyutlu veri
Küçük veri setiBüyük veri seti (>100K)
Lokal yapı önemliGerçek zamanlı sistemler

Özellik Tablosu

ÖzellikDeğer
Problem türüSınıflandırma, regresyon
Model tipiParametrik olmayan
ÖğrenmeLazy (tembel)
Güçlü yönlerEsneklik, basitlik, lokal yapı korunması
Başlıca sınırlarBoyut laneti, hesaplama maliyeti, ölçekleme zorunluluğu
YorumlanabilirlikOrta (komşu bazında açıklanabilir)

Kısa Kavrama Kontrolü

? Özellik ölçekleme yapılmadan k-NN kullanılırsa ne olur?
Yanıt

Büyük sayısal aralığa sahip değişkenler (örn. yağış: 0-150 mm) mesafe hesaplamasını domine eder; dar aralıklı değişkenler (örn. pH: 4-9) mesafe üzerinde neredeyse hiç etkili olamaz. Sonuç olarak model, gerçekte önemli olan değişkenleri görmezden gelerek yalnızca büyük ölçekli değişkenlere göre komşu seçer — bu da hem sınıflandırma hem regresyon performansını sistematik olarak düşürür. Çözüm: Z-score standardizasyonu veya Min-Max normalizasyonu uygulamak. Ölçekleme parametreleri yalnızca eğitim setinden türetilmelidir.

3.4 Karar Ağaçları ve Rastgele Orman

Tanım

Karar ağaçları (Decision Trees), veriyi özellik uzayında ardışık bölünmelerle parçalayan hiyerarşik modellerdir. Her düğümde bir özellik ve eşik seçilir (xj ≤ t); bölünmeler sonucunda veri alt kümelere ayrılır ve yaprak düğümlerde tahmin yapılır.

Bölünme kriterleri:

ProblemKriterFormül
SınıflandırmaGini impurityG = 1 - ∑pk2
SınıflandırmaEntropyH = -∑pk log pk
RegresyonVaryans minimizasyonumin ∑(yi - ȳ)2

Rastgele Orman (Random Forest), birden fazla karar ağacının birleşimidir:

  • Bootstrap sampling: Her ağaç farklı veri alt kümesiyle eğitilir.
  • Feature subsampling: Her bölünmede rastgele özellik alt kümesi seçilir.
  • Aggregation: Sınıflandırmada çoğunluk oyu, regresyonda ortalama.

Neden Gerekli?

Karar ağacının temel problemi: düşük bias ancak çok yüksek varyans (overfitting). Random Forest çözümü: farklı veri alt kümeleriyle eğitilmiş ağaçların ortalaması varyansı azaltır. Bias biraz artar, ancak genel performans iyileşir.

Operasyonel Özellikler

  • Nonlinearity: Ağaçlar doğrusal olmayan ilişkileri doğal olarak yakalar.
  • Feature interaction: Manuel feature engineering gerekmez; model etkileşimleri otomatik öğrenir.
  • Ölçekleme: Gerekmez — mesafe tabanlı değildir, bölünme kararları sıralı karşılaştırmaya dayanır.

Özellik Önemi (Feature Importance)

Random Forest iki tür önem ölçüsü sağlar:

  • Impurity decrease: Her özelliğin bölünme kararlarındaki toplam impurity azalması.
  • Permutation importance: Özellik değerleri karıştırıldığında performans düşüşü.
! Kritik uyarı: Korelasyonlu değişkenler varsa önem değeri dağılır; yüksek kardinaliteli değişkenler impurity-based ölçüde yapay avantaj elde eder. Özellik önemi nedensel yorum olarak değerlendirilmemelidir — korelasyon tabanlı keşifsel bir göstergedir.

Tarımsal Bağlamda Yeri

Tipik kullanım: tablolu sensör/iklim verilerinden verim tahmini, toprak özelliklerinden sınıflandırma, uzaktan algılama verilerinde piksel sınıflandırma. Heterojen ve gürültülü tarımsal veride robust performans sağlar.

Sınırlar / Hatalı Kullanımlar

SınırlamaAçıklama
Overfitting (tek ağaç)Budama yapılmazsa eğitim verisini ezberler
Ekstrapolasyon yokAğaçlar gözlenen değer aralıkları içinde tahmin yapar; aralık dışına genelleme yapamaz
Model boyutuYüzlerce ağaç → büyük bellek tüketimi
Yorumlanabilirlik kaybıTek ağaç yorumlanabilir; orman opaklaşır
Dengesiz veriÇoğunluk sınıfa kayma → class weighting gerekir

Ne Zaman Kullanılır / Kullanılmaz

KullanılırKullanılmaz
Tablolu veriÇok yüksek boyut + seyrek veri
Nonlinearity + feature interactionZaman serisi bağımlılığı yüksekse (özel model gerekir)
Hızlı ve güçlü baselineEkstrapolasyon gerekiyorsa

Özellik Tablosu

ÖzellikKarar AğacıRastgele Orman
Problem türüSınıflandırma, regresyonSınıflandırma, regresyon
Model tipiTek modelEnsemble
BiasDüşükOrta
VaryansYüksekDüşük
Güçlü yönlerYorumlanabilirlik, hızGenelleme, robustluk
Başlıca sınırlarOverfittingEkstrapolasyon yok
YorumlanabilirlikYüksekOrta

Kısa Kavrama Kontrolü

? Random Forest neden tek bir karar ağacına göre daha iyi genelleme yapar?
Yanıt

Tek bir karar ağacı düşük bias ancak yüksek varyansa sahiptir — eğitim verisindeki gürültüye aşırı uyum gösterir ve farklı veri alt kümeleriyle eğitildiğinde çok farklı yapılar üretir. Random Forest, bu sorunu iki mekanizma ile çözer: (1) Bootstrap sampling: Her ağaç farklı bir veri alt kümesiyle eğitilir, böylece ağaçlar arasında çeşitlilik sağlanır. (2) Feature subsampling: Her bölünmede rastgele seçilen özellik alt kümesi kullanılır, bu da ağaçların birbirine korelasyonunu azaltır. Bağımsız ve düşük korelasyonlu tahminlerin ortalaması, bireysel tahminlerin varyansını azaltır (varyans azaltma ilkesi). Sonuç: bias biraz artar, ancak varyans büyük ölçüde düşer ve genel genelleme performansı iyileşir.

3.5 Destek Vektör Makineleri (SVM)

Tanım

SVM, sınıflar arasında maksimum marjı sağlayan bir karar hiper-düzlemi bulan yöntemdir. Doğrusal durumda karar fonksiyonu:

f(x) = wTx + b

Optimizasyon Problemi

Soft-margin SVM formülasyonu:

minw,b,ξ (1/2)||w||2 + C ∑ξi

Kısıtlar: yi(wTxi + b) ≥ 1 - ξi

  • ||w|| → marjı belirler (küçük norm = geniş marj)
  • ξi → slack değişkeni (hata toleransı)
  • C → marj genişliği ile hata toleransı arasındaki denge

Hinge loss yorumu: max(0, 1 - y·f(x)) — yanlış sınıflandırılan ve marja yakın noktalar cezalandırılır; doğru ve uzak noktalar etkisizdir.

Kernel Trick

Doğrusal ayrım mümkün değilse, veri yüksek boyutlu uzaya açıkça taşınmadan kernel fonksiyonu ile inner product hesaplanır:

K(x, x') = φ(x)Tφ(x')

KernelFormülUygun Durum
LinearxTx'Doğrusal ayrılabilir veri
Polynomial(xTx' + c)dÖzellik etkileşimleri
RBF (Gaussian)e-γ||x-x'||2Genel amaçlı, nonlinear

Hiperparametreler

ParametreEtkisi
C (regularization)Büyük C → düşük bias, yüksek varyans (dar marj, az hata toleransı). Küçük C → geniş marj, daha fazla hata toleransı.
γ (RBF kernel)Büyük γ → lokal, karmaşık karar sınırı. Küçük γ → daha düzgün (smooth) sınır.

Neden Gerekli?

  • Yüksek boyutta (p >> n) iyi çalışır.
  • Marj maksimizasyonu genelleme avantajı sağlar.
  • Karar yalnızca destek vektörlerine bağlıdır — sparsity: f(x) = ∑αi K(xi, x) + b

Operasyonel Özellikler

Ölçekleme zorunludur: SVM mesafe/kernel tabanlıdır. x' = (x - μ) / σ standardizasyonu yapılmazsa kernel hesaplamaları bozulur.

Tarımsal Bağlamda Yeri

Tipik kullanım: hiperspektral veri sınıflandırma, bitki hastalığı tespiti, uzaktan algılama (yüksek boyut, az örnek). Az veri + yüksek boyut kombinasyonunda güçlü performans sağlar.

Sınırlar / Hatalı Kullanımlar

SınırlamaAçıklama
ÖlçeklenmeEğitim karmaşıklığı O(n2) – O(n3); büyük veri için uygun değil
Hiperparametre hassasiyetiYanlış kernel / C / γ seçimi ciddi performans düşüşüne yol açar
Olasılık çıktısı yokDoğal çıktı margin'dir; olasılık için Platt scaling gerekir
YorumlanabilirlikLinear SVM kısmen yorumlanabilir; kernel SVM opaktır
Gürültü duyarlılığıYanlış etiketli veri destek vektörü olabilir ve modeli bozar

Ne Zaman Kullanılır / Kullanılmaz

KullanılırKullanılmaz
Küçük-orta veri setiÇok büyük veri (>100K)
Yüksek boyut (hiperspektral, görüntü özellikleri)Çok gürültülü veri
Güçlü sınır ayrımı varsaHızlı inference gerektiren sistemler

Özellik Tablosu

ÖzellikDeğer
Problem türüSınıflandırma, regresyon (SVR)
Model tipiMargin-based
OptimizasyonHinge loss + regularization
Güçlü yönlerYüksek boyutta performans, marj maksimizasyonu
Başlıca sınırlarÖlçeklenme, parametre hassasiyeti
YorumlanabilirlikDüşük (kernel kullanıldığında)

Kısa Kavrama Kontrolü

? C parametresi artırıldığında model nasıl değişir?
Yanıt

C artırıldığında model, eğitim verisindeki hataları daha ağır cezalandırır. Slack değişkenlerine (ξ) izin verilen alan daralır; bu da karar sınırının eğitim noktalarına daha yakın geçmesine (dar marj) ve daha az hata toleransına yol açar. Sonuç: düşük bias (eğitim verisine daha iyi uyum) ancak yüksek varyans (overfitting riski artar). Tersine, C küçültüldüğünde model daha geniş marj tercih eder, bazı eğitim hatalarına tolerans gösterir ve daha iyi genelleme yapabilir. C seçimi tipik olarak çapraz doğrulama ile belirlenir.

3.6 Naive Bayes

Tanım

Naive Bayes, Bayes teoremine dayalı bir sınıflandırıcıdır:

P(y|X) ∝ P(y) ∏j=1p P(xj|y)

Temel varsayım: özellikler, sınıf verildiğinde koşullu bağımsızdır. Bu varsayım pratikte nadiren karşılansa da yüksek boyutlu seyrek verilerde rekabetçi sonuçlar üretebilir.

Nasıl Çalışır?

Karar kuralı (sayısal stabilite için log formunda):

ŷ = argmaxy [log P(y) + ∑j log P(xj|y)]

Varyantlar:

VaryantVeri TürüDağılım Varsayımı
Gaussian NBSürekli veriNormal dağılım
Multinomial NBSayım verisi (metin, frekans)Multinomial dağılım
Bernoulli NBBinary özelliklerBernoulli dağılım

Neden Gerekli?

  • Yüksek boyutlu veri (p >> n) ile çalışabilir.
  • Eğitim ve tahmin çok hızlıdır.
  • Az veri ile makul performans sağlayabilir.

Tarımsal Bağlamda Yeri

Hastalık var/yok (basit ikili sınıflandırma), sensör threshold tabanlı ayrımlar, düşük veri + hızlı karar gereken sistemlerde kullanılabilir.

Sınırlar / Hatalı Kullanımlar

SınırlamaAçıklama
Bağımsızlık varsayımıGerçekte P(xi, xj|y) ≠ P(xi|y)P(xj|y). Model yanlış olasılık üretir; ancak sınıflandırma sıralaması yine doğru olabilir.
KalibrasyonÇoğu zaman aşırı kendinden emin (overconfident) tahmin üretir.
Dağılım varsayımıGaussian NB normal dağılım varsayar; gerçek veri çoğu zaman bu varsayıma uymaz.
Sıfır olasılıkP(xj|y) = 0 ise P(y|X) = 0 olur. Çözüm: Laplace smoothing.

Ne Zaman Kullanılır / Kullanılmaz

KullanılırKullanılmaz
Yüksek boyutlu veriGüçlü feature korelasyonu
Hızlı baselineHassas olasılık kalibrasyonu gerekiyorsa
Düşük veri miktarıKarmaşık etkileşimli yapılar

Özellik Tablosu

ÖzellikDeğer
Problem türüSınıflandırma
Model tipiOlasılıksal
Temel varsayımKoşullu bağımsızlık
Güçlü yönlerHız, sadelik, az veri ile çalışabilme
Başlıca sınırlarVarsayım ihlali, kalibrasyon hatası
YorumlanabilirlikOrta

3.7 k-Means Kümeleme

Tanım

k-Means, veriyi k kümeye ayıran ve her kümenin merkezini minimize eden denetimsiz bir algoritmadır.

Amaç fonksiyonu:

min ∑i=1kx∈Ci ||x - μi||2

→ küme içi varyansı minimize eder.

Nasıl Çalışır?

  1. k merkez başlatılır.
  2. Her nokta en yakın merkeze atanır.
  3. Merkezler güncellenir: μi = (1/|Ci|) ∑x
  4. Yakınsama → atamalar değişmeyene kadar tekrarlanır.

Yakınsama özelliği: Her iterasyonda amaç fonksiyonu azalır; ancak global optimum garantisi yoktur — lokal minimuma takılabilir.

Neden Gerekli?

  • Veri yapısını keşfetmek (keşifsel analiz)
  • Segmentasyon ve gruplama
  • Ön işleme aşamasında özellik üretimi

Tarımsal Bağlamda Yeri

Tarla içi bölgeleme (management zones), uydu piksel segmentasyonu, sensör pattern gruplama.

Sınırlar / Hatalı Kullanımlar

SınırlamaAçıklama
k seçimiDışsal parametre; elbow / silhouette yöntemleri heuristiktir
Küme şekli varsayımıKüresel ve eş yoğunluklu kümeler varsayar; gerçekte çoğunlukla sağlanmaz
Ölçekleme zorunluMesafe tabanlı olduğu için standardizasyon gerekir
Başlatma duyarlılığıFarklı başlangıç → farklı sonuç; k-means++ ile hafifletilir
Outlier etkisiOrtalama tabanlı olduğundan aykırı değerler merkezleri kaydırır

Alternatifler

ProblemAlternatif
Farklı yoğunluklu kümelerDBSCAN
Eliptik küme yapısıGaussian Mixture Model
Outlier varlığıDBSCAN

Özellik Tablosu

ÖzellikDeğer
Problem türüKümeleme (denetimsiz)
Model tipiDistance-based
AmaçKüme içi varyans minimizasyonu
Güçlü yönlerBasitlik, hız, ölçeklenebilirlik
Başlıca sınırlark seçimi, şekil varsayımı, outlier duyarlılığı
YorumlanabilirlikOrta

Kısa Kavrama Kontrolü

? k=3 seçildiğinde bir kümenin çok küçük olması neyi gösterir?
Yanıt

Birkaç olası açıklama vardır: (1) k fazla seçilmiş olabilir: Verinin doğal yapısı 2 kümeye daha uygunken k=3 zorlaması, bir kümenin yapay biçimde bölünmesine yol açabilir. (2) Veri doğal olarak dengesiz kümelere sahip olabilir: Gerçek yapıda bir grup çok küçükse bu normal bir sonuçtur. (3) Küçük küme outlier grubu olabilir: Aykırı gözlemler ana kümelerden uzakta ayrı bir küme oluşturmuş olabilir — alan bilgisiyle değerlendirilmelidir. (4) Veri yoğunluğu heterojendir: Farklı yoğunluklardaki kümeler k-Means'in küresel ve eş yoğunluk varsayımına uymaz; DBSCAN gibi yoğunluk tabanlı yöntemler daha uygun olabilir. Elbow yöntemi ve silhouette analizi ile farklı k değerleri karşılaştırılmalıdır.

4. Model Değerlendirme

4.1 Kayıp Fonksiyonları (Loss Functions)

Tanım

Modelin tahminleri ile gerçek değerler arasındaki uyumsuzluğu ölçen fonksiyonlardır. Eğitim sürecinde model, kayıp fonksiyonunu minimize etmeye çalışır.

  • MSE (Mean Squared Error): Regresyon için standart kayıp. Büyük hatalara karesel ceza uyguladığından aykırı değerlere duyarlıdır.
  • Cross-Entropy (Çapraz Entropi): Sınıflandırma için standart kayıp. Modelin tahmin ettiği olasılık dağılımı ile gerçek etiket dağılımı arasındaki farklılığı ölçer.

4.2 Sınıflandırma Metrikleri

Tanım ve Bağlam

Tek başına doğruluk (accuracy) metriği, sınıf dağılımı dengesiz olduğunda yanıltıcı sonuçlar üretebilir. Bir veri setinde gözlemlerin %95'i tek bir sınıfa aitse, sabit olarak çoğunluk sınıfını tahmin eden bir model %95 doğruluk elde eder; ancak azınlık sınıfını hiç tespit edemez.

MetrikTanımTercih Koşulu
Doğruluk (Accuracy)Doğru tahminlerin toplam gözlemlere oranıSınıf dağılımı yaklaşık dengeli olduğunda
Kesinlik (Precision)TP / (TP + FP)Yanlış pozitif maliyetinin yüksek olduğu durumlar
Duyarlılık (Recall)TP / (TP + FN)Yanlış negatif maliyetinin yüksek olduğu durumlar
F1-SkoruKesinlik ve duyarlılığın harmonik ortalamasıDengesiz sınıflarda veya her iki hata türü de önemli olduğunda

4.3 Karmaşıklık Matrisi (Confusion Matrix)

Tanım

Sınıflandırma sonuçlarını gerçek ve tahmin edilen etiketlerin çapraz tablosu olarak özetleyen yapıdır. Doğru pozitif (TP), yanlış pozitif (FP), doğru negatif (TN) ve yanlış negatif (FN) değerlerini bir arada sunar. Yukarıdaki tüm metrikler bu dört bileşenden türetilir.

4.4 Çapraz Doğrulama (Cross-Validation)

Tanım

Veri setini k eşit katmana (fold) bölerek, her katmanın sırayla test seti olarak kullanıldığı, geri kalan k−1 katmanın eğitim seti oluşturduğu bir değerlendirme stratejisidir. Sonuç, k farklı performans ölçümünün ortalama ve standart sapmasıdır.

Neden Gerekli?

Tek bir eğitim-test bölünmesine dayanan tahminler, bölünmenin rastgeleliğine bağlı olarak yüksek varyans gösterebilir. Çapraz doğrulama, performans tahmininin güvenilirliğini artırır ve özellikle küçük veri setlerinde tercih edilir.

Sınırlar / Hatalı Kullanımlar

  • Zamansal bağımlılık taşıyan verilerde standart k-fold uygulaması zamansal sızıntıya yol açar; zaman serisi bölünme stratejileri (time series split) kullanılmalıdır.
  • Mekansal bağımlılık taşıyan verilerde (örn. coğrafi olarak yakın noktalar) mekânsal çapraz doğrulama (spatial CV) gerekebilir.

4.5 ROC Eğrisi ve AUC

Tanım

ROC (Receiver Operating Characteristic) eğrisi, farklı karar eşiklerinde duyarlılık (TPR) ile yanlış pozitif oranını (FPR) karşılaştırır. AUC (Area Under the Curve), bu eğrinin altında kalan alandır. AUC = 1.0 mükemmel ayrım, AUC = 0.5 rastgele tahmin düzeyinde performans anlamına gelir.

Sınırlar / Hatalı Kullanımlar

  • Çok dengesiz sınıf dağılımında AUC iyimser sonuçlar üretebilir; Precision-Recall eğrisi (PR-AUC) daha bilgilendirici olabilir.

Kısa Kavrama Kontrolü

? Bir sınıflandırma modelinde kesinlik (precision) yüksek, duyarlılık (recall) düşükse, modelin davranışı pratikte ne anlama gelir? Hangi tür uygulamalarda bu kabul edilebilir, hangilerinde sorunlu olur?
Yanıt

Yüksek kesinlik, düşük duyarlılık şu anlama gelir: model "pozitif" dediğinde büyük olasılıkla haklıdır, ancak gerçek pozitiflerin önemli bir kısmını kaçırır. Model temkinli davranır — emin olmadığında "negatif" der. Kabul edilebilir olduğu durumlar: Yanlış pozitifin maliyetinin yüksek olduğu uygulamalar. Örneğin pahalı bir pestisit uygulaması kararında yanlış alarm doğrudan ekonomik kayıp demektir; bu durumda modelin yalnızca emin olduğunda "uygula" demesi tercih edilebilir. Sorunlu olduğu durumlar: Kaçırmanın maliyetinin yüksek olduğu uygulamalar. Bulaşıcı bir bitki hastalığının erken tespitinde düşük recall, hastalıklı bitkilerin tespit edilememesi ve salgının yayılması anlamına gelir. Bu tür problemlerde recall öncelikli olmalı, gerekirse daha fazla yanlış alarm kabul edilmelidir. Precision-recall dengesi, karar eşiğinin ayarlanmasıyla probleme özgü biçimde kalibre edilebilir.

5. Aşırı Öğrenme ve Düzenleme

5.1 Bias-Variance Dengesi

Tanım

Modelin toplam hatasının iki bileşeni vardır:

  • Yanlılık (Bias): Modelin sistematik hatası. Yüksek bias, modelin veri yapısını yeterince yakalayamadığını gösterir (underfitting).
  • Varyans (Variance): Modelin eğitim verisi değiştiğinde tahminlerindeki dalgalanma. Yüksek varyans, eğitim verisine aşırı uyumu (overfitting) işaret eder.

Bu iki bileşen genellikle ters orantılıdır; model karmaşıklığı arttıkça bias azalır, varyans artar.

5.2 Overfitting ve Underfitting

Tanım

Overfitting: Model, eğitim verisindeki gürültü dahil tüm yapıyı ezberler; yeni veriye genelleyemez. Belirtisi: eğitim hatası düşük, test hatası yüksek.

Underfitting: Model, verideki temel yapıyı dahi öğrenemeyecek kadar basittir. Belirtisi: hem eğitim hem test hatası yüksek.

5.3 Düzenleme (Regularization)

Tanım

Modelin karmaşıklığına ceza uygulayarak aşırı öğrenmeyi engellemeye yönelik tekniklerdir.

  • L1 (Lasso): Kayıp fonksiyonuna katsayıların mutlak değerlerinin toplamını ekler. Bazı katsayıları tam sıfıra iterek örtük özellik seçimi yapar.
  • L2 (Ridge): Katsayıların karelerinin toplamını ekler. Katsayıları küçültür ancak sıfırlamaz; çoklu doğrusal bağıntı durumunda katsayı kararlılığını artırır.
  • Dropout: Sinir ağlarında, her eğitim adımında rastgele seçilen nöronları devre dışı bırakır. Bu, ağın tek bir yola bağımlı olmasını engeller.
  • Erken Durdurma (Early Stopping): Doğrulama hatasını izleyerek artış eğilimi gözlendiğinde eğitimi sonlandırır.

Yöntem Seçimi Bağlamı

Küçük veri setlerinde ve çok sayıda özellik içeren problemlerde düzenleme neredeyse zorunludur. L1, özellik seçiminin önemli olduğu durumlarda; L2, tüm özelliklerin potansiyel olarak bilgilendirici olduğu durumlarda tercih edilebilir.

Kısa Kavrama Kontrolü

? Bir modelin eğitim doğruluğu %97, test doğruluğu %58'dir. Bu durum bias-variance çerçevesinde nasıl yorumlanır? Sorunu hafifletmek için hangi düzenleme yaklaşımları değerlendirilebilir?
Yanıt

Eğitim ve test performansı arasındaki bu büyük fark (39 puanlık açık) klasik bir yüksek varyans / overfitting göstergesidir. Model, eğitim verisindeki gürültü dahil tüm yapıyı ezberlemiş ancak yeni veriye genelleyememektedir. Bias düşüktür (eğitim hatası düşük), varyans yüksektir (veri değiştiğinde tahminler dramatik biçimde bozulur). Hafifletme yaklaşımları: (1) Düzenleme: L2 (Ridge) katsayıları küçülterek modelin karmaşıklığını kısıtlar; L1 (Lasso) gereksiz özellikleri sıfırlayarak boyut azaltma sağlar; sinir ağlarında dropout uygulanabilir. (2) Erken durdurma: Doğrulama hatasını izleyerek artış başladığında eğitimi sonlandırma. (3) Daha fazla eğitim verisi: Mümkünse veri setini genişletmek, overfitting'in en doğrudan çözümüdür. (4) Model basitleştirme: Daha az parametre içeren bir model ailesi denemek (örn. derin ağ yerine sığ ağ veya doğrusal model). (5) Özellik seçimi veya boyut azaltma: Gereksiz veya gürültülü özellikleri çıkarmak. Bu yaklaşımlardan hangisinin etkili olacağı, sorunun kaynağına (aşırı parametre, yetersiz veri, gürültülü özellikler) bağlıdır.

6. Optimizasyon

6.1 Gradyan İniş (Gradient Descent)

Tanım

Kayıp fonksiyonunu minimize etmek için parametreleri, kaybın gradyanının tersi yönünde iteratif olarak güncelleyen optimizasyon algoritmasıdır: w ← w − η · ∇L(w), burada η öğrenme oranıdır.

Neden Gerekli?

Çoğu makine öğrenmesi modelinde parametrelerin analitik çözümü bulunmaz veya hesaplama açısından pratik değildir. Gradyan iniş, genel amaçlı ve ölçeklenebilir bir optimizasyon çerçevesi sağlar.

6.2 Öğrenme Oranı (Learning Rate)

Tanım

Her güncelleme adımının büyüklüğünü belirleyen hiperparametredir.

  • Çok yüksek değer: kayıp fonksiyonu minimum etrafında salınabilir veya ıraksayabilir.
  • Çok düşük değer: yakınsama aşırı yavaşlar; yerel minimumlara takılma riski artar.

Uygulamada genellikle 10-3–10-2 aralığında başlangıç değeri denenir ve öğrenme oranı zamanlama (scheduling) stratejileriyle dinamik olarak ayarlanır.

6.3 Yaygın Optimizasyon Algoritmaları

AlgoritmaTemel FikirYaygın Kullanım Bağlamı
SGDHer iterasyonda rastgele bir mini-batch üzerinden gradyan hesabıBüyük veri setleri, konveks veya yaklaşık konveks problemler
AdamMomentum ve parametre bazında adaptif öğrenme oranı birleşimiGenel amaçlı ilk tercih; derin öğrenme uygulamalarında yaygın
RMSpropGradyan geçmişine dayalı adaptif öğrenme oranıYinelemeli sinir ağları ve durağan olmayan gradyan yapıları

6.4 Hiperparametre Ayarlama

Tanım

Hiperparametreler, model eğitimi sırasında veriden öğrenilmeyen, kullanıcı tarafından belirlenen ayarlardır (örn. ağaç derinliği, öğrenme oranı, düzenleme katsayısı).

Arama Stratejileri

  • Grid Search: Belirlenmiş değer kombinasyonlarını kapsamlı biçimde dener. Sistematik ama hesaplama maliyeti yüksek.
  • Random Search: Rastgele kombinasyonlar dener. Genellikle grid search ile karşılaştırılabilir sonuçları daha az hesaplamayla üretir.
  • Bayesian Optimization: Önceki denemelerden bilgi edinerek bir sonraki deneme noktasını seçer. Değerlendirme maliyetinin yüksek olduğu durumlarda verimlidir.

Kısa Kavrama Kontrolü

? Bir sinir ağı eğitiminde kayıp fonksiyonu ilk birkaç epoch boyunca düşerken sonrasında salınmaya başlıyorsa, bu durum öğrenme oranı açısından ne anlama gelebilir?
Yanıt

Bu davranış kalıbı genellikle öğrenme oranının aşırı yüksek olduğuna işaret eder. İlk epoch'larda kayıp düşer çünkü parametreler başlangıç noktasından minimum yönüne hareket eder. Ancak minimum civarına yaklaşıldığında, güncelleme adımları minimumu "atlayacak" kadar büyük olduğundan parametreler minimumun iki tarafı arasında salınır — kayıp düşmek yerine yukarı-aşağı dalgalanır. İlk denenmesi gereken müdahale: Öğrenme oranını azaltmak (tipik olarak 2–10 kat). Bu, adım büyüklüğünü küçülterek minimuma daha hassas yakınsamayı sağlar. Ek yaklaşımlar: (1) Öğrenme oranı zamanlama (scheduling) stratejisi uygulamak — örneğin başlangıçta yüksek, eğitim ilerledikçe kademeli azalan bir oran. (2) Adam gibi adaptif optimizer'lara geçmek — parametre bazında öğrenme oranını otomatik ayarladıklarından sabit orana göre salınıma daha dirençli olabilirler. (3) Gradient clipping uygulamak — gradyanların belirli bir eşiği aşmasını engelleyerek büyük güncelleme adımlarını sınırlar.

7. Sinir Ağlarına Giriş

7.1 Perceptron ve Çok Katmanlı Ağlar (MLP)

Tanım

Perceptron: Tek nöronlu yapı; girdileri ağırlıklarla çarpar, toplar ve bir aktivasyon fonksiyonundan geçirir. Yalnızca doğrusal olarak ayrılabilir problemleri çözebilir.

Çok Katmanlı Algılayıcı (MLP): Bir veya daha fazla gizli katman eklenerek oluşturulur. Gizli katmanlar, doğrusal olmayan ilişkilerin öğrenilmesine olanak tanır. Evrensel yaklaşım teoremi (universal approximation theorem), yeterli genişlikteki tek gizli katmanlı bir ağın herhangi bir sürekli fonksiyonu yaklaşıklayabileceğini belirtir; ancak bu, pratikte böyle bir ağın verimli biçimde eğitilebileceğini garanti etmez.

7.2 Aktivasyon Fonksiyonları

Tanım

Nöronun çıktısına doğrusal olmayanlık katan fonksiyonlardır. Aktivasyon fonksiyonu olmadan, katman sayısından bağımsız olarak ağın tamamı doğrusal bir dönüşüme indirgenir.

FonksiyonİfadeYaygın Kullanım
ReLUmax(0, x)Gizli katmanlarda varsayılan tercih
Sigmoid1/(1+e-x)İkili sınıflandırma çıkış katmanı
SoftmaxHer sınıfa normalize olasılık atarÇok sınıflı sınıflandırma çıkış katmanı
Tanh(ex−e-x)/(ex+e-x)Çıktının sıfır merkezli olması istenen durumlar

7.3 Geri Yayılım (Backpropagation)

Tanım

Zincir kuralı (chain rule) aracılığıyla kayıp fonksiyonunun her parametre için kısmi türevini, çıkış katmanından girdi katmanına doğru geriye hesaplayan algoritmadır. Hesaplanan gradyanlar, gradyan iniş ile parametre güncellemesi için kullanılır.

7.4 Temel Mimari Aileleri

MimariTemel YapıUygun Veri Türü
CNN (Evrişimli Sinir Ağı)Evrişim katmanları ile uzamsal hiyerarşi öğrenimiGörüntü, uzamsal yapılı veri
RNN / LSTMYinelemeli bağlantılar ile ardışık bağımlılık öğrenimiZaman serileri, sıralı veri
TransformerÖz-dikkat (self-attention) mekanizması ile paralel işlemeMetin, çok bantlı görüntü, çok değişkenli zaman serisi

Sınırlar / Hatalı Kullanımlar

  • Küçük veri setlerinde (tipik olarak birkaç yüz gözlem) derin modeller overfit etme eğilimi gösterir; bu koşullarda klasik yöntemler daha uygun olabilir.
  • Yorumlanabilirlik gereksinimleri yüksekse, sinir ağlarının kara kutu yapısı ek açıklama araçları (SHAP, Grad-CAM vb.) gerektirir.
  • Hesaplama kaynağı (GPU/TPU) gereksinimi, özellikle derin mimarilerde önemli bir pratik kısıttır.

Kısa Kavrama Kontrolü

? Tablolu sensör verisi (10 özellik, 500 gözlem) ile verim tahmini yapılmak isteniyor. Çok katmanlı derin bir sinir ağı yerine rastgele orman tercih edilmesinin gerekçeleri neler olabilir?
Yanıt

Bu senaryoda rastgele ormanın tercih edilmesini destekleyen birkaç gerekçe vardır: (1) Veri boyutu: 500 gözlem, çok katmanlı derin bir ağın parametrelerini güvenilir biçimde öğrenmesi için yetersizdir. Derin modeller yüksek parametre kapasitesine sahiptir ve küçük veri setlerinde aşırı öğrenme riski çok yüksektir. Rastgele orman, bagging mekanizması sayesinde küçük-orta ölçekli verilerde daha kararlı genelleme üretir. (2) Özellik sayısı: 10 özellik, görece düşük boyutlu bir uzaydır. Derin öğrenmenin temel avantajlarından biri otomatik özellik çıkarımıdır — bu, ham piksel veya ham sinyal gibi yüksek boyutlu yapılandırılmamış verilerde kritiktir. Tablolu ve düşük boyutlu veride bu avantaj büyük ölçüde ortadan kalkar. (3) Yorumlanabilirlik: Rastgele orman, özellik önemi çıktısı sayesinde hangi değişkenlerin tahmine görece daha fazla katkıda bulunduğuna dair keşifsel bilgi sağlar. Derin ağlar ek açıklama araçları (SHAP, LIME) olmadan bu bilgiyi doğrudan sunmaz. (4) Hesaplama ve ayarlama maliyeti: Rastgele orman, hiperparametre seçimine karşı görece dirençlidir ve GPU gerektirmez. Derin ağlar ise mimari tasarım, öğrenme oranı, batch boyutu, epoch sayısı gibi çok sayıda hiperparametre kararı gerektirir.

8. Boyut Azaltma

8.1 PCA (Temel Bileşen Analizi)

Tanım

Yüksek boyutlu veriyi, varyansı en çok açıklayan doğrusal bileşenlere projekte eden bir dönüşümdür. Kovaryans matrisinin özvektörleri hesaplanır; ilk k özvektör, toplam varyansın büyük bölümünü açıklayan yeni eksenler tanımlar.

Neden Gerekli?

Özellik sayısı fazla olduğunda boyut azaltma, hesaplama maliyetini düşürür, overfitting riskini azaltır ve görselleştirme imkanı sağlar. Ayrıca çoklu doğrusal bağıntı taşıyan özellik setlerinde korelasyonu ortadan kaldırır.

Tarımsal Bağlamda Yeri

Tipik uygulama bağlamı: Hiperspektral uzaktan algılama verisinde yüzlerce spektral bant bulunabilir. PCA ile bu bantlar az sayıda bileşene indirgenerek modele girdi boyutu kontrol altına alınabilir. Bileşen sayısı seçiminde açıklanan varyans oranı incelenmelidir.

8.2 t-SNE ve UMAP

Tanım

Yüksek boyutlu veriyi 2D veya 3D uzayda görselleştirmek için kullanılan doğrusal olmayan boyut azaltma yöntemleridir. Temel amaçları, yerel komşuluk yapılarını koruyarak küme yapılarını görsel olarak keşfetmektir.

Sınırlar / Hatalı Kullanımlar

  • Projeksiyondaki mesafeler nicel olarak yorumlanamaz; yalnızca nitel küme yapısı gözlemi için uygundur.
  • Hiperparametre seçimi (perplexity, n_neighbors) sonucu önemli ölçüde etkiler; farklı ayarlarla tekrar edilmelidir.
  • Bu yöntemler keşifsel görselleştirme araçlarıdır; analitik sonuç çıkarmak için kullanılmamalıdır.

9. Pratik Konular

9.1 ML İş Akışı (Pipeline)

Tanım

Tipik bir makine öğrenmesi projesinin aşamaları:

  1. Problem tanımlama: Tahmin hedefi ve başarı kriterinin belirlenmesi.
  2. Veri toplama: Mevcut veri kaynaklarının değerlendirilmesi, ek veri ihtiyacının tespiti.
  3. Keşifsel veri analizi (EDA): Dağılımlar, eksik değerler, korelasyonlar, aykırı gözlemler.
  4. Ön işleme ve özellik mühendisliği: Veriyi modele uygun biçime getirme.
  5. Model seçimi ve eğitim: Birden fazla aday modelin denenmesi.
  6. Değerlendirme: Test seti veya çapraz doğrulama ile performans ölçümü.
  7. Dağıtım (Deployment): Modelin üretim ortamına aktarılması.
  8. İzleme ve bakım: Veri kayması (data drift) ve performans bozulmasının düzenli kontrolü.

9.2 Model Seçimi

Tanım

No Free Lunch teoremi, tüm problemlerde üstün olan tek bir algoritmanın bulunmadığını ifade eder. Model seçimi, problem yapısına, veri özelliklerine, yorumlanabilirlik gereksinimlerine ve hesaplama kaynaklarına bağlı çok boyutlu bir karardır.

Genel yaklaşım: Basit bir baseline model ile başlayıp, karmaşıklığı performans kazanımı gerekçelendirdiği ölçüde artırmak yaygın bir stratejidir.

9.3 Dengesiz Veri Problemi

Tanım

Sınıf dağılımlarının belirgin biçimde eşit olmadığı durumlardır. Model, çoğunluk sınıfına doğru sapma gösterme eğilimindedir.

Yaygın Müdahale Yöntemleri

  • Oversampling (SMOTE vb.): Azınlık sınıfından sentetik örnekler üretme.
  • Undersampling: Çoğunluk sınıfının örneklem boyutunu azaltma.
  • Sınıf ağırlıklandırma: Kayıp fonksiyonunda azınlık sınıfına daha yüksek ağırlık atama.
  • Metrik seçimi: Doğruluk yerine F1, Recall veya PR-AUC kullanma.

Sınırlar / Hatalı Kullanımlar

SMOTE, yüksek boyutlu veya çok seyrek özellik uzaylarında sentetik örneklerin anlamlılığı tartışmalı olabilir. Dengesizlik müdahalesinin etkisi problem bağlamında değerlendirilmeli, otomatik olarak uygulanmamalıdır.

9.4 Açıklanabilir Yapay Zeka (XAI)

Tanım

Modelin tahmin gerekçelerini anlaşılabilir kılmaya yönelik yöntemlerdir.

  • SHAP (SHapley Additive exPlanations): Oyun teorisi temelli; her özelliğin bireysel tahmine marjinal katkısını ölçer.
  • LIME (Local Interpretable Model-agnostic Explanations): Tek bir tahminin çevresinde yorumlanabilir yerel bir model kurarak açıklama üretir.
  • Özellik önemi (Feature Importance): Ağaç tabanlı modellerde, her özelliğin bölünme kararlarına olan katkısının toplamı.

Tarımsal Bağlamda Yeri

Tarımsal karar destek sistemlerinde açıklanabilirlik, teknik bir gereklilik olmanın ötesinde, son kullanıcı güveni ve benimsenmesi açısından kritik bir faktördür. Açıklama üretemeyen bir model, teknik olarak başarılı olsa dahi, saha uygulamasında benimsenme güçlüğü yaşayabilir.

Kısa Kavrama Kontrolü

? Bir model, test setinde yüksek performans gösteriyor ancak 6 ay sonra gerçek ortamda performansı belirgin biçimde düşüyor. Model değişmediğine göre, bu düşüşün olası kaynakları neler olabilir?
Yanıt

Model değişmediğine göre sorun modelde değil, modelin karşılaştığı veridedir. Bu durumun temel kaynağı veri kayması (data drift)dır — üretim ortamındaki verinin istatistiksel dağılımının, modelin eğitildiği verinin dağılımından farklılaşmasıdır. Olası kaynaklar: (1) Kovaryat kayması (covariate shift): Girdi değişkenlerinin dağılımı değişmiştir. Örneğin model belirli bir iklim döneminin verisiyle eğitildiyse, farklı mevsimsel koşullar veya olağandışı bir kurak/yağışlı dönem girdi dağılımını kaydırabilir. (2) Konsept kayması (concept drift): Girdi-çıktı ilişkisinin kendisi değişmiştir. Yeni bir çeşidin ekime girmesi, sulama altyapısının değişmesi veya yeni bir hastalık etkeninin ortaya çıkması, aynı girdi koşullarında farklı çıktılar üretilmesine yol açabilir. (3) Veri toplama sürecindeki değişiklikler: Sensör kalibrasyonunun kayması, farklı bir uydu platformuna geçiş veya ölçüm protokolündeki değişiklikler, verinin biçimini modelin beklentisinden saptırabilir. Çözüm yaklaşımı: Üretim verisinin dağılımını periyodik olarak izlemek (drift detection), performans düşüşü tespit edildiğinde modeli güncel veriyle yeniden eğitmek veya ince ayar yapmak (retraining/fine-tuning) ve dağıtım sonrası izleme (monitoring) pipeline'ını sistematik biçimde kurmaktır.

A. Bütünleştirici Özet

Makine öğrenmesi iş akışı, birbirine bağlı aşamalardan oluşan bir zincirdir. Her aşamadaki hata, sonraki adımlara taşınır.

Veri tüm sürecin temelini oluşturur. Veri türleri uygun ön işleme adımlarını belirler: ölçekleme, eksik veri işleme ve kodlama. Bu adımların doğruluğu, veri sızıntısı olmaksızın yalnızca eğitim setinden türetilen parametrelere dayanmasını gerektirir.

Paradigma seçimi problemin yapısına ve etiketli veri durumuna bağlıdır. Etiketli veri mevcutsa denetimli öğrenme; yoksa denetimsiz keşif; az etiket varsa yarı-denetimli; ardışık karar yapısı varsa pekiştirmeli öğrenme değerlendirilir.

Algoritma seçimi tek doğru cevabı olan bir karar değildir. Basit bir baseline ile başlayıp, karmaşıklığı performans kazanımı gerekçelendirdiği ölçüde artırmak sağlam bir stratejidir. Her algoritmanın güçlü yönleri ve varsayımları vardır; bunlar problem bağlamıyla eşleştirilmelidir.

Değerlendirme tek bir metriğe indirgenemez. Sınıf dağılımı, hata türlerinin maliyeti ve verinin zamansal/mekânsal yapısı, uygun metrik ve doğrulama stratejisini belirler. Eğitim performansı raporlamak yanıltıcıdır; test veya çapraz doğrulama performansı esas alınmalıdır.

Overfitting en yaygın başarısızlık biçimidir. Düzenleme teknikleri (L1, L2, dropout, erken durdurma) ve yeterli doğrulama stratejileri ile kontrol altına alınabilir.

Dağıtım sonrası izleme genellikle ihmal edilen ancak kritik bir aşamadır. Veri kayması (data drift) — eğitim verisinin dağılımı ile üretim ortamı verisinin dağılımı arasındaki farklılaşma — zamanla model performansını düşürebilir.

B. Sınıfta Anlatım Notu

Eğitmenin Vurgulaması Gereken 5 Kritik Nokta

  1. Veri kalitesi, model seçiminden önce gelir. Algoritma değiştirmek yerine veri kalitesini artırmak çoğu zaman daha büyük performans kazanımı sağlar.
  2. Test setine eğitim sırasında bakılmaz. Veri sızıntısı kavramı öğrencilerin en sık yaptığı ve en geç fark ettiği hata türüdür.
  3. Doğruluk (accuracy) her zaman yeterli bir metrik değildir. Dengesiz sınıf yapısında sabit tahmin stratejisi ile yüksek doğruluk elde edilebileceği somut olarak gösterilmelidir.
  4. Eğitim performansı değil, test/doğrulama performansı raporlanır. Eğitim hatası düşük, test hatası yüksekse overfitting; her ikisi de yüksekse underfitting.
  5. Model, dağıtım sonrası statik değildir. Veri kayması kavramı ve periyodik yeniden değerlendirme gerekliliği baştan anlatılmalıdır.

Öğrencilerin En Sık Karıştıracağı 5 Nokta

  1. Lojistik regresyon ile doğrusal regresyon: Adlarındaki benzerlik nedeniyle karıştırılır; biri sınıflandırma, diğeri regresyon yöntemidir.
  2. Doğrulama seti ile test setinin işlevi: Doğrulama seti hiperparametre ayarında, test seti yalnızca nihai performans ölçümünde kullanılır. Rolleri birbirine karıştırılmamalıdır.
  3. Özellik önemi ile nedensellik: Ağaç tabanlı modellerin ürettiği özellik önemi değerleri korelasyon temelli çıkarımlardır; nedensel ilişki olarak yorumlanmamalıdır.
  4. Düzenleme ile özellik mühendisliği: Her ikisi de model performansını artırabilir, ancak farklı mekanizmalara sahiptir. Düzenleme mevcut özelliklerin katsayılarını kısıtlar; özellik mühendisliği yeni bilgi kanalları açar.
  5. Denetimsiz öğrenme "doğruluğu": Etiket olmadığında modelin "ne kadar doğru" olduğu denetimli paradigmadaki anlamıyla ölçülemez. Kümeleme kalitesi, iç tutarlılık metrikleri (silhouette, Davies-Bouldin) veya alan bilgisi ile değerlendirilir.

Sonraki Adım

Bu kavramsal çerçeveyi edindikten sonra 1.0 Tarımda Makine Öğrenmesi sayfasından uygulama alanlarına geçilebilir.