Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

Veri Dengesizliği (Class Imbalance)

sözlükgenel-kavram

Alternatif adlar: Sınıf dengesizliği, imbalanced data, skewed distribution

Kısa Tanım

Veri dengesizliği, bir sınıflandırma veri kümesinde sınıflar arasındaki örnek sayısının orantısız dağılması durumudur. Azınlık sınıfı (minority class) toplam örneklerin çok küçük bir oranını oluştururken, çoğunluk sınıfı (majority class) baskın hale gelir. Bu durum, modelin çoğunluk sınıfına yanlı (biased) tahminler üretmesine ve azınlık sınıfında düşük duyarlılık (recall) göstermesine yol açar.

Teknik Mantık

Dengesizlik oranı (imbalance ratio) genellikle 1:10'un üzerinde olduğunda ciddi performans düşüşü gözlenir. Çözüm stratejileri üç düzeyde uygulanır: (1) Veri düzeyinde yaklaşımlar; aşırı örnekleme (SMOTE, ADASYN), eksik örnekleme (random undersampling, Tomek links) ve hibrit yöntemler. (2) Algoritma düzeyinde yaklaşımlar; sınıf ağırlıklandırma (class weighting), maliyet duyarlı öğrenme (cost-sensitive learning) ve focal loss. (3) Topluluk (ensemble) yaklaşımları; BalancedBagging, EasyEnsemble ve RUSBoost. Değerlendirmede doğruluk (accuracy) yerine F1-skor, AUPRC (precision-recall eğrisi altındaki alan), Matthews korelasyon katsayısı ve Cohen's kappa kullanılmalıdır.

Kullanım Bağlamı

Hastalık tespiti, anomali algılama, nadir olay sınıflandırması gibi azınlık sınıfının kritik önem taşıdığı tüm görevlerde dikkate alınmalıdır. Dengesizlik oranı ve veri hacmi birlikte değerlendirilmeli; küçük veri kümelerinde aşırı örnekleme, büyük kümelerde eksik örnekleme veya sınıf ağırlıklandırma tercih edilmelidir.

Tarımsal Bağlam

Tarımsal veri kümeleri doğası gereği dengesizdir: sağlıklı bitkiler hasta bitkilerden, normal toprak koşulları anomaliden çok daha yaygındır. Örneğin, bir buğday pas hastalığı veri kümesinde enfekte yaprak oranı %2-5 olabilir. Bu durumda SMOTE ile sentetik hasta yaprak örnekleri üretilir veya focal loss kullanılarak modelin nadir sınıfa odaklanması sağlanır. Zararlı böcek tuzak verilerinde de benzer dengesizlik gözlenir.

Sık Karıştırılan Nokta

SMOTE'un her koşulda faydalı olduğu varsayılır; ancak öznitelik uzayında azınlık ve çoğunluk sınıfları örtüştüğünde (overlapping classes) sentetik örnekler gürültü yaratabilir. Bu durumda Borderline-SMOTE veya sınıf ağırlıklandırma daha güvenilir sonuç verir. Ayrıca dengesizlik yalnızca sınıflandırma değil, nesne algılama ve segmentasyonda da etkilidir; arka plan-ön plan oranı bu mimarilerde örtük bir dengesizlik kaynağıdır.


Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği