Veri Dengesizliği (Class Imbalance)
Alternatif adlar: Sınıf dengesizliği, imbalanced data, skewed distribution
Kısa Tanım
Veri dengesizliği, bir sınıflandırma veri kümesinde sınıflar arasındaki örnek sayısının orantısız dağılması durumudur. Azınlık sınıfı (minority class) toplam örneklerin çok küçük bir oranını oluştururken, çoğunluk sınıfı (majority class) baskın hale gelir. Bu durum, modelin çoğunluk sınıfına yanlı (biased) tahminler üretmesine ve azınlık sınıfında düşük duyarlılık (recall) göstermesine yol açar.
Teknik Mantık
Dengesizlik oranı (imbalance ratio) genellikle 1:10'un üzerinde olduğunda ciddi performans düşüşü gözlenir. Çözüm stratejileri üç düzeyde uygulanır: (1) Veri düzeyinde yaklaşımlar; aşırı örnekleme (SMOTE, ADASYN), eksik örnekleme (random undersampling, Tomek links) ve hibrit yöntemler. (2) Algoritma düzeyinde yaklaşımlar; sınıf ağırlıklandırma (class weighting), maliyet duyarlı öğrenme (cost-sensitive learning) ve focal loss. (3) Topluluk (ensemble) yaklaşımları; BalancedBagging, EasyEnsemble ve RUSBoost. Değerlendirmede doğruluk (accuracy) yerine F1-skor, AUPRC (precision-recall eğrisi altındaki alan), Matthews korelasyon katsayısı ve Cohen's kappa kullanılmalıdır.
Kullanım Bağlamı
Hastalık tespiti, anomali algılama, nadir olay sınıflandırması gibi azınlık sınıfının kritik önem taşıdığı tüm görevlerde dikkate alınmalıdır. Dengesizlik oranı ve veri hacmi birlikte değerlendirilmeli; küçük veri kümelerinde aşırı örnekleme, büyük kümelerde eksik örnekleme veya sınıf ağırlıklandırma tercih edilmelidir.
Tarımsal Bağlam
Tarımsal veri kümeleri doğası gereği dengesizdir: sağlıklı bitkiler hasta bitkilerden, normal toprak koşulları anomaliden çok daha yaygındır. Örneğin, bir buğday pas hastalığı veri kümesinde enfekte yaprak oranı %2-5 olabilir. Bu durumda SMOTE ile sentetik hasta yaprak örnekleri üretilir veya focal loss kullanılarak modelin nadir sınıfa odaklanması sağlanır. Zararlı böcek tuzak verilerinde de benzer dengesizlik gözlenir.
Sık Karıştırılan Nokta
SMOTE'un her koşulda faydalı olduğu varsayılır; ancak öznitelik uzayında azınlık ve çoğunluk sınıfları örtüştüğünde (overlapping classes) sentetik örnekler gürültü yaratabilir. Bu durumda Borderline-SMOTE veya sınıf ağırlıklandırma daha güvenilir sonuç verir. Ayrıca dengesizlik yalnızca sınıflandırma değil, nesne algılama ve segmentasyonda da etkilidir; arka plan-ön plan oranı bu mimarilerde örtük bir dengesizlik kaynağıdır.
Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği