Veri Artırma (Data Augmentation)
Diğer adları: Data Augmentation, Veri Çoğaltma, Veri Zenginleştirme
Kısa Tanım
Veri artırma, mevcut eğitim örneklerine etiket koruyucu (label-preserving) dönüşümler uygulayarak veri setinin etkin büyüklüğünü ve çeşitliliğini artıran bir düzenlileştirme (regularization) stratejisidir. Aşırı öğrenmeyi azaltır ve modelin değişmezlik (invariance) özelliklerini güçlendirir.
Teknik Mantık
Geometrik dönüşümler (döndürme, yansıtma, kırpma, ölçekleme, afin dönüşüm), fotometrik dönüşümler (parlaklık, kontrast, renk sapması, Gaussian gürültü) ve karışım tabanlı yöntemler (Mixup, CutMix, Mosaic) temel kategorileri oluşturur. RandAugment ve AutoAugment gibi otomatik politika arama yöntemleri, dönüşüm kombinasyonlarını veri setine özgü biçimde optimize eder. Nesne tespitinde artırma, sınırlayıcı kutu koordinatlarının tutarlı biçimde güncellenmesini gerektirir. Spektral verilerde dalga boyu kayması (wavelength shift) ve baseline gürültüsü ekleme yaygın artırma teknikleridir.
Kullanım Bağlamı
Etiketli veri miktarının sınırlı olduğu durumlarda özellikle yararlı olabilir. Özellikle derin öğrenme modellerinin eğitiminde yaygın bir uygulamadır. Test verisine artırma uygulanması (test-time augmentation, TTA) tahmin güvenilirliğini artırabilir.
Tarımsal Bağlam
Tarımsal veri setleri genellikle küçük, mevsime bağlı ve sınıf dengesizliği içerir. Yaprak hastalık tespitinde döndürme ve renk jitter, drone görüntülerinde Mosaic artırma, NIR spektroskopisinde spektral gürültü ekleme ve baseline pertürbasyon yaygın uygulamalardır. Az temsil edilen hastalık sınıflarında sentetik veri üretimi (GAN tabanlı artırma) sınıf dengesizliği sorununu hafifletir.
Sık Karıştırılan Nokta
Veri artırmanın her zaman performansı artıracağı varsayılır; ancak görevle uyumsuz dönüşümler (orn. yaprak yöneliminin tanıya kritik olduğu bir görevde rastgele döndürme) etiket anlamını bozabilir. Artırma stratejisi, alana özgü bilgiyle tasarlanmalıdır.
Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği