Veri-Merkezli ML: Daha Büyük Model mi, Daha İyi Veri mi?
Birçok pratik problemde gerçek sıçrama daha derin ağdan değil, daha temiz etiketlerden ve daha iyi kapsanan örneklerden gelir. Bu demo, veri kalitesinin ne zaman model karmaşıklığından daha kritik hale geldiğini görünür kılar.
İlk kez burada mısın? Veri-merkezli düşünmeyi 3 adımda oku
1. Etiket gürültüsünü artır
Kötü etiket üzerinde daha büyük model kurmak çoğu zaman sınırlı kazanç verir.
2. Kapsamı düşür
Veri bazı bölgeleri zayıf kapsıyorsa model büyüse bile kör nokta yaşamaya devam eder.
3. Temizliği artır
Veri düzeltme kazancı, özellikle kötü veri koşullarında model yükseltmeden daha büyük olabilir.
Üç stratejiyi karşılaştır
Etiket güvenilirliği
Etiketler bozuldukça daha güçlü model, daha güvenilir hedef üretmez; sadece gürültüyü daha iyi ezberleyebilir.
-
Genel veri kapsaması
Modelin hiç görmediği ya da zayıf gördüğü bölge, kapasite artsa da zayıf kalabilir.
-
Az temsil edilen alt grup kalitesi
Veri dengesizliği ve yetersiz temsil, global metrik iyi görünürken bazı alt grupların sessizce geride kalmasına yol açar.
-