GroupKFold (Grup Tabanli K-Katli Capraz Dogrulama)
Diger adlari: Group K-Fold Cross-Validation, Grup Bazli Capraz Dogrulama, Leave-One-Group-Out
Kisa Tanim
GroupKFold, ayni gruba (tarla, agac, hasta, cihaz) ait tum gozlemlerin ayni fold'da kalmasini garanti eden bir capraz dogrulama stratejisidir. Standart K-Fold'dan farki, gruplari bolumleme birimleri olarak kullanmasidir.
Teknik Mantik
Scikit-learn'un GroupKFold(n_splits=K) implementasyonu, veriyi K fold'a bolerken her grubun (ornegin groups=plant_id) tum satirlarini tek bir fold'a atar. Bu sayede egitim ve test setleri arasinda grup duzeyinde bilgi sizintisi (leakage) onlenir. LeaveOneGroupOut ise her fold'da tam bir grubu test olarak ayirir — grup sayisi az oldugunda tercih edilir.
Kullanim Baglami
Gozlemler bagimsiz degil, gruplar halinde iliskili oldugunda guclu bir tercih haline gelir. Standart random split bu iliskiyi goz ardi ederek performansi oldugundan daha iyi gosterebilir. Tipta ayni hastanin birden fazla goruntüsü, egitimde ayni ogrencinin birden fazla cevabi gibi senaryolarda ozellikle yararlidir.
Tarimsal Baglam
Tarimsal ML'de GroupKFold su durumlarda cogu kez gerekir: (1) Ayni bitkinin farkli yapraklari — bir bitkinin 5 yapragi egitim, 1 yapragi testte ise model bitki duzeyinde degil yaprak duzeyinde genelleme olcer (plant-level leakage). (2) Ayni tarladan coklu olcumler — komsu olcum noktalari mekansal otokorelasyon nedeniyle yakindir. (3) Ayni agactan farkli yillarin verileri — fizyolojik iliski. Tipik etki: GroupKFold olmadan raporlanan dogruluk %5-15 daha iyimser gorunebilir.
Sik Karistirilan Nokta
GroupKFold ile StratifiedKFold karistirilir. Stratified sinif dengesini korur; Group ise bilgi sizintisini onler. Ikisi birlikte gerektiginde StratifiedGroupKFold kullanilir. Ayrica grup taniminin dogru yapilmasi kritiktir — yanlis grup tanimı (ornegin tarla yerine satir) koruma saglamaz.
Dr. Mehmet Solak — Siirt Universitesi, Biyosistem Muhendisligi