XGBoost
Diğer adları: Extreme Gradient Boosting, eXtreme Gradient Boosting
Kısa Tanım
XGBoost, gradyan artırma (gradient boosting) çerçevesini düzenlileştirme, paralel hesaplama ve donanım optimizasyonları ile genişleten bir topluluk öğrenme algoritmasıdır. Ardışık olarak eklenen zayıf öğreniciler (genellikle karar ağaçları) bir önceki modelin artık hatalarını (residual) düzeltmeye odaklanır.
Teknik Mantık
Amaç fonksiyonu Obj = Σ L(yi, ŷi) + Σ Ω(fk) biçiminde tanımlanır; burada L kayıp fonksiyonu, Ω ise ağaç karmaşıklığını (yaprak sayısı ve yaprak ağırlıklarının L2 normu) cezalandıran düzenlileştirme terimidir. Her iterasyonda kayıp fonksiyonunun ikinci dereceden Taylor açılımı kullanılarak optimal yaprak ağırlıkları ve bölünme kazanımları (split gain) analitik olarak hesaplanır. Histogram tabanlı bölünme, sütun alt örnekleme (column subsampling) ve öğrenme hızı küçültme (shrinkage) ile aşırı öğrenme kontrol altına alınır.
Kullanım Bağlamı
Tablo biçimli (tabular) verilerle çalışan sınıflandırma ve regresyon görevlerinde en yüksek performansı sunan algoritmalardan biridir. Eksik veri yönetimi, öznitelik önem sıralaması ve çapraz doğrulama ile erken durdurma (early stopping) gibi yerleşik mekanizmalara sahiptir.
Tarımsal Bağlam
XGBoost, verim tahmini, hastalık şiddeti skorlama, sulama ihtiyacı sınıflandırması ve toprak özelliklerinin spektral veriden modellenmesi gibi tablo tabanlı tarımsal problemlerde yaygın kullanılır. Iklim, toprak ve yönetim değişkenlerini bir arada işleyerek çok değişkenli tarımsal karar destek sistemlerinin temelini oluşturabilir.
Sık Karıştırılan Nokta
XGBoost ile rastgele orman sıklıkla karıştırılır; ancak ikisi farklı topluluk stratejileri kullanır. Rastgele orman bağımsız ağaçları paralel eğitirken (bagging), XGBoost ağaçları sıralı olarak ekler (boosting). Bu nedenle XGBoost'un hiperparametre hassasiyeti daha yüksektir ve dikkatli ayar gerektirir.
Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği