Rastgele Orman (Random Forest)
Diğer adları: Random Forest, RF, Rastgele Karar Ormanı
Kısa Tanım
Rastgele orman, birden fazla karar ağacının (decision tree) torbalama (bagging) yöntemiyle bir araya getirildiği bir topluluk öğrenme (ensemble learning) algoritmasıdır. Her ağaç, önyüklemeli (bootstrap) alt örneklem ve rastgele öznitelik alt kümesi üzerinde eğitilir; nihai tahmin, sınıflandırmada çoğunluk oyu, regresyonda ortalama ile elde edilir.
Teknik Mantık
Her ağaç, n adet gözlemden oluşan bootstrap örneği üzerinde büyütülür. Her düğümde tüm p öznitelik yerine rastgele seçilen m adet öznitelik (tipik olarak sınıflandırmada m = √p, regresyonda m = p/3) arasından en iyi bölünme (split) aranır. Bu çift rastgelelik ağaçlar arası korelasyonu düşürür ve varyansı azaltır. Out-of-bag (OOB) hata tahmini, bootstrap örneğine dahil edilmeyen gözlemlerle hesaplanır ve ayrı bir doğrulama setine gerek kalmadan genelleme hatasını tahmin eder.
Kullanım Bağlamı
Hiperparametre ayarına düşük duyarlılığı, eksik veriye dayanıklılığı ve hem sınıflandırma hem regresyon görevlerinde tutarlı performansı sayesinde temel (baseline) model olarak sıklıkla tercih edilir. Öznitelik önem sıralaması (feature importance) modelin yorumlanabilirliğini artırır.
Tarımsal Bağlam
Tarımsal uzaktan algılamada arazi örtüsü sınıflandırması, verim tahmini, toprak nem ve besin elementi haritalama gibi görevlerde yaygın kullanılır. Çok kaynaklı veri füzyonunda (spektral bantlar, iklim verileri, topografik öznitelikler) heterojen girdileri doğal biçimde işleyebilmesi belirgin bir avantajdır.
Sık Karıştırılan Nokta
Rastgele ormanın aşırı öğrenme (overfitting) riski taşımadığı yaygın bir yanılgıdır. Ağaç sayısı arttıkça genelleme hatası bir platoya ulaşır ancak her bir ağacın derinliği sınırlanmadığında, özellikle gürültülü tarımsal veri setlerinde yanlılık-varyans dengesi bozulabilir.
Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği