Birleşik Öğrenme (Federated Learning)

privacydistributed-learningdata-sovereigntycollaborative-trainingmulti-farm

Birleşik öğrenme, birden fazla çiftliğin veya tarımsal kuruluşun ham veri alışverişi yapmadan paylaşılan bir makine öğrenmesi modelini işbirlikçi olarak eğitmesini sağlar. Her katılımcı kendi yerel verisi üzerinde eğitim yapar ve yalnızca model güncellemelerini (gradyanları veya ağırlıkları) paylaşarak veri gizliliğini ve egemenliğini korurken tüm katılımcıların kolektif bilgisinden yararlanır.

Temel Mimari

Standart birleşik öğrenme iş akışı (Birleşik Ortalama / Federated Averaging - FedAvg) şu şekilde ilerler:

Sunucu başlatma: Merkezi bir sunucu global bir model başlatır ve tüm katılımcı çiftliklere dağıtır.
Yerel eğitim: Her çiftlik modeli belirli sayıda dönem (epoch) boyunca kendi yerel verisi üzerinde eğitir ve güncellenmiş model ağırlıkları üretir.
Toplama (Aggregation): Çiftlikler ağırlık güncellemelerini merkezi sunucuya gönderir; sunucu bunları toplar (genellikle her çiftliğin veri seti boyutuna göre ağırlıklı ortalama alarak).
Dağıtım: Güncellenmiş global model tüm katılımcılara geri gönderilir.
Yineleme: Yakınsama sağlanana kadar 2-4 adımları tekrarlanır.

Hiçbir noktada ham veri -- tarla görüntüleri, verim kayıtları, toprak ölçümleri veya yönetim uygulamaları -- çiftliğin yerel sisteminden ayrılmaz.

Birleşik Öğrenmenin Tarım İçin Önemi

Veri Egemenliği: Tarımsal veriler giderek değerli bir varlık olarak kabul edilmektedir. Çiftçiler, rekabet kaygıları, gizlilik düzenlemeleri ve olumsuz sonuçlar (örn. sigorta veya düzenleyici etkileri) korkusu nedeniyle ham verileri üçüncü taraflarla paylaşmakta isteksizdir. Birleşik öğrenme, işbirliğine olanak tanırken veri sahipliğine saygı gösterir.

Düzenleyici Uyumluluk: Gelişmekte olan veri koruma düzenlemeleri (Avrupa'da GDPR, gelişen tarımsal veri yönetişim çerçeveleri) merkezi veri toplanmasını kısıtlayabilir. Birleşik öğrenme, uyumluluğa uygun bir alternatif sunar.

Kolektif Zeka: Tek bir çiftlik, tüm koşullar için sağlam modeller oluşturmaya yetecek kadar çeşitli veriye sahip değildir. Farklı iklimlerde, toprak tiplerinde ve yönetim sistemlerinde çiftlikler genelinde eğitilen birleşik bir model, herhangi bir yerel olarak eğitilmiş modelden daha iyi geneller.

Kurumsal Ortaklıklar: Tarım teknolojisi şirketleri, veri yükleme gerektirmeden çiftçilere makine öğrenmesi destekli hizmetler sunabilir, böylece sorumluluk azalır ve güven oluşturulur.

Tarımsal Uygulamalar

Bölgeler Arası Hastalık Tespiti: Farklı bölgelerdeki çiftlikler, paylaşılan bir sınıflandırıcıya çeşitli hastalık görüntüleri katkıda bulunur. Birleşik model, herhangi bir çiftliğin görüntüleri paylaşılmadan tüm bölgelerin hastalık varyantlarını tanır.

Verim Tahmin Modelleri: Farklı toprak tipleri, iklimleri ve yönetim uygulamaları olan çiftlikler genelinde birleşik eğitim, herhangi bir bireysel çiftliğin verisinin destekleyebileceğinden daha geniş bir yetiştirme koşulları yelpazesini yakalayan verim modelleri üretir.

Zararlı İzleme Ağları: Birden fazla çiftlik, işbirlikçi bir erken uyarı modeline zararlı tuzak sayım verisi ve yerel hava özelliklerini katkıda bulunur. Birleşik yaklaşım, her çiftliğin verisini yerel tutarken izleme ağını ölçekler.

Toprak Sağlığı Değerlendirmesi: Laboratuvarlar veya farklı toprak tiplerine sahip çiftlikler genelinde birleşik olarak eğitilen toprak spektroskopisi modelleri, hassas toprak kalite verilerini havuzlamadan daha sağlam kalibrasyonlar üretir.

Zorluklar

Bağımsız ve Özdeş Dağılıma Sahip Olmayan Veri (Non-IID)

Çiftlikler arasındaki tarımsal veriler doğası gereği non-IID'dir: farklı çiftlikler farklı ürünler yetiştirir, farklı hastalık baskılarıyla karşılaşır ve farklı iklimlerde çalışır. Bu istatistiksel heterojenlik, yerel modellerin birbirinden uzaklaşmasına neden olarak toplanan global modelin kalitesini düşürür. Stratejiler şunları içerir:

FedProx: Yerel modellerin global modelden çok fazla sapmasını cezalandıran bir düzenlileştirme terimi ekler.
Kişiselleştirilmiş birleşik öğrenme: Kolektif bilgiyi bireysel uygunlukla birleştirerek hem paylaşılan bir global model hem de çiftliğe özgü yerel uyarlamalar üretir.
Kümelenmiş birleşik öğrenme: Benzer çiftlikleri (örn. aynı ürün, benzer iklim) gruplar ve küme başına ayrı birleşik modeller eğitir.

İletişim Maliyetleri

Kırsal alanlar genellikle sınırlı internet bağlantısına sahiptir. Model güncellemelerinin (potansiyel olarak milyonlarca parametre) yavaş bağlantılar üzerinden iletilmesi zorlayıcıdır. İletişim yükünü azaltma teknikleri şunlardır:

Gradyan sıkıştırma: İletim öncesinde ağırlık güncellemelerinin kuantalanması veya seyreltilmesi.
Birleşik damıtma (Federated distillation): Model ağırlıkları yerine tahmin çıktılarının değiştirilmesi.
Eşzamansız toplama: Çiftliklerin bağlantı durumuna göre farklı hızlarda katılmasına izin verilmesi.

Cihaz Heterojenliği

Katılımcı çiftlikler çok farklı hesaplama kaynaklarına sahip olabilir -- bir akıllı telefondan GPU'lu bir iş istasyonuna kadar. Birleşik sistem, kısmi model güncellemelerine izin vererek veya mimariden bağımsız toplama şemaları kullanarak bu heterojenliğe uyum sağlamalıdır.

Güvenlik ve Düşmanca Sağlamlık

Ham veri paylaşılmasa da model güncellemeleri eğitim verileri hakkında bilgi sızdırabilir (model tersine çevirme saldırıları, üyelik çıkarımı). Diferansiyel gizlilik (güncellemelere kalibre edilmiş gürültü ekleme) ve güvenli toplama (sunucunun bireysel güncellemeleri incelemesini önleyen kriptografik protokoller) ek koruma sağlar.

Düşmanca katılımcılar, global modeli bozmak için kasıtlı olarak bozuk güncellemeler gönderebilir (zehirleme saldırıları). Bizans-dayanıklı toplama yöntemleri anormal güncellemeleri filtreler.

Uç Bilişim ile Bağlantısı

Birleşik öğrenme doğal olarak Edge Computing ile tamamlayıcıdır: modeller her çiftlikteki uç cihazlarda yerel olarak eğitilir ve yalnızca hafif güncelleme mesajları değiştirilir. Çıkarım da yerel olarak gerçekleşir ve internet bağımlılığı olmadan gerçek zamanlı tahminler sağlar.

Ingest Edilen Makalelerden Bulgular

[Gupta et al., 2020] — Akilli ciftcilikte guvenlik ve gizlilik zorluklari üzerine kapsamli inceleme. Dort katmanli bir akilli ciftcilik mimarisi tanimlanmistir: fiziksel katman (sensorler, dronlar, otonom traktorler), uc katman (ag gecitleri, veri filtreleme, gerçek zamanli karar destegi, anomali tespiti), bulut katman (PaaS mimarisi, dagitik dosya sistemi, veri analizleri) ve ag iletisim katmani. Veri gizliligi acisindan, ciftcilerin akilli altyapi verilerinin rakipler tarafından calinmasindan veya kamusal alana acilamasindan endise duydugu vurgulanmistir. Kisisel olarak tanimlanabilir bilgi (PII) ile tarımsal verilerin ilişkilendirilmesi ciddi gizlilik riskleri oluşturmaktadir (örneğin hayvancilik verileri doğrudan sahiplerine, ürün kosuullari ciftcilerin kisisel bilgilerine baglaniyor). ABD Tarım Bakanligi'nin 7.000 donumluk Beltsville test ciftliginde TV White Spaces ve WiFi hibrit ag mimarisi kullanilmaktadir. Siber saldiri senaryolari arasında veri zehirleme (sahte toprak nemi verisi ile aşırı sulama), yanlis bilgilendirme saldirilari, RF bozma (GNSS sinyal karistirma), zararli yazilim enjeksiyonu ve tedariik zinciri saldirilari yer almaktadir. ABD Ic Guvenlik Bakanligi raporu, tarimi 16 kritik altyapi sektorunden biri olarak tanimlamis ve 2016'da 11 siber olay rapor edilmistir. Diferansiyel gizlilik ve guvenli toplama (secure aggregation) gibi federe öğrenme koruma mekanizmalari, ham verinin ciftlikten cikmadan model guncelleme paylasimini guvence altina almak için onerilen yaklasimlar arasındadir. (558 atif)