Dönüştürücü Mimarileri (Transformer Architectures)

deep-learningattentionvision-transformerfoundation-modelsnlpself-attention

Başlangıçta doğal dil işleme (NLP) için geliştirilen dönüştürücüler (Transformer'lar), tarımsal makine öğrenmesinde hızla bir paradigma değişimi olarak öne çıkmaktadır. Öz-dikkat (self-attention) mekanizmaları, hem uzamsal (görüntüler) hem de zamansal (zaman serileri) verilerdeki uzun menzilli bağımlılıkları yakalayarak, genel bağlam anlayışı gerektiren senaryolarda Convolutional Neural Networks ve Recurrent Neural Networks ağlarına göre avantajlar sunar.

Temel Mekanizma: Öz-Dikkat (Self-Attention)

Öz-dikkat mekanizması, bir giriş dizisindeki tüm eleman çiftleri arasındaki ilişkileri eş zamanlı olarak hesaplar. Parçalara bölünmüş bir görüntü için öz-dikkat, her parçanın diğer tüm parçalara dikkat etmesini sağlayarak CNN'lerin -- yerel alıcı alanlarla kısıtlı -- yalnızca derin istifleme yoluyla elde edebildiği genel uzamsal ilişkileri yakalar. Bu genel perspektif, tarımsal sınıflandırmanın yalnızca yerel dokuya değil tarlonun genel örüntüsüne bağlı olduğu durumlarda değerlidir.

Temel bileşenler: - Sorgu, Anahtar, Değer projeksiyonları (Query, Key, Value): Her giriş elemanı, dikkat ağırlıklarını hesaplamak için kullanılan üç vektöre projeksiyon yapılır. - Çok başlı dikkat (Multi-head attention): Birden fazla dikkat başlığı, farklı ilişki türlerini paralel olarak yakalar. - Konum kodlaması (Positional encoding): Öz-dikkat permütasyon değişmez olduğundan, konum bilgisinin açıkça enjekte edilmesi gerekir.

Tarım İçin Görsel Dönüştürücüler (Vision Transformers)

ViT (Vision Transformer), bir görüntüyü sabit boyutlu parçalara (örn. 16x16 piksel) böler, her parçayı doğrusal olarak gömüler (embed) ve parça gömme dizisini standart Transformer kodlayıcı katmanları üzerinden işler. ViT, büyük veri setleri üzerinde ön eğitim yapıldığında bitki hastalığı sınıflandırmasına uygulanmış ve ResNet ile rekabetçi veya üstün doğruluk elde etmiştir.

Swin Transformer, hiyerarşik özellik haritaları ve kaydırılmış pencere dikkat (shifted window attention) mekanizması sunarak genel öz-dikkatin kuadratik hesaplama maliyetini azaltır. Swin Transformer, çok ölçekli özellik çıkarmanın kritik olduğu tarımsal görüntülerde Semantic Segmentation ve Object Detection gibi yoğun tahmin görevleri için özellikle etkilidir.

DeiT (Veri Verimli Görüntü Dönüştürücüsü / Data-efficient Image Transformer), distilasyon belirteçleri ve eğitim stratejileri içererek daha küçük veri setlerinde etkili ViT eğitimi sağlar -- veri kıtlığı yaşayan tarımsal uygulamalar için önemli bir husus.

BEiT ve MAE (Maskeli Otokodlayıcılar / Masked Autoencoders), görüntü parçalarını maskeleyerek ve yeniden oluşturmayı öğrenerek öz-denetimli ön eğitim kullanır. Bu ön eğitim stratejisi, büyük etiketlenmemiş tarımsal görüntü koleksiyonlarına uygulanarak ImageNet önceden eğitilmiş modellerden üstün alana özgü temsiller üretebilir.

Tarımsal Metin İçin Dil Dönüştürücüleri

BERT ve varyantları, tarımsal metin madenciliği için kullanılır: bilimsel literatürden ürün yönetimi uygulamalarının çıkarılması, tarımsal haberlerin sınıflandırılması, çiftçi forum tartışmalarının analizi ve yapılandırılmamış metinlerden tarımsal bilgi grafikleri oluşturulması.

GPT ailesi modeller ve büyük dil modelleri (LLM'ler), tarımsal danışmanlık sohbet robotları, sensör verilerinden otomatik rapor üretimi ve karmaşık agronomik tavsiyelerin çiftçi dostu dile çevrilmesi konularında potansiyel göstermektedir.

Çok modlu dönüştürücüler (Multi-modal Transformers) (örn. CLIP, BLIP), görüntü ve metni birlikte işleyerek doğal dil açıklamalı görüntü tabanlı bitki tanımlama veya tarla görüntülerinin metin sorguları ile sorgulanması gibi tarımsal uygulamalara kapı açar.

Tarımsal Uygulamalar

Uydu Zaman Serilerinden Ürün Sınıflandırma: Dönüştürücüler, uydu gözlemlerinin zamansal dizilerini işlerken öz-dikkat, ürün türlerini ayırt etmek için en bilgilendirici edinim tarihlerini yakalar. Zamansal dikkat örüntüleri genellikle temel fenolojik olaylarla (ekim, başaklanma, hasat) uyum gösterir.

Bitki Hastalığı Tespiti: ViT ve Swin Transformer, hastalık sınıflandırma kıyaslamalarında en ileri düzey doğruluk elde eder; ancak iyi ayarlanmış CNN'lere göre avantajları daha büyük veri setlerinde belirgin biçimde ortaya çıkar.

Yabancı Ot Tespiti: Dönüştürücü tabanlı nesne dedektörleri (DETR, Deformable DETR), çapa kutuları ve NMS gibi elle tasarlanmış bileşenler olmadan uçtan uca tespit sunarak tarımsal yabancı ot tespiti için hattı basitleştirir.

Verim Tahmini: Çok kaynaklı zaman serilerine (hava durumu, uzaktan algılama, toprak verileri) uygulanan Zamansal Dönüştürücüler, uzak zaman adımlarındaki değişkenler arasındaki etkileşimleri etkili biçimde yakalayarak LSTM'lerden üstün performans gösterir.

Temel Modeller ve Tarım (Foundation Models)

Geniş veri üzerinde önceden eğitilmiş ve birçok alt göreve uyarlanabilen büyük modeller olarak tanımlanan temel model (foundation model) kavramı, tarım için özellikle umut vericidir. Çeşitli uydu görüntüleri, tarla fotoğrafları ve agronomik metinler üzerinde önceden eğitilmiş tarımsal temel modeller, herhangi bir tarımsal yapay zeka görevi için evrensel omurgalar olarak hizmet edebilir ve görev başına veri ile hesaplama gereksinimlerini büyük ölçüde azaltabilir. Erken çalışmalar arasında Sentinel/Landsat arşivleri üzerinde eğitilmiş jeo-uzamsal temel modeller ve bitki bilimi literatürü üzerinde ince ayar yapılmış tarım alanına özgü LLM'ler yer almaktadır.

Zorluklar

Dönüştürücüler veri açısından talepkâr ve hesaplama açısından pahalıdır. Öz-dikkatin kuadratik bellek maliyeti, pencere stratejileri olmadan çok yüksek çözünürlüklü tarımsal görüntülerin işlenmesini sınırlar. Küçük tarımsal veri setlerinde (1.000'den az görüntü), Transfer Learning ile iyi ayarlanmış CNN'ler genellikle Dönüştürücülerden hâlâ daha iyi performans gösterir. CNN özellik çıkarıcılarını Transformer dikkat katmanlarıyla birleştiren hibrit mimariler, pragmatik bir orta yol temsil etmektedir.

Ingest Edilen Makalelerden Bulgular

Dumen et al., 2024 — Meyve suyu fabrikalarında limon kalite sınıflandırması için Vision Transformer ve Swin Transformer performansı. Limon veri seti ("iyi" ve "kötü" kalite sınıfları) üzerinde 8 farklı derin öğrenme yaklaşımı ve 2 transformer yöntemi karşılaştırılmıştır. Temel bulgular:

ViT yöntemi, %99,84 doğruluk, %99,95 duyarlılık (recall) ve %99,66 kesinlik (precision) ile tüm modeller arasında en yüksek başarıyı elde etmiştir -- literatürde belgelenen en yüksek doğruluk oranı olarak raporlanmıştır.
Swin Transformer da yüksek performans göstermiş ancak ViT'in gerisinde kalmıştır.
Veri artırma olarak yeniden ölçekleme, rastgele yakınlaştırma, çevirme ve döndürme yöntemleri uygulanmıştır.
Sonuçlar, tarımsal ürün kalite değerlendirmesinde ViT'in CNN tabanlı modellere kıyasla belirgin üstünlük sağlayabileceğini göstermiştir.
Türkiye'de 2021 yılında 1.550.000 ton limon üretildiği ve Avrupa üretiminin %41,1'inin Türkiye'den geldiği bağlamında, otomatik kalite sınıflandırmasının ekonomik önemi vurgulanmıştır.