Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

Crop Genetics Breeding

Bitki ıslahı, tarımsal üretimin temelini olusturan çeşit geliştirme süreçlerini kapsar. Genomik secilim (GS), marker destekli ıslah (MAS) ve CRISPR/Cas9 gibi modern biyoteknoloji araclariyla birleştirilen makine öğrenmesi yöntemleri, ıslah sürelerini önemli ölçüde kısaltmakta ve secilim doğruluğunu artırmaktadır. Literaturde bu konuda yaklaşık 73 makale tanımlanmış olup özellikle misir, bugday, soya fasulyesi ve yonca gibi önemli tahillarda genomik tahmin modelleri yoğun araştırma konusu olmaktadir.

Genomik Secilim (GS) Temelleri

Genomik secilim, bitkilerin tum genom varyasyonlarini kullanarak fenotipik performanslarini tahmin eden bir yaklasimdir. Geleneksel islahta fenotipleme işçiliği ve zaman gerektirirken, GS ile genotip bilgisine dayali olarak secilim kararlari verilebilmektedir. Temel ilke, eğitim populasyonunda ölçülen fenotip ve genotip verileriyle bir tahmin modeli oluşturulması, ardindan yalnizca genotiplenmis bireylerin performansinin öngörülmesidir.

Temel GS Yöntemleri

Yöntem Tur Avantaj Sınırlılık
rrBLUP Doğrusal karisik model Genomik akrabalik ve marker etkileri Doğrusal olmayan etkileri yakalayamaz
GBLUP Doğrusal karisik model Genomik ilişki matrisi kullanir Epistatik etkileri modelleyemez
Bayesian yöntemler Istatistiksel Öncül bilgi kullanabilir Hesaplama maliyeti yüksek
LightGBM Topluluk öğrenmesi Hiz, doğruluk, büyük veri Aşırı uyum riski
Derin öğrenme Sinir agi Karmasik oruntuleri öğrenebilir Büyük veri gereksinimi

LightGBM ile Genomik Tahmin

Yan ve arkadaşları (2021) tarafından Genome Biology dergisinde yayımlanan kapsamli çalışmada, LightGBM (Light Gradient Boosting Machine) algoritmasi misir ıslahında genomik secilim için değerlendirilmiştir. Çalışmada 1428 ana hat ve 30 baba test hattinin melezlenmesiyle elde edilen 8652 F1 hibrit misir örneği kullanilmistir. Tarla ölçümlerinde uc fenotipik özellik incelenmistir: puskullenme gunu (DTT), bitki boyu (PH) ve kocan agirligi (EW). Genotip özellikleri olarak genom genelinde esit dagilimli 32.559 haplotipik SNP kullanilmistir.

Model Karşılaştırma Sonuçları

Alti temel ML yöntemi karşılaştırılmıştır:

Model DTT Doğruluğu PH Doğruluğu EW Doğruluğu Hesaplama Süresi
LightGBM En yüksek En yüksek En yüksek Düşük (rrBLUP'un 1/3'u bellek)
XGBoost Yüksek Yüksek Yüksek Orta
CatBoost Iyi Iyi Iyi Cok yüksek (LightGBM'in 100 kati CPU)
GB Iyi Iyi Iyi Orta
rrBLUP Iyi Iyi Iyi Yüksek bellek
RF, ANN, KNN, SVR Düşük-Orta Düşük-Orta Düşük-Orta Değişken

LightGBM'in en önemli avantajlari sunlardir: ek fenotipik özellikler eklenerek tahmin doğruluğu DTT için 0.538'den 0.686'ya, PH için 0.518'den 0.687'ye yükseltilmiştir. Ayrica LightGBM, genotip karakterlerini sayisal özelliklere dönüştüren alternatif bir kodlama semasi sunarak poliploid turler için uygulamayi kolaylastirmaktadir.

Eğitim Verisi Örnekleme Oraninin Etkisi

Çalışmada eğitim-test örnekleme oraninin GS doğruluğuna etkisi sistematik olarak incelenmistir. 6210 F1 örneklik populasyonda dort farkli senaryo test edilmistir:

  • 1:1 orani kritik esik noktasi olarak belirlenmistir; bu orandan sonra hem doğruluk hem de kararlilik belirgin şekilde düşmektedir
  • Düşük örnekleme oranlarinda LightGBM, rrBLUP'a gore anlamli derecede üstün performans göstermiştir
  • Eğitim örneklerinin hem ana hem de baba genotiplerini kapsamasi en yüksek tahmin doğruluğunu saglamistir
  • Yalnizca baba ya da hicbir ebeveyn genotipi kapsamadiginda özellikle kocan agirligi için doğruluk yaklaşık yariya düşmektedir

Marker Destekli Islah (MAS) ve QTL Haritalama

Marker destekli ıslah, belirli genlerle ilişkili DNA markerlarini kullanarak secilim yapan bir stratejidir. QTL (Kantitatif Karakter Lokusu) haritalama, karmaşık özellikleri kontrol eden genomik bölgelerin belirlenmesini saglar. ML yöntemleri bu süreçte su sekillerde katkida bulunmaktadir:

  • Marker-özellik ilişkisi tahmin: Genom genelinde ilişkili markerlar belirlenir
  • Genomik tahmin modelleri: Binlerce markerin birlesik etkisi modellenir
  • Coklu ortam analizi: Genotip x cevre etkileşimi (GxE) ML ile daha iyi yakalanir

Fenotip-Genotip Iliskisi ve ML

Fenotipleme, bitki ıslahındaki en büyük darbogazlardan biridir. Farber ve Kurouski'nin (2022) Raman spektroskopisi çalışmasında vurgulandigi uzere, genotipleme teknolojisi hızla ilerlermesine ragmen fenotipleme ayni hizda gelişememiştir. ML tabanlı yaklaşımlar su alanlarda fenotipleme sürecini hızlandırmaktadır:

  1. Yüksek verimli fenotipleme: Hiperspektral görüntüleme ve ML ile binlerce bitkinin özellikleri hızla belirlenir
  2. Tohum tabanlı tahmin: Raman veya NIR spektroskopisi ile tohum veya fide asamasinda çeşit özellikleri öngörülebilir
  3. Stres toleransi değerlendirmesi: Abiyotik (tuz, kuraklık, sıcaklık) ve biyotik (hastalık, zararli) streslere karsi tolerans spektroskopik verilerden tahmin edilebilir
  4. Heterozis tahmini: LightGBM gibi doğrusal olmayan modeller, hibrit performansini daha iyi öngörebilir

CRISPR/Cas9 ve ML Entegrasyonu

CRISPR/Cas9 gen duzenleme teknolojisi, hedeflenen genomik degisiklikleri yaparak ıslah sürecini hızlandırmaktadır. ML yöntemleri, CRISPR uygulamalarinda su konularda destek saglamaktadir:

  • Hedef bölgelerin verimlilik tahmin modelleri
  • Off-target (hedef disi) etkilerin öngörü modelleri
  • Gen ifade oruntulerine dayali fenotip tahminleri
  • Genom genelinde ilişkili lokuslarin önceliklendirilmesi

Tahmin Cerceveleri ve Populasyon Yapisi

Yan ve arkadaşlarınin çalışmasında vurgulanan önemli bir bulgu, populasyon yapılanmasinin model kararliligini büyük ölçüde etkilemesidir. Misir hibrit ıslahında, uzak heterotik gruplarin melezlenmesi populasyon tabakalanmasina yol acabilmektedir. Bu sorunu asma stratejileri sunlardir:

  • Eğitim örneklerinin genetik çeşitliliği yansitmasi
  • Farkli tahmin cercevelerinin (M+P, yalniz M, yalniz P, hicbiri) test edilmesi
  • Cross-validation semasinin populasyon yapisina uygun tasarlanmasi

Gelecek Yönelimler

Bitki ıslahında ML'nin geleceği su alanlarda sekillenmektedir: coklu omik veri entegrasyonu (genomik + transkriptomik + metabolomik + fenotipik), transfer öğrenme ile turler arasi bilgi aktarımi, generatif modeller ile sanal ıslah simulasyonlari ve iklim değişikliğine uyum için hizlandirilmis ıslah programlari. LightGBM gibi verimli topluluk öğrenme algoritmalari, büyük ölçekli ticari ıslah boru hatlarinda (pipeline) yaklaşık 10-15% örnekleme ile %85-90 populasyonu tahmin etme kapasitesiyle maliyet etkin çözümler sunmaktadir.

Ilgili Kaynaklar

  • Yan, J. ve ark. (2021). "LightGBM: accelerated genomically designed crop breeding through ensemble learning." Genome Biology, 22, 271.
  • Farber, C. ve Kurouski, D. (2022). "Raman Spectroscopy and Machine Learning for Agricultural Applications." Frontiers in Plant Science, 13, 887511.
  • Literaturde bu alanla ilişkili yaklaşık 73 makale tanimlanmistir.