Crop Genetics Breeding
Bitki ıslahı, tarımsal üretimin temelini olusturan çeşit geliştirme süreçlerini kapsar. Genomik secilim (GS), marker destekli ıslah (MAS) ve CRISPR/Cas9 gibi modern biyoteknoloji araclariyla birleştirilen makine öğrenmesi yöntemleri, ıslah sürelerini önemli ölçüde kısaltmakta ve secilim doğruluğunu artırmaktadır. Literaturde bu konuda yaklaşık 73 makale tanımlanmış olup özellikle misir, bugday, soya fasulyesi ve yonca gibi önemli tahillarda genomik tahmin modelleri yoğun araştırma konusu olmaktadir.
Genomik Secilim (GS) Temelleri
Genomik secilim, bitkilerin tum genom varyasyonlarini kullanarak fenotipik performanslarini tahmin eden bir yaklasimdir. Geleneksel islahta fenotipleme işçiliği ve zaman gerektirirken, GS ile genotip bilgisine dayali olarak secilim kararlari verilebilmektedir. Temel ilke, eğitim populasyonunda ölçülen fenotip ve genotip verileriyle bir tahmin modeli oluşturulması, ardindan yalnizca genotiplenmis bireylerin performansinin öngörülmesidir.
Temel GS Yöntemleri
| Yöntem | Tur | Avantaj | Sınırlılık |
|---|---|---|---|
| rrBLUP | Doğrusal karisik model | Genomik akrabalik ve marker etkileri | Doğrusal olmayan etkileri yakalayamaz |
| GBLUP | Doğrusal karisik model | Genomik ilişki matrisi kullanir | Epistatik etkileri modelleyemez |
| Bayesian yöntemler | Istatistiksel | Öncül bilgi kullanabilir | Hesaplama maliyeti yüksek |
| LightGBM | Topluluk öğrenmesi | Hiz, doğruluk, büyük veri | Aşırı uyum riski |
| Derin öğrenme | Sinir agi | Karmasik oruntuleri öğrenebilir | Büyük veri gereksinimi |
LightGBM ile Genomik Tahmin
Yan ve arkadaşları (2021) tarafından Genome Biology dergisinde yayımlanan kapsamli çalışmada, LightGBM (Light Gradient Boosting Machine) algoritmasi misir ıslahında genomik secilim için değerlendirilmiştir. Çalışmada 1428 ana hat ve 30 baba test hattinin melezlenmesiyle elde edilen 8652 F1 hibrit misir örneği kullanilmistir. Tarla ölçümlerinde uc fenotipik özellik incelenmistir: puskullenme gunu (DTT), bitki boyu (PH) ve kocan agirligi (EW). Genotip özellikleri olarak genom genelinde esit dagilimli 32.559 haplotipik SNP kullanilmistir.
Model Karşılaştırma Sonuçları
Alti temel ML yöntemi karşılaştırılmıştır:
| Model | DTT Doğruluğu | PH Doğruluğu | EW Doğruluğu | Hesaplama Süresi |
|---|---|---|---|---|
| LightGBM | En yüksek | En yüksek | En yüksek | Düşük (rrBLUP'un 1/3'u bellek) |
| XGBoost | Yüksek | Yüksek | Yüksek | Orta |
| CatBoost | Iyi | Iyi | Iyi | Cok yüksek (LightGBM'in 100 kati CPU) |
| GB | Iyi | Iyi | Iyi | Orta |
| rrBLUP | Iyi | Iyi | Iyi | Yüksek bellek |
| RF, ANN, KNN, SVR | Düşük-Orta | Düşük-Orta | Düşük-Orta | Değişken |
LightGBM'in en önemli avantajlari sunlardir: ek fenotipik özellikler eklenerek tahmin doğruluğu DTT için 0.538'den 0.686'ya, PH için 0.518'den 0.687'ye yükseltilmiştir. Ayrica LightGBM, genotip karakterlerini sayisal özelliklere dönüştüren alternatif bir kodlama semasi sunarak poliploid turler için uygulamayi kolaylastirmaktadir.
Eğitim Verisi Örnekleme Oraninin Etkisi
Çalışmada eğitim-test örnekleme oraninin GS doğruluğuna etkisi sistematik olarak incelenmistir. 6210 F1 örneklik populasyonda dort farkli senaryo test edilmistir:
- 1:1 orani kritik esik noktasi olarak belirlenmistir; bu orandan sonra hem doğruluk hem de kararlilik belirgin şekilde düşmektedir
- Düşük örnekleme oranlarinda LightGBM, rrBLUP'a gore anlamli derecede üstün performans göstermiştir
- Eğitim örneklerinin hem ana hem de baba genotiplerini kapsamasi en yüksek tahmin doğruluğunu saglamistir
- Yalnizca baba ya da hicbir ebeveyn genotipi kapsamadiginda özellikle kocan agirligi için doğruluk yaklaşık yariya düşmektedir
Marker Destekli Islah (MAS) ve QTL Haritalama
Marker destekli ıslah, belirli genlerle ilişkili DNA markerlarini kullanarak secilim yapan bir stratejidir. QTL (Kantitatif Karakter Lokusu) haritalama, karmaşık özellikleri kontrol eden genomik bölgelerin belirlenmesini saglar. ML yöntemleri bu süreçte su sekillerde katkida bulunmaktadir:
- Marker-özellik ilişkisi tahmin: Genom genelinde ilişkili markerlar belirlenir
- Genomik tahmin modelleri: Binlerce markerin birlesik etkisi modellenir
- Coklu ortam analizi: Genotip x cevre etkileşimi (GxE) ML ile daha iyi yakalanir
Fenotip-Genotip Iliskisi ve ML
Fenotipleme, bitki ıslahındaki en büyük darbogazlardan biridir. Farber ve Kurouski'nin (2022) Raman spektroskopisi çalışmasında vurgulandigi uzere, genotipleme teknolojisi hızla ilerlermesine ragmen fenotipleme ayni hizda gelişememiştir. ML tabanlı yaklaşımlar su alanlarda fenotipleme sürecini hızlandırmaktadır:
- Yüksek verimli fenotipleme: Hiperspektral görüntüleme ve ML ile binlerce bitkinin özellikleri hızla belirlenir
- Tohum tabanlı tahmin: Raman veya NIR spektroskopisi ile tohum veya fide asamasinda çeşit özellikleri öngörülebilir
- Stres toleransi değerlendirmesi: Abiyotik (tuz, kuraklık, sıcaklık) ve biyotik (hastalık, zararli) streslere karsi tolerans spektroskopik verilerden tahmin edilebilir
- Heterozis tahmini: LightGBM gibi doğrusal olmayan modeller, hibrit performansini daha iyi öngörebilir
CRISPR/Cas9 ve ML Entegrasyonu
CRISPR/Cas9 gen duzenleme teknolojisi, hedeflenen genomik degisiklikleri yaparak ıslah sürecini hızlandırmaktadır. ML yöntemleri, CRISPR uygulamalarinda su konularda destek saglamaktadir:
- Hedef bölgelerin verimlilik tahmin modelleri
- Off-target (hedef disi) etkilerin öngörü modelleri
- Gen ifade oruntulerine dayali fenotip tahminleri
- Genom genelinde ilişkili lokuslarin önceliklendirilmesi
Tahmin Cerceveleri ve Populasyon Yapisi
Yan ve arkadaşlarınin çalışmasında vurgulanan önemli bir bulgu, populasyon yapılanmasinin model kararliligini büyük ölçüde etkilemesidir. Misir hibrit ıslahında, uzak heterotik gruplarin melezlenmesi populasyon tabakalanmasina yol acabilmektedir. Bu sorunu asma stratejileri sunlardir:
- Eğitim örneklerinin genetik çeşitliliği yansitmasi
- Farkli tahmin cercevelerinin (M+P, yalniz M, yalniz P, hicbiri) test edilmesi
- Cross-validation semasinin populasyon yapisina uygun tasarlanmasi
Gelecek Yönelimler
Bitki ıslahında ML'nin geleceği su alanlarda sekillenmektedir: coklu omik veri entegrasyonu (genomik + transkriptomik + metabolomik + fenotipik), transfer öğrenme ile turler arasi bilgi aktarımi, generatif modeller ile sanal ıslah simulasyonlari ve iklim değişikliğine uyum için hizlandirilmis ıslah programlari. LightGBM gibi verimli topluluk öğrenme algoritmalari, büyük ölçekli ticari ıslah boru hatlarinda (pipeline) yaklaşık 10-15% örnekleme ile %85-90 populasyonu tahmin etme kapasitesiyle maliyet etkin çözümler sunmaktadir.
Ilgili Kaynaklar
- Yan, J. ve ark. (2021). "LightGBM: accelerated genomically designed crop breeding through ensemble learning." Genome Biology, 22, 271.
- Farber, C. ve Kurouski, D. (2022). "Raman Spectroscopy and Machine Learning for Agricultural Applications." Frontiers in Plant Science, 13, 887511.
- Literaturde bu alanla ilişkili yaklaşık 73 makale tanimlanmistir.