Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

1.15 Bitki Genetiği ve Makine Öğrenmesi Destekli Islah

genomik-seleksiyonGWASSNPderin-ogrenmekalitimsal-ozelliklerbitki-islahiyuksek-boyutluluk

1. Problem Tanımı ve Sistemik Etki

Bitki ıslahı (plant breeding), insanlığın 10.000 yıllık tarih boyunca en temel gıda güvenliği stratejisi olmuştur. Ancak geleneksel ıslah programları, bir yeni çeşidin geliştirilmesi için ortalama 8-12 yıl ve çeşit başına 1-5 milyon USD yatırım gerektirmektedir (Hickey et al., 2019). Küresel ölçekte, 2050 yılına kadar %60-70 oranında artması beklenen gıda talebini karşılamak için yıllık verim artış hızının mevcut %1,0-1,2 düzeyinden %2,4'e çıkarılması gerekmektedir.

Geleneksel fenotip tabanlı seleksiyonun üç temel kısıtlaması bulunmaktadır:

  • Düşük verim: Tarla fenotiplemesi mevsimsel döngülerle sınırlıdır; yılda yalnızca 1-2 generasyon değerlendirilebilir. Tropikal ortamlarda bile bu sayı 3'ü aşmaz.
  • Çevresel gürültü: Fenotipik performans, genotip x çevre (G x E) etkileşiminden büyük ölçüde etkilenir. Aynı genotip farklı lokasyonlarda %20-40 verim farkı gösterebilir.
  • Poligenik karmaşıklık: Verim, kuraklık toleransı ve kalite gibi agronomik özellikler yüzlerce ila binlerce genin küçük katkılarıyla kontrol edilir. Tek gen bazlı seleksiyon bu fenotipleri iyileştirmekte yetersiz kalır.

Bu kısıtlamalar, genomik verileri makine öğrenmesi ile entegre eden tahmine dayalı ıslah (predictive breeding) paradigmasını öne çıkarmıştır. Yüksek verimli genotipleme teknolojileri (SNP dizileri, GBS, tam genom dizileme) sayesinde bir bitkinin genomu artık birkaç saat içinde 100.000-1.000.000 SNP markeri düzeyinde okunabilmektedir; mühendislik problemi, bu yüksek boyutlu veriyi fenotipik performans tahminine dönüştürmektir.


2. Teknolojik Evrim ve Algoritmalar

2.1 Geleneksel Yöntemler (2001-2015)

Genomik seleksiyonun (GS) temeli, Meuwissen et al. (2001) tarafından atılmıştır. Erken dönem yaklaşımları istatistiksel modellere dayanmaktaydı:

  • GBLUP (Genomic Best Linear Unbiased Prediction): Genomik akrabalık matrisi (G-matrisi) kullanarak bireyler arasındaki genetik ilişkileri modelleyen doğrusal karışık model. Hesaplama açısından verimlidir (O(n^3)); ancak tüm SNP etkilerinin homojen varyansa sahip olduğunu varsayar — bu, büyük etkili genlerin olduğu senaryolarda yetersiz kalır. Buğdayda tipik tahmin doğruluğu r=0,30-0,60 aralığındadır (Crossa et al., 2017).
  • BayesB / BayesCpi: Her SNP etkisine farklı varyans atanmasına izin veren Bayesci regresyon yöntemleri. SNP etkilerinin bir kısmını sıfıra çekerek (shrinkage) seyreklik varsayımını karşılar. GBLUP'a göre büyük etkili QTL'lerin bulunduğu özelliklerde %5-15 daha yüksek tahmin doğruluğu sağlar; ancak MCMC örneklemesi nedeniyle hesaplama maliyeti 10-100 kat fazladır.
  • RKHS (Reproducing Kernel Hilbert Space): Gaussian çekirdek fonksiyonu ile doğrusal olmayan ilişkileri yakalayabilen yarı parametrik yöntem. Epistatik etkileşimlerin önemli olduğu senaryolarda GBLUP'tan üstün performans gösterir; ancak çekirdek bant genişliği hiperparametresi sonuca duyarlıdır.

Limitasyonlar: Bu yöntemlerin tümü, özellik boyutunun (p ~ 500.000 SNP) gözlem sayısını (n ~ 500-2.000) büyük ölçüde aştığı p >> n probleminden muzdariptir. Ayrıca gen-gen etkileşimlerini (epistasis) ve gen-çevre etkileşimlerini (G x E) modellemekte sınırlıdırlar.

2.2 Makine Öğrenmesi Yaklaşımları (2015-Günümüz)

Rastgele Orman (Random Forest)

  • Girdi: SNP markeri matrisi (n x p), her SNP 0/1/2 olarak kodlanmış (homozigot referans / heterozigot / homozigot alternatif).
  • Çalışma prensibi: Her ağaç, rasgele seçilmiş SNP alt kümesi üzerinde dallanma yaparak fenotipik değeri tahmin eder; tüm ağaçların ortalaması son tahmin olur.
  • Eğitim: Bagging ile bootstrap örnekleme; her düğümde sqrt(p) SNP aday olarak değerlendirilir.
  • Performans: Gonzalez-Recio et al. (2014), süt sığırlarında RF ile genomik tahmin doğruluğunu r=0,47 olarak raporlamış; GBLUP (r=0,51) ile karşılaştırılabilir ancak marjinal olarak düşük. Değişken önem sıralaması (variable importance) ile potansiyel QTL bölgelerinin belirlenmesinde ek avantaj sağlar.

Destek Vektör Regresyonu (SVR)

  • Girdi: SNP matrisi, isteğe bağlı olarak PCA ile boyut indirgenmiş.
  • Çalışma prensibi: RBF çekirdek fonksiyonu ile girdi uzayını yüksek boyutlu özellik uzayına haritalayarak epsilon-tube regresyonu uygular.
  • Eğitim: Çekirdek parametresi (gamma), ceza katsayısı (C) ve epsilon grid search ile optimize edilir.
  • Performans: Long et al. (2011), buğday veri setinde SVR ile r=0,56 tahmin doğruluğu elde etmiştir — BayesCpi (r=0,53) ve RKHS (r=0,55) ile karşılaştırılabilir düzeyde.

Derin Öğrenme (DNN / CNN)

  • Girdi: SNP matrisi, 1D vektör (DNN) veya kromozom sırasına göre dizilmiş 1D sinyal (CNN); bazı çalışmalarda 2D matris (LD bloğu temsili) olarak da kodlanmıştır.
  • Çalışma prensibi: DNN — çok katmanlı tam bağlı ağ ile doğrudan SNP'den fenotipe haritalama. CNN — 1D evrişim katmanları ile yerel genomik desenleri (haplotype blokları) otomatik olarak çıkarır.
  • Eğitim: Dropout (%20-50) ve erken durdurma ile aşırı öğrenme kontrolü; Adam optimizer; batch normalization.
  • Performans: Ma et al. (2018), buğday veri setinde çok katmanlı DNN ile r=0,55 tahmin doğruluğu elde etmiş; GBLUP (r=0,54) ile karşılaştırılabilir düzeydedir. Derin öğrenmenin avantajı, çevresel kovaryantlar eklendiğinde ortaya çıkmakta ve çok kaynaklı veri füzyonu senaryosunda GBLUP'u %5-10 aşabilmektedir.

GWAS (Genome-Wide Association Studies)

  • Girdi: SNP genotip matrisi + fenotipik ölçümler + popülasyon yapısı kovaryantları.
  • Çalışma prensibi: Her SNP markeri için ayrı ayrı doğrusal karışık model testi; Bonferroni veya FDR düzeltmesi ile çoklu test problemi kontrol edilir.
  • Limitasyon: Yalnızca orta-büyük etkili alelleri tespit eder; poligenik mimariye sahip özelliklerde varyansın büyük kısmını açıklayamaz ("eksik kalıtımsallık" problemi).

Yaklaşım Karşılaştırma Tablosu

Yaklaşım Veri Tipi Güçlü Yan Zayıf Yan Kullanım Senaryosu
GBLUP SNP matrisi Hesaplama verimliliği; teorik temeli sağlam; küçük popülasyonlarda kararlı Doğrusal varsayım; epistasis yakalamaz Rutin genomik seleksiyon programları
BayesB/Cpi SNP matrisi Büyük etkili QTL'lerde üstün; değişken seçim kapasitesi MCMC hesaplama maliyeti; hiperparametre duyarlılığı Az sayıda büyük etkili genin olduğu özellikler
Random Forest SNP + çevresel Doğrusal olmayan ilişkiler; değişken önem sıralaması Genomik tahmin doğruluğu GBLUP'un marjinal altında QTL keşfi + tahmin hibrit yaklaşımı
Derin Öğrenme SNP + çevresel + fenotipik Epistasis ve G x E etkileşimlerini otomatik öğrenme Büyük eğitim seti gereksinimi (n > 5.000); kara kutu Büyük ölçekli çok çevreli ıslah programları
GWAS SNP + fenotip Nedensel varyant keşfi; biyolojik mekanizma anlayışı Poligenik mimaride yetersiz; çoklu test yükü Marker-destekli seleksiyon; gen keşfi

3. Gerçek Dünya Zorlukları (Domain Gap Analizi)

Yüksek Boyutluluk ve Çoklu Doğrusallık

Tipik bir genomik seleksiyon veri seti, 500.000-1.000.000 SNP markeri içerirken gözlem sayısı 500-5.000 aralığındadır (p/n oranı ~ 100-1.000). Bağlantı dengesizliği (linkage disequilibrium, LD) nedeniyle komşu markerler arasında yüksek korelasyon bulunur; bu çoklu doğrusallık, regresyon katsayılarının kararsızlaşmasına yol açar. PCA ile boyut indirgeme yaygın olarak kullanılır, ancak ilk 10-20 bileşenin toplam varyansın yalnızca %20-40'ını açıkladığı gösterilmiştir (Price et al., 2006).

Popülasyon Yapısı ve Stratifikasyon

Eğitim popülasyonunun genetik yapısı, hedef popülasyondan farklı olduğunda tahmin doğruluğu dramatik biçimde düşer. Habier et al. (2010), süt sığırlarında eğitim ve hedef popülasyon arasındaki genetik mesafe arttıkça tahmin doğruluğunun r=0,72'den r=0,28'e düştüğünü raporlamıştır. Bitkilerde farklı ıslah programlarından elde edilen hatlar, farklı LD yapılarına sahiptir ve bir programda eğitilen model diğerine doğrudan aktarılamaz.

Genotip x Çevre (G x E) Etkileşimi

Aynı genotip farklı çevrelerde farklı fenotipik değerler gösterir. Jarquin et al. (2014), buğdayda G x E etkileşimini modelleyen çekirdek yöntemlerinin, etkileşimi görmezden gelen modellere kıyasla tahmin doğruluğunu r=0,38'den r=0,52'ye çıkardığını göstermiştir. Ancak bu iyileşme, her yeni çevre için yeniden kalibrasyon gerektirmektedir.

Fenotipleme Darboğazları

Genotipleme maliyeti son 15 yılda 1.000 kat düşmüştür (bir birey başına ~10 USD), ancak fenotipleme hâlâ emek yoğun ve pahalıdır. Kök mimarisi, kuraklık toleransı gibi karmaşık fenotiplerin ölçümü birey başına 50-200 USD maliyete ulaşabilir. Yüksek verimli fenotipleme (HTP) platformlarından elde edilen dolaylı ölçümler ile doğrudan agronomik ölçümler arasındaki korelasyon her zaman yüksek değildir (r=0,40-0,75).

Batch Etkileri ve Tekrarlanabilirlik

Farklı laboratuvarlarda, farklı genotipleme platformlarında veya farklı zaman dilimlerinde üretilen genomik veriler sistematik sapmalar (batch effects) içerir. Bu sapmalar, SNP çağırma aşamasında farklı kalite filtreleme eşiklerinden, farklı referans genomlardan veya farklı DNA izolasyon protokollerinden kaynaklanabilir. Düzeltilmezse model biyolojik varyasyonu değil teknik artefaktları öğrenir.

Bölgesel Senaryo: Siirt Fıstığı

Siirt ilinde yetiştirilen Antep fıstığı (Pistacia vera L.) çeşitlerinde makine öğrenmesi destekli ıslah uygulaması üç kritik mühendislik problemini barındırmaktadır:

  1. Referans genom eksikliği: Antep fıstığının yüksek kaliteli referans genomu ancak 2020 yılında yayınlanmıştır. Mevcut SNP dizileri (GBS tabanlı) düşük kapsama derinliğine sahiptir (~2-5x); bu durum eksik genotip oranını %15-30'a çıkarmakta ve imputasyon kalitesini düşürmektedir.
  2. Perennial bitki zorluğu: Fıstık ağaçlarının ilk meyve verme yaşı 5-7 yıldır ve alternans (alternate bearing) nedeniyle stabil verim değerlendirmesi en az 4-5 hasat yılı gerektirir. Bu, genomik seleksiyon modelinin eğitimi için gereken fenotipik verinin toplanmasını 10+ yıla yaymaktadır.
  3. Genetik çeşitlilik kısıtı: Güneydoğu Anadolu bölgesindeki fıstık popülasyonları dar genetik tabana sahiptir. Eğitim popülasyonundaki düşük genetik çeşitlilik (He ~ 0,25-0,35), modelin genotipik varyasyonu öğrenme kapasitesini sınırlar.

4. Literatür: Seminal Çalışmalar

Meuwissen et al. (2001) — Genomik seleksiyonun kurucu çalışması. Simülasyon verisi üzerinde yoğun marker bilgisi kullanarak toplam genetik değerin tahmin edilebileceğini göstermiş; BayesA ve BayesB yöntemlerini tanıtmış. Tahmin doğruluğu r=0,73-0,85 (simülasyon). (6.200+ atıf)

Crossa et al. (2017) — CIMMYT buğday ve mısır ıslah programlarından elde edilen çok çevreli veri setleri üzerinde genomik seleksiyon yöntemlerinin kapsamlı karşılaştırması. GBLUP, BayesCpi, RKHS ve derin öğrenme dahil 6 yöntem test edilmiş. Çok çevreli modellerde GBLUP tahmin doğruluğu r=0,30-0,60; RKHS marjinal üstünlük göstermiş. (1.100+ atıf)

Montesinos-Lopez et al. (2021) — Bitki ıslahında derin öğrenme uygulamalarının kapsamlı derlemesi. CNN, DNN ve RNN mimarilerinin genomik seleksiyon, fenotipleme ve gen keşfindeki kullanımını incelemiş. Derin öğrenmenin geleneksel yöntemlerle karşılaştırılabilir veya marjinal olarak üstün performans gösterdiğini belirlemiş. (500+ atıf)

Ma et al. (2018) — Buğday veri setinde (599 hat, 37.000 SNP) çok katmanlı DNN ile genomik tahmin. Dane verimi için r=0,55 tahmin doğruluğu — GBLUP (r=0,54) ve BayesCpi (r=0,55) ile karşılaştırılabilir. Hiperparametre optimizasyonunun sonuca büyük etkisi olduğu raporlanmış. (380+ atıf)

Hickey et al. (2019) — Gelecekteki ıslah stratejileri üzerine vizyoner perspektif. Hız ıslahı, genomik seleksiyon ve yüksek verimli fenotiplemenin entegrasyonunu tartışmış. Yıllık genetik kazanımın entegre yaklaşımlarla %0,5-1,0'den %2-3'e çıkarılabileceğini öngörmüş. (1.800+ atıf)


5. Gelecek Vizyonu

Çok-omik Veri Füzyonu

Genomik (SNP), transkriptomik (RNA-seq), metabolomik ve epigenomik verilerin entegre modellenmesi, fenotipik varyansın açıklanma oranını artırma potansiyeli taşımaktadır. Güncel çalışmalar, genomik + transkriptomik verinin birlikte kullanılmasının tahmin doğruluğunu %3-8 artırdığını göstermektedir. Ancak veri boyutunun katlanarak artması hesaplama altyapısı gereksinimlerini GPU kümelerine taşımakta ve boyut indirgeme stratejilerini daha önemli hale getirmektedir.

Transfer Öğrenmede Türler Arası Bilgi Aktarımı

Model çapraz mısırda eğitilip sorgumda test edildiğinde ne düzeyde aktarım sağlanabileceği, aktif bir araştırma sorusudur. Syntenik bölgelerdeki korunmuş QTL'ler potansiyel aktarım noktaları olarak değerlendirilmektedir. Bu yaklaşım, referans genomu tamamlanmamış veya ıslah popülasyonu küçük olan yetim türlerde (orphan crops) — Siirt fıstığı gibi — kritik bir çözüm sunabilir; ancak türler arası LD yapısı farklılıkları aktarımı zorlaştırmaktadır.

Hız Islahı ve Yıl İçi Döngüler

Hız ıslahı (speed breeding) teknolojisi ile yılda 4-6 generasyon elde edilmesi, genomik seleksiyon modellerinin eğitim veri setlerini hızla büyütme fırsatı sunmaktadır. Watson et al. (2018), kontrollü iklim odalarında uzatılmış fotoperiyot (22 saat ışık) ile buğdayda yılda 6 generasyona ulaşmıştır. Bu hız, modelin her generasyonda güncellenmesini ve gerçek zamanlı seleksiyon kararları verilmesini mümkün kılar; ancak kontrollü ortam fenotiplerinin tarla performansını ne ölçüde yansıttığı hâlâ doğrulanmaktadır.

Gen Düzenleme ile Entegrasyon

CRISPR-Cas9 tabanlı gen düzenleme, GWAS ve genomik seleksiyon ile belirlenen hedef genlerin doğrudan modifikasyonunu mümkün kılmaktadır. Makine öğrenmesi modelleri, sgRNA etkinlik tahmini ve off-target risk değerlendirmesinde kullanılmaya başlamıştır. Bu entegrasyon, ıslah süresini 2-3 yıla indirme vizyonu taşımaktadır; ancak düzenleyici çerçevelerin bu teknolojinin tarımsal uygulamasını kısıtladığı göz ardı edilmemelidir.


Bu içerik, literatür notları ve seçilmiş kaynak özetleri temel alınarak hazırlanmış editoryal bir ders metnidir.

Dr. Mehmet Solak — Siirt Üniversitesi, Biyosistem Mühendisliği