Dr. Mehmet Solak Siirt Üniversitesi · Ziraat Fakültesi · Biyosistem Mühendisliği · Tarım ve Tarımsal Eğitim İçin Makine Öğrenmesi İçeriği

Makine Öğrenmesi: Temel 100 Soru & Cevap

ssssoru-cevaptemel-kavramlarmülakatmakine-öğrenmesi

Kaynak: Steve Nouri — Top 100 Machine Learning Questions & Answers


S1. Gözetimli ve gözetimsiz makine öğrenmesi arasındaki farkı açıklayın.

Gözetimli öğrenmede (Supervised Learning) algoritmaya etiketli veri sağlamamız gerekir — örneğin borsa fiyat tahmini. Gözetimsiz öğrenmede (Unsupervised Learning) ise etiketli veriye ihtiyaç yoktur — örneğin e-postaların spam ve spam olmayan olarak sınıflandırılması.

S2. Parametrik modeller nelerdir? Bir örnek verin.

Parametrik modeller, sonlu sayıda parametreye sahip modellerdir. Yeni veriyi tahmin etmek için yalnızca model parametrelerini bilmeniz yeterlidir. Örnekler: doğrusal regresyon, lojistik regresyon, doğrusal DVM'ler.

Parametrik olmayan modeller ise sınırsız sayıda parametreye sahip olup daha fazla esneklik sağlar. Yeni veriyi tahmin etmek için hem model parametrelerini hem de gözlemlenen veri durumunu bilmeniz gerekir. Örnekler: karar ağaçları, k-en yakın komşu, gizli Dirichlet analizi kullanan konu modelleri.

S3. Sınıflandırma ve regresyon arasındaki fark nedir?

Sınıflandırma (Classification) ayrık sonuçlar üretmek için kullanılır — verileri belirli kategorilere sınıflandırır. Örnek: e-postaları spam/spam değil olarak sınıflandırma.

Regresyon (Regression) ise sürekli verilerle uğraşırken kullanılır. Örnek: belirli bir zamandaki hisse senedi fiyatlarını tahmin etme.

S4. Aşırı öğrenme (Overfitting) nedir ve nasıl önlenir?

Aşırı öğrenme, bir modelin eğitim setini çok iyi öğrenip eğitim verisindeki rastgele dalgalanmaları kavram olarak benimsemesi durumudur. Bu, modelin genelleme yeteneğini olumsuz etkiler.

Önleme yöntemleri: - Düzenlileştirme (Regularization): Amaç fonksiyonuna özellik maliyeti ekleme - Basit model oluşturma: Daha az değişken ve parametre ile varyansı azaltma - Çapraz doğrulama (Cross-validation): k-katlı çapraz doğrulama yöntemleri - LASSO gibi teknikler: Aşırı öğrenmeye neden olabilecek parametreleri cezalandırma

S5. 'Eğitim seti' ve 'Test seti' ne anlama gelir?

Verilen veri seti iki farklı bölüme ayrılır: Eğitim seti (Training set) modeli eğitmek için kullanılan kısım, Test seti (Test set) ise eğitilmiş modeli test etmek için kullanılan kısımdır.

S6. Bir veri setindeki eksik veya bozuk verileri nasıl ele alırsınız?

En kolay yol, bu satırları veya sütunları silmek ya da tamamen başka bir değerle değiştirmektir.

Pandas'ta iki faydalı yöntem: - IsNull() ve dropna(): Eksik verili sütun/satırları bulup silmek için - Fillna(): Yanlış değerleri yer tutucu bir değerle değiştirmek için

S7. Topluluk öğrenmesini (Ensemble Learning) açıklayın.

Topluluk öğrenmesinde, birçok temel model (sınıflandırıcılar ve regresörler) oluşturulur ve daha iyi sonuçlar vermek üzere birleştirilir. Doğru ve bağımsız bileşen sınıflandırıcılar oluşturduğumuzda kullanılır. Sıralı ve paralel topluluk yöntemleri mevcuttur.

S8. Yanlılık-Varyans Ödünleşimini (Bias-Variance Tradeoff) açıklayın.

Tahmin modellerinde yanlılık (modelin veriye ne kadar iyi uyduğu) ile varyans (modelin girdilerdeki değişikliklere göre ne kadar değiştiği) arasında bir ödünleşim vardır.

  • Basit modeller: Kararlı (düşük varyans) ama gerçeğe yaklaşamaz (yüksek yanlılık)
  • Karmaşık modeller: Aşırı öğrenmeye daha yatkın (yüksek varyans) ama gerçeğe yaklaşabilecek kadar ifade gücüne sahip (düşük yanlılık)

En iyi model genellikle ortada bir yerdedir.

S9. Stokastik gradyan inişi (SGD) ile gradyan inişi (GD) arasındaki fark nedir?

Her ikisi de bir kayıp fonksiyonunu minimize eden parametre setini bulmak için yöntemlerdir.

  • Standart gradyan inişi: Her parametre seti için tüm eğitim örneklerini değerlendirir — büyük, yavaş adımlar
  • Stokastik gradyan inişi: Parametreleri güncellemeden önce yalnızca 1 eğitim örneğini değerlendirir — küçük, hızlı adımlar

S10. Eğitim seti boyutuna göre sınıflandırıcıyı nasıl seçersiniz?

Eğitim seti küçük olduğunda, yüksek yanlılık ve düşük varyansa sahip modeller daha iyi çalışır (aşırı öğrenme olasılığı düşük). Örneğin Naive Bayes, eğitim seti büyük olduğunda en iyi çalışır. Düşük yanlılık ve yüksek varyansa sahip modeller karmaşık ilişkilerde daha iyi performans gösterir.

S11. Aykırı değerleri (Outliers) ele almak için 3 veri ön işleme tekniği nelerdir?

  1. Winsorize: Eşik değerinde sınırlama
  2. Dönüştürme: Çarpıklığı azaltmak için (Box-Cox veya benzeri) dönüşüm
  3. Silme: Anomali veya ölçüm hatası olduğundan eminseniz aykırı değerleri kaldırma

S12. Eğitim, doğrulama ve test setlerine ne kadar veri ayırmalısınız?

Bir denge bulmanız gerekir. Test seti çok küçükse model performansının güvenilmez bir tahmini olur. Eğitim seti çok küçükse model parametrelerinin varyansı yüksek olur.

İyi bir kural: %80/%20 eğitim/test bölümü kullanın. Eğitim seti daha sonra eğitim/doğrulama olarak veya çapraz doğrulama bölümleri olarak ayrılabilir.

S13. Yanlış Pozitif ve Yanlış Negatif nedir?

  • Yanlış Pozitif (False Positive): Yanlışlıkla Doğru olarak sınıflandırılan ancak aslında Yanlış olan durumlar
  • Yanlış Negatif (False Negative): Yanlışlıkla Yanlış olarak sınıflandırılan ancak aslında Doğru olan durumlar

Karışıklık matrisinde (Confusion Matrix): Tip I hata = Yanlış Pozitif, Tip II hata = Yanlış Negatif.

S14. L1 ve L2 düzenlileştirme arasındaki farkı açıklayın.

  • L2 düzenlileştirme: Hatayı tüm terimler arasında dağıtma eğilimindedir. Gauss önsel dağılıma karşılık gelir.
  • L1 düzenlileştirme: Daha ikili/seyrek bir yapıdadır, birçok değişkene 1 veya 0 ağırlığı atanır. Laplace önsel dağılıma karşılık gelir.

S15. Fourier dönüşümü nedir?

Fourier dönüşümü, genel fonksiyonları simetrik fonksiyonların bir süperpozisyonuna ayrıştırmak için kullanılan genel bir yöntemdir. Herhangi bir zaman sinyaline uyan döngü hızları, genlikler ve fazları bulur. Bir sinyali zaman alanından frekans alanına dönüştürür — ses sinyallerinden veya sensör verileri gibi zaman serilerinden özellik çıkarmak için çok yaygın kullanılır.

S16. Derin öğrenme nedir ve diğer MÖ algoritmalarından farkı nedir?

Derin öğrenme (Deep Learning), makine öğrenmesinin sinir ağlarıyla ilgilenen bir alt kümesidir: büyük etiketlenmemiş veya yarı yapılandırılmış veri setlerini daha doğru modellemek için geri yayılım ve nörobilimden belirli ilkeleri kullanır. Bu anlamda, sinir ağları kullanarak verilerin temsillerini öğrenen bir gözetimsiz öğrenme algoritmasıdır.

S17. Üretici ve ayırt edici model arasındaki fark nedir?

  • Üretici model (Generative): Veri kategorilerini öğrenir
  • Ayırt edici model (Discriminative): Farklı veri kategorileri arasındaki ayrımı öğrenir

Ayırt edici modeller, sınıflandırma görevlerinde genellikle üretici modellerden daha iyi performans gösterir.

S18. Gözetimli MÖ'nin modern iş dünyasındaki uygulamaları nelerdir?

  • E-posta Spam Tespiti: Spam/spam olmayan olarak kategorize edilmiş e-postalarla model eğitimi
  • Sağlık Teşhisi: Hastalık görüntüleriyle modeli eğitme
  • Duygu Analizi: Belgelerin pozitif, nötr veya negatif duygu içerip içermediğini belirleme
  • Dolandırıcılık Tespiti: Şüpheli kalıpları tespit etmek için modeli eğitme

S19. Yarı gözetimli makine öğrenmesi nedir?

Gözetimli öğrenme tamamen etiketli veri kullanırken, gözetimsiz öğrenme eğitim verisi kullanmaz. Yarı gözetimli öğrenmede (Semi-supervised Learning) eğitim verisi az miktarda etiketli veri ve büyük miktarda etiketlenmemiş veri içerir.

S20. Gözetimsiz MÖ teknikleri nelerdir?

Kümeleme (Clustering): - Veriler benzer alt kümelere bölünür. Farklı kümeler nesneler hakkında farklı ayrıntılar ortaya koyar.

İlişkilendirme (Association): - Farklı değişkenler veya öğeler arasındaki ilişki kalıpları belirlenir. - Örneğin: e-ticaret sitesinin önceki satın alımlarınıza dayalı ürün önerisi

S21. Naive Bayes Sınıflandırıcısında 'naive' ne anlama gelir?

Sınıflandırıcıya 'naive' (saf) denir çünkü doğru olmayabilecek varsayımlar yapar. Algoritma, bir sınıfın bir özelliğinin varlığının, sınıf değişkeni verildiğinde diğer herhangi bir özelliğin varlığıyla ilişkili olmadığını (özelliklerin mutlak bağımsızlığı) varsayar.

S22. Gizli Dirichlet Tahsisini (LDA) açıklayın.

LDA, konu modellemenin yaygın bir yöntemidir — belgeleri konuya göre sınıflandırır. LDA, belgeleri her birinin kendi olası kelime olasılık dağılımına sahip konuların bir karışımı olarak temsil eden bir üretici modeldir.

S23. Temel Bileşen Analizini (PCA) açıklayın.

PCA, bir veri setindeki özellikleri ilişkisiz doğrusal kombinasyonlara birleştirerek dönüştüren bir yöntemdir. Bu yeni özellikler (temel bileşenler), temsil edilen varyansı sırayla maksimize eder. Sonuç olarak, PCA boyut azaltma için faydalıdır.

S24. F1 skoru nedir? Nasıl kullanılır?

F1 skoru, bir modelin performansının ölçüsüdür. Hassasiyet (precision) ve duyarlılığın (recall) ağırlıklı ortalamasıdır. 1'e yaklaşan sonuçlar en iyi, 0'a yaklaşanlar en kötüdür. Gerçek negatiflerin çok önemli olmadığı sınıflandırma testlerinde kullanılır.

S25. Regresyon yerine sınıflandırmayı ne zaman kullanmalısınız?

Sınıflandırma ayrık değerler üretir, regresyon sürekli sonuçlar verir. Sonuçlarınızın veri noktalarınızın belirli açık kategorilere ait olduğunu yansıtmasını istiyorsanız sınıflandırmayı tercih edin.

S26. Bir modelle aşırı öğrenme yapmadığınızdan nasıl emin olursunuz?

Üç ana yöntem: 1. Modeli basitleştirme: Daha az değişken ve parametre ile varyansı azaltma 2. Çapraz doğrulama: k-katlı çapraz doğrulama gibi teknikler 3. Düzenlileştirme: LASSO gibi teknikler ile belirli parametreleri cezalandırma

S27. Sınıflandırma probleminiz için hangi MÖ algoritmasını seçeceğinizi nasıl bilirsiniz?

  • Doğruluk önemliyse → farklı algoritmaları test edin ve çapraz doğrulama yapın
  • Eğitim seti küçükse → düşük varyans ve yüksek yanlılığa sahip modeller
  • Eğitim seti büyükse → yüksek varyans ve düşük yanlılığa sahip modeller

S28. E-posta spam filtresi nasıl tasarlanır?

  1. Binlerce etiketli e-posta ile model beslenir (spam / spam değil)
  2. Gözetimli MÖ algoritması spam kelimelerini (lottery, free offer, vb.) belirler
  3. Yeni gelen e-posta için Karar Ağaçları ve DVM gibi algoritmalarla olasılık hesaplanır
  4. Olasılık yüksekse spam olarak etiketlenir

S29. MÖ modelinin etkinliğini ölçmek için hangi değerlendirme yaklaşımlarını kullanırsınız?

Veri setini eğitim ve test setlerine bölün veya çapraz doğrulama kullanın. Ardından performans metrikleri uygulayın: F1 skoru, doğruluk (accuracy), karışıklık matrisi (confusion matrix). Önemli olan, modelin nasıl ölçüldüğünü ve doğru durumlar için doğru metrikleri nasıl seçeceğinizi anlamaktır.

S30. Şirket kullanıcıları için öneri sistemi nasıl uygulanır?

Şirketin gelir kaynaklarını, sektörünü ve kullanıcı tiplerini derinlemesine araştırmanız gerekir. İşbirlikçi filtreleme (Collaborative Filtering), içerik tabanlı filtreleme veya hibrit yaklaşımlar kullanılabilir.

S31. Torbalama (Bagging) yöntemini açıklayın.

Torbalama (Bootstrap Aggregating), veri setinin yeniden örnekleme yoluyla birden fazla alt kümeye bölündüğü bir topluluk yöntemidir. Her alt küme bir modeli eğitmek için kullanılır ve nihai tahminler oylama veya ortalama alma yoluyla yapılır. Torbalama paralel olarak gerçekleştirilir.

S32. ROC Eğrisi ve AUC (AUROC) nedir?

  • ROC: İkili sınıflandırıcılar için Gerçek Pozitif Oranı (y ekseni) ile Yanlış Pozitif Oranı (x ekseni) performans grafiği
  • AUC: ROC eğrisi altındaki alan; ikili sınıflandırma modellerini değerlendirmek için yaygın bir performans metriği

S33. AUROC neden ham doğruluktan daha iyidir?

AUROC, ham doğruluğun aksine sınıf dengesizliğine karşı dayanıklıdır. Örneğin, nüfusun yalnızca %1'inde görülen bir kanser türünü tespit etmek isterseniz, herkesi kansersiz sınıflandırarak %99 doğruluk elde edebilirsiniz — bu anlamsız bir metriktir.

S34. Sinir ağlarının avantajları ve dezavantajları nelerdir?

Avantajlar: Görüntü, ses ve video gibi yapılandırılmamış veri setlerinde performans atılımları sağlamıştır. Başka hiçbir MÖ algoritmasının öğrenemeyeceği kalıpları öğrenme esnekliği.

Dezavantajlar: Yakınsamak için büyük miktarda eğitim verisi gerekir. Doğru mimariyi seçmek zordur ve dahili "gizli" katmanlar anlaşılmazdır.

S35. Hassasiyet (Precision) ve Duyarlılık (Recall) tanımlayın.

  • Hassasiyet: Doğru hatırladığınız olayların, hatırladığınız toplam olay sayısına oranı
  • Hassasiyet = TP / (TP + FP)
  • Duyarlılık: Hatırlayabildiğiniz olay sayısının toplam olay sayısına oranı
  • Duyarlılık = TP / (TP + FN)

S36. Karar Ağacı Sınıflandırması nedir?

Karar ağacı, veri setleri sürekli daha küçük alt kümelere bölünerek ağaç yapısında sınıflandırma (veya regresyon) modelleri oluşturur. Hem kategorik hem de sayısal verileri işleyebilir.

S37. Karar Ağaçlarında Budama (Pruning) nedir?

Budama, karar ağaçlarının boyutunu küçülten bir tekniktir. Aşırı öğrenmeyi azaltarak tahmin doğruluğunu artırır. - Yukarıdan aşağıya: Kökten başlayarak düğümleri ve alt ağaçları keser - Aşağıdan yukarıya: Yaprak düğümlerinden başlar

S38. Öneri Sistemi nedir?

Spotify veya Amazon kullanan herkes tanıyacaktır: Kullanıcının tercih kalıplarına dayalı olarak ne duymak veya görmek isteyebileceğini tahmin eden bir bilgi filtreleme sistemidir.

S39. Çekirdek DVM (Kernel SVM) nedir?

Çekirdek DVM, çekirdek destek vektör makinesinin kısaltmasıdır. Çekirdek yöntemleri, örüntü analizi için bir algoritma sınıfıdır ve en yaygın olanı çekirdek DVM'dir.

S40. Boyut azaltma yöntemleri nelerdir?

  • Özellik mühendisliği ile özellikleri birleştirme
  • Çoklu doğrusal bağıntılı (collinear) özellikleri kaldırma
  • Algoritmik boyut azaltma (PCA, t-SNE, vb.)

S41. MÖ'de model oluşturmanın üç aşaması nedir?

  1. Model Oluşturma: Uygun algoritmayı seçin ve gereksinimlere göre eğitin
  2. Model Test Etme: Test verisi ile modelin doğruluğunu kontrol edin
  3. Model Uygulama: Test sonrası gerekli değişiklikleri yapın ve gerçek projeler için kullanın

S42. KNN ile k-means kümeleme arasındaki fark nedir?

  • K-En Yakın Komşu (KNN): Gözetimli sınıflandırma algoritması — etiketli veriye ihtiyaç duyar
  • K-Means Kümeleme: Gözetimsiz kümeleme algoritması — yalnızca etiketlenmemiş noktalar ve bir eşik değeri gerekir

S43. Veri Madenciliği ve Makine Öğrenmesi arasındaki fark nedir?

Makine öğrenmesi, bilgisayarlara açıkça programlanmadan öğrenme yeteneği veren algoritmaların çalışılması, tasarımı ve geliştirilmesidir. Veri madenciliği ise yapılandırılmamış veriden bilgi veya bilinmeyen kalıplar çıkarmaya çalışan süreçtir — bu süreçte MÖ algoritmaları kullanılır.

S44. MÖ'deki farklı algoritma teknikleri nelerdir?

  • Gözetimli Öğrenme (Supervised Learning)
  • Gözetimsiz Öğrenme (Unsupervised Learning)
  • Yarı Gözetimli Öğrenme (Semi-supervised Learning)
  • Pekiştirmeli Öğrenme (Reinforcement Learning)
  • Transdüksiyon (Transduction)
  • Öğrenmeyi Öğrenme (Learning to Learn)

S45. Medyandan 1 standart sapma yayılan eksik değerlerle verinin yüzde kaçı etkilenmez?

Veri medyan etrafında yayıldığına göre normal dağılım varsayalım. Normal dağılımda verilerin ~%68'i ortalamadan 1 standart sapma içinde yer alır, bu da ~%32'sinin etkilenmeden kalacağı anlamına gelir.

S46. PCA, KPCA ve ICA ne için kullanılır?

Hepsi boyut azaltma için kullanılan önemli özellik çıkarma teknikleridir: - PCA: Temel Bileşen Analizi - KPCA: Çekirdek Tabanlı Temel Bileşen Analizi - ICA: Bağımsız Bileşen Analizi

S47. Destek Vektör Makineleri (SVM) nedir?

Destek vektör makineleri, sınıflandırma ve regresyon analizi için kullanılan gözetimli öğrenme algoritmalarıdır.

S48. Toplu istatistiksel öğrenme nedir?

İstatistiksel öğrenme teknikleri, bir dizi gözlemlenen veriden bir fonksiyon veya tahmin edici öğrenmeye ve görülmemiş veriler hakkında tahminlerde bulunmaya olanak tanır. Veri oluşturma sürecine ilişkin istatistiksel varsayımlara dayalı performans garantileri sağlar.

S49. Topluluk yönteminde sınıflandırma hatasının yanlılık-varyans ayrıştırması nedir?

Bir öğrenme algoritmasının beklenen hatası yanlılık ve varyansa ayrıştırılabilir. Yanlılık terimi, öğrenme algoritmasının ürettiği ortalama sınıflandırıcının hedef fonksiyonla ne kadar eşleştiğini ölçer. Varyans terimi ise farklı eğitim setleri için tahminlerin ne kadar dalgalandığını ölçer.

S50. Ridge regresyonu Lasso regresyonuna ne zaman tercih edilir?

  • Az sayıda değişken, orta/büyük etki: Lasso regresyonu kullanın
  • Çok sayıda değişken, küçük/orta etki: Ridge regresyonu kullanın
  • İlişkili değişkenler varsa: Ridge regresyonu tercih edilebilir

Lasso (L1) hem değişken seçimi hem de parametre küçültme yaparken, Ridge yalnızca parametre küçültme yapar.

S51. 10.000 ağaçlı rastgele orman modeli: eğitim hatası 0.00 ama doğrulama hatası 34.23. Ne oluyor?

Model aşırı öğrenmiştir (overfitting). Eğitim hatası 0.00, sınıflandırıcının eğitim verisi kalıplarını görülmemiş veride bulunmayacak kadar taklit ettiği anlamına gelir. Rastgele ormanda bu, gereğinden fazla ağaç kullanıldığında olur. Çapraz doğrulama ile ağaç sayısını ayarlamak gerekir.

S52. K-means veya kNN'de neden Manhattan mesafesi yerine Öklid mesafesi kullanılır?

Manhattan mesafesi yalnızca yatay veya dikey olarak hesaplama yapar, boyut kısıtlamaları vardır. Öklid metriği ise herhangi bir uzayda mesafe hesaplamak için kullanılabilir. Veri noktaları herhangi bir boyutta olabileceğinden, Öklid mesafesi daha uygun bir seçenektir.

S53. Kategorik değişkeni sürekli değişken olarak ele almak daha iyi bir model verir mi?

Kategorik değişken yalnızca sıralı (ordinal) nitelikte olduğunda sürekli değişken olarak ele alınabilir.

S54. OLS doğrusal regresyona, Maximum Likelihood lojistik regresyona aittir. Açıklayın.

  • OLS (En Küçük Kareler): Gerçek ve tahmin edilen değerler arasındaki minimum mesafeyi veren parametreleri yakınsar — doğrusal regresyonda kullanılır
  • Maximum Likelihood: Gözlemlenen verileri en olası şekilde üreten parametre değerlerini seçer — lojistik regresyonda kullanılır

S55. Düzenlileştirme ne zaman gerekli olur?

Model aşırı öğrenmeye/eksik öğrenmeye başladığında gerekli olur. Bu teknik, daha fazla özellik getirmek için amaç fonksiyonuna bir maliyet terimi ekler, böylece birçok değişkenin katsayısını sıfıra iterek model karmaşıklığını azaltır.

S56. Doğrusal Regresyon nedir?

Gözetimli bir MÖ algoritmasıdır. Tahmine dayalı analiz için bağımlı ve bağımsız değişkenler arasındaki doğrusal ilişkiyi bulmak için kullanılır.

S57. Varyans Şişirme Faktörü (VIF) nedir?

VIF, bir regresyon değişkenleri koleksiyonundaki çoklu doğrusallığın (multicollinearity) tahminidir.

VIF = Modelin Varyansı / Tek bağımsız değişkenli modelin varyansı

Her bağımsız değişken için hesaplanır. VIF yüksekse, bağımsız değişkenlerin yüksek kolinearitesini gösterir.

S58. One-hot kodlama boyutluluğu neden artırır, etiket kodlama artırmaz?

One-hot kodlama kullanıldığında, kategorik değişkenlerdeki her sınıf için farklı bir değişken oluşturulur → boyutluluk artar. Etiket kodlama ise her sınıfa sayısal bir etiket atar → sütun sayısı değişmez.

S59. Karar Ağacı nedir?

İstenen çıktıyı elde etmek için gerçekleştirilmesi gereken eylem dizisini açıklayan hiyerarşik bir diyagramdır.

S60. Veri ikileştirme (Binarizing) nedir?

Eşik değerlerine dayalı olarak verileri ikili değerlere dönüştürme işlemidir. Eşikten küçük değerler 0'a, eşikten büyük değerler 1'e ayarlanır. Özellik mühendisliği yaparken faydalıdır.

S61. Çapraz doğrulama (Cross-validation) nedir?

Bir modelin yeni bağımsız bir veri seti üzerinde ne kadar iyi performans gösterdiğini değerlendirmek için kullanılan bir tekniktir. En basit örneği: veriyi eğitim ve test verisi olarak ikiye bölmektir.

S62. Rastgele ormanları SVM yerine ne zaman kullanırsınız?

  • Rastgele ormanlar özellik önemini belirlemenize olanak tanır, SVM'ler bunu yapamaz
  • Rastgele ormanlar çok daha hızlı ve basit oluşturulur
  • Çok sınıflı problemlerde SVM'ler bir-karşı-hepsi yöntemi gerektirir — daha az ölçeklenebilir

S63. Doğrusal modelin dezavantajları nelerdir?

  • Doğrusal ilişki, çok değişkenli normallik, çoklu doğrusallık olmama, otokorelasyon olmama, eşvaryans gibi güçlü varsayımlar yapar
  • Ayrık veya ikili sonuçlar için kullanılamaz
  • Model esnekliği değiştirilemez

S64. 50 küçük karar ağacı tek büyük ağaçtan daha mı iyidir?

Evet — çünkü rastgele orman, birçok zayıf karar ağacını birleştirerek güçlü bir öğrenici oluşturan bir topluluk yöntemidir. Daha doğru, daha sağlam ve aşırı öğrenmeye daha az yatkındır.

S65. Çekirdek (Kernel) nedir? Çekirdek hilesini açıklayın.

Çekirdek, iki vektörün (muhtemelen çok yüksek boyutlu) bir özellik uzayındaki nokta çarpımını hesaplama yoludur. Çekirdek hilesi, doğrusal olarak ayrılamayan verileri daha yüksek bir boyutta doğrusal olarak ayrılabilir hale getirerek doğrusal bir sınıflandırıcıyla doğrusal olmayan bir problemi çözer.

S66. Nedensellik ve korelasyon arasındaki farkları belirtin.

  • Nedensellik (Causality): X eylemi Y sonuçuna neden olur
  • Korelasyon (Correlation): X eylemi Y eylemiyle ilişkilendirilir, ancak X'in Y'ye neden olması gerekmez

S67. Patlayan gradyan problemi nedir?

Geri yayılım sırasında büyük hata gradyanları biriktiğinde ve sinir ağı ağırlıklarında büyük değişikliklere neden olduğunda patlayan gradyan problemi oluşur. Ağırlık değerleri o kadar büyüyebilir ki taşma olur ve NaN değerleri ortaya çıkar.

S68. İlişkilendirme Kuralı Madenciliği (ARM) nedir?

Birlikte ortaya çıkan özellikler (boyutlar) ve ilişkili olan özellikler gibi verideki kalıpları keşfetme tekniklerinden biridir.

S69. Marjinalleştirme nedir?

X rastgele değişkeninin, X'in diğer değişkenlerle birleşik olasılık dağılımı verildiğinde olasılığının toplanmasıdır. Toplam olasılık yasasının bir uygulamasıdır.

S70. PCA'da bileşen döndürme neden önemlidir?

Döndürme, tüm bileşenler tarafından elde edilen varyans içindeki ayrımı maksimize ettiği için bileşenlerin yorumlanması kolaylaşır. Döndürülmezse bileşenlerin varyansını tanımlamak için genişletilmiş bileşenlere ihtiyaç duyulur.

S71. Düzenlileştirme ve normalleştirme arasındaki fark nedir?

  • Normalleştirme (Normalization): Veriyi ayarlar — farklı ölçeklerdeki verileri uyumlu hale getirir
  • Düzenlileştirme (Regularization): Tahmin fonksiyonunu ayarlar — karmaşık fonksiyonlar yerine basit uyum fonksiyonları sağlayarak aşırı öğrenmeyi kontrol eder

S72. Doğrusal regresyon doğrusu ne zaman dömeyi bırakır?

En yüksek R-Kare (R²) değerinin bulunduğu noktada durur. R² veri setinin yakaladığı toplam varyansa göre sanal doğrusal regresyon doğrusunun yakaladığı varyans miktarını temsil eder.

S73. SVM algoritması kendi kendine öğrenmeyi nasıl ele alır?

SVM'nin öğrenme hızı ve genişleme hızı bununla ilgilenir. Öğrenme hızı yanlış hareketler için hiper düzlemleri cezalandırır, genişleme hızı ise sınıflar arasındaki maksimum ayrım alanını bulmakla ilgilenir.

S74. Verideki aykırı değerleri nasıl ele alırsınız?

Aykırı değerler kutu grafiği, saçılım grafiği, Z-Skoru, IQR skoru gibi araçlarla keşfedilir. Ele alma yöntemleri: - Eşik değerinde sınırlama - Çarpıklığı azaltmak için dönüşümler - Anomali veya hataysa silme

S75. Öneri sistemlerinde benzerlik bulmak için kullanılan teknikleri belirtin.

Pearson korelasyonu ve Kosinüs korelasyonu öneri sistemlerinde benzerlik bulmak için kullanılan tekniklerdir.

S76. Ağacınızı neden budarsınız?

Karar ağaçları aşırı öğrenmeye yatkındır. Budama, ağacın boyutunu küçülterek aşırı öğrenme olasılığını azaltır. Karar ağacının dallarını yaprak düğümlerine dönüştürmeyi ve orijinal daldan yaprak düğümlerini kaldırmayı içerir.

S77. EDA tekniklerinden bazılarını belirtin.

Keşifsel Veri Analizi (EDA): - Görselleştirme: Tek değişkenli, çift değişkenli, çok değişkenli - Eksik Değer İşleme: Ortalama/Medyan ile değiştirme - Aykırı Değer Tespiti: Kutu grafiği ile dağılımı belirleme, IQR ile sınır koyma

S78. Veri artırma (Data Augmentation) nedir?

Mevcut verileri hedefin değişmediği veya bilinen bir şekilde değiştiği şekilde düzenleyerek yeni veri sentezleme tekniğidir.

Görüntüler için yapılabilecek değişiklikler: - Yeniden boyutlandırma, yatay/dikey çevirme, döndürme - Gürültü ekleme, deforme etme, renk değiştirme

Her problem için özelleştirilmiş bir veri artırma hattı gerekir.

S79. Makine Öğrenmesinde Endüktif Mantık Programlama (ILP) nedir?

ILP, arka plan bilgisini ve örnekleri temsil etmek için mantık programlamayı kullanan bir makine öğrenmesi alt alanıdır.

S80. Endüktif ve dedüktif makine öğrenmesi arasındaki fark nedir?

  • Endüktif: Model, gözlemlenen örneklerden genelleştirilmiş bir sonuç çıkarmayı öğrenir
  • Dedüktif: Model önce sonuça ulaşır, ardından sonuç çıkarılır

S81. Makine öğrenmesi ve derin öğrenme arasındaki fark.

Makine öğrenmesi, yapay zekayı uygulamanın bir yöntemidir — deneyimlerden otomatik öğrenme yeteneği sağlar. Derin öğrenme ise makine öğrenmesinin yapay sinir ağlarına dayalı bir alt kümesidir — veriyi girdi olarak alır ve sezgisel kararlar verir.

S82. MÖ projesindeki adımlar nelerdir?

  1. Veri toplama
  2. Veri hazırlama
  3. MÖ modeli seçimi
  4. Modeli eğitme
  5. Model değerlendirme
  6. Parametre ayarlama
  7. Tahmin

S83. Yapay Zeka ve Makine Öğrenmesi arasındaki farklar?

Yapay zeka, insan beyninin bilişsel fonksiyonlarını taklit eden daha geniş bir kavramdır. Makine öğrenmesi ise yapay zekanın bir alt sınıfıdır — açıkça programlanmadan öğrenebilen otonom bir makine geliştirmeyi hedefler.

S84. Sınıflandırma probleminiz için uygun MÖ algoritmasını seçme adımları.

  1. Verilerinizin, kısıtlamalarınızın ve problemlerinizin net resmini oluşturun
  2. Sahip olduğunuz veri türünü ve çeşidini anlayın
  3. Veri kategorizasyonu: girdi ve çıktıya göre
  4. Kısıtlamaları anlayın: veri depolama kapasitesi, tahmin hızı, vb.
  5. Mevcut MÖ algoritmalarını bulun ve uygulayın
  6. Hiperparametre optimizasyonu: Grid search, random search, Bayesian optimizasyon

S85. Makine Öğrenmesinde Geri Yayılımı (Backpropagation) açıklayın.

Geri yayılım, yapay sinir ağlarını hesaplamak için kullanılan algoritmadır. Zincir kuralını kullanan gradyan inişi optimizasyonu tarafından kullanılır. Kayıp fonksiyonunun gradyanını hesaplayarak nöron ağırlıkları belirli bir değere ayarlanır. Birincil motivasyonu, çok katmanlı sinir ağını eğitmektir.

S86. Dışbükey Fonksiyon (Convex Function) nedir?

Sürekli bir fonksiyondur ve tanım alanındaki her aralığın orta noktasındaki değer, aralığın iki ucundaki değerlerin sayısal ortalamasından küçüktür.

S87. Gerçek Pozitif Oranı ile Duyarlılık (Recall) arasındaki ilişki nedir?

Aynı şeylerdir, sadece farklı isimleri vardır. Her ikisi de doğru şekilde tanımlanan pozitiflerin yüzdesini ölçer. Hassasiyet (Sensitivity) olarak da bilinir.

S88. MÖ algoritmalarını paralelleştirmek için araçlar belirtin.

Matlab, Weka, R, Octave veya Python tabanlı scikit-learn gibi temel araçlar kullanılabilir.

S89. Genetik Programlama (GP) nedir?

Evrimsel Algoritmaya benzer bir MÖ alt kümesidir. Rastgele mutasyon, uygunluk fonksiyonu, çaprazlama ve çoklu nesil evrim kullanarak kullanıcı tanımlı bir görevi çözen yazılım sistemleridir.

S90. Bayes Ağları hakkında ne biliyorsunuz?

Bayes Ağları (Bayesian Networks), bir değişkenler kümesi arasındaki olasılık ilişkisini temsil etmek için kullanılan grafik modellerdir. Örneğin, hastalıklar ve belirtiler arasındaki olasılıksal ilişkileri temsil edebilir.

S91. Bayes mantık programının iki bileşeni nedir?

  1. Mantıksal: Alanın niteliksel yapısını yakalayan Bayes Cümleleri kümesi
  2. Niceliksel: Alan hakkındaki niceliksel bilgiyi kodlamak için kullanılır

S92. Makine öğrenmesi günlük hayatta nasıl kullanılır?

İnternetle etkileşimde bulunduğunuzda, aramalarınızla tercihlerinizi ifade edersiniz. Çerezler aracılığıyla kullanıcı davranışı değerlendirilir ve benzer öneriler sunulur. Navigasyon sistemleri de optimizasyon teknikleri kullanarak mesafe hesaplayan MÖ örneklerindendir.

S93. Örnekleme (Sampling) nedir? Neden ihtiyacımız var?

Örnekleme, hedef popülasyondan temsilci olarak hizmet edecek bir alt küme seçme sürecidir. Örneklemden elde edilen verilerle topluluktaki kalıbı anlarız. Gereklidir çünkü çoğu zaman makul bir sürede tüm verileri toplayamaz veya işleyemeyiz.

S94. Karar sınırı (Decision Boundary) terimi ne anlama gelir?

Temel özellik uzayını her sınıf için birer alt uzaya bölen bir hiperyüzeydir. Karar sınırı bir hiper düzlem ise, sınıflar doğrusal olarak ayrılabilirdir.

S95. Entropi nedir?

Entropi, Y rastgele değişkeniyle ilişkili belirsizliğin ölçüsüdür. Değişkenin değerini iletmek için gereken beklenen bit sayısıdır.

S96. Makine öğrenmesinin temel amaçlarını belirtin.

  • Sistem, önceden oluşturulmuş hesaplamalardan bilgi alarak sağlam kararlar ve çıktılar verir
  • Verideki belirli kalıpları bulur ve ardından tahminlerde bulunarak konulara cevap sağlar

S97. Üretici ve ayırt edici model arasındaki farkları vurgulayın.

  • Üretici model: Aynı dağılımdan yeni örnekler ve veri örnekleri üretmeyi amaçlar
  • Ayırt edici model: Farklı veri örneği türleri arasındaki farkları vurgular, doğrudan veriden öğrenir ve sınıflandırır

S98. MÖ mühendisinin en önemli yetenekleri nelerdir?

İstatistik, olasılık, veri modelleme, programlama dili bilgisi, bilgisayar bilimi, MÖ kütüphaneleri ve algoritma uygulaması ve yazılım tasarımı konularında derinlemesine bilgi gereklidir.

S99. Özellik mühendisliği (Feature Engineering) nedir?

Ham verileri, tahmin modellerine temel sorunu daha iyi temsil eden özelliklere dönüştürme sürecidir. Görülmemiş veriler üzerinde model doğruluğunu artırır.

S100. Öğrenme eğrileri daha iyi model oluşturmaya nasıl yardımcı olur?

Öğrenme eğrileri, aşırı öğrenme veya eksik öğrenmenin varlığını gösterir. Eğitim hatası ve çapraz doğrulama hatası, eğitim veri noktası sayısına karşı çizilir. İki eğri arasındaki fark modelin durumu hakkında bilgi verir.


Kaynak: Steve Nouri — linkedin.com/in/stevenouri