FEF3001 Yapay zekaya giriş - Ders5
2024-07-19
Denetimli Öğrenme
Denetimsiz Öğrenme
Zoom sohbet penceresinde lütfen bölümünüzü ve alanınızla ilgili bir sınıflandırma görevi örneği yazın
Bir örnek seçin ve veriler hakkında tartışın
Kaggle’ı ziyaret edin ve ilgili veri setini bulun
Karar Ağaçları, kararların ve olası sonuçlarının ağaç benzeri bir modelini kullanan bir sınıflandırma yöntemidir. Algoritma, veriyi özellik değerlerine göre bölen bir dizi eğer-o zaman-değilse karar kuralını öğrenir ve bir akış şemasına benzeyen bir yapı oluşturur. Her iç düğüm bir özellik üzerinde bir “test”i temsil eder, her dal testin sonucunu temsil eder ve her yaprak düğüm bir sınıf etiketi veya kararı temsil eder.
dal, test, yaprak
Çalışılan saat | Önceki Puan | Uygulamaya Katıldı | Geçti? |
---|---|---|---|
3 | 60 | Hayır | ? |
4 | 75 | Hayır | ? |
7 | 80 | Evet | ? |
Sorular: Hangi özellik ilk dal olur? Hangi değerde bir dal oluştururuz (5 saat, 70 puan, vb.)
Formül: \(H(S) = -\sum_{i=1}^{c} p_i \log_2(p_i)\)
Burada \(S\) veri kümesi, \(c\) sınıf sayısı ve \(p_i\), \(i\) sınıfına ait örneklerin oranıdır.
Formül: \(IG(S, A) = H(S) - \sum_{v \in Values(A)} \frac{|S_v|}{|S|} H(S_v)\)
Burada \(S\) veri kümesi, \(A\) bölünme için düşünülen özellik, \(Values(A)\) \(A\) özelliğinin olası değerleri ve \(S_v\), \(A\) özelliğinin \(v\) değerine sahip olduğu \(S\)’nin alt kümesidir.
Formül: \(Gini(S) = 1 - \sum_{i=1}^{c} (p_i)^2\)
Burada \(S\) veri kümesi, \(c\) sınıf sayısı ve \(p_i\), \(i\) sınıfına ait örneklerin oranıdır.
Entropi (bilgi kazancı ile) veya Gini safsızlığı kullanma seçimi genellikle karar ağacı algoritmasının belirli uygulamasına bağlıdır. Pratikte, genellikle benzer sonuçlar verirler.
Algoritmalar hakkında detaylar için lütfen bu bağlantıyı ziyaret edin
https://www.dataspoof.info/post/decision-tree-classification-in-r/
https://forum.posit.co/t/decision-tree-in-r/5561/5
Karar Ağaçlarının Avantajları:
Dezavantajları:
Rastgele orman, Leo Breiman ve Adele Cutler tarafından tescillenen, birden çok karar ağacının çıktısını birleştirerek tek bir sonuca ulaşan yaygın olarak kullanılan bir makine öğrenimi algoritmasıdır.
Rastgele ormanlar, eğitim sırasında çok sayıda karar ağacı oluşturarak çalışan ve sınıflandırma, regresyon ve diğer görevler için kullanılan bir topluluk öğrenme yöntemidir. Sınıflandırma görevleri için rastgele ormanın çıktısı, çoğu ağaç tarafından seçilen sınıftır.
Lütfen şu adresi ziyaret edin: https://www.kaggle.com/code/lara311/diabetes-prediction-using-machine-learning
Temel Fikir
Farklı türdeki nesneleri, örneğin elmaları ve portakalları, renk, şekil ve boyut gibi özelliklerine göre ayırmaya çalıştığınızı hayal edin. İki tür nesneyi mümkün olduğunca doğru bir şekilde ayıran bir çizgi (veya daha yüksek boyutlarda bir hiper düzlem) çizmek istiyorsunuz.
Destek Vektör Makineleri = Support Vector Machines (SVM)
Destek Vektör Makinesi, veriyi farklı sınıflara ayıran en iyi hiper düzlemi bulmayı amaçlayan bir tür denetimli öğrenme algoritmasıdır. İşte nasıl çalıştığı:
Temel Kavramlar
SVM’ler güçlüdür çünkü:
H1 sınıfları ayırmaz. H2 ayırır, ancak sadece küçük bir marjla. H3 onları maksimum marjla ayırır. Kaynak
İki sınıftan örneklerle eğitilmiş bir SVM için maksimum marjlı hiperdüzlem ve marjlar. Marj üzerindeki örneklere destek vektörleri denir. Kaynak
SVM için çevrimiçi interaktif bir demo için lütfen SVM demo sitesini ziyaret edin.
Temel Fikir
Lojistik regresyon, bir sonucun, olayın veya gözlemin olasılığını tahmin ederek ikili sınıflandırma görevlerini gerçekleştiren denetimli bir makine öğrenimi algoritmasıdır. Model, iki olası sonuçla sınırlı ikili bir sonuç sunar: evet/hayır, 0/1 veya doğru/yanlış.
Lojistik Regresyon, bir dizi girdi değişkenine (örneğin, puanlar) dayalı olarak bir olayın gerçekleşme olasılığını (örneğin, sınavı geçme) modelleyen bir tür denetimli öğrenme algoritmasıdır. İşte nasıl çalıştığı:
Lojistik Regresyon popüler bir algoritmadır çünkü: