02.04.2014 MEH535 Örüntü Tanıma 4. Parametrik Sınıflandırma Doç.Dr. M. Kemal GÜLLÜ Elektronik ve Haberleşme Mühendisliği Bölümü web: http://akademikpersonel.kocaeli.edu.tr/kemalg/ E-posta: [email protected] Parametrik Yoğunluk Kestirimi • Parametrik Kestirim: – Verilen eğitim kümesinden bir olasılıksal model kestirerek belirsizliği modelleme ve en iyi kararı verme problemi: • Parametrik, yarı-parametrik ve parametrik olmayan yoğunluk kestirimi – Parametrik sınıflandırmada örneklerden parametre kestirme (örn; Gauss modeli için ort, değişinti) – X = { xt }t=1N örnekleri xt~p(x) yoğunluğundan gelsin – p(x|θ) için bir yapı kabul edip X üzerinden θ’yı kestirmek örn; N ( μ, σ2) → θ = { μ, σ2} parametreleri 2 1 02.04.2014 Parametrik Yoğunluk Kestirimi • Eğitim verisinden P(ωi) ve P(x|ωi) sınıf yoğunluklarını kestirme problemi • Eğer kestirilebilir ise P(ωi|x) sonsalı hesaplanarak sınıf kararı verilebilir! En Büyük Olabilirlik Kestirimi (Maximum Likelihood Estimation-MLE) • Örnek veri kümesinin tüm elemanları için olabilirliği en büyükleyen θ parametresi? 3 En Büyük Olabilirlik Kestirimi (MLE) • Bağımsız ve eş dağılımlı (iid) örnek kümesi X = { xt }t=1N • xt bilindik bir θ parametreli p(x|θ) olasılık yoğunluğundan gelsin (xt~p(x|θ)) • Amaç: xt’nin olabildiğince p(x|θ)’dan örneklendiği θ parametresini bulmak • xt iid olduğundan, X kümesinin θ parametresi için olabilirliği (likelihood): l(θ|X) = p(X|θ) = ∏tp(xt|θ) 4 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) 2 02.04.2014 En Büyük Olabilirlik Kestirimi (MLE) • Veri kümesi hangi dağılımdan gelmiş olabilir? 5 En Büyük Olabilirlik Kestirimi (MLE) • Log olabilirlik: L(θ|X) = log l(θ|X) = ∑tlog p(xt|θ) • MLE kestirici: θ* = argmaxθ L(θ|X) • Örnek (Bernoulli D): iki durum → x={0,1} P(x) = pox (1 – po ) (1 – x) L (po|X) = log ∏t poxt (1 – po ) (1 – xt) dL (po|X)/dpo=0 → MLE: po = ∑t xt / N 6 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) 3 02.04.2014 En Büyük Olabilirlik Kestirimi (MLE) • Örnek (Çok Terimli D): K>2 çıktı durumu P (x1,x2,...,xK) = ∏i pixi L(p1,p2,...,pK|X) = log ∏t ∏i pixit MLE: pi = ∑t xit / N 7 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) En Büyük Olabilirlik Kestirimi (MLE) • Gauss Dağılımı: px • p(x) = N ( μ, σ2) x 2 1 p x exp 2 2 x 2 1 exp 2 2 2 2 • Log Olabilirlik: L(μ,σ|X) = -(N/2)log2π – Nlogσ - ∑t(xt-μ)2/2σ2 • μ ve σ2 için MLE: m x t t N s2 x t m 2 t N 8 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) 4 02.04.2014 Kestirici Performansı • Kestirici: di = d(Xi) • Yanlılık (Bias): bθ(d) = E[d] – θ → bθ(d) = 0 (yansız) • Değişinti (Variance): E[(d–E[d])2] • Ort. Karesel Hata: r (d,θ) = E[(d-θ)2] = (E[d]-θ)2 + E[(d-E[d])2] = Bias2 + Variance 9 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) Kestirici Performansı • Örnek: Ortalama ve değişinti kestiricilerinin yansızlığı m s2 x t x t yansız t N m t N 2 yanlı 10 5 02.04.2014 Bayes Kestirici • θ parametresi ile ilgili önsel bilgi mevcut • Bu bilgi kısıtlı sayıda örnekte kestirim yaparken faydalı olabilir! • θ, p(θ) önselli bir rassal değişken olsun • Bayes kuralı: p(θ|X) = p(X|θ)p(θ)/p(X) • Full: p(x|X) = ∫ p(x|θ) p(θ|X) dθ • Maximum a Posteriori (MAP): θMAP = argmaxθ p(θ|X) • Maximum Likelihood (ML): θML = argmaxθ p(X|θ) • Bayes: θBayes = E[θ|X] = ∫θp(θ|X)dθ 11 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) Bayes Kestirici • xt ~N (θ,σo2) ve θ~N (μ,σ2) • θML = m • θMAP = θBayes = N / 02 1/ 2 E |X m N / 02 1/ 2 N / 02 1/ 2 12 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) 6 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • Normal Dağılımlı Sınıflar için Bayes Sınıflandırıcıları: • MAP karar kuralı: • Çok Değişkenli Gauss Yoğunluğu (Multivariate GD): • MAP ayırtaç fonksiyonu: 13 Doğrusal ve Karesel Sınıflandırıcılar • Sabit terimler atıldığında: • Üstel ifadeden kurtulmak için fonksiyonun logaritması alındığında: Karesel ayırtaç fonksiyonu (quadratic discriminant function) 14 7 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • DURUM-1: Öznitelikler istatistiksel bağımsız ve değişintiler sabit (Σi = σ2I) • Gösterim açıldığında: 15 Doğrusal ve Karesel Sınıflandırıcılar • Sabit xTx atıldığında: – Ayırtaç doğrusal olduğundan, karar sınırları (gi(x)=gj(x)) hiper düzlem (hyperplane) şeklindedir. • Önseller eşit kabul edildiğinde En küçük uzaklık/en yakın ortalama sınıflandırıcı (minimum distance/nearest mean classifier) 16 8 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • En yakın ortalama sınıflandırıcıda σ2 = 1 alındığında uzaklık Euclidean uzaklığına dönüşmektedir. • En yakın ortalama sınıflandırıcı: 17 Doğrusal ve Karesel Sınıflandırıcılar • Örnek: 2-boyutlu uzayda 3-sınıf problemi Sınıf bölgeleri 18 9 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • DURUM-2: Öznitelikler istatistiksel bağımsız ve değişintileri farklı (Σi = Σ, Σ: köşegen) • x2[k] terimi sabit, atılabilir: 19 Doğrusal ve Karesel Sınıflandırıcılar – Ayırtaç doğrusaldır – Her eksenin mesafesi değişintisi ile normalize edilmiştir • Örnek: 20 10 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • DURUM-3: Değişintiler birbirinden, ortak değişintiler sıfırdan farklı (Σi = Σ, Σ: köşegen değil) • log|Σ| terimi atıldığında: • Karesel terim Mahalanobis Uzaklığı olarak adlandırılır. 21 Doğrusal ve Karesel Sınıflandırıcılar • Mahalanobis uzaklığı Σ-1 normunu kullanan bir vektör uzaklığıdır – Σ-1 uzayda yayma faktörünü tanımlar – Σ = I durumunda Euclidean uzaklığına dönüşür 22 11 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • Ayırtaçtaki karesel terim açıldığında: • xT Σ-1x ortak, atılabilir: – Ayırtaç doğrusal olduğundan karar sınırları hiper düzlemdir 23 Doğrusal ve Karesel Sınıflandırıcılar • Önsel olasılıklar eşit alındığında: En küçük uzaklık (Mahalanobis) sınıflandırıcı • Örnek: 24 12 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • DURUM-4: Ortak değişinti matrisleri farklı fakat durum-1’deki yapıda (Σi = σi2I) – İfade karesel olduğundan karar sınırları da kareseldir (hyper-ellipses) 25 Doğrusal ve Karesel Sınıflandırıcılar • Örnek: 26 13 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • DURUM-5: Ortak değişinti matrisleri farklı (Σi farklı) – Karar sınırları karesel: hiper-elips ya da hiper-parabol – Ayırtaçtaki karesel gösterim Mahalanobis uzaklığı ile orantılıdır 27 Doğrusal ve Karesel Sınıflandırıcılar • Örnek: 28 14 02.04.2014 Doğrusal ve Karesel Sınıflandırıcılar • Sonuçlar: – Normal dağılımlı sınıflar için Bayes sınıflandırıcı genel durumda karesel sınıflandırıcıdır – Normal dağılımlı sınıflar için Bayes sınıflandırıcı eşit ortak değişinti matrisi durumda doğrusal sınıflandırıcıdır – En küçük Mahalanobis uzaklığı sınıflandırıcı en uygundur: • Normal dağılımlı sınıflarda • Eşit ortak değişinti matrisinde • Eşit önsellerde – En küçük Euclidean uzaklığı sınıflandırıcı en uygundur: • Normal dağılımlı sınıflarda • Birim matris ile orantılı eşit ortak değişinti matrisinde • Eşit önsellerde 29 15