TEMEL BİLEŞENLER ANALİZİ Principal Component Analysis Zafer CÖMERT www.zafercomert.com [email protected] Bitlis Eren Üniversitesi Mühendislik – Mimarlık Fakültesi Bilgisayar Mühendisliği Bölümü Bölüm İçi Seminerler 03.06.2015 Giriş Yüz Tanıma PCA Resim Sıkıştırma Örüntü Tanıma • Temel bileşenler yaklaşımı bağımlılık yapısını yok etme ve boyut indirgeme amaçları için kullanılmaktadır. Tanıma, sınıflandırma, boyut indirgenmesi ve yorumlanmasını sağlayan, çok değişkenli bir istatistik yöntemidir. www.zafercomert.com Gürültü Giderme 3 Standart Sapma ve Varyans 𝑠= 𝑛 Σ𝑖=1 (𝑋𝑖 − 𝑛−1 Varyans 𝑋)2 𝑛 2 Σ (𝑋 − 𝑋) 𝑖=1 𝑖 2 𝑠 = 𝑛−1 𝑛 Σ𝑖=1 𝑥𝑖 𝑋= 𝑛 Standart sapma, verilerin nasıl yayıldığına (saçıldığına) dair ölçümsel olarak bilgi verir. Veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Standart sapma varyansın kareköküdür. Varyans verinin yayılımı ile ilgili bir başka ölçüm bilgisi veren kavramdır. Genellikle değişimi ölçmek için kullanılır. Varyans, standart sapmanın karesidir. www.zafercomert.com Standart Sapma 4 Kovaryans 𝑛 Σ𝑖=1 𝑋𝑖 − 𝑋 (𝑌𝑖 − 𝑌) 𝑐𝑜𝑣(𝑋, 𝑌) = 𝑛−1 Olasılık teorisi ve istatistikte, kovaryans iki değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. Kovaryans, iki rasgele değişkenin beraber değişimlerini inceleyen bir istatistiktir. Standart sapma ve varyans tek boyutlu veriler için kullanılmaktadır. Ancak çoğu zaman veri setleri birden fazla boyuta sahiptir. Kovaryans her zaman iki boyut arasında ölçüm yapmak için kullanılmaktadır. www.zafercomert.com 𝑛 Σ𝑖=1 𝑋𝑖 − 𝑋 (𝑋𝑖 − 𝑋) 𝑣𝑎𝑟(𝑋) = 𝑛−1 5 Kovaryans Matrisi 𝑐𝑜𝑣(𝑥, 𝑦) 𝑐𝑜𝑣(𝑦, 𝑦) 𝑐𝑜𝑣(𝑧, 𝑦) 𝑐𝑜𝑣(𝑥, 𝑧) 𝑐𝑜𝑣(𝑦, 𝑧) 𝑐𝑜𝑣(𝑧, 𝑧) İkiden fazla değişkene bakıldığında kovaryans matris kullanılır. Kovaryans matristeki diyagonal değerler değişkenlerin varyans değerlerine eşittir. Kovaryans matris cov(a,b) = cov(b,a) özelliğinden dolayı simetrik bir yapı sergilemektedir. www.zafercomert.com 𝐶= 𝑐𝑜𝑣(𝑥, 𝑥) 𝑐𝑜𝑣(𝑦, 𝑥) 𝑐𝑜𝑣(𝑧, 𝑥) 6 • Bir vektör üzerine uygulanan matris o vektörün hem büyüklüğünü hem de yönünü değiştirebilir. Buna rağmen, bir matris bazı belirli vektörler üzerinde etkidiğinde onun büyüklüğünü bir çarpan kadar katlar, yani sadece büyüklüğünü değiştirir, doğrultularını değiştirmez. Doğrultusu değişmeyen bu vektörler söz konusu matrisin özvektörleri olarak ifade edilir. Özvektörler ancak kare matrislerden elde edilebilir. • Bu nedenle bir özdeğer ve özvektör elde etmek için kovaryans matrisler kullanılmaktadır. Ancak her kare matrisin özvektörleri yoktur. www.zafercomert.com Özdeğeler ve Özvektörler 7 Verilerin Boyutunu Azaltma Tahminleme Yapma Veri Setini Görüntüleme www.zafercomert.com PCA’nın Amaçları 8 PCA’nın Amaçları www.zafercomert.com PCA uygulandığında p boyutlu uzayın gerçek boyutu belirlenir. Bu gerçek boyuta temel bileşenler adı verilir. Temel bileşenlerin üç özelliği vardır: • Kolerasyonsuzlardır. • Birinci temel bileşen toplam değişkenliği en çok açıklayan değişkendir. • Bir sonraki temel bileşen kalan değişkenliği en çok açıklayan değişkendir. Çok boyutlu verilere doğru açıdan bakarak genellikle verideki ilişkiler açıklanabilir. PCA’nın amacı bu “doğru açıyı” bulmaktadır. 9 PCA’da, uygun koordinat sistemi aşağıdaki şekilde aranmaktadır: 1. 2. 3. 4. 1. eksen olarak, verilerin en büyük değişiminde olan yön seçilir. 2. eksen olarak, önceki 1. eksene dikey olan ve verilerin en büyük değişiminde olan yön seçilir. 3. eksen olarak, önceki 1. ve 2. eksene dikey olan ve kalan verilerin en büyük değişiminde olan yön seçilir. Böyle – her zaman yeni eksen olarak verilerindeki en büyük kalan değişimde olan yön seçilmektedir. • PCA, boyut azaltmada çok faydalı bir yöntemdir. • PCA, çok boyutlu verileri yaklaşık olarak ve daha az boyutlu veriyle temsil eder. • PCA, orijinal veriler için dik-olan-en-büyükvaryans-yönleri bulup orijinal verileri bu koordinat sisteminde gösterir. • PCA, çok boyutlu verilerin görsel gösterilmesi ve incelenmesi için kullanılabilir. • PCA, makine öğrenmesi olarak, verilerin boyutu azaltabilir–az değişen PCA özellikleri modelleme için önemsiz olabilir, bu şekilde modelleme ile ilgili hesaplama hızlandırabilir. • PCA, veri sıkıştırma için de kullanılabilir. www.zafercomert.com PCA’nın Uygulanışı 10 • Köşegen şeklindeki varyans matrisi, ilişkili verilerindeki farklı yönde değişim ya da genişliği belirtiyor. Temel bileşen analizi matematiksel anlamda, verilerin varyans matrisinin özdeğerleri problemi çözüp, özvektörleri yeni PCA koordinat sistemi olarak kullanır. Bu yeni koordinat sistemine göre, öncelikle önemli olan verilerdeki yönleri daha önce gösterilir, çok boyutlu karmaşık verilerin yapısı grafik şeklinde incelenebilir. www.zafercomert.com PCA 11 www.zafercomert.com PCA 12 Elektrokardiyografi, kardiyovasküler rahatsızlıklara tanı koyma ve değerlendirme amacıyla yaygın olarak kullanılmaktadır. Kalp hızı, ventriküler aksiyon potansiyelinin en önemli belirleyicisidir. Bu nedenle QT aralığı kalp hızıyla ters orantılı olacak şekilde değişmektedir. QT aralığının hesaplanma ve düzeltme gereği bu durumdan kaynaklanmaktadır. Bu çalışmada, sentetik elektrokardiyografi sinyalleri, bir önişleme sürecinden geçirilmiş ve temel bileşenler analizi ile sinyal üzerindeki gürültülerin azaltılması sağlanmıştır. Daha sonra sinyal özellikleri çıkarılıp son olarak QT aralıkları Bazett yöntemiyle ile belirlenmiştir. www.zafercomert.com Sentetik Elektrokardiyografi Sinyalleri Üzerinde QT Aralığının Belirlenmesi 13 ECGSYN ECGSYN, sentetik EKG sinyalleri üretmek için üç boyutlu, dinamik bir modeldir. Zamansal ve spektral parametreler ile gerçeğe yakın EKG sinyalleri üretmek için kullanılmıştır. Önişleme Genellikle önişleme adımlarının amacı, daha doğru analiz ve ölçüm için işaretlerin sinyal-gürültü oranını optimize etmektir. Alçak-geçiren filtre kesim frekansı 15-40 Hz, yüksek geçiren filtre kesim frekansı 0.05-0.5 Hz arasında kullanılmıştır. PCA PCA, veriyi yeniden temsil etmek için en anlamlı tanımlamayı yapmaya çalışır. Amaç kovaryans matrisin büyüklüğünü ölçerek fazlalıkları minimize etmek ve varyans ölçümü ile sinyali maksimum derecede temsil etmektir. Bazett QT aralığı QRS kompleksin başlangıcından T dalgasının sonuna kadar olan uzaklığı kapsar ve kalp hızı ile olan bağımlılığı nedeniyle düzeltilerek bildirilir. Düzeltme için Bazett formülü kullanılmıştır. www.zafercomert.com Sentetik Elektrokardiyografi Sinyalleri Üzerinde QT Aralığının Belirlenmesi 14 RR Spektral RR Zamansal EKG Morfolojik Parametreleri Parametreleri Parametreleri Rastgele Sayı Çekirdeği Örneklenmiş EKG fecg Örneklenmiş RR fint Atımların oluşturulması RR aralığı ve ilişkisel açısal frekanslar 3D Dinamik Sistem Runge-Kutta için Hareket dördüncü dereceden Denklemi entegrasyonu 15 ECGSYN 𝑆 𝑓 = 𝜎12 (𝑓 − 𝑓1 )2 𝑒𝑥𝑝 + 2 2 2𝑐 2𝜋𝑐1 1 𝜎22 (𝑓 − 𝑓2 )2 𝑒𝑥𝑝 2 2𝑐22 2𝜋𝑐2 16 ECGSYN İndeks (i) P Q R S 𝑻− 𝑻+ Zaman (sn) −0.2 𝛼 −0.05𝛼 0 0.05𝛼 0.277 𝛼 0.286 𝛼 0 𝜋𝛼 12 5𝜋𝛼 𝜋 𝛼 − 9 60 5𝜋 𝛼 9 𝜃𝑖 (radyan) 𝜋 𝛼 − 3 − 𝜋𝛼 12 𝛼𝑖 0.8 −5.0 30.0 −7.5 0.5𝛼 2.5 0.75𝛼 2.5 𝑏𝑖 0.2𝛼 0.1𝛼 0.1𝛼 0.1𝛼 0.4𝛼 −1 0.2𝛼 EKG Modelinin Morfolojik Parametreleri ile Modülasyon Faktörü 𝜶 = 𝒉𝒎𝒆𝒂𝒏 /𝟔𝟎 17 Tanımlama Notasyon Varsayımlar Yaklaşık kalp atım sayısı N EKG örnekleme frekansı 𝑓𝑒𝑐𝑔 256 Hz İç örnekleme frekansı 𝑓𝑖𝑛𝑡 512 Hz A 0.1mV ℎ𝑚𝑒𝑎𝑛 60 bpm ℎ𝑠𝑡𝑑 1 bpm Alçak frekans 𝑓1 0.1 Hz Yüksek frekans 𝑓2 0.25 Hz Alçak frekans standart sapma 𝑐1 0.1 Hz Yüksek frekans standart sapma 𝑐2 0.1 Hz LF/HF oranı 𝛾 0.5 Tek düze gürültünün genliğe katkısı Kalp hızı ortalaması Kalp hızı standart sapması EKG Modelinin Zamansal ve Spektral Parametreleri 256 18 www.zafercomert.com ECGSYN 19 Önişleme • EKG üzerindeki gürültülerin giderilmesi için alçak-geçiren süzgeçlerin kesim frekansının 15-40 Hz arasında olması güvenli olarak kabul edilir. Taban çizgisi dolaşımının giderilmesi için yüksek-geçiren bir süzgecin kesim frekansı ise genellikle 0.05-0.5 Hz arasında kullanılmaktadır. www.zafercomert.com • Genellikle önişleme adımlarının amacı, daha doğru analiz ve ölçüm için işaretlerin sinyalgürültü oranını optimize etmektir. 20 • Temel bileşenler analizi tanıma, sınıflandırma, boyut indirgenmesi ve yorumlanmasını sağlayan, çok değişkenli bir istatistik yöntemdir ve temelinde tekil değer ayrışımı (Singular Value Decomposition, SVD) yer almaktadır. • SVD bir matrisi, üç matris şeklinde ayrıştırmaktadır. Bu sürecin sonunda taban çizgi dolaşım sorunları giderilmiş ve PCA ile sinyal gürültüsünün azaltılması sağlanmıştır. www.zafercomert.com Temel Bileşenler Analizi 21 Temel Bileşenler Analizi • Denklemde EKG, PCA sonrası elde edilmiş sinyali, S giriş sinyali ile aynı boyutta, elemanların büyükten küçüğe sıralandığı ve pozitif değerler taşıdığı diyagonal matrisi, U ve V ise üniter matrisleri temsil etmektedir. ([𝑺𝟏 , 𝑺𝟐 , … , 𝑺𝒏 ]𝒅𝒊𝒂𝒈, 𝑺𝟏 > 𝑺𝟐 > ⋯ > 𝑺𝒏 ) • 𝑠12 +𝑠22 +𝑠32 +𝑠42 𝑛 2 𝑖=1 𝑠𝑖 > 0.97 • Denklemde 𝑠𝑖 değerlerinin her biri 𝑆 matrisinin elemanlarını temsil etmektedir ve tekil değerleri tutmaktadır. www.zafercomert.com • 𝐄𝐊𝐆 = 𝐔𝐒𝑽𝑻 22 23 www.zafercomert.com QT Analizi QT Aralığı 𝜶= 𝒉𝒎𝒆𝒂𝒏 /𝟔𝟎 T P Q 𝑄𝑇𝑐𝐵𝑎𝑧𝑒𝑡𝑡 = 𝑄𝑇/ 𝑅𝑅 𝑸𝑻𝒄 = 𝑸𝑻 + 𝟎. 𝟏𝟓𝟒(𝟏 − 𝑹𝑹) Bazett’s formülü Özellik Normal Değer Normal Limit QTc aralığı 400ms ∓40ms T genliği 0.3mV ∓0.2mV 3 𝑄𝑇𝑐𝐹𝑟𝑖𝑑𝑒𝑟𝑖𝑐𝑖𝑎 = 𝑄𝑇/ 𝑅𝑅 𝑄𝑇𝑐𝐹𝑟𝑎𝑚𝑖𝑛𝑔ℎ𝑎𝑛 = 𝑄𝑇 + 0.154. (1 − 𝑅𝑅) 𝑄𝑇𝑐𝐻𝑜𝑑𝑔𝑒𝑠 = 𝑄𝑇 + 1.75(HR − 60) His demetinden, sinyal lifleri kalbin bölümlerine giden sol ve sağ dal demetlerine bölünür. EKG’de bu Q dalgası olarak temsil edilir. Sinyal geçtikçe karıncık duvarları dinlenir ve sonraki sinyal için hazırda bekler. EKG’de karıncıkların dinlenmesi T dalgası ile ifade edilir. 24 25 www.zafercomert.com Kaynaklar 1. G. D. Clifford, F. Azuaje and P. E. McSharry, Advanced Methods and Tools for ECG Data Analysis, Boston, London: Artech House, 2006. Wearable ECG, London: Springer, 2009. 2. P. D. B. İlerigelen, Pratik Yaklaşımla EKG, İstanbul: Nobel Tıb Kitabevleri, 2012. 3. J. E. Hall, Guyton Tıbbi Fizyoloji, İstanbul: Nobel Tıp Kitapbevleri, 2014. 4. P. E. McSharry, G. D. Clifford, L. Tarassenko and L. A. Smith, "A Dynamical Model for Generating Synthetic Electrocardiogram Signals," IEEE Transactions on Biomedical Engineering, vol. 50, no. 3, pp. 289-294, 2006. 11. G. Akbaş Avcu, Pediatri Asistanlarının ve İntörnlerin EKG Bilgi Düzeyi ve Buna Etki Eden Faktörlerin Belirlenmesi ile EKG Eğitimi Sonrasındaki Değişimin Ortaya Konması, İzmir: Ege Üniversitesi Tıp Fakültesi, 2011. 5. R. Gupta, M. Mitra and J. Bera, ECG Acquisition and Automated Remeto Processing, London: Springer India, 2014. 12. A. H. Jonsdottir, Statistical analysis of ECG signals with focus on QT, Kongens Lyngby: Technical University of Denmark, 2005. 6. PhysioNet, "ECGSYN: A realistic ECG waveform generator," 05 01 2012. [Online]. Available: http://www.physionet.org/physiotools/ecgsyn/. [Accessed 01 01 2015]. 13. S. Wong, G. Kervio, M. Altuve, F. Carre and G. Carrault, "Comparing Six QT Correction Methods in an Athlete Population," in Computing in Cardiology, Krakow, 2012. 7. A. Seliger and L. B. Hansen, Characterization and Discrimination of Pathological Electrocardiograms using Advanced Machine Learning Methods, Kongens Lyngby: DTU, 2013. 9. 8. S. Chaudhuri, T. D. Pawar and S. Duttagupta,Ambulation Analysis in Q. Xue and S. Reddy, "Algorithms for Computerized QT Analysis," in Proceedings of the 22nd Annual ISCE Conference, Kyoto, 1998. www.zafercomert.com 10. H. Zhang and L.-Q. Zhang, "ECG analysis based on PCA and Support Vector Machines," in Neural Networks and Brain, 2005. ICNN&B '05. International Conference, Beijing, 2005. 26