Temel Bileşenler Analizi - Bitlis Eren Üniversitesi

advertisement
TEMEL BİLEŞENLER ANALİZİ
Principal Component Analysis
Zafer CÖMERT
www.zafercomert.com
[email protected]
Bitlis Eren Üniversitesi
Mühendislik – Mimarlık Fakültesi
Bilgisayar Mühendisliği Bölümü
Bölüm İçi Seminerler
03.06.2015
Giriş
Yüz
Tanıma
PCA
Resim
Sıkıştırma
Örüntü
Tanıma
•
Temel bileşenler yaklaşımı bağımlılık yapısını yok etme ve boyut indirgeme amaçları için kullanılmaktadır.
Tanıma, sınıflandırma, boyut indirgenmesi ve yorumlanmasını sağlayan, çok değişkenli bir istatistik
yöntemidir.
www.zafercomert.com
Gürültü
Giderme
3
Standart Sapma ve Varyans
𝑠=
𝑛
Σ𝑖=1
(𝑋𝑖
−
𝑛−1
Varyans
𝑋)2
𝑛
2
Σ
(𝑋
−
𝑋)
𝑖=1 𝑖
2
𝑠 =
𝑛−1
𝑛
Σ𝑖=1
𝑥𝑖
𝑋=
𝑛
Standart sapma, verilerin nasıl yayıldığına (saçıldığına) dair ölçümsel
olarak bilgi verir. Veri değerlerinin yayılımının özetlenmesi için kullanılan
bir ölçüdür. Standart sapma varyansın kareköküdür.
Varyans verinin yayılımı ile ilgili bir başka ölçüm bilgisi veren kavramdır.
Genellikle değişimi ölçmek için kullanılır. Varyans, standart sapmanın
karesidir.
www.zafercomert.com
Standart Sapma
4
Kovaryans
𝑛
Σ𝑖=1
𝑋𝑖 − 𝑋 (𝑌𝑖 − 𝑌)
𝑐𝑜𝑣(𝑋, 𝑌) =
𝑛−1
Olasılık teorisi ve istatistikte, kovaryans iki değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. Kovaryans, iki rasgele değişkenin beraber değişimlerini
inceleyen bir istatistiktir. Standart sapma ve varyans tek boyutlu veriler için kullanılmaktadır. Ancak çoğu zaman veri setleri birden fazla boyuta sahiptir.
Kovaryans her zaman iki boyut arasında ölçüm yapmak için kullanılmaktadır.
www.zafercomert.com
𝑛
Σ𝑖=1
𝑋𝑖 − 𝑋 (𝑋𝑖 − 𝑋)
𝑣𝑎𝑟(𝑋) =
𝑛−1
5
Kovaryans Matrisi
𝑐𝑜𝑣(𝑥, 𝑦)
𝑐𝑜𝑣(𝑦, 𝑦)
𝑐𝑜𝑣(𝑧, 𝑦)
𝑐𝑜𝑣(𝑥, 𝑧)
𝑐𝑜𝑣(𝑦, 𝑧)
𝑐𝑜𝑣(𝑧, 𝑧)
İkiden fazla değişkene bakıldığında kovaryans matris kullanılır.
Kovaryans matristeki diyagonal değerler değişkenlerin varyans
değerlerine eşittir. Kovaryans matris cov(a,b) = cov(b,a)
özelliğinden dolayı simetrik bir yapı sergilemektedir.
www.zafercomert.com
𝐶=
𝑐𝑜𝑣(𝑥, 𝑥)
𝑐𝑜𝑣(𝑦, 𝑥)
𝑐𝑜𝑣(𝑧, 𝑥)
6
• Bir vektör üzerine uygulanan matris o vektörün hem
büyüklüğünü hem de yönünü değiştirebilir. Buna rağmen, bir
matris bazı belirli vektörler üzerinde etkidiğinde onun
büyüklüğünü bir çarpan kadar katlar, yani sadece büyüklüğünü
değiştirir, doğrultularını değiştirmez. Doğrultusu değişmeyen
bu vektörler söz konusu matrisin özvektörleri olarak ifade
edilir. Özvektörler ancak kare matrislerden elde edilebilir.
• Bu nedenle bir özdeğer ve özvektör elde etmek için kovaryans
matrisler kullanılmaktadır. Ancak her kare matrisin özvektörleri
yoktur.
www.zafercomert.com
Özdeğeler ve Özvektörler
7
Verilerin Boyutunu
Azaltma
Tahminleme Yapma
Veri Setini
Görüntüleme
www.zafercomert.com
PCA’nın Amaçları
8
PCA’nın Amaçları
www.zafercomert.com
PCA uygulandığında p
boyutlu uzayın gerçek
boyutu belirlenir.
Bu gerçek boyuta temel bileşenler adı verilir.
Temel bileşenlerin üç özelliği vardır:
• Kolerasyonsuzlardır.
• Birinci temel bileşen toplam değişkenliği en
çok açıklayan değişkendir.
• Bir sonraki temel bileşen kalan değişkenliği
en çok açıklayan değişkendir.
Çok boyutlu verilere doğru açıdan bakarak
genellikle verideki ilişkiler açıklanabilir.
PCA’nın amacı bu “doğru açıyı” bulmaktadır.
9
PCA’da, uygun koordinat
sistemi aşağıdaki şekilde
aranmaktadır:
1.
2.
3.
4.
1. eksen olarak, verilerin en büyük
değişiminde olan yön seçilir.
2. eksen olarak, önceki 1. eksene
dikey olan ve verilerin en büyük
değişiminde olan yön seçilir.
3. eksen olarak, önceki 1. ve 2.
eksene dikey olan ve kalan verilerin
en büyük değişiminde olan yön
seçilir.
Böyle – her zaman yeni eksen olarak
verilerindeki en büyük kalan
değişimde olan yön seçilmektedir.
•
PCA, boyut azaltmada çok faydalı bir yöntemdir.
•
PCA, çok boyutlu verileri yaklaşık olarak ve daha az
boyutlu veriyle temsil eder.
•
PCA, orijinal veriler için dik-olan-en-büyükvaryans-yönleri bulup orijinal verileri bu koordinat
sisteminde gösterir.
•
PCA, çok boyutlu verilerin görsel gösterilmesi ve
incelenmesi için kullanılabilir.
•
PCA, makine öğrenmesi olarak, verilerin boyutu
azaltabilir–az değişen PCA özellikleri modelleme
için önemsiz olabilir, bu şekilde modelleme ile ilgili
hesaplama hızlandırabilir.
•
PCA, veri sıkıştırma için de kullanılabilir.
www.zafercomert.com
PCA’nın Uygulanışı
10
• Köşegen şeklindeki varyans matrisi, ilişkili verilerindeki farklı
yönde değişim ya da genişliği belirtiyor. Temel bileşen analizi
matematiksel anlamda, verilerin varyans matrisinin
özdeğerleri problemi çözüp, özvektörleri yeni PCA koordinat
sistemi olarak kullanır. Bu yeni koordinat sistemine göre,
öncelikle önemli olan verilerdeki yönleri daha önce gösterilir,
çok boyutlu karmaşık verilerin yapısı grafik şeklinde
incelenebilir.
www.zafercomert.com
PCA
11
www.zafercomert.com
PCA
12
Elektrokardiyografi,
kardiyovasküler
rahatsızlıklara
tanı
koyma
ve
değerlendirme amacıyla yaygın olarak
kullanılmaktadır. Kalp hızı, ventriküler
aksiyon potansiyelinin en önemli
belirleyicisidir. Bu nedenle QT aralığı
kalp hızıyla ters orantılı olacak şekilde
değişmektedir. QT aralığının hesaplanma
ve düzeltme gereği bu durumdan
kaynaklanmaktadır.
Bu
çalışmada,
sentetik elektrokardiyografi sinyalleri,
bir önişleme sürecinden geçirilmiş ve
temel bileşenler analizi ile sinyal
üzerindeki
gürültülerin
azaltılması
sağlanmıştır. Daha sonra sinyal özellikleri
çıkarılıp son olarak QT aralıkları Bazett
yöntemiyle ile belirlenmiştir.
www.zafercomert.com
Sentetik Elektrokardiyografi Sinyalleri Üzerinde QT Aralığının
Belirlenmesi
13
ECGSYN
ECGSYN, sentetik EKG sinyalleri üretmek için üç
boyutlu, dinamik bir modeldir. Zamansal ve spektral
parametreler ile gerçeğe yakın EKG sinyalleri üretmek
için kullanılmıştır.
Önişleme
Genellikle önişleme adımlarının amacı, daha doğru
analiz ve ölçüm için işaretlerin sinyal-gürültü oranını
optimize etmektir. Alçak-geçiren filtre kesim frekansı
15-40 Hz, yüksek geçiren filtre kesim frekansı 0.05-0.5
Hz arasında kullanılmıştır.
PCA
PCA, veriyi yeniden temsil etmek için en anlamlı
tanımlamayı yapmaya çalışır. Amaç kovaryans matrisin
büyüklüğünü ölçerek fazlalıkları minimize etmek ve
varyans ölçümü ile sinyali maksimum derecede temsil
etmektir.
Bazett
QT aralığı QRS kompleksin başlangıcından T dalgasının
sonuna kadar olan uzaklığı kapsar ve kalp hızı ile olan
bağımlılığı nedeniyle düzeltilerek bildirilir. Düzeltme
için Bazett formülü kullanılmıştır.
www.zafercomert.com
Sentetik Elektrokardiyografi Sinyalleri Üzerinde QT Aralığının
Belirlenmesi
14
RR Spektral
RR Zamansal
EKG Morfolojik
Parametreleri
Parametreleri
Parametreleri
Rastgele Sayı
Çekirdeği
Örneklenmiş EKG fecg
Örneklenmiş RR fint
Atımların
oluşturulması RR
aralığı ve ilişkisel
açısal frekanslar
3D Dinamik Sistem
Runge-Kutta
için Hareket
dördüncü dereceden
Denklemi
entegrasyonu
15
ECGSYN
𝑆 𝑓 =
𝜎12
(𝑓 − 𝑓1 )2
𝑒𝑥𝑝
+
2
2
2𝑐
2𝜋𝑐1
1
𝜎22
(𝑓 − 𝑓2 )2
𝑒𝑥𝑝
2
2𝑐22
2𝜋𝑐2
16
ECGSYN
İndeks (i)
P
Q
R
S
𝑻−
𝑻+
Zaman (sn)
−0.2 𝛼
−0.05𝛼
0
0.05𝛼
0.277 𝛼
0.286 𝛼
0
𝜋𝛼
12
5𝜋𝛼 𝜋 𝛼
−
9
60
5𝜋 𝛼
9
𝜃𝑖 (radyan)
𝜋 𝛼
−
3
−
𝜋𝛼
12
𝛼𝑖
0.8
−5.0
30.0
−7.5
0.5𝛼 2.5
0.75𝛼 2.5
𝑏𝑖
0.2𝛼
0.1𝛼
0.1𝛼
0.1𝛼
0.4𝛼 −1
0.2𝛼
EKG Modelinin Morfolojik Parametreleri ile Modülasyon Faktörü 𝜶 =
𝒉𝒎𝒆𝒂𝒏 /𝟔𝟎
17
Tanımlama
Notasyon
Varsayımlar
Yaklaşık kalp atım sayısı
N
EKG örnekleme frekansı
𝑓𝑒𝑐𝑔
256 Hz
İç örnekleme frekansı
𝑓𝑖𝑛𝑡
512 Hz
A
0.1mV
ℎ𝑚𝑒𝑎𝑛
60 bpm
ℎ𝑠𝑡𝑑
1 bpm
Alçak frekans
𝑓1
0.1 Hz
Yüksek frekans
𝑓2
0.25 Hz
Alçak frekans standart sapma
𝑐1
0.1 Hz
Yüksek frekans standart sapma
𝑐2
0.1 Hz
LF/HF oranı
𝛾
0.5
Tek düze gürültünün genliğe katkısı
Kalp hızı ortalaması
Kalp hızı standart sapması
EKG Modelinin Zamansal ve Spektral Parametreleri
256
18
www.zafercomert.com
ECGSYN
19
Önişleme
• EKG üzerindeki gürültülerin
giderilmesi için alçak-geçiren
süzgeçlerin kesim frekansının
15-40 Hz arasında olması
güvenli olarak kabul edilir.
Taban çizgisi dolaşımının
giderilmesi için yüksek-geçiren
bir süzgecin kesim frekansı ise
genellikle 0.05-0.5 Hz arasında
kullanılmaktadır.
www.zafercomert.com
• Genellikle önişleme adımlarının
amacı, daha doğru analiz ve
ölçüm için işaretlerin sinyalgürültü oranını optimize
etmektir.
20
• Temel bileşenler analizi tanıma,
sınıflandırma, boyut indirgenmesi ve
yorumlanmasını sağlayan, çok değişkenli
bir istatistik yöntemdir ve temelinde
tekil değer ayrışımı (Singular Value
Decomposition, SVD) yer almaktadır.
• SVD bir matrisi, üç matris şeklinde
ayrıştırmaktadır. Bu sürecin sonunda
taban çizgi dolaşım sorunları giderilmiş
ve PCA ile sinyal gürültüsünün
azaltılması sağlanmıştır.
www.zafercomert.com
Temel Bileşenler Analizi
21
Temel Bileşenler Analizi
• Denklemde EKG, PCA sonrası
elde edilmiş sinyali, S giriş
sinyali ile aynı boyutta,
elemanların büyükten küçüğe
sıralandığı ve pozitif değerler
taşıdığı diyagonal matrisi, U
ve V ise üniter matrisleri
temsil etmektedir.
([𝑺𝟏 , 𝑺𝟐 , … , 𝑺𝒏 ]𝒅𝒊𝒂𝒈, 𝑺𝟏 > 𝑺𝟐 > ⋯ > 𝑺𝒏 )
•
𝑠12 +𝑠22 +𝑠32 +𝑠42
𝑛
2
𝑖=1 𝑠𝑖
> 0.97
• Denklemde 𝑠𝑖 değerlerinin
her biri 𝑆 matrisinin
elemanlarını temsil
etmektedir ve tekil değerleri
tutmaktadır.
www.zafercomert.com
• 𝐄𝐊𝐆 = 𝐔𝐒𝑽𝑻
22
23
www.zafercomert.com
QT Analizi
QT Aralığı
𝜶=
𝒉𝒎𝒆𝒂𝒏 /𝟔𝟎
T
P
Q
𝑄𝑇𝑐𝐵𝑎𝑧𝑒𝑡𝑡 = 𝑄𝑇/ 𝑅𝑅
𝑸𝑻𝒄 = 𝑸𝑻 + 𝟎. 𝟏𝟓𝟒(𝟏 − 𝑹𝑹)
Bazett’s formülü
Özellik
Normal Değer
Normal Limit
QTc aralığı
400ms
∓40ms
T genliği
0.3mV
∓0.2mV
3
𝑄𝑇𝑐𝐹𝑟𝑖𝑑𝑒𝑟𝑖𝑐𝑖𝑎 = 𝑄𝑇/ 𝑅𝑅
𝑄𝑇𝑐𝐹𝑟𝑎𝑚𝑖𝑛𝑔ℎ𝑎𝑛 = 𝑄𝑇 + 0.154. (1 − 𝑅𝑅)
𝑄𝑇𝑐𝐻𝑜𝑑𝑔𝑒𝑠 = 𝑄𝑇 + 1.75(HR − 60)
His demetinden, sinyal lifleri kalbin bölümlerine giden sol ve sağ dal
demetlerine bölünür. EKG’de bu Q dalgası olarak temsil edilir. Sinyal
geçtikçe karıncık duvarları dinlenir ve sonraki sinyal için hazırda bekler.
EKG’de karıncıkların dinlenmesi T dalgası ile ifade edilir.
24
25
www.zafercomert.com
Kaynaklar
1.
G. D. Clifford, F. Azuaje and P. E. McSharry, Advanced Methods and
Tools for ECG Data Analysis, Boston, London: Artech House, 2006.
Wearable ECG, London: Springer, 2009.
2.
P. D. B. İlerigelen, Pratik Yaklaşımla EKG, İstanbul: Nobel Tıb Kitabevleri,
2012.
3.
J. E. Hall, Guyton Tıbbi Fizyoloji, İstanbul: Nobel Tıp Kitapbevleri, 2014.
4.
P. E. McSharry, G. D. Clifford, L. Tarassenko and L. A. Smith, "A
Dynamical Model for Generating Synthetic Electrocardiogram Signals,"
IEEE Transactions on Biomedical Engineering, vol. 50, no. 3, pp. 289-294,
2006.
11. G. Akbaş Avcu, Pediatri Asistanlarının ve İntörnlerin EKG Bilgi Düzeyi ve
Buna Etki Eden Faktörlerin Belirlenmesi ile EKG Eğitimi Sonrasındaki
Değişimin Ortaya Konması, İzmir: Ege Üniversitesi Tıp Fakültesi, 2011.
5.
R. Gupta, M. Mitra and J. Bera, ECG Acquisition and Automated Remeto
Processing, London: Springer India, 2014.
12. A. H. Jonsdottir, Statistical analysis of ECG signals with focus on QT,
Kongens Lyngby: Technical University of Denmark, 2005.
6.
PhysioNet, "ECGSYN: A realistic ECG waveform generator," 05 01 2012.
[Online]. Available: http://www.physionet.org/physiotools/ecgsyn/.
[Accessed 01 01 2015].
13. S. Wong, G. Kervio, M. Altuve, F. Carre and G. Carrault, "Comparing Six
QT Correction Methods in an Athlete Population," in Computing in
Cardiology, Krakow, 2012.
7.
A. Seliger and L. B. Hansen, Characterization and Discrimination of
Pathological Electrocardiograms using Advanced Machine Learning
Methods, Kongens Lyngby: DTU, 2013.
9.
8.
S. Chaudhuri, T. D. Pawar and S. Duttagupta,Ambulation Analysis in
Q. Xue and S. Reddy, "Algorithms for Computerized QT Analysis," in
Proceedings of the 22nd Annual ISCE Conference, Kyoto, 1998.
www.zafercomert.com
10. H. Zhang and L.-Q. Zhang, "ECG analysis based on PCA and Support
Vector Machines," in Neural Networks and Brain, 2005. ICNN&B '05.
International Conference, Beijing, 2005.
26
Download