VERİ MADENCİLİĞİNDE TEMEL BİLEŞENLER ANALİZİ VE

advertisement
VERİ MADENCİLİĞİNDE TEMEL BİLEŞENLER ANALİZİ VE
NEGATİFSİZ MATRİS ÇARPANLARINA AYIRMA TEKNİKLERİNİN
KARŞILAŞTIRMALI ANALİZİ
A COMPERATIVE ANALYSIS OF PRINCIPAL COMPONENT ANALYSIS
ANS NON-NEGATIVE MATRIX FACTORIZATION TECHNIQUES IN
DATA MINING
Kazım YILDIZ1, Yılmaz ÇAMURCU2, Buket DOĞAN3
1,2,3
Marmara Universitesi, Teknik Eğitim Fakültesi, Elektronik-Bilgisayar Eğt. Bölümü
Kadikoy /Istanbul, TURKIYE,
[email protected], [email protected], [email protected],
VERİ MADENCİLİĞİ

Veri madenciliği, diğer bir adla veritabanında bilgi keşfi; çok
büyük veri hacimleri arasında tutulan,
◦ Anlamı daha önce keşfedilmemiş potansiyel olarak faydalı
ve anlaşılır bilgilerin çıkarıldığı
◦ Arka planda veritabanı yönetim sistemleri, istatistik, yapay
zekâ, makine öğrenme, paralel ve dağıtık işlemlerin
bulunduğu
◦ Veri analiz tekniklerine veri madenciliği adı verilir
22.7.2017
2
KÜMELEME ANALİZİ NEDİR?

Soyut ve somut benzer objelerin bir
grupta toplanması kümeleme olarak
adlandırılır.
22.7.2017
3
K-MEANS

K-Means algoritması, veritabanındaki n tane nesnenin k adet
kümeye bölümlenmesini sağlar.
E: veritabanındaki bütün nesnelerin “square error” iki vektör
arasındaki uzaklıklarının toplamıdır.
 p: uzayda bir nesneye verilen noktayı gösterir.
 mi: Ci kümesinin orta noktasını gösterir.(küme merkezi)
 Girdi (Input):

◦ k: küme sayısı
◦ D: n tane nesne içeren veritabanı

Çıktı (output):
◦ k kümesi
22.7.2017
4
FUZZY C-MEANS

Fuzzy c-means (FCM) algoritması, bulanık bölünmeli kümeleme
tekniklerinden en iyi bilinen ve yaygın kullanılan yöntemdir.

Algoritma, en küçük kareler yönteminin genellemesi olan aşağıdaki amaç
fonksiyonunu öteleyerek. minimize etmek için çalışır

U üyelik matrisi rastgele atanarak algoritma başlatılır. İkinci adımda ise
merkez vektörleri hesaplanır. Merkezler aşağıdaki eşitlik ile hesaplanır
22.7.2017
5
Boyut Azaltma İşlemi

Verinin sahip olduğu boyut sayısı arttıkça,
◦ Genellikle çok az sayıda boyut doğrudan kümelerle ilgili olur.
◦ İlgisiz boyutlardaki veri, çok fazla gürültüye sebep olabilir.
◦ Keşfedilecek kümelerin gizlenmesine sebep olabilir.
◦ Bu yüzden ;
 Verinin boyut sayısı arttıkça kümeleme işleminin zorlaşması
 Kümeleme süresinin uzaması
 Yüksek saflıkta kümelerin elde edilememesi yüzünden boyut
azaltma işlemine başvurulur.
22.7.2017
6
Temel Bileşen Analizi(PCA)

Temel bileşenler yaklaşımı bağımlılık yapısını yok etme ve boyut
indirgeme amaçları için kullanılmaktadır

Tanıma,

Sınıflandırma

boyut indirgenmesi ve yorumlanmasını sağlayan, çok değişkenli bir
istatistik yöntemidir.

Verinin içindeki en güçlü örüntüyü bulmaya çalışır. Bu yüzden örüntü
bulma tekniği olarak kullanılabilir.

Çoğunlukla verinin sahip olduğu çeşitlilik, tüm boyut takımından seçilen
küçük bir boyut setiyle yakalanabilir.

Verideki gürültüler, örüntülerden daha güçsüz olduklarından, boyut
küçültme sonucunda bu gürültüler temizlenebilir.
22.7.2017
7
Temel Bileşen Analizi(PCA)

Tpxp dönüşüm matrisi olmak üzere,
biçiminde ifade edilir.

Bu bilgiler kullanılarak öz değerler bağıntısından yararlanarak önemli
bileşenler elde edilir. Bu temel bileşen sayısının belirlenmesi için birçok
yöntem geliştirilmiştir. Kullanılan en basit yönteme göre, birden büyük öz
değerlerin sayısı m’dir ve

koşulunun sağlandığı en küçük m değeri önemli görülen temel bileşen sayısı
belirlemektedir.
22.7.2017
8
Negatifsiz Matris Çarpanlara
Ayırma (NNMF)

Bir çok veri seti, örneğin görüntü ve metin, orijinal veri seti negatif
olmayan değerler içermektedir.

Bu yüzden kullanılan yöntemlerde negatif değerler oluşmaktadır ve
bu verinin yorumlanmasında zorluklar oluşturmaktadır.

Non-negative Matrix Factorization(NNMF) verinin negatif olmayan bir
şekilde lineer olarak temsil edilmesini sağlayan bir tekniktir.

V≈WH

pozitif elemanlardan oluşan V matrisini, geri çatma hatasına yaklaşık bir
çözüm oluşturacak şekilde, yine pozitif elemanlara sahip iki matrisin çapımı
halinde ayrıştırır.

Buradaki ij indisi, bağlı olduğu matrisin o indise sahip elemanını
göstermektedir.
22.7.2017
9
UYGULAMA
2.83 GHZ 32 bit işletim sistemi ve 3 GB
RAM sahip bilgisayarda gerçekleştirilmiştir.
 Yazılım ortamı olarak MATLAB programı
kullanılmıştır.

22.7.2017
10
UYGULAMA YAPILAN VERİ
SETLERİ
İRİS (150 ÖRNEK, 4 ÖZNİTELİK)
 VEHİCLE ( 846 ÖRNEK, 18 ÖZNİTELİK)
 İris veri setinde 3 farklı sınıf, vehicle veri
setinde ise 4 farklı sınıf bulunmaktadır.

22.7.2017
11
BOYUT AZALTMA İŞLEMİ YAPILMADAN
İRİS VERİ SETİ
PURİTY
ORTAK BİLGİ
ZAMAN
KMEANS
0.96
0.7515
0.0167
0.8360
0.1795
0.72
1
FUZZY CMEANS
1
0.8
1
VEHİCLE VERİ SETİ
PURİTY
ORTAK BİLGİ
ZAMAN
KMEANS
0.4266
0.1005
0.0289
0.7159
0.3098
0.4717
0.2212
0.3518
FUZZY CMEANS
0.8028
0.7736
0.8018
1
22.7.2017
12
TEMEL BİLEŞEN ANALİZİ İLE BOYUT AZALTMA İŞLEMİ
İRİS VERİ SETİ
PURİTY
ORTAK BİLGİ
ZAMAN
KMEANS
1
0.7419
0.0127
0.8315
0.1031
0.94
0.72
FUZZY CMEANS
1
1
0.78
VEHİCLE VERİ SETİ
PURİTY
ORTAK BİLGİ
ZAMAN
KMEANS
0.3618
0.1001
0.0184
0.8947
0.2094
0.2304
0.4450
0.4670
FUZZY CMEANS
1
0.9009
1
0.9447
22.7.2017
13
Negatifsiz Matris Çarpanlara Ayırma İle Boyut Azaltma
İşlemi İRİS VERİ SETİ
PURİTY
ORTAK BİLGİ
ZAMAN
KMEANS
1
0.8642
0.0165
0.9488
0.1213
0.96
0.92
FUZZY CMEANS
1
1
0.96
VEHİCLE VERİ SETİ
PURİTY
ORTAK BİLGİ
ZAMAN
KMEANS
0.5025
0.1201
0.0256
0.3302
0.2280
0.6239
FUZZY CMEANS
0.9266
0.1795
0.7930
0.22
0.5142
1
0.9899
22.7.2017
14
SONUÇLAR




Veri setlerinde boyut sayısı arttıkça geleneksel algoritmaların etkisi
azaltmakta ve yapılan uygulamalar için çok fazla süre
gerekmektedir.
Bu yüzden veri madenciliğinde yüksek boyutlu veri setleri
indirgendikten sonra geleneksel kümeleme algoritmaları elde edilen
bu veri setleri üzerinde daha etkili oldukları gözlenmiştir.
Geleneksel kümeleme metotlarının yüksek boyutlu veri setlerinde
uygulaması yapılmış ardından boyut azaltma işlemi yapılarak elde
edilen sonuçlar ile karşılaştırılmıştır.
Temel Bileşenler Analizi) yüksek boyutlu veri setlerinin
indirgenmesinde ilgili ve gerekli noktaları boyut azaltma işlemi
sırasında koruduğundan kümeleme sonuçlarının yeni veri seti
üzerinde daha etkili olduğu gözlenmektedir.
22.7.2017
15

Böylece algoritmalar ile yapılan deneylerde büyük veri setleri
üzerinde kümeleme işlemi için çok fazla süre kaybedip yüksek
boyutlu veri setlerindeki kümelerin doğru bir şekilde tespit
edilememesi gibi sorunlar ortadan kaldırılmıştır.

Fuzzy Cmeans algoritması Kmeans’e nazaran kümelemede daha
etkili bir algoritmadır.
22.7.2017
16
İlginize
teşekkürler
Sorular
22.7.2017
17
Download