veri madenciliği

advertisement
Çizge Tabanlı Demetleme
VERİ MADENCİLİĞİ

Veri kümesi çizge şeklinde temsil edilebilir

Farklı Demetleme Yöntemleri



Yrd. Doç. Dr. Şule Gündüz Öğüdücü
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/


1

Çizge Demetleme için Veri Kümesi
Veri kümesi D={x1,x2,...,xK}

Veri kümesi ağırlıklı, yönsüz, bağlı bir çizge ile temsil edilir: G(V,E)
V={xi}
veri kümesindeki nesnelerden oluşan düğümler kümesi
E={wij}
xi ve xj düğümleri arasındaki ağırlık
0.1
0.8
0.8
0.8
0.6
0.8
5
1
2
3
6
4
0.7
0.2
G yönsüz çizge => wij= wji
xi düğümünün derecesi
K
Veri kümesi D={x1,x2,...,xK} => G(V,E)
 -komşu çizge: Veri kümesindeki nesneler arasında
uzaklık hesaplanır. Aralarındaki uzaklık belirlenen 
değerinden küçük olanlar arasında ayrıt oluşturulur.
 k-en yakın komşu çizge: Veri kümesindeki
nesnelerin k en yakın komşuları arasında ayrıtlar
oluşturulur.
 Tam bağlı çizge: Bütün nesneler arasında benzerlik
hesaplanır ve bu benzerlik ile ağırlıklandırılmış
ayrıtlar oluşturulur.
 xi  xj
s ( xi, xj )  exp  

2 2

d i   wij
j 1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
3
S={V,N,W,P}

V : veri kümesindeki nesnelerden oluşan düğümler kümesi
 N  VV
 W: N kümesinin elemanları için simetrik benzerlik matrisi
 P: Demetleme kriteri
Çizge Bölme: P demetleme kriterini enbüyütecek şekilde V
kümesini k demete bölmek (C={C1,...,Ck}).
 Her demet bir altçizge Gi(Vi,Ei)
k
V
i




4
Çizge Tabanlı Demetleme Problemi
Demetlemenin sağlaması gereken koşullar:
Aynı demetlerdeki nesnelerin birbirine daha çok benzemesi
2.
Farklı demetlerdeki nesnelerin birbirine daha az benzemesi
Aynı koşullar çizge tabanlı demetlemeye uygulanırsa
1.


2
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Çizge Tabanlı Demetleme

2
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Çizge

Aile ilişkileri
Sosyal ağlar (eğitim, suçlular arası ilişki...)
Telefon çağrıları
Bilgisayar ağları
...
www

0.8
5
0.8
0.8
0.8
0.6
2
V
i 1
0.1
1
3
6
4
0.7
0.2
Ei  {w jk  E  x j , xk  Vi }

1. Aynı grup içindeki ağırlıkları enbüyütme
2. Farklı gruplar arasındaki ağırlıkları enküçültme
Problem: Çizge tabanlı demetleme yöntemleri için P demetleme
kriteri nedir?
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
5
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
6
1
Çizge Kesmesi
Çizge Tabanlı Demetleme için Tanımlar

Tanımlar:
 uzaklık d, benzerlik s


cut (G1 , G2 ) 
d=1-s

Ci ve Cj demetleri arasındaki uzaklık: d(Ci,Cj)

Ci demedinin çapı: diam(Ci)



Çizge Kesmesi: Demetleri (altçizgeleri) birbirine
bağlayan ayrıtların ağırlıklarının toplamı
tek bağ, tam bağ ya da ortalama
G1
Ci demedinde bulunan en uzak iki nesne arasındaki
uzaklık
Ci demedinden bulunan tüm nesneler arasındaki
uzaklıkların ortalaması
7
5
3
0.7
0.2

k
min cut (G1,G2)
minimize
Ratio-Cut:
k
minimize
m 1

Problem:


Sadece demetler arası ağırlıkları enküçültüyor
Demet içi ağırlıkları göz önüne almıyor
9
sezgisel yöntemler
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Benzerlik Matrisi
Yaklaşım:
 Çizge düğümlerin ikili benzerliklerinden oluşan W simetrik matrisi ile
temsil edilir
 Lineer cebir yöntemleri kullanılır

D3


Benzerlik
Hesaplama
Seyrekleştirme
Demetleme
D2

 a11  a1n   x1 
 x1 
 
  λ  


 
 
an1  ann   xn 
 xn 
İzgesel Çizge Kuramı (Spectral Graph Theory)

11
W matrisinin en büyük k özdeğeri bulunur
Bir matrisin özdeğerleri
ve özvektörleri, yapısı
hakkında bilgi verir

http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
10
İzgesel Demetleme
Çizge Tabanlı Demetleme için Seyrekleştirme
D1
cut (Gm , G \ Gm )
| Gm |
Demetler daha dengeli
Problemin optimal çözümü NP karmaşık

http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Veri
cut (Gm , G \ Gm )
 wij
vi ,v j Gm
Enküçük kesme


8
Min-Max cut: Demet içindeki ağırlıkların enbüyük,
demetler arasındaki ağırlıkların enküçük olması
m 1

cut(G1,G2) = 0.3
6
4
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Demetler arasındaki ağırlıkları en küçültüyor
Optimal kesme
0.8
0.8
Çizge Tabanlı Demetleme Kriteri
Kriter: En küçük kesme (Minimum-cut)

G2
0.6
0.8
Çizge Kesmesi Kriteri

1
2
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

0.1
0.8
w
ij
xi G1 , x j G2
Bir matrisin izgesi incelenir.
İzge (Spectrum ): Çizgenin öz değerlerinin
büyüklüklerine göre sıralanmış özvektörü
  {1 , 2 ,..., n }
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
12
2
Matris Yapısı
Matris Yapısı
Benzerlik matrisi (W)
 nn matris (n: düğüm sayısı)
 W=[wij]: xi ve xj düğümleri arasındaki ayrıtın

ağırlığı
0.1
5
1
0.8
0.8
0.6
2
0.8
6
4
0.7
0.8
0.2
3
Özellikleri:

Derece matrisi (D)
 nn diagonal matris
 D (i , i )   wij xi düğümünden diğer düğümlere olan

j
ayrıtların ağırlıklarının toplamı
x1
x2
x3
x4
x5
x6
x1
0
0.8
0.6
0
0.1
0
x2
0.8
0
0.8
0
0
0
x3
0.6
0.8
0
0.2
0
0
0.1
1
0.8
0.8
0.6
2
x4
0
0
0.2
0
0.8
0.7
x5
0.1
0
0
0.8
0
0.8
x6
0
0
0
0.7
0.8
0
13
L=D-W
0.1
5
1
0.8
0.6
2
0.8
6
4
0.7
0.2
3
Özellikleri:



x2
x3
x4
x5
x6
x1
1.5
-0.8
-0.6
0
-0.1
0
x2
-0.8
1.6
-0.8
0
0
0
x3
-0.6
-0.8
1.6
-0.2
0
0

x4
0
0
-0.2
1.7
-0.8
-0.7
x5
-0.1
0
0
-0.8
1.7
-0.8
x6
0
0
0
-0.7
-0.8
1.5

0
x2
0
1.6
0
0
0
0
x3
0
0
1.6
0
0
0
x4
0
0
0
1.7
0
0
x5
0
0
0
0
1.7
0
x6
0
0
0
0
0
1.5
15
w (p
ij
i
 pj)
Rayleigh Kuramına göre:
vektörü için:
İspat:
n
n
i 1
i , j 1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

16
A. Pothen, H.D. Simon and K. Paul Liou. Partitioning
Sparse Matrices with Eigenvectors of Graphs, SIAM J.
Mat. Theory and Appl., Vol. 11, No. 3, pp. 430 - 452,
1990.
Bölmenin kesmesini enküçültmek için f(p)
fonksiyonunu enküçültecek p vektörü bulunur:
i , jV
p  Rn
İzgesel Çizge Demetleme
İki altçizgeye (G1,G2) bölünen çizge bir vektörle temsil
edilir.
 1 if xi  G1
2
Her
n
n
 1 n
1 n
   d i pi2  2  pi p j wij   d j p 2j    wij ( pi  p j ) 2
2  i 1
i , j 1
j 1
 2 i , j 1
Özvektörler gerçel ve dikey
Özdeğerler ve özvektörler çizge yapısı hakkında bilgi veriyor.
f ( p) 
14
p T Lp  p T Dp  p T Wp   d i pi2   pi p j wij
0  1  2  ...  n

Önişleme


p Lp
T

Laplacian
matrisi

f(p)’nin enküçük değeri L matrisinin ikinci enküçük

Matrisin özvektörlerinin ve özdeğerlerinin bulunması
Veri kümesindeki her nesnenin bir veya daha çok özvektörü
kullanılarak daha küçük bir boyuta taşınması
Gruplama

p için optimal çözüm Fiedler vektörü olarak bilinen λ2
veri kümesinin matris olarak temsil edilmesi
Laplacian matrisinin bulunması
Ayrıştırma

özdeğeri ile elde edilir.

x6
0
1 n
p L p   wij ( pi  p j ) 2
2 i , j 1
Özdeğerler pozitif gerçel sayılar, en küçük özdeğer 0

x5
0
T
pi  
  1 if xi  G2

x4
0
L matrisinin özellikleri:
Optimal Enküçük Kesme Bulma
(Hall’70, Fiedler’73)

x3
0
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

x1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

x2
1.5
Matris Yapısı (Devam)
Laplacian matrisi (L)
 nn simetrik matris

0.2
3
Matris Yapısı
0.8
6
4
0.7
0.8
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
0.8
0.8
x1
x1
Simetrik matris


5
Yeni boyutlardan yararlanarak nesnelerin iki veya daha fazla
demede ayrılması
vektörüdür.
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
17
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
18
3
Spectral Bi-partitioning Algoritması
Önişleme
1.
Çizgenin L Laplacian
matrisini oluşturma

Spectral Bi-partitioning Algoritması
x1
1.5
-0.8
-0.6
0
-0.1
0
x2
-0.8
1.6
-0.8
0
0
0
x3
-0.6
-0.8
1.6
-0.2
0
0
x4
0
0
-0.2
1.7
-0.8
-0.7
x5
-0.1
0
0
-0.8
1.7
-0.8
x6
0
0
0.0
0.4
0
-0.4
-0.6
-0.3
-0.7
-0.3
-0.8
-0.9
0.2
0.4
-0.4
0.0
0.3
0.3
0.3
0.4
-0.4
-0.6
0.1
0.1
0.6
0.4
0.4
0.4
-0.5
-0.5
-0.6



1.5

2.
Ayrıştırma

L matrisinin
özvektörlerinin X
ve özdeğerlerinin Λ
bulunması

Düğümlerin λ2
özvektörü ile temsil
edilmesi
2.1
Λ=
2.3
X=
2.5
0.4
0.4
-0.2
-0.3
-0.3
-0.2
2.6
0.4
0.4
-0.2
0.7
0.7
0.9
x1
-0.4
x2
-0.4
x3
-0.4
x4
0.4
x5
0.4
x6
0.4
Gruplama
Bölme noktası nasıl belirlenir?

19


Yinelemeli ikiye demetleme (L. Hagen, A.B. Kahng, New
spectral methods for ratio cut partitioning and
clustering, IEEE Trans. Comput. Aided Des. 11,1992)


Yinelemeli olarak ikiye demetleme algoritmasını hiyerarşıik
olarak uygulanması
Daha fazla sayıda özvektörü kullanarak demetleme (J.
Shi and J. Malik. Normalized cuts and image
segmentation. IEEE Trans. on Pattern Analysis and
Machine Intelligence, 22(8):888-905, 2000.

Orta noktadan
-0.4
x3
-0.4
Demet G1: Eksi noktalar
Demet G2: Artı noktalar
x4
0.4
x5
0.4
x1
-0.4
x4
0.4
x6
0.4
x2
-0.4
x5
0.4
x3
-0.4
x6
0.4
G2
G1
20
Çizgeler arasındaki optimal kesmeyi yaklaşık olarak
bulabilir (Shi & Malik, 2002).
Veri içindeki grupları belirgin hale getirir (M. Brand and
K. Huang. A unifying theorem for spectral embedding
and clustering, Proceedings of the Ninth International
Workshop on Artificial Intelligence and Statistics,
January 2003.)


Özvektörleri kullanarak veriyi daha az boyutlu bir uzaya taşır
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
-0.4
x2
K-Yönlü İzgesel Demetleme
Biz çizge k adet altçizgeye bölünmek isteniyor.
İki yaklaşım

x1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
K-Yönlü İzgesel Demetleme

Ortalamadan ya da orta noktadan bölünür
Demetler nasıl
belirlenir?
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

Tek boyutlu vektörde bulunan elemanlar sıralanır
Vektör ikiye bölünür
Benzer nesneler arasındaki ilişki kuvvetleniyor, daha az
benzer nesneler arasındaki ilişki zayıflıyor.
Uzayı daha iyi ayırıyor
 Veriyi k adet vektör kullanarak daha az boyutlu uzaya
taşır.
21
22
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
K-Özvektör Demetleme
Örnek
2

k özvektör kullanarak demetleme yapılıyor (A. Ng,
M. Jordan, and Y. Weiss. On spectral clustering:
Analysis and an algorithm, In Advances in Neural
1
0.5
Information Processing Systems 14: Proceedings
of the 2001.)
1.
0
-2
3.
-1
-0.5
0
0.5
1
1.5
2
 k-means algoritmasının
performansı bu durumda çok
düşük
-1
Önişleme: ölçeklendirilmiş ağırlık matrisi oluşturulur
-1.5
-2
0.8
0.6
Ayrıştırma: W' matrisinin özvektörleri bulunur. Veri
kümesi en büyük k özdeğer ile temsil edilir
Demetleme: k-means algoritması kullanılarak nk
boyutundaki veri k demede ayrılır.
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
-1.5
-0.5
W '  D 1/ 2WD 1/ 2
2.
Veri kümesi iki spiral şeklinde
gruptan oluşuyor
1.5
0.4
0.2
En büyük iki özdeğer
kullanılarak veri k-means
algoritması kullanılarak
demetlenebiliyor
23
-0.709
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
-0.7085
-0.708
-0.7075
-0.707
-0.7065
0
-0.706
-0.2
-0.4
-0.6
-0.8
24
4
Çizge Tabanlı Demetleme Yöntemi
(Kannan’00)


Çizge Tabanlı Demetleme Yöntemi
(Kannan’00)
En küçük kesme bulunarak
demetlenirse altçizgeler
arasındaki nesneler dengeli
dağılmayabilir.
Demetlerin kalitesi önemli
(Ravi Kannan and Santosh
Vempala and Adrian Vetta,

Bir kesme

Bir kesme



25
wij
j
Bir demetin genişliği (iletkenliği) demet içindeki kesmelerin genişliklerinin
(iletkenliklerinin) en küçüğü
Demetlemenin genişliği (iletkenliği) demetlerin genişliklerinin
(iletkenliklerinin) en küçüğü
Genişliğin (iletkenliğin) büyük olması iyi bir demetleme olduğunu
gösteriyor
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

26
Her demedin iletkenliği (genişliği) en az 
değerinde olmalı
Demetler arası ayrıtların ağırlıklarının toplamının
bütün ayrıtların ağırlıklarının toplamına oranı 
değerinden büyük olmamalı
Çizge demetleme problemi NP-karmaşık bir problem
olduğundan doğa esinli algoritmalar kullanılarak
problem çözülebilir (Ş.Uyar and Ş.Oguducu, A New
Graph-Based Evolutionary Approach to Sequence
Clustering, The Fourth International Conference on

Machine Learning and Applications, 2005)
Amaç:

Problemin çözümü NP-karmaşık olduğu için
yaklaşık bir çözüm öneriliyor.

27
Aynı demetteki nesneler arasındaki ayrıtların
ağırlıklarının toplamının, demetler arasındaki ayrıtların
ağırlıklarının toplamına oranını enbüyütmek
Demet sayısını adaptif olarak belirlemek.
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Evrimsel Algoritma Tabanlı Çizge
Demetleme
28
Demetleme Değerlendirme




xi S , x j S
Evrimsel Algoritma Tabanlı Çizge
Demetleme
Çizgeyi demetlemek için iki kriter beraber
kullanılıyor:
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

min{c( S ), c( S )}
i
Çizge Tabanlı Demetleme Yöntemi
(Kannan’00)

wij
c( S )  c( S ,V )   x S  x V wij


xi S , x j S
c(S) şu şekilde tanımlanmıştır
the 41st Annual Symposium
on the Foundation of
Computer Science, 2000.)


min{| S |, | S |}
için iletkenlik
 (S ) 
On Clusterings: Good, Bad,
and Spectral, Proceedings of
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
için genişlik
 (S ) 
Hangi demetleme algoritması kullanılmalı?
Farklı bir demetleme uygulanmalı mı?
Farklı demetleme yöntemleri kullanılarak sonuç
nasıl iyileştirilir?
İki objektif fonksiyonu:
 Min-max cut
 Silhoutte index
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
29
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
30
5
Demetleme Değerlendirme



1
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
y
Veri
Kümesi
1
0.9
0.4
0.4
0.3
0.3
0.2
0
DBSCAN
0.2
0.1
0.1
0
0.2
0.4
0.6
0.8
0
1
0
0.2
K-means
uygulama alanını iyi incelemek gerekiyor
demetleme sonucunu iyi anlamak gerekiyor
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0
0.1
0
0.2
0.4
0.6
0.8
0
1
0
0.2


Doğruluk, kesinlik, anma







Veri içinde gerçekte demetler var mı?
Doğru demet sayısı bulunabiliyor mu?
Hatalı veriler için örüntü bulunmaması
Farklı demetleme algoritmalarını karşılaştırma
Farklı demetlemeleri karşılaştırma



ui yapay olarak üretilmiş noktalara olan uzaklık, wi veri kümesinden seçilmiş
olan noktalara olan uzaklık
Hopkins istatistiği
p
Oluşturulan demetler gerçeğe ne kadar yakın?
H
33
w
i 1
p


p
u   w
i
i 1
i
Rastgele üretilmiş noktalar ve veri kümesi
içindeki noktalar aynı en yakın komşu
uzaklığına sahipse H değeri yaklaşık 0.5 olur
Veri demetlemeye uygun değil.
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/



34
Demetleme algoritması kullanılarak elde edilen
demetleme C={C1,...,Ck}
Veri içinden bulunan gruplar P={P1,...,Pm}
Demetleme sonucundan elde edilen dağılım
 SS: Eğer iki nesne C için aynı demette ve P için aynı


Tek bağ
Tam bağ
Demet merkezleri arasındaki uzaklık
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
i
Harici Değerlendirme
Üç yaklaşım:
 Harici Gösterge: Veri kümesi için öngörülen bir yapıya dayanarak
değerlendirme
 Dahili Gösterge: Ek bir bilgi kullanmadan veri kümesinden elde
edilen bilgiye dayanarak değerlendirme
 Göreceli Değerlendirme: Aynı algoritmanın farklı parametrelerini
kullanarak elde edilen demetleme sonuçlarını değerlendirme
İki kriter:
 Sıkılık: Her demette bulunan nesneler birbirine mümkün olduğunca
yakın olmalı

Uzaklık: Demetler birbirinden mümkün olduğunca uzak olmalı

32
Veri uzayında rasgele dağılmış p nokta üretilir {R}
Veri kümesinden örnekleme ile p nokta seçilir {S}
Her iki küme içindeki noktalar için veri kümesinden en yakın nesneler
seçilir.


Demetleme Değerlendirme Ölçütleri

1
Nesneler rastgele dağılmış
i 1

0.8
Her demetleme algoritması veri kümesi üzerinde demetleme
yapar
Hopkins istatistiği: Veri kümesi içinde demetler bulunup
bulunmadığını test etmek için kullanılır

Ek bir bilgi olmadan
Sınıf etiketleri bilindiği durumda
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
0.6
x
Veri kümesi içinde gruplar olmayabilir.


Demetleme yöntemlerinde değerlendirilmesi
gerekenler:

0.4
Veri Kümesi Demetlemeye Uygun mu?
Gözetimli öğrenme için kullanılan yöntemler:

1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Demetleme Değerlendirme

0.8
Max
x
31
0.6
x
1
0.1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
0.4
x
y

Farklı demetleme teknikleri
En iyi demetleme algoritmasını seçmek zor
Verinin istatistiksel özelliğine, önişleme tekniklerine,
nitelik sayısına bağlı olarak algoritmaların avantajları
ve dezavantajları var
Aynı veri kümesi üzerinde farklı algoritmalar farklı
demetleme sonuçları üretebilir. Hangi demetlemenin
daha iyi olduğuna karar vermek gerekiyor
y

y

Bir Veri Kümesi için Farklı Demetlemeler

35
grupta ise (a)
SD: Eğer iki nesne C için aynı demette ancak P için farklı
gruplarda ise (b)
DS: Eğer iki nesne C için farklı demette ancak P için aynı
grupta ise (c)
DS: Eğer iki nesne C için farklı demette ancak P için aynı
grupta ise (d)
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
36
6
Harici Değerlendirme Ölçütleri

Rand Statistics:

Jaccard katsayısı:
R
Harici Değerlendirme Ölçütleri
ad
abcd

Entropi: Her demette sınıfların nasıl dağıldığı
ei  
a
J
abc
e 
k

i1

Folkes ve Mallows göstergesi:
FM 
a
a

ab ac

m

p
j1
ij
log
2
p
m: sınıf sayısı
k: demet sayısı
pij= nij/ni
ni: i demedindeki nesne sayısı
nij: i demedinde j sınıfından nesne sayısı
n: toplam nesne sayısı
ij
ni
ei
n
Saflık: Bir demette ne kadar tek sınıftan örnek
bulunduğu
pi  max pij
j
k
purity  
i 1
37
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/


Dahili Değerlendirme Ölçütleri
Sadece veri kümesi özellikleri kullanılarak yapılan
değerlendirme


Hataların karelerinin toplamı (SSE)
İki farklı demetlemeyi ya da iki demeti karşılaştırmak
için iyi bir yöntem
Demet sayısını tahmin etmek için de kullanılabilir.
Silhouette Göstergesi:
 xi nesnesi Cj demedinde


Ortalama uzaklığa göre xi nesnesine en yakın demet Ch
xi nesnesi için silhouette göstergesi
s ( xi ) 
10
9
6
8
4

7
6
SSE
2
0

5

4
-2
d ( xi , Ch )  d ( xi , C j )
max(d ( xi , Ch ), d ( xi , C j ))
-1  s(xi)  1
1’e yakın olursa xi doğru demette
Demetleme için silhouette göstergesi:
-6
0
5
10
15
2
5
10
15
20
25
39

demetlemeler
Amaç: Farklı parametrelerle elde edilen demetlemeler arasında veriye
en çok uyanı seçme
İki durum:
 Demet sayısı nc Palg’deki parametereler arasında değil:

N 1


 P(i, j )  Q(i, j )
j 1
j
k
40
N= veri kümesindeki nesne sayısı
M=N(N-1)/2
P: benzerlik matrisi
Q: (i,j) elemanı, xi ve xj nesnelerinin
bulundukları demetler arasındaki
uzaklık değeri olan matris
Dunn göstergesi:

d (ci , c j )

Dnc  min  min

i 1,..., nc  j  i 1,...,nc max
k 1,..., nc diam(ck ) 


ncmin ve ncmax arasında değişen farklı demet sayıları için algoritma
çalıştırılır.
nc’nin her farklı değeri için algoritma diğer parametreleri değiştirerek r
defa çalıştırılır.
Her nc için q’nun en büyük değeri seçilir ve nc’nin fonksiyonu olarak çizilir.
Bu çizim kullanılarak nc değeri belirlenir.
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
N
i 1 j  i 1
En iyi demetleme, demetleme göstergesi q kullanarak seçilir.

Hubert istatistiği:
  (1 / M )
Palg’deki parametrelerin değerleri geniş bir aralıkta değiştirilerek
demetleme algoritması çalıştırılır. nc << N (nesne sayısı) sabit kaldığı
en geniş aralık seçilir. Parametre değerleri olarak bu aralığın orta
noktası seçilir. Bu yöntemle demet sayısı da belirlenmiş olur.

S
Birbiri ile örtüşmeyen demetler için tanımlanmış
göstergeler:

Demet sayısı nc Palg’deki parametereler arasında:

| Cj |
Göreceli Değerlendirme Ölçütleri
Palg seçilen demetleme algoritmasının parametreleri
Ci (i=1,...,nc):Palg’deki parametrelerin farklı değerleri ile elde edilen

i
i 1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Göreceli Değerlendirme

 s( x )
k
GS 
30
K
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

Sj 
2
1

|Cj |
3
-4

38
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Dahili Değerlendirme Ölçütleri

ni
pi
n
d(ci,cj)=min d(x,y)
xci,ycj
diam(C)=max d(x,y)
x,yC
41
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
42
7
Örtüşen Demetleri Değerlendirme
Hiyerarşik Demetleme için Gösterge

Hiyerarşik demetleme için 4 gösterge





Demetlerin standard sapmalarının karakökü
(RMSSTD)
Semi-partial R-squared (SPR)
R-Squared (RS)
İki demet arası uzaklık (CD)

PC 

http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Örtüşen demetleme için U=[uij] matrisi: xi nesnesinin cj
demedine dahil olma olasılığı
Bölme katsayısı:
43
1
N
N
nc
 u
i 1 j 1
2
ij
[1/nc,1] arasında değişir.
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
44
8
Download