VERİ MADENCİLİĞİ

advertisement
Çizge
VERİ MADENCİLİĞİ
Farklı Demetleme Yöntemleri
„
„
Veri kümesi D={x1,x2,...,xK}
Veri kümesi ağırlıklı, yönsüz, bağlı bir çizge
ile temsil edilir: G(V,E)
V={xi} veri kümesindeki nesnelerden oluşan
düğümler kümesi
xi ve xj düğümleri arasındaki ağırlık
Yrd. Doç. Dr. Şule Gündüz Öğüdücü
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
E={wij}
0.1
0.6
0.8
S={V,N,W,C}
„
V : veri kümesindeki nesnelerden oluşan düğümler kümesi
„ N ⊆ V×V
„ W: N kümesinin elemanları için simetrik benzerlik matrisi
„ P: Demetleme kriteri
Çizge Bölme: P demetleme kriterini enbüyütecek şekilde V
kümesini k demede bölmek (C={C1,...,Ck}).
„ Her demet bir altçizge Gi(Vi,Ei)
k
UV
i
„
0.8
3
Ci demedinin çapı: diam(Ci)
„
„
„
„
3
4
Çizge Kesmesi: Demetleri biribirine bağlayan ayrıtların
ağırlıklarının toplamı
cut (G1 , G2 ) =
tek bağ, tam bağ ya da ortalama
G1
0.1
0.8
Ci demedinde bulunan en uzak iki nesne arasındaki
1
0.8
5
3
5
0.8
cut(G1,G2) = 0.3
6
4
0.2
∑w
ij
xi ∈G1 , x j ∈G2
G2
0.8
0.6
2
uzaklık
Ci demedinden bulunan tüm nesneler arasındaki
uzaklıkların ortalaması
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
0.7
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
d=1-s
„
6
4
0.2
Çizge Kesmesi
Tanımlar:
„ uzaklık d, benzerlik s
„
0.8
1. Aynı grup içindeki ağırlıkları enbüyütme
2. Farklı gruplar arasındaki ağırlıkları enküçültme
Çizge Tabanlı Demetleme için Tanımlar
Ci ve Cj demetleri arasındaki uzaklık: d(Ci,Cj)
5
0.8
0.6
0.8
Problem: Çizge tabanlı demetleme yöntemleri için P demetleme
kriteri nedir?
„
0.1
1
2
Ei = {{u, v} ∈ E ∧ u, v ∈ Vi }
„
2
Demetlemenin sağlaması gereken koşullar:
Aynı demetlerdeki nesnelerin birbirine daha çok banzemesi
2.
Farklı demetlerdeki nesneler birbirine daha az benzemesi
Aynı koşullar çizge tabanlı demetlemeye uygulanırsa
=V
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
0.2
3
1.
i =1
„
0.7
Çizge Tabanlı Demetleme Problemi
„
„
6
4
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
Çizge Tabanlı Demetleme
„
0.8
0.8
2
1
5
1
0.8
0.7
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
6
1
Çizge Kesmesi Kriteri
„
Çizge Tabanlı Demetleme Kriteri
Kriter: En küçük kesme (Minimum-cut)
Demet içindeki ağırlıkların enbüyük, demetler
arasındaki ağırlıkların enküçük olması (min-max cut)
„
Demetler arasındaki ağırlıkları en küçültüyor
„
„
min cut (G1,G2)
k
Optimal kesme
minimize∑
Enküçük kesme
m =1
vi , v j ∈Gm
Demetler daha dengeli
Problemin optimal çözümü NP karmaşık
„
„
Problem:
„
sezgisel yöntemler
„
Sadece demetlerearsı ağırlıkları enküçültüyor
Demet içi ağırlıkları göz önüne almıyor
„
„
7
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
Matris Yapısı
Yaklaşım:
„
Bir matrisin özdeğerleri
ve özvektörleri yapısı
hakkında bilgi verir
„
ağırlığı
a1n ⎤ ⎡ x1 ⎤
⎡ x1 ⎤
M ⎥⎥ ⎢⎢ M ⎥⎥ = λ ⎢⎢ M ⎥⎥
⎢⎣ x n ⎦⎥
a nn ⎦⎥ ⎣⎢ x n ⎦⎥
⎡ a11 K
⎢ M
⎢
⎣⎢ a n1 K
0.1
0.8
„
9
0.2
3
„
0.1
0.8
0.8
0.6
2
0.8
3
6
4
0.2
0.8
0.7
x6
0.1
0
x2
0.8
0
0.8
0
0
0
x3
0.6
0.8
0
0.2
0
0
x4
0
0
0.2
0
0.8
0.7
x5
0.1
0
0
0.8
0
0.8
x6
0
0
0
0.7
0.8
0
10
L=D-A
5
1
0.8
0.6
0.8
x1
x2
x3
x4
x5
x6
x1
1.5
-0.8
-0.6
0
-0.1
0
x2
-0.8
1.6
-0.8
0
0
0
x3
-0.6
-0.8
1.6
-0.2
0
0
x4
0
0
-0.2
1.7
-0.8
-0.7
x2
x3
x4
x5
x6
1.5
0
0
0
0
0
x2
0
1.6
0
0
0
0
x5
-0.1
0
0
-0.8
1.7
-0.8
x3
0
0
1.6
0
0
0
x6
0
0
0
-0.7
-0.8
1.5
x4
0
0
0
1.7
0
0
2
0.8
„
x5
0
0
0
0
1.7
0
„
x6
0
0
0
0
0
1.5
„
11
6
4
0.7
3
0.2
Özellikleri:
„
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
x5
0
x1
x1
0.8
x4
0.6
Laplacian matrisi (L)
„ n×n simetrik matris
j
5
x3
0.8
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
ayrıtların ağırlıklarının toplamı
0.1
x2
0
Matris Yapısı
Derece matrisi (D)
„ n×n diagonal matris
D ( i , i ) = ∑ w ij x düğümünden diğer düğümlere olan
„
i
1
x1
x1
Simetrik matris
Matris Yapısı
„
6
4
0.7
„
Λ = {λ1 , λ2 ,..., λn }
0.8
Özellikleri:
„
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
0.8
0.6
0.8
Bir matrisin izgesi incelenir.
İzge (Spectrum ): Çizgenin öz değerlerinin
büyüklüklerine göre sıralanmış özvektörü
„
5
1
2
İzgesel Çizge Kuramı
„
Benzerlik matrisi (W)
„ n×n matris (n: düğüm sayısı)
„ W=[wij]: xi ve xj düğümleri arasındaki ayrıtın
„
Çizge düğümlerin ikili benzerliklerinden oluşan W
simetrik matrisi ile temsil edilir
Lineer cebir yöntemleri kullanılır
„
8
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
İzgesel Demetleme
„
cut (Gm , G \ Gm )
∑ wij
Özdeğerler pozitif gerçel sayılar
Özvektörler gerçel ve dikey
Özdeğerler ve özvektörler çizge yapısı hakkında bilgi
veriyor.
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
12
2
Optimal Enküçük Kesme Bulma
(Hall’70, Fiedler’73)
„
İzgesel Çizge Demetleme
İki altçizgeye (G1,G2) bölünen çizge bir vektörle temsil
edilir.
⎧+ 1 if xi ∈ G1
„
pi = ⎨
⎩ − 1 if xi ∈ G2
„
Mat. Theory and Appl., Vol. 11, No. 3, pp. 430 - 452,
1990.
Bölmenin kesmesini enküçültmek için f(p)
fonksiyonunu enküçültecek p vektörü bulunur:
f ( p) =
∑w (p
i , j∈V
ij
i
„
„
„
Önişleme
„
Ayrıştırma
„
− p j ) 2 = pT L p
Laplacian
matrisi
Rayleigh Kuramına göre:
„
A. Pothen, H.D. Simon and K. Paul Liou. Partitioning
Sparse Matrices with Eigenvectors of Graphs, SIAM J.
„
„
f(p)’nin enküçük değeri L matrisinin ikinci enküçük
özdeğeri ile elde edilir.
„
vektörüdür.
13
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
Önişleme
„
Çizgenin L Laplacian
matrisini oluşturma
1.5
-0.8
-0.6
0
-0.1
0
x2
-0.8
1.6
-0.8
0
0
0
x3
-0.6
-0.8
1.6
-0.2
0
0
x4
0
0
-0.2
1.7
-0.8
-0.7
x5
-0.1
0
0
-0.8
1.7
-0.8
0
-0.7
0
0
-0.8
1.5
0.0
0.4
-0.4
-0.6
-0.3
-0.3
-0.9
0.2
0.4
-0.4
0.0
0.3
0.3
0.3
0.4
-0.4
0.6.
6
0.1
0.1
0.6
0.4
0.4
0.4
-0.5
-0.5
-0.6
2.5
0.4
0.4
-0.2
-0.3
-0.3
-0.2
2.6
0.4
0.4
-0.2
0.7
0.7
0.9
„
Ayrıştırma
„
L matrisinin
„
özdeğerlerinin X
ve özvektörlerinin Λ
bulunması
Düğümlerin λ2 özvektörü
ile temsil edilmesi
Λ=
2.1
2.3
x1
-0.4
x2
-0.4
x3
-0.4
x4
0.4
x5
0.4
x6
0.4
X=
Gruplama
„
„
„
2.
„
15
„
„
Yinelemeli ikiye demetleme (L. Hagen, A.B. Kahng, New
spectral methods for ratio cut partitioning and
clustering, IEEE Trans. Comput. Aided Des. 11,1992)
„
Yinelemeli olarak ikiye demetleme algoritmasını hiyerarşıik
olarak uygulanması
Daha fazla sayıda özvektörü kullanarak demetleme (J.
Shi and J. Malik. Normalized cuts and image
segmentation. IEEE Trans. on Pattern Analysis and
Machine Intelligence, 22(8):888-905, 2000.=
„
x1
-0.4
Orta noktadan
x2
-0.4
x3
-0.4
Demet A: Eksi noktalar
Demet B: Artı noktalar
x4
0.4
x5
0.4
x1
0.2
x4
-0.4
x6
0.4
x2
0.2
x5
-0.7
x3
0.2
x6
-0.7
G1
G2
16
K-Yönlü İzgesel Demetleme
Biz çizge k adet altçizgeye bölünmek isteniyor.
İki yaklaşım
„
Ortalamadan ya da orta noktadan bölünür
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
K-Yönlü İzgesel Demetleme
„
Tek boyutlu vektörde bulunan elemanlar sıralanır
Vektör ikiye bölünür
Bölme noktası nasıl belirlenir?
Demetler nasıl
belirlenir?
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
„
14
Spectral Bi-partitioning Algoritması
x1
x6
Yeni boyutlardan yararlanarak nesnelerin iki veya daha fazla
demede ayrılması
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
Spectral Bi-partitioning Algoritması
1.
Matrisin özvektörlerinin ve özdeğerlerinin bulunması
Veri kümesindeki her nesnenin bir veya daha çok özvektörü
kullanılarak daha küçük bir boyuta taşınması
Gruplama
„
p için optimal çözüm Fiedler vektörü olarak bilinen λ2
veri kümesinin matris olarak temsil edilmesi
„
Çizgeler arasındaki optimal kesmeyi yaklaşık olarak
bulabilir (Shi & Malik, 2002).
Veri içindeki grupları belirgin hale getirir (M. Brand and
K. Huang. A unifying theorem for spectral embedding
and clustering, Proceedings of the Ninth International
Workshop on Artificial Intelligence and Statistics,
January 2003.)
„
Benzer nesneler arasındaki ilişki kuvvetleniyor, daha az
benzer nesneler arasındaki ilişki zayıflıyor.
Özvektörleri kullanarak veriyi daha az boyutlu bir uzaya taşır
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
17
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
18
3
K-Özvektör Demetleme
Örnek
2
„
k özvektör kullanarak demetleme yapılıyor (A. Ng,
M. Jordan, and Y. Weiss. On spectral clustering:
Analysis and an algorithm, In Advances in Neural
1
0
-2
-1.5
-1
-0.5
3.
„
0.6
0.4
0.2
En büyük iki özdeğer
kullanılarak veri kk-means
algoritması kullanılarak
demetlenebiliyor
19
„
Bir kesme
„
Bir kesme
-0.7075
-0.707
-0.7065
0
-0.706
-0.2
-0.6
-0.8
için genişlik
için iletkenlik
φ (S ) =
c(S) şu şekilde tanımlanmıştır
„
„
21
20
∑
xi ∈S , x j ∈S
wij
min{| S |, | S |}
∑
xi ∈S , x j ∈S
wij
min{c( S ), c ( S )}
c( S ) = c( S , V ) = ∑ x ∈S ∑ x ∈V wij
i
j
Bir demedin genişliği (iletkenliği) demet içindeki kesmelerin
genişliklerinin (iletkenliklerinin) en küçüğü
Demetlemenin genişliği (iletkenliği) demetlerin genişliklerinin
(iletkenliklerinin) en küçüğü
Genişliğin (iletkenliğin) büyük olması iyi bir demetleme olduğunu
gösteriyor
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
Çizge Tabanlı Demetleme Yöntemi
(Kannan’00)
22
Evrimsel Algoritma Tabanlı Çizge
Demetleme
Çizgeyi demetlemek için iki kriter beraber
kullanılıyor:
„
Her demedin iletkenliği (genişliği) en az α
değerinde olmalı
Demetler arası ayrıtların ağırlıklarının toplamının
bütün ayrıtların ağırlıklarının toplamına oranı ε
değerinden büyük olmamalı
Çizge demetleme problemi NP-karmaşık bir problem
olduğundan doğa esinli algoritmalar kullanılarak
problem çözülebilir (Ş.Uyar and Ş.Oguducu, A New
Graph-Based Evolutionary Approach to Sequence
Clustering, The Fourth International Conference on
„
Machine Learning and Applications, 2005)
Amaç:
„
Problemin çözümü NP-karmaşık olduğu için
yaklaşık bir çözüm önerilyor.
„
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
-0.708
-0.4
ψ (S ) =
„
„
-0.7085
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
the 41st Annual Symposium
on the Foundation of
Computer Science, 2000.)
„
-0.709
Çizge Tabanlı Demetleme Yöntemi
(Kannan’00)
En küçük kesme bulunarak
demetlenirse altçizgeler
arasındaki nesneler dengeli
dağılmayabilir.
Demetlerin kalitesi önemli
(Ravi Kannan and Santosh
Vempala and Adrian Vetta,
„
2
0.8
On Clusterings: Good, Bad,
and Spectral, Proceedings of
„
1.5
-2
Ayrıştırma: A' matrisinin özvektörleri bulunur. Veri
kümesi en büyük k özdeğer ile temsil edilir
Demetleme: k-means algoritması kullanılarak n×k
boyutundaki veri k demede ayrılır.
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
1
-1.5
Çizge Tabanlı Demetleme Yöntemi
(Kannan’00)
„
0.5
-1
Önişleme: ölçeklendirilmiş ağırlık matrisi oluşturulur
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
0
-0.5
A' = D −1 / 2 AD −1 / 2
2.
⇒ k-means algoritmasının
performansı bu durumda çok
düşük
0.5
Information Processing Systems 14: Proceedings
of the 2001.)
1.
Veri kümesi iki spiral şeklinde
gruptan oluşuyor
1.5
23
Aynı demetteki nesneler arasındaki ayrıtların
ağırlıklarının toplamının, demetler arasındaki ayrıtların
ağırlıklarının toplamına oranını enbüyütmek
Demet sayısını adaptif olarak belirlemek.
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
24
4
Evrimsel Algoritma Tabanlı Çizge
Demetleme
Demetleme Değerlendirme
„
„
„
İki objektif fonksiyonu:
„ Min-max cut
„ Silhoutte index
25
Demetleme Değerlendirme
„
„
Farklı demetleme teknikleri
En iyi demetleme algoritmasını seçmek zor
Verinin istatistiksel özelliğine, önişleme tekniklerine,
nitelik sayısına bağlı olarak algoritmaların avantajları
ve dezavantajları var
Aynı veri kümesi üzerinde farklı algoritmalar farklı
demetleme sonuçları üretebilir. Hangi demetlemenin
daha iyi olduğuna karar vermek gerekiyor
„
„
Veri
Kümesi
y
„
Bir Veri Kümesi için Farklı Demetlemeler
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0
DBSCAN
0.2
0.1
0.1
0
0.2
0.4
0.6
0.8
0
1
0
K-means
uygulama alanını iyi incelemek gerekiyor
demetleme sonucunu iyi anlamak gerekiyor
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0
27
„
„
0.2
0.1
0
0.2
0.4
0.6
0.8
1
0
0
„
„
„
„
0.4
0.6
0.8
1
x
28
Nesneler rasgele dağılmış
Her demetleme algoritması veri kümesi üzerinde demetleme yapar
Hopkins istatistiği: Veri kümesi içinde demetler bulunup bulunmadığını
test etmek için kullanılır
„
Veri uzayında rasgele dağılmış p nokta üretilir
Veri kümesinden örnekleme ile p nokta seçilir
Her iki küme için veri kümesinden en yakın nesnler seçilir.
„
Hopkins istatistiği
„
„
Hatalı veriler için örüntü bulunmaması
Farklı demetleme algoritmalarını karşılaştırma
Farklı demetlemeleri karşılaştırma
Farklı demetleri karşılaştırma
„
ui yapay olarak üretilmiş noktalara olan uzaklık, wi veri kümesinden seçilmiş
olan noktalara olan uzaklık
p
H=
∑w
i =1
p
29
i
p
∑u + ∑ w
i =1
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
0.2
Veri kümesi içinde gruplar olmayabilir.
„
Doğruluk, kesinlik, duyarlılık
Demetleme yöntemlerinde değerlendirilmesi
gerekenler:
„
1
Veri Kümesi Demetlemeye Uygun mu?
Gözetimli öğrenme için kullanılan yöntemler:
„
0.8
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
Demetleme Değerlendirme
„
0.6
Max
x
„
0.4
x
1
0.1
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
0.2
x
y
„
26
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
y
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
y
„
Hangi demetleme algoritması kullanılmalı?
Farklı bir demetleme uygulanmalı mı?
Farklı demetleme yöntemleri kullanılarak sonuç
nasıl iyileştirilir?
i
i =1
i
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
30
5
Harici Değerlendirme
Demetleme Değerlendirme Ölçütleri
„
„
Üç yaklaşım:
„ Harici Gösterge:Veri kümesi için öngörülen bir yapıya dayanarak
değerlendirme
„ Dahili Gösterge: Ek bir bilgi kullanmadan veri kümesinden elde
edilen bilgiye dayanarak değerlendirme
„ Göreceli Değerlendirme: Aynı algoritmanın farklı parametrelerini
kullanarak elde edilen demetleme sonuçlarını değerlendirme
İki kriter:
„ Sıkılık: Her demette bulunan nesneler birbirine mümkün olduğunca
yakın olmalı
„
Uzaklık: Demetler birbirinden mümkün olduğunca uzak olmalı
„
„
„
„
„
„
Demetleme algoritması kullanılarak elde edilen
demetleme C={C1,...,Ck}
Veri içinden bulunan gruplar P={P1,...,Pm}
Demetleme sonucundan elde edilen dağılım
„ SS: Eğer iki nesne C için aynı demette ve P için aynı
„
„
Tek bağ
Tam bağ
Demet merkezleri arasındaki uzaklık
„
31
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
grupta ise (a)
SD: Eğer iki nesne C için aynı demette ancak P için farklı
gruplarda ise (b)
DS: Eğer iki nesne C için farklı demette ancak P için aynı
grupta ise (c)
DS: Eğer iki nesne C için farklı demette ancak P için aynı
grupta ise (d)
Harici Değerlendirme Ölçütleri
„
Rand Statistics:
„
Jaccard katsayısı:
R=
Harici Değerlendirme Ölçütleri
a+d
a+b+c+d
J=
„
Entropi: Her demette sınıfların nasıl dağıldığı
ei = −
a
a+b+c
e =
k
∑
i=1
„
Folkes ve Mallows göstergesi:
FM =
32
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
a
a
⋅
a+b a+c
„
m
∑
p
j=1
ij
log
2
p
m: sınıf sayısı
k: demet sayısı
pij= nij/ni
ni: i demedindeki nesne sayısı
nij: i demedinde j sınfından nesne sayısı
n: toplam nesne sayısı
ij
ni
ei
n
Saflık: Bir demette ne kadar tek sınıftan örnek
bulunduğu
pi = max pij
j
k
purity = ∑
i =1
33
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
„
Dahili Değerlendirme Ölçütleri
Sadece veri kümesi özellikleri kullanılarak yapılan
değerlendirme
„
„
„
Hataların karelerinin toplamı (SSE)
İki farklı demetlemeyi ya da iki demedi karşılaştırmak
için iyi bir yöntem
Demet sayısını tahmin etmek için de kullanılabilir.
Silhouette Göstergesi:
„ xi nesnesi Cj demedinde
„
„
9
8
4
„
7
„
6
SSE
2
0
5
„
4
-2
Ortalama uzaklığa göre xi nesnesine en yakın demet Ch
xi nesnesi için silhouette göstergesi
s ( xi ) =
10
6
34
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
Dahili Değerlendirme Ölçütleri
„
ni
pi
n
d ( xi , Ch ) − d ( xi , C j )
max(d ( xi , Ch ), d ( xi , C j ))
-1 ≤ s(vi) ≤ 1
1’e yakın olursa xi doğru demette
Demetleme için silhouette göstergesi:
|Vj|
Sj =
2
1
-6
0
5
10
15
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
2
5
10
15
20
25
GS =
30
K
35
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
i
i =1
| Vj |
k
3
-4
∑ s( x )
∑S
j =1
k
j
36
6
Göreceli Değerlendirme
„
„
„
Göreceli Değerlendirme Ölçütleri
Palg seçilen demetleme algoritmasının parametreleri
Palg’deki parametrelerin farklı değerleri ile elde edilen demetlemeler Ci,
i=1,...,nc arasında veriye en çok uyanı seçme
„
„
İki durum:
„ Demet sayısı nc Palg’deki parametereler arasında değil:
„
„
Γ = (1 / M )∑
Palg’deki parametrelerin değerleri geniş bir aralıkta değiştirilerek
demetleme algoritması çalıştırılır. nc << N (nesne sayısı) sabit kaldığı en
geniş aralık seçilir. Paramettre değerleri olarak bu aralığın orta noktası
seçilir. Bu yöntemle demet sayısı da belirlenmiş olur.
„
„
„
37
„
x∈ci,y∈cj
x,y∈C
38
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
„
Demetlerin standard sapmalarının karakökü
(RMSSTD)
Semi-partial R-squared (SPR)
R-Squared (RS)
İki demet arası uzaklık (CD)
„
Örtüşen demetleme için U=[uij] matrisi: xi nesnesinin cj
demedine dahil olma olasılığı
Bölme katsayısı:
PC =
„
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
d(ci,cj)=min d(x,y)
diam(C)=max d(x,y)
Örtüşen Demetleri Değerlendirme
Hiyerarşik demetleme için 4 gösterge
„
Dunn göstergesi:
⎧⎪
⎫⎪
d (ci , c j )
Dnc = min ⎨ min
⎬
i =1,..., nc ⎪ j = i +1,..., nc max
k =1,..., nc diam (ck ) ⎪
⎩
⎭
çalıştırılır.
Her nc için q’nun en büyük değeri seçilir ve nc’nin fonksiyonu olarak çizilir. Bu
çizim kullanılarak nc değeri belirlenir.
Hiyerarşik Demetleme için Gösterge
„
∑ P(i, j ) ⋅ Q(i, j)
i =1 j = i +1
ncmin ve ncmax arasında değişen farklı demet sayıları için algoritma çalıştırılır.
nc’nin her farklı değeri için algoritma diğer parametreleri değiştirerek r defa
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
„
N= veri kümesindeki nesne sayısı
M=N(N-1)/2
P: yakınlık matrisi
Q: (i,j) elemanı xi ve xj nesnelerinin
bulundukları demetler arasındaki
uzaklık olan matris
N
En iyi demetleme, demetleme göstergesi q kullanarak seçilir.
„
„
Hubert istatistiği:
N −1
Demet sayısı nc Palg’deki parametereler arasında:
„
Birbiri ile örtüşmeyen demetler için tanımlanmış
göstergeler:
39
1
N
N
nc
∑∑ u
i =1 j =1
2
ij
[1/nc,1] arasında değişir.
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
40
7
Download