Intelligent Data Mining

Zeki
Veri Madenciliği
Ethem Alpaydın
Bilgisayar Mühendisliği Bölümü
Boğaziçi Üniversitesi
[email protected]
http://www.cmpe.boun.edu.tr/~ethem
Veri Madenciliği nedir?
• Büyük miktarda veri içinden, gelecekle
ilgili tahmin yapmamızı sağlayacak
bağıntı ve kuralların aranmasıdır.
• Knowledge Discovery in Databases
2
Örnek Uygulamalar
• Bağıntı
“Çocuk bezi alan müşterilerin 30%’u bira da
alır.” (Basket Analysis)
• Sınıflandırma
“Genç kadınlar küçük araba satın alır; yaşlı,
zengin erkekler ise büyük, lüks araba satın
alır.”
• Regresyon
Kredi skorlama (Application Scoring)
3
Örnek Uygulamalar
• Zaman içinde Sıralı Örüntüler
“İlk üç taksidinden iki veya daha fazlasını geç
ödemiş olan müşteriler %60 olasılıkla krediyi
geriye ödeyemiyor.” (Behavioral scoring,
Churning)
• Benzer Zaman Sıraları
“X şirketinin hisselerinin fiyatları Y şirketinin
fiyatlarıyla benzer hareket ediyor.”
4
Örnek Uygulamalar
• İstisnalar (Fark Saptanması)
“Normalden farklı davranış gösteren
müşterilerim var mı?”
Fraud detection
• Döküman Madenciliği (Web Madenciliği)
“Bu arşivde (veya internet üzerinde) bu
dökümana benzer hangi dökümanlar var?”
5
Veri Madenciliği Sihir değildir!
Veri madenciliği, veri tabanları, istatistik ve
yapay öğrenme konularının kavramlarına
dayanır ve onların tekniklerini kullanır.
6
Ambardan Madene
Veri
Ambarı
Günlük
Veri tabanları
Veri alınır,
çevrilir,
temizlenir,
guruplanır
Standard
form
Amaç belirlenir,
veri oluşturulur
7
Maden nasıl bulunur?
Geçerleme
Keşif
Bilgisayar yardımıyla,
Kullanıcı tarafından,
Yukarıdan aşağıya
Otomatik,
Veri tarafından yönlendirilir,
Aşağıdan yukarıya
Sorgula ve Raporla
OLAP (OnLine Analytical
Processing) tools
8
Adımlar:
1. Amaç Tanımlama
• Ürünler arasında bağıntı ?
• Yeni pazar segmentleri veya potansiyel
müşteriler?
• Zaman içindeki satın alma örüntüleri veya
ürün satım eğrileri?
• Müşterileri guruplamak, sınıflandırmak ?
9
Adımlar:
2. Veri Hazırlama
• Veriyi birleştir, seç ve önişle
(Eğer veri ambarı varsa zaten yapılmıştır)
• Var olan verinin dışında, amaç için
kullanılabilecek ek bilgi var mı?
10
Adımlar:
2. Veri Hazırlama
• Veri seçimi: Önemli değişkenlerin saptanması
• Veri temizleme: Hata, tutarsızlık, tekrar ve
eksik verilerin ayıklanması/düzeltilmesi
• Veri fırçalama: Guruplama, dönüşümler
• Görsel inceleme: Veri dağılımı, yapısı,
istisnalar, değişkenler arasında bağıntılar
• Değişken analizi: Guruplama, bölütleme
11
Adımlar:
3. Teknik Seçme
• Amaç sınıfının tanımlanması
Guruplama (Clustering/Segmentation), Bağıntı kurma
(Association), Sınıflandırma (Classification), Zaman içinde örüntü
bulma/tahmin yapma (Pattern detection/Prediction in time)
• Çözüm sınıfınının tanımlanması
Açıklama (Karar ağaçları,kurallar) vs Kara kutu (sinir ağı)
• Model değerlendirme, geçerleme ve
karşılaştırma
k-kat çapraz geçerleme, istatistiksel testler
• Modellerin birleştirilmesi
12
Adımlar:
4. Yorumlama
• Sonuçlar (açıklamalar/tahminler) doğru
mu, dikkate değer mi?
• Uzmana danışma
13
Örnek
• Veri, çok boyutlu değişkenler tablosudur
Ad
Ali
Veli
Gelir
25,000 $
18,000 $
Birikim
50,000 $
10,000 $
Medeni hali
Evli
Evli
Default
...
Hayır
Evet
Bir değişkenin değerini, diğer değişkenlerin
değerleri cinsiden açıklamak istiyoruz.
14
Sistem Modelleme
x : Gözlenebilen değişkenler.
y =f (x) : f bilinmeyen ve rassal bir
fonksiyon
x
f
y
15
Veri için Model Oluşturma
x
y
f
-
f*
16
Veriden Öğrenme
Verilmiş örnek kümesi X={xt,yt}t üzerinde
f (xt) ’ye en yakın kestirici f*(xt) ’i
oluşturuyoruz.
E   y t  f * (x t )
2
t
17
Uygulama Tipleri
• Sınıflandırma: y in {C1, C2,…,CK}
• Regresyon: y in Re
• Zaman Serisi Tahmini: x ’ler zaman
içinde bağımlı
• Öbekleme: x ’leri benzerliğe göre
gurupla
18
birikim
Örnek
OK
DEFAULT
yıllık gelir
19
x2 : birikim
Örnek Çözüm
OK
DEFAULT
q2
x1 : yıllık gelir
q1
KURAL: EĞER yıllık gelir> q1 VE birikim> q2
İSE OK DEĞİLSE DEFAULT
20
Karar Ağaçları
x1 > q1
evet
hayır
x2 > q2
evet
y=1
x1 : yıllık gelir
x2 : birikim
y = 0: DEFAULT
y = 1: OK
y=0
hayır
y=0
21
birikim
Öbekleme
Tip 1
Tip 2
OK
DEFAULT
Tip 3
yıllık gelir
22
Veri Görselleştirme
• Görsel Analiz için veriyi daha az boyutlu
(tercihen 2) olarak çiz.
• Verinin yapısının; gurupların, istisnaların
gözlenmesi
23
z2
Veri Görselleştirme
Kural
İstisna
z1
24
Zaman Serisi Tahmini
?
zaman
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan
Geçmiş
Discovery of frequent episodes
Şimdi
Gelecek
25
Metodoloji
İlk
Standard
Form
Öğrenme
kümesi
Model 1
Model 2
Yeterince
iyi ise
kabul et
En iyiyi
seç
Model L
Deneme
kümesi
Veri azaltma:
Değişken sayısı ve değer
azaltma
En iyi
model
Eğitilmiş
modelleri
deneme kümesi
üzerinde dene ve
en başarılısını seç
Olası modelleri
öğrenme kümesi
üstünde eğit
26
Kestiricileri Eğitmek için Teknikler
•
•
•
•
Parametrik Çokboyutlu İstatistik
Bellek tabanlı (Örnek tabanlı) Modeller
Karar Ağaçları
Yapay Sinir Ağları
27
Sınıflandırma
•
•
•
•
x : d-boyutlu değişkenler vektörü
C1 , C2 ,... , CK : K sınıf
Şüphe
Veriden P(Ci|x) hesaplanır ve
olasılığı en yüksek sınıf k seçilir
P(Ck|x)=maxj P(Cj|x)
28
Bayes Kuralı
p(x|Cj)
P(Cj)
p(x)
P(Cj|x)
:
:
:
:
Sınıf j’den bir örneğin x olma olasılığı
Sınıf j’nin ilk olasılığı
Herhangi bir örneğin x olma olasılığı
x olan bir örneğin sınıf j’den olma olasılığı (son olasılık)
29
İstatistiksel Yöntemler
• Sınıf dağılımları, p(x|Cj) için parametrik
(Gauss) model varsayılıyor
Tek boyutlu x  
2 

(
x


)
1
j
exp 

2
2  j
2 j


p (x | C j ) 
Çok boyutlu x  d
1
 1

T
1
p (x | C j ) 
exp  ( x  μ j ) Σ j ( x  μ j )
d /2
(2 ) Σ j
 2

30
Sınıflandırıcıyı Eğitmek
• Veri {xt}t ’in ait olduğu sınıf Cj
Tek boyutlu: p(x|Cj)~N (j,j2)
xt
̂ j 
x t C j
nj
 (x
ˆ j 
2
t
 ˆ j ) 2
x t C j
Pˆ(C j ) 
nj
Çok boyutlu: p(x|Cj)~Nd (j,Sj)
t
x

μ̂ j 
x t C j
nj
nj
n
t
t
T
ˆ
ˆ
(
x

μ
)(
x

μ
)

j
j
ˆS 2  x C j
j
t
nj
31
Örnek: 1 Boyutlu
32
Örnek: Farklı Varyanslar
33
Örnek: Çok Sınıf
34
Örnek: 2 Boyutlu
35
Örnek: Ortak Kovaryans
36
Örnek: Farklı Kovaryanslar
37
Davranışlar ve Riskler
ai : davranış i
l(ai|Cj) : Sınıf Cj iken ai davranışını
almanın getirdiği kayıp.
ai davranışının riski:
R(ai |x) = Sj l(ai|Cj) P(Cj |x)
En az riskli davranışı seç:
R(ak |x) = mini R(ai |x)
38
Regresyon (Fonksiyon Yakınsama)
39
Regresyon
t
t
y  f (x | q )  
 gürültü. Doğrusal regresyonda parametreler
w,w0
f (x t | w ,w 0 )  wx t  w 0
t
t
2
E (w ,w 0 )   (y  wx  w 0 )
t
E
w
E
E
 0,
0
w
w 0
40
Doğrusal Regresyon
41
Yüksek Dereceli Regresyon
• Örneğin, ikinci dereceden
t
f (x | w 2 ,w 1 ,w 0 )  w 2 x
t2
E (w 2 ,w 1 ,w 0 )   (y  w 2 x
t
t
 w 1x t  w 0
t2
 w 1x t  w 0 )2
42
Yüksek Dereceli Regresyon
43
Çok Değişkenli Doğrusal Regresyon
(Scoring)
• d değişken sayısı
t
1
t
t
f (x , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d ) 
t
1 1
t
2
t
w x  w 2 x    w d x d  w 0  wT x
E (w 0 ,w 1 ,w 2 ,  ,w d ) 
t y
t
t
1
t
2
t
 f (x , x ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d )

2
44
Özellik Seçme
• Özellikler Altkümesi Seçimi
İleriye veya Geriye doğru seçim
• Doğrusal İzdüşüm
Temel Bileşenler Analizi (PCA)
Doğrusal Ayırıcı Analizi (LDA)
45
Sıralı Altküme Seçimi
İleriye Doğru Seçim
(x1)
(x2)
(x 1 x 3 )
(x3)
(x4)
(x2 x3)
(x 1 x 2 x 3 )
(x3 x4)
(x2 x3 x4)
Geriye Doğru Seçim
(x 1 x 2 x 3 x 4 )
(x1 x2 x3) (x1 x2 x4) (x1 x3 x4) (x2 x3 x4)
(x2 x4) (x1 x4) (x1 x2)
46
Temel Bileşenler Analizi (PCA)
x2
z2
z2
z1
x1
z1
Beyazlaştırma
47
Doğrusal Ayırıcı Analizi (LDA)
x2
z1
z1
x1
48
Bellek Tabanlı Yöntemler
• Örnek tabanlı karar verme
• En yakın komşu algoritması
• Bilinen geçmiş örnekleri bir liste içinde
saklayıp buradan ara değerleme ile çıktı
hesaplanır.
49
En Yakın Komşu
x2
x1
50
Yerel Regresyon
y
x
Uzmanların Birleşimi
51
Eksik Veri
• Eksik veri olan kayıtları çıkar.
• Ortalama ile doldur.
• Diğer değişkenler cinsinden regresyon
ile doldur.
52
Karar Ağaçlarının Eğitilmesi
x2
x1 > q1
evet
hayır
x2 > q2
evet
y=1
hayır
y=0
q2
y=0
q1
x1
53
Düzensizliğin Ölçülmesi
x2
x2
q
7
0
q
x1
1
9
8
5
x1
0
4
54
Entropi
n right
n left
n left n right
e
log

log
n
n
n
n
55
Yapay Sinir Ağları
x0=+1
x1
x2
w1
w2
g
wd
xd
y  g (x 1w 1  x 2w 2    w 0 )
w0
y
 g ( wT x)
Regresyon: Öz
Sınıflandırma: Sigmoid (0/1)
56
Yapay Sinir Ağının Eğitilmesi
• d değişken
d
o  g ( w x)  g  w i x i
 i 0
T



X  x , y
t
Öğrenme kümesi:
t

X üzerindeki hatayı en aza indiren w ’yi bul
E (w | X ) 
y

t X

t
o

t 2
 t

   y  g  w i x i
t X 
 i

 

2
57
Doğrusal Olmayan En İyileme
E
Wi
E
w i  
w i
Eğim iniş:
Tekrarlı öğrenme
 öğrenme hızı
58
Sınıflandırma için Yapay Sinir Ağları
K tane sınıf için
oj , j=1,..,K çıktı
Her oj , P (Cj|x)’yi kestirir
o j  sigmoid ( wTj x )
1

1  exp(  wTj x )
59
Çok Sınıflı Doğrusal Yapay Sinir Ağı
o2
o1
oK
wKd
x0=+1
x1
x2
xd
d

t
T t
t
o j  g ( w j x )  g  w ji x i
 i 0



60
Tekrarlı Öğrenme
X  xt , yt 
E ( w | X )    y  o
t
j
t
j

t 2
j
o tj  g ( wTj x t )
w ji
E
E o j
 
 
   y tj  o tj g ' ()x i
w ji
o j w ji
t
Doğrusal
Doğrusal
olmayan


  y

o

w ji   y tj  o tj x i
w ji
t
j
 o tj
t
j
(1  o tj )x i
61
Doğrusal Olmayan Sınıflandırma
Doğrusal ayırılabilir
Doğrusal ayırılamaz;
doğrusal olmayan bir
ayırıcı gerekir.
62
Çok Katmanlı Yapay Sinir Ağı (MLP)
o2
o1
oK
tKH
h2
h1
hH
h0=+1
x0=+1
x1
x2
 H
t 
o  g   t jp h p 
 p 0

 d
t
h p  sigmoid  w pi x it
 i 0
t
j



wKd
xd
63
Olasılık Ağları
p (a )  0.1
p ( | a )  0.05, p ( | a )  0.1,...
64
Modelleri Değerlendirme
1. M ’nin gelecekteki gerçek veri
üzerindeki başarısını nasıl ölçebiliriz?
2. M1 , M2 , ..., ML arasında en iyisi hangi
modeldir?
65
Çapraz Geçerleme
1
1
2
3
2
k-1 k
3
k-1
k
k kere tekrar et ve ortalama al
66
Modelleri Birleştirme: Neden?
İlk
Standard
Form
Öğrenme
kümesi
Model 1
Model 2
En iyiyi
seç
En iyi
model
Model L
Geçerleme
kümesi
67
Modelleri Birleştirme : Nasıl?
İlk
Standard
Form
Öğrenme
kümesi
Model 1
Model 2
Oylama
Model L
Geçerleme
kümesi
68
Kredi Skor Hesabı (Credit Scoring)
• Başvuru (application) ve davranış
(behavioral) skor hesabı
• İstatistiksel bir model olarak skorkartı
• İyi ve kötü risk müşteriler
• Alanların doğrusal toplamı:
Kredi kartı var mı? Evet: +50
Hayır: –20
69
Kredi Skor Hesabında Kullanılan
Alanlar
•
•
•
•
•
•
•
•
•
•
•
İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl
Ev durumu: Sahip, kiracı, diğer
Postakodu: Kodlanmış
Telefon: Evet, hayır
Yıllık gelir: Kodlanmış
Kredi kartı: Evet, hayır
Yaş: 18-25, 26-40, 41-55, 55+ yıl
Meslek: Memur, işçi, serbest, işsiz, ...
Medeni hali: Evli, bekar, diğer
Bankanın müşterisi olduğu zaman: yıl
Çalıştığı kurumda çalışma zamanı: yıl
70
Kredi Skor Hesabının Yararları
• Daha doğru karar vermeyi sağlar.
• Skorkartı standardizasyon ve nesnel karar
getirir.
• Hızlı ve ucuzdur.
• Kullanılan tek skorkartının üzerinde kurumun
kontrolü vardır.
• Yeni skorkartı otomatik olarak kolay ve hızlı
bir şekilde hesaplanabilir.
71
Sepet Analizi (Basket Analysis)
• X ve Y malları arasındaki ilişki
• X, Y: 0/1
Destek (Support):
P(X ve Y)= X ve Y mallarını satın almış
müşteri sayısı / Toplam müşteri sayısı
Güven (Confidence):
P(X|Y)=P(X ve Y)/P(Y) =
X ve Y mallarını satın almış müşteri sayısı / Y
malını satın almış müşteri sayısı
72
Sepet Analizi
• X, Y beğeni değerleri
• Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y))
• Cov(X,Y)=E[(X-mX) (Y-mY)]
73
Sonuçlar: Verinin Önemi
• Amaç, büyük miktardaki ham veriden değerli
bilginin çıkarılmasıdır.
• Çok miktarda, güvenilir veri önşarttır.
Çözümün kalitesi öncelikle verinin kalitesine
bağlıdır.
• Veri madenciliği simya değildir; taşı altına
döndüremeyiz.
74
Sonuçlar: Uzmanın Önemi
• Veri madenciliği, uygulama alanındaki
uzmanların ve bilgisayarın ortak çalışmasıdır.
• Uygulama ile ilgili ve yararlı olabilecek her tür
bilginin (simetriler, kısıtlar, vb) öğrenmeye
yardım için sisteme verilmesi gerekir.
• Sonuçların tutarlılığının uzmanlar tarafından
denetlenmesi gerekir.
75
Sonuçlar: Sabrın Önemi
• Veri madenciliği tek aşamalı bir çalışma
değildir; tekrarlıdır. Sistem ayarlanana dek
birçok deneme gerektirir.
• Veri madenciliği uzun bir çalışma olabilir.
Büyük beklentiler büyük hayal kırıklıklarına
neden olur.
76
Tekrar: Madencilik için Gerekenler
•
•
Çok miktarda kaliteli veri
İlgili ve bilgili uzmanlar:
1. Uygulama alanı
2. Veri Tabanları (Veri Ambarcılığı)
3. İstatistik ve Yapay Öğrenme
• Zaman ve sabır
77

Intelligent Data Mining

Related documents

Products

Support

Intelligent Data Mining

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib