DSS Chapter 1

advertisement
Veri Madenciliği - Önişleme
Erdem Alparslan
Gündem
•
•
•
•
Özellikler (attributes)
Veri kalitesi ile ilgili konular
Boyutluluk ve boyut azaltımı
Ayrıklaştırma ve kavram hiyerarşisi çıkartma
Özellikler (attributes)
• Özellik bir objenin bir karakteristiğini, bir yanını
betimler. (attribute)
– İnsanın saç rengi, yaşı, adresi gibi…
– İngilizce kavramları: variable, field, characteristic, feature
• Bu özelliklerin bütününün oluşturduğu şeye nesne
diyoruz
– İngilizce tanımlamaları: object, record, entity, instance
Özellik değerleri
• Özelliklerin tiplerine göre aldıkları değerlerdir
• Aynı özellik farklı şekillerde betimlenebilir (feetmetre)
• Ayrı özellikler aynı cinsten betimlenebilir (yaş da tutar
da tamsayı değerdir)
Özellik tipleri
• Nominal
– ID numaraları, göz rengi, posta kodu
• Ordinal
– Sıralamalı değerler, ölçümler, gizlilik derecesi (çok gizli,
gizli, hizmete özel, özel, tasnif dışı)
• Aralık (interval)
– Takvim tarihleri, cecius ya da fahrenheit olarak sıcaklık
ölçümleri
• Oran (ratio)
– Doğum oranı, GSMH
Sürekli ve Ayrık değerler
• Sürekli değerler
– Gerçel sayılar kümesi alabileceği deperleri verir
– Sıcaklık, yükseklik, ağırlık
– Kayan noktalı sayılarla ifade edilmeleri kolaydır
• Ayrık değerler
– Sayılabilir miktarda değerden birini alır
– Posta kodu adet, yaş aralığı
– İkili değerler bir çeşit ayrık değerdir
Veri seti çeşitleri
• Kayıt
– Veri matrisi
– Doküman verisi
– İşlem verisi
• Çizge
– WWW
– Moleküler yapılar
• Sıralı veri
– Genetim yapılar
– Spatio-temporal veri
Kayıt veri
• Belirli sayıda özellik için listeleme halinde verilen veri
10
Tid Refund Marital
Status
Taxable
Income Cheat
1
Yes
Single
125K
No
2
No
Married
100K
No
3
No
Single
70K
No
4
Yes
Married
120K
No
5
No
Divorced 95K
Yes
6
No
Married
No
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
60K
Matris veri
• Kayıt verinin en klasik halidir
• Her kayıt için belirli sayıda özellik için değerler girilir
Projection
of x Load
Projection
of y load
Distance
Load
Thickness
10.23
5.27
15.22
2.7
1.2
12.65
6.25
16.22
2.2
1.1
Doküman verisi
• Her doküman terimlerden oluşan bir vektör olarak
betimlenir
team
coach
pla
y
ball
score
game
wi
n
lost
timeout
season
Document 1
3
0
5
0
2
6
0
2
0
2
Document 2
0
7
0
2
1
0
0
3
0
0
Document 3
0
1
0
0
1
2
2
0
3
0
İşlem Verisi
• Kayıt verisinin özel halidir, birliktelik gözetir.
TID
Items
1
Bread, Coke, Milk
2
3
4
5
Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk
Çizge veri
• Düğümler ve bağlantılardan oluşan bir ağ yapısını
beimler
2
1
5
2
5
<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
<a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
Kimyasal veri
• Benzene Molecule: C6H6
Sıralı veri
• DNA yapısı iyi bir örnektir
– AGTSAGAGTTAGSTGASGGT
Spatio-temporal veri
• Coğrafi ve zamansal veri bu konudaki en başarılı
örnektir
• Kara ve okyanusların ortalama s
• ıcaklık değerleri
Veri kalitesi
• Hangi veri kalitesi problemleri ile karşı karşıyayız?
• Problemleri veri içerisinde nasıl tespit ederiz?
• Problemlere karşı ne yaparız?
Kirlilik
• Gerçek ve olması gereken değerler dışında veri
girilmiş olmasıdır
Akırı değerler
• Aykırı değerler veri setindeki hemen hemen tüm
değerlerden çok ciddi sapma gösteren değerlerdir.
Gerçektirler fakat ölçümlenmeleri bazı dışsal
hatalardan kaynaklanmıştır
Kayıp değerler
• Veri girişindeki ihmalden ötürü bazı değerler boştur
– Bilgi alınamamış olabilir
– İhmal edilmiş olabilir
• Ne yapılmalı?
–
–
–
–
O satırlar analizden çıkarılabilir
Boş değer tahmini yapılabilir
Analiz sırasında önemsenmeyebilir
Olası tüm değerler yerine yerleştirilip analiz defalarca
tekrarlanabilir
Tekrar veri
• Tamamiyle aynı satırlar veri içerisinde olabilir
• Gerçekten böyle bir veri de olabilir ya da hata ile
tekrarlanmış da olabilir
• Örn: 2 adet mail adresi olan kişi için 2 farklı kayıt
açılması
Veri Önişleme
•
•
•
•
•
•
•
Özetleme
Örnekleme
Boyut azaltımı
Özellik seçme
Özellik yaratma
Ayrıklaştırma, ikilileştirme
Özellik dönüştürme
Özetleme
• Birden fazla özellik ya da objeyi tek özellik ya da
objeye derleme işidir
• Amaç:
– Veride azalma
– Ölçek değişikliği
– Daha kararlı veri
Örnekleme
• Örnekleme veri azaltımı için en önemli araçtır
• Hem veri önişlemede hem de sonuç raporlamada
kullanılır
• Örnekleme çoğu veri madenciliği işinde kullanılır
çünkü tüm verilerle çalışmak maliyetlidir
• Anahtar mantık şudur:
– Örneklemden alınan sonuç ana setten alınacak sonuç ile
aynı tutarlılıkta olmalıdır
Örneklem çeşitleri
• Basit rastgele örneklem
– Herbir verinin seçilmesi olasılığı aynı ölçüdedir, özel bir
gayret gerektirmez
• Yer değiştirmesiz örneklem
– Bir satır seçilince bir sonraki adım için ana setten çıkarılır
• Yer değiştirmeli örneklem
– Bir satır seçilirse bir sonraki adım için ana setten çıkarılmaz
• Yoğunlaştırılmış örneklem
– Veri parçalara ayrılır ve her parçadan örnek değerler seçilir
Örneklem sayısı
Özellik seçme
• Veri boyutunun azaltılması işlemidir
• Teknikler:
– Brute-force teknik: Tüm özelliklerin farklı kombinasyonları
veri madenciliğine alınır, hangi kombinasyon başarılı ise
dışında kalan özellikler elenir
– Gömülü teknikler: Veri madenciliği algoritması çalışırken
zaten bazı özellikleri seçer
– Filtreleme yaklaşımı: En başta özellikler sonuca etkilerine
göre kovaryans analizleri ile elenir
Özellik seçmede uzaklık metrikleri
• Öklit uzaklığı
dist 
n
 ( pk  qk )
2
k 1
• Minkovski uzaklığı
n
dist  (  | pk  qk
k 1
1
r r
|)
Özellik seçmede uzaklık metrikleri
• Mahalanobis uzaklığı
1
mahalanobis( p, q)  ( p  q)  ( p  q)
 j ,k
T
1 n

 ( X ij  X j )( X ik  X k )
n  1 i 1
Özellik yaratma
• Mevcut özelliklerden veriyi tek başına daha iyi ifade
edecek bir özellik tespit etme işidir
• Alan uzmanları tarafından karar verilebilir
• Veri başka bir boyuta taşınınca ortaya çıkabilir
• Özellikler birleştirilince ortaya çıkabilir
Ayrıklaştırma
• Sürekli değerlerin ayrık değerlere dönüştürülme işi
veri madenciliği önişleme işlemlerinden belki de en
önemlisidir.
• Yaş, sıcaklık, not ortalaması gibi değerler
ayrıklaştırılınca daha iyi sonuç vereceklerdir
Download