Veri Madenciliği - Önişleme Erdem Alparslan Gündem • • • • Özellikler (attributes) Veri kalitesi ile ilgili konular Boyutluluk ve boyut azaltımı Ayrıklaştırma ve kavram hiyerarşisi çıkartma Özellikler (attributes) • Özellik bir objenin bir karakteristiğini, bir yanını betimler. (attribute) – İnsanın saç rengi, yaşı, adresi gibi… – İngilizce kavramları: variable, field, characteristic, feature • Bu özelliklerin bütününün oluşturduğu şeye nesne diyoruz – İngilizce tanımlamaları: object, record, entity, instance Özellik değerleri • Özelliklerin tiplerine göre aldıkları değerlerdir • Aynı özellik farklı şekillerde betimlenebilir (feetmetre) • Ayrı özellikler aynı cinsten betimlenebilir (yaş da tutar da tamsayı değerdir) Özellik tipleri • Nominal – ID numaraları, göz rengi, posta kodu • Ordinal – Sıralamalı değerler, ölçümler, gizlilik derecesi (çok gizli, gizli, hizmete özel, özel, tasnif dışı) • Aralık (interval) – Takvim tarihleri, cecius ya da fahrenheit olarak sıcaklık ölçümleri • Oran (ratio) – Doğum oranı, GSMH Sürekli ve Ayrık değerler • Sürekli değerler – Gerçel sayılar kümesi alabileceği deperleri verir – Sıcaklık, yükseklik, ağırlık – Kayan noktalı sayılarla ifade edilmeleri kolaydır • Ayrık değerler – Sayılabilir miktarda değerden birini alır – Posta kodu adet, yaş aralığı – İkili değerler bir çeşit ayrık değerdir Veri seti çeşitleri • Kayıt – Veri matrisi – Doküman verisi – İşlem verisi • Çizge – WWW – Moleküler yapılar • Sıralı veri – Genetim yapılar – Spatio-temporal veri Kayıt veri • Belirli sayıda özellik için listeleme halinde verilen veri 10 Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 60K Matris veri • Kayıt verinin en klasik halidir • Her kayıt için belirli sayıda özellik için değerler girilir Projection of x Load Projection of y load Distance Load Thickness 10.23 5.27 15.22 2.7 1.2 12.65 6.25 16.22 2.2 1.1 Doküman verisi • Her doküman terimlerden oluşan bir vektör olarak betimlenir team coach pla y ball score game wi n lost timeout season Document 1 3 0 5 0 2 6 0 2 0 2 Document 2 0 7 0 2 1 0 0 3 0 0 Document 3 0 1 0 0 1 2 2 0 3 0 İşlem Verisi • Kayıt verisinin özel halidir, birliktelik gözetir. TID Items 1 Bread, Coke, Milk 2 3 4 5 Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Çizge veri • Düğümler ve bağlantılardan oluşan bir ağ yapısını beimler 2 1 5 2 5 <a href="papers/papers.html#bbbb"> Data Mining </a> <li> <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear System Solvers Kimyasal veri • Benzene Molecule: C6H6 Sıralı veri • DNA yapısı iyi bir örnektir – AGTSAGAGTTAGSTGASGGT Spatio-temporal veri • Coğrafi ve zamansal veri bu konudaki en başarılı örnektir • Kara ve okyanusların ortalama s • ıcaklık değerleri Veri kalitesi • Hangi veri kalitesi problemleri ile karşı karşıyayız? • Problemleri veri içerisinde nasıl tespit ederiz? • Problemlere karşı ne yaparız? Kirlilik • Gerçek ve olması gereken değerler dışında veri girilmiş olmasıdır Akırı değerler • Aykırı değerler veri setindeki hemen hemen tüm değerlerden çok ciddi sapma gösteren değerlerdir. Gerçektirler fakat ölçümlenmeleri bazı dışsal hatalardan kaynaklanmıştır Kayıp değerler • Veri girişindeki ihmalden ötürü bazı değerler boştur – Bilgi alınamamış olabilir – İhmal edilmiş olabilir • Ne yapılmalı? – – – – O satırlar analizden çıkarılabilir Boş değer tahmini yapılabilir Analiz sırasında önemsenmeyebilir Olası tüm değerler yerine yerleştirilip analiz defalarca tekrarlanabilir Tekrar veri • Tamamiyle aynı satırlar veri içerisinde olabilir • Gerçekten böyle bir veri de olabilir ya da hata ile tekrarlanmış da olabilir • Örn: 2 adet mail adresi olan kişi için 2 farklı kayıt açılması Veri Önişleme • • • • • • • Özetleme Örnekleme Boyut azaltımı Özellik seçme Özellik yaratma Ayrıklaştırma, ikilileştirme Özellik dönüştürme Özetleme • Birden fazla özellik ya da objeyi tek özellik ya da objeye derleme işidir • Amaç: – Veride azalma – Ölçek değişikliği – Daha kararlı veri Örnekleme • Örnekleme veri azaltımı için en önemli araçtır • Hem veri önişlemede hem de sonuç raporlamada kullanılır • Örnekleme çoğu veri madenciliği işinde kullanılır çünkü tüm verilerle çalışmak maliyetlidir • Anahtar mantık şudur: – Örneklemden alınan sonuç ana setten alınacak sonuç ile aynı tutarlılıkta olmalıdır Örneklem çeşitleri • Basit rastgele örneklem – Herbir verinin seçilmesi olasılığı aynı ölçüdedir, özel bir gayret gerektirmez • Yer değiştirmesiz örneklem – Bir satır seçilince bir sonraki adım için ana setten çıkarılır • Yer değiştirmeli örneklem – Bir satır seçilirse bir sonraki adım için ana setten çıkarılmaz • Yoğunlaştırılmış örneklem – Veri parçalara ayrılır ve her parçadan örnek değerler seçilir Örneklem sayısı Özellik seçme • Veri boyutunun azaltılması işlemidir • Teknikler: – Brute-force teknik: Tüm özelliklerin farklı kombinasyonları veri madenciliğine alınır, hangi kombinasyon başarılı ise dışında kalan özellikler elenir – Gömülü teknikler: Veri madenciliği algoritması çalışırken zaten bazı özellikleri seçer – Filtreleme yaklaşımı: En başta özellikler sonuca etkilerine göre kovaryans analizleri ile elenir Özellik seçmede uzaklık metrikleri • Öklit uzaklığı dist n ( pk qk ) 2 k 1 • Minkovski uzaklığı n dist ( | pk qk k 1 1 r r |) Özellik seçmede uzaklık metrikleri • Mahalanobis uzaklığı 1 mahalanobis( p, q) ( p q) ( p q) j ,k T 1 n ( X ij X j )( X ik X k ) n 1 i 1 Özellik yaratma • Mevcut özelliklerden veriyi tek başına daha iyi ifade edecek bir özellik tespit etme işidir • Alan uzmanları tarafından karar verilebilir • Veri başka bir boyuta taşınınca ortaya çıkabilir • Özellikler birleştirilince ortaya çıkabilir Ayrıklaştırma • Sürekli değerlerin ayrık değerlere dönüştürülme işi veri madenciliği önişleme işlemlerinden belki de en önemlisidir. • Yaş, sıcaklık, not ortalaması gibi değerler ayrıklaştırılınca daha iyi sonuç vereceklerdir