Veri Madenciliği

advertisement
Veri Madenciliği
Bölüm 1. Giriş
Doç. Dr. Suat Özdemir
http://ceng.gazi.edu.tr/~ozdemir
Ders bilgileri
Öğretim üyesi: Doç. Dr. Suat Özdemir
E-posta: [email protected]
Websayfası:
http://ceng.gazi.edu.tr/~ozdemir/teaching/dm
 Bütün duyuru, ödev, vb. için ders web sayfasını
haftada en az bir kez kontrol etmelisiniz
Veri Madenciliği
Doç. Dr. Suat Özdemir
2/41
Ders Bilgileri
 Ders kitabı:
– Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2005). Introduction
to Data Mining. Addison Wesley, ISBN: 0-321-32136-7
 Kaynak kitaplar:
– David J. Hand, Heikki Mannila, and Padhraic Smyth (2001). Principles
of Data Mining. MIT Press. ISBN 026208290X.
– Data Mining, Second Edition Concepts and Techniques 2nd Edition
Jiawei Han and Micheline Kamber ISBN: 978-1-55860-901-3 The
Morgan Kaufmann Series, 2006.
Veri Madenciliği
Doç. Dr. Suat Özdemir
3/41
Dersin Amacı
 Temel veri madenciliği konseptlerini öğrenmek
 Sınıflandırma, kümeleme, ilişkilendirme/birliktelik kuralları
bulma gibi temel veri madenciliği konularında uygulama
geliştirmek
 Geniş
veri
tabanlarında/veri
ambarlarında
bilgi
keşfi
yapabilmek.
Veri Madenciliği
Doç. Dr. Suat Özdemir
4/41
Ders içeriği
 Giriş
 Veri önişleme
 Veri ambarları
 Sınıflandırma
 Kümeleme
 İlişkilendirme/birliktelik kuralları
 Veri madenciliğinde saldırı tespiti
 Metin madenciliği
 WEB madenciliği
Veri Madenciliği
Doç. Dr. Suat Özdemir
5/41
Ders planı
 Motivasyon: Neden veri madenciliği?
 Tanım: Veri madenciliği nedir?
 Veri madenciliği konularının sınıflandırılması
 Veri ambarları
 Veri madenciliğinde sorunlar
Veri Madenciliği
Doç. Dr. Suat Özdemir
6/41
Veritabanı teknolojisinin gelişimi
Veri Madenciliği
Doç. Dr. Suat Özdemir
7/41
Neden veri madenciliği?
 Bilgisayarların ucuzlayıp aynı zamanda çok güçlü hale
gelmeleri
 Teknolojinin gelişimiyle bilgisayar ortamında ve
veritabanlarında tutulan veri miktarının da artması
(terabyte to petabyte)
 Yeni veri toplama yolları
– Otomatik veri toplama aletleri, veritabanı sistemleri, bilgisayar
kullanımının artması
 Büyük veri kaynakları
– İş dünyası: Web, e-ticaret, alışveriş, hisse senetleri, …
– Bilim dünyası: Uzaktan algılama ve izleme, bioinformatik,
simülasyonlar..
– Toplum: haberler, digital kameralar, YouTube, Facebook…
 Ticari rekabet baskısının artması
– Kişiselleştirilmiş ürünler, CSR yönetimi
 Veri içinde boğuluyoruz, ancak bilgi elde
edemiyoruz!!!
Veri Madenciliği
Doç. Dr. Suat Özdemir
8/41
Neden veri madenciliği?
Veri Madenciliği
Doç. Dr. Suat Özdemir
9/41
Veri Madenciliğinin Amacı
 Ne yapmak istemiyoruz?
– Büyük miktardaki veri içinde arama yapmak (Veritabanı yönetim
sistemleri bu işi yapıyor)
– Telefon rehberinde arama yapmak
 Veri madenciliğinin amacı:
– Aradığımız veri mevcutsa bu veriden çıkarabileceğimiz sonuçlarını
anlamak
– Telefon rehberindeki isimlere göre, hangi bölgemizde hangi isimlerin
daha yaygın olduğunu bulmak
Veri Madenciliği
Doç. Dr. Suat Özdemir
10/41
Veritabanı - Veri Madenciliği Karşılaştırması
• Sorgulama
 Sorgulama
• Tam tanımlı değil
– Tanımlı
• Yaygın sorgulama dili yok
– SQL
• Veri
 Veri
• Üzerinde işlem yapılmayan veri
– Canlı veri
• Statik
– Dinamik
• Çıktı
 Çıktı
• Belirli değil
– Belirli
• Verinin bir alt kümesi değil
– Verinin bir alt kümesi
Veritabanı
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri Madenciliği
11/41
Sorgulama örnekleri
 Veritabanı uygulaması:
– Adı Ahmet olan kredi kartı sahiplerini bul.
– Bir ayda 2000 YTL’den fazla harcama yapan kredi kartı sahiplerini bul.
– DVD satın alan tüm müşterileri bul.
 Veri madenciliği uygulaması
– Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma)
– Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul
(demetleme)
– DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme kuralları)
Veri Madenciliği
Doç. Dr. Suat Özdemir
12/41
Veri madenciliği nedir?
 Veri madenciliği
– Basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin
ya da bilginin çok büyük miktarlardaki veriden çıkarılması
– Sorgulama ya da basit istatistik yöntemler veri madenciliği değildir.
– Veri madenciliği terimi ne kadar doğru?
 KNOWLEDGE DISCOVERY FROM DATA (KDD) (VERİDEN
BİLGİ KEŞFİ)
 Alternatif isimler
– Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data dredging,
information harvesting, business intelligence, etc.
Veri Madenciliği
Doç. Dr. Suat Özdemir
13/41
Veriden Bilgi Keşfi
Teoride veri madenciliği bilgi keşfi
işleminin bir parçasıdır
Pratikte veri madenciliği ve veriden
bilgi keşfi aynı anlamda kullanılır
Data Mining
Veri madenciliği
Pattern Evaluation
Örüntü değerlendirm
Task-relevant Data
Kullanım amaçlı veri
Data Warehouse
Veri ambarı
Selection
Seçme
Data Cleaning
Veri temizleme
Data Integration
Veri birleştirme
Databases / Veri tabanları
Veri Madenciliği
Doç. Dr. Suat Özdemir
14/41
Veriden Bilgi Keşfinin Aşamaları
 Uygulama alanını inceleme
– Konuyla ilgili bilgi ve uygulama amaçları




Veri toplama ve birleştirme
Amaca uygun veri kümesi oluşturma: Veri seçme
Veri ayıklama ve önişleme
Veri azaltma ve veri dönüşümü
– incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi
belirleme, boyut azaltma,
 Veri madenciliği tekniği seçme
– Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme
 Veri madenciliği algoritmasını seçme
 Model değerlendirme ve bilgi sunumu
 Bulunan bilginin yorumlanması
Veri Madenciliği
Doç. Dr. Suat Özdemir
15/41
Örnek: WEB madenciliği
 web sitesinin yapısını inceleme
 veri toplanması: log dosyaları, üye veri tabanı ve satış
kayıtlarının toplanması
 verileri seçme: tarih aralığını belirleme
 veri ayıklama, önişleme: gereksiz kayıtları silme
 veri azaltma, veri dönüşümü: kullanıcı oturumları belirleme
 veri madenciliği tekniği seçme: demetleme
 veri madenciliği algoritması seçme: k-ortalama, EM,
DBSCAN...
 Model değerlendirme/yorumlama: değişik kullanıcı grupları
için sıkça izlenen yolu bulma
 Uygulama alanları: öneri modelleri, kişiselleştirme, ön belleğe
alma
Veri Madenciliği
Doç. Dr. Suat Özdemir
16/41
Veri madenciliği ve diğer disiplinler
Veri tabanı
teknolojisi
Makina
Öğrenmesi
Örüntü
Tanıma
Veri Madenciliği
Doç. Dr. Suat Özdemir
İstatistik
Veri
Madenciliği
Algoritma
Görselleştirme
Diğer
Disiplinler
17/41
Veri Madenciliği Uygulamaları
 Veri analizi ve karar destek sistemleri
– Market analiz ve yönetimi
• Hedef market, müşteri ilişkileri yönetimi, market sepet analizi (basket
analysis), çaprazlama satışlar, market ayrımı
– Risk analizi ve yönetimi
– Sahtekarlık tespiti (Fraud detection) ve normal olmayan desenlerin
tespiti (outliers)
 Diğer uygulamalar
– Belgeler arası benzerlik
– Ağ güvenliği
– Text ve web madenciliği
– Sosyal ağ analizi
– Akan veri madenciliği
Veri Madenciliği
Doç. Dr. Suat Özdemir
18/41
Örnekler
 1. Market analizi
– Veri kaynağı: kredi kartı işlemleri, kuponlar..
– Hedef merket belirleme
• Aynı özelliği taşıyan müşterilerin belirlenmesi, satış stratejisi
geliştirilmesi
– Çapraz market analizi
• Ürün satışları arasındaki ilişkiyi bulma
– Müşteri profili çıkarma
• Hangi tip müşteri ne alıyor
• Müşteri grupları için en iyi ürünleri belirle
Veri Madenciliği
Doç. Dr. Suat Özdemir
19/41
Örnekler (devam)
 2. Risk analizi
– Gelir ve kaynak planlama
• Bilanço değerlendirmesi
• Para akış analizi ve kestirimi
• Talep incelemesi
– Rekabet
• Diğer firmaların takibi, fiyatlandırma stratejisi geliştirme
– Kaynak planlaması
• Kaynakların incelenmesi ve uygun olarak dağıtılması
Veri Madenciliği
Doç. Dr. Suat Özdemir
20/41
Örnekler (devam)
 3. Sahtekarlık tespiti ve normal olmayan örüntülerin
bulunması
– Sigorta, bankacılık, telekomünikasyon alanlarında
– Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model
oluşturma ve benzer davranış gösterenleri belirleme
– Örnek
•
•
•
•
Araba sigortası
Sağlık sigortası
Kredi kartı başvurusu
Ağ analizi
Veri Madenciliği
Doç. Dr. Suat Özdemir
21/41
Veri madenciliği ve iş dünyası
Increasing potential
to support
business decisions
Decision
Making
Data Presentation
Visualization Techniques
End User
Business
Analyst
Data Mining
Information Discovery
Data
Analyst
Data Exploration
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
Veri Madenciliği
Doç. Dr. Suat Özdemir
DBA
22/41
Veri madenciliği kaynakları
 Veri dosyaları
 İlişkisel veritabanları
 Veri ambarları
– Konu odaklı olarak, düzenlenmiş, birleştirilmiş, sabitlenmiş,
büyük veritabanı
 Gelişmiş veritabanları
– nesneye dayalı veritabanları
– www
Veri Madenciliği
Doç. Dr. Suat Özdemir
23/41
Veri madenciliği sınıflandırma
 Veri açısından
– İlişkisel, veri ambarı, zamana bağlı, akan, text, multimedia, web
 Bilgi açısından
– Kategorize, ayrım, ilişki, sınıflandırma, kümeleme, trend analizi, outlier
analizi
 Kullanılacak teknik açısından
– Veri tabanı temelli, veri ambarı temelli (OLAP), istatistik,...
 Uygulanancak alan açısından
– Ticari, telekom, banka, sahtekarlık analizi, text madenciliği...
Veri Madenciliği
Doç. Dr. Suat Özdemir
24/41
Veri madenciliği sınıflandırması
 Veri madenciliğinde veriyi belli bir modele uydurmak
istiyoruz.
 Kestirime dayalı veri madenciliği (predictive)
– Kredi başvurularını risk gruplarına ayırma
• Bu işlemde dolandırıcılık var mıdır?
– Şirketle çalışmayı bırakacak müşterileri öngörme
– Borsa tahmini
 Tanımlayıcı veri madenciliği (descriptive)
–
–
–
–
Veriler arasındaki gizli kalmış ilişkiyi ortaya çıkarırlar
En iyi müşterilerim kimler?
Hangi ürünler birlikte satılıyor?
Hangi müşteri gruplarının alışveriş alışkanlıkları benzer?
Veri Madenciliği
Doç. Dr. Suat Özdemir
25/41
Kestirime dayalı (predictive) veri madenciliği
 Sınıflandırma: Veriyi önceden belirlenmiş sınıflardan birine
dahil eder.
– Gözetimli öğrenme
– Örüntü tanıma
– Kestirim
 Eğri uydurma: Veriyi gerçel değerli bir fonksiyona
dönüştürür.
 Zaman serileri inceleme: Zaman içinde değişen verinin
değerini öngörür.
Veri Madenciliği
Doç. Dr. Suat Özdemir
26/41
Kestirime dayalı veri madenciliği örneği: Sınıflandırma
Ögrenme
kümesi
Deneme
kümesi
Veri Madenciliği
Doç. Dr. Suat Özdemir
Sınıflandırıcı
Model
Model
27/41
Tanımlayıcı (descriptive) veri madenciliği
 Demetleme/kümeleme: Benzer verileri aynı grupta toplama
– Gözetimsiz öğrenme
 Özetleme: Veriyi altgruplara ayırır. Her altgrubu temsil
edecek özellikler bulur.
– Genelleştirme
– Nitelendirme
 İlişkilendirme kuralları / birliktelik kurallları
– Veriler arasındaki ilişkiyi belirler
 Sıralı diziler: Veri içinde sıralı örüntüler bulmak için kullanılır.
Veri Madenciliği
Doç. Dr. Suat Özdemir
28/41
Tanımlayıcı veri madenciliği örneği: Demetleme/Kümeleme
 Doküman Kümeleme:
– Dökümanlar içlerinde geçen terimlere göre gruplanacak
 Yaklaşım:
– Her doküman içinde sık geçen terimleri bul.
– Bu terimlerden ve ağırlıklarından yararlanarak bir benzerlik ölçütü
geliştir.
– Bu ölçüte göre demetleme yap
 Kullanımı:
– Yeni bir dokümanın hangi dokümanlarla benzer olduğu terimlere göre
arama yapıldığında bu terimleri içeren dokümanları bulma
Veri Madenciliği
Doç. Dr. Suat Özdemir
29/41
Tanımlayıcı veri madenciliği örneği: Birliktelik kuralları
 Veri kümesindeki nesneler arasındaki ilişkiyi bulma
– bir nesnenin (nesnelerin) varlığı ile diğer bir nesnenin
(nesnelerin) de varlığını tahmin edebilecek kurallar
TID Nesneler
1
Ekmek, kola, süt
2
Bira, ekmek
3
Bira, kola, çocuk bezi, süt
4
Bira, ekmek, çocuk bezi, süt
5
Kola, çocuk bezi, süt
Veri Madenciliği
Doç. Dr. Suat Özdemir
Kurallar
{süt}  {kola}
{çocuk bezi,süt}  {kola}
30/41
Hangi örüntü (kural)?
 Binlerce örüntü: Sadece bir kısmı önemli
– Veri madenciliği ile bulunan sonuç kümesi üzerinde tekrar veri
madenciliği uygulanacak kadar büyük
 Bulunan örüntünün önemli olması için:
– insanlar tarafından kolayca anlaşılabilir
– sınama verisi veya yeni veriler üzerinde belli oranda geçerli
– yeni, yararlı ve kullanılabilir olması gerekir.
Veri Madenciliği
Doç. Dr. Suat Özdemir
31/41
Tanımlayıcı veri madenciliği örneği: Sıralı diziler
 Zamana bağlı bir veri setinde veriler arasındaki sıra ilişkilerini bulur.
 Satış verileri içinde:,
– Bilgisayar ürünleri satan bir firma:
(Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk)
– Spor malzemeleri satan bir firma:
(Shoes) (Racket, Racketball) --> (Sports_Jacket)
Veri Madenciliği
Doç. Dr. Suat Özdemir
32/41
Veri madenciliği sınıflandırması: Özet
 Sınıflandırma/Classification
 Demetleme/Clustering
[Predictive]
[Descriptive]
 İlişkilendirme kuralları bulma/Association Rule Discovery
[Descriptive]
 Sıralı dizi bulma/Sequential Pattern Discovery
 Eğri uydurma/Regression
[Predictive]
 Anomali bulma/Deviation Detection
Veri Madenciliği
Doç. Dr. Suat Özdemir
[Descriptive]
[Predictive]
33/41
Veri Ambarları
 Çok fazla miktarda üzerinde işlem yapılan veri var
 Çoğunlukla farklı veritabanlarında ve farklı ortamlarda
 Veri farklı formatlarda ve yerlerde (heterojen ve dağıtık)
 Karar destek birimleri veriye sanal olarak tek biryerden
ulaşabilmeli
 Ulaşım hızlı olmalı
Veri Madenciliği
Doç. Dr. Suat Özdemir
34/41
Veri ambarları
 Belirli bir döneme ait, yapılacak çalışmaya göre konu odaklı
olarak düzenlenmiş, birleştirilmiş ve sabitlenmiş büyük
veritabanı
– Amaca yönelik, konu odaklı
– Birleştirilmiş
– Zaman değişkenli, belirli bir döneme ait
• Son 5 yıl, v.b.
– Değişken değil, statik
• Veri silinmez, eklenmez
Veri Madenciliği
Doç. Dr. Suat Özdemir
35/41
Veri Ambarı Mimarisi
Diğer
Kaynaklar
Veritabanları
Metadata
Veri çek
İşle
Yükle
Yenile
İzleme
Birleştirme
OLAP Server
Hizmet
Veri ambarı
Veri
madenciliği
Veri “Mart”ları
Veri kaynakları
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri depolama
OLAP motoru Son kullanıcı
36/41
Veri Madenciliğinde Sorunlar
 Güvenlik ve sosyal haklar
 Kullanıcı arabirimi
 Veri madenciliği yöntemi
 Başarım ve ölçeklenebilirlik
 Veri kaynağı
Veri Madenciliği
Doç. Dr. Suat Özdemir
37/41
Veri Madenciliğinde Sorunlar
 Özellikle güvenlik ve sosyal haklar ile ilgili kişilere ait verilerin toplanarak,
kişilerden habersiz ve izinsiz olarak kullanılması, veri madenciliği
yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması, gizlilik ve veri
madenciliği politikalarının düzenlenmesi gibi sorunlar hala çözülememiştir.
 Veri madenciliği genelde uygulamaya özgü çözümler içerdiğinden yaygın
bir kullanıcı arabirimi ve oluşmamıştır.
 Kullanılan veri madenciliği yöntemine göre sonuçlar arasında çok büyük
farklar çıkabilmektedir. Hangi yöntemin geçerli olduğu konusunda karar
vermek uygulama alanına hakim kişiler tarafından verilmelidir.
 Başarım ve ölçeklenebilirlik için oluşturulan metriklerin geçerlilikleri
konusunda ortak bir fikir yoktur. Başarım ve ölçeklenebilirlik konusu
subjektiftir. %90 başarı bazı uygulamalar için iyi sayılabilirken, sağlık
alanında çok kötü bir değer olarak nitelendirilebilir.
 Çoğu durumda veri kaynağından elde edilen bilgilerin güvenilirliği
konusunda doğrulama yapılamamaktadır (kişisel bilgilerin gizliliği).
Veri Madenciliği
Doç. Dr. Suat Özdemir
38/41
Veri Madenciliğinde Sorunlar: Güvenlik
 Gizlilik ve sosyal haklar
 Kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz
olarak kullanılması
 Veri madenciliği yöntemleri ile bulunan sonuçların izinsiz
olarak açıklanması
 Gizlilik ve veri madenciliği politikalarının düzenlenmesi
Veri Madenciliği
Doç. Dr. Suat Özdemir
39/41
Veri Madenciliğinde Sorunlar: Son kullanıcı
 Kullanıcı Arabirimi
– Görüntüleme
• Sonucun anlaşılabilir ve yorumlanabilir hale getirilmesi
• Bilginin sunulması
 Etkileşim
– Veri madenciliği ile elde edilen bilginin kullanılması
– Veri madenciliği yöntemine müdahele etmek
– Veri madenciliği yönteminin sonucuna müdahele etmek
Veri Madenciliği
Doç. Dr. Suat Özdemir
40/41
Veri Madenciliğinde Sorunlar: Performans
 Başarım ve ölçeklenebilirlik
– Kullanabilirlik ve ölçeklenebilirlik
• Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir
• Örnekleme yapabilme
 Paralel ve dağıtık yöntemler
– Artımlı veri madenciliği
– Parçala ve çöz
Veri Madenciliği
Doç. Dr. Suat Özdemir
41/41
Download