Birliktelik Analizi

advertisement
ISE 302
VERİ MADENCİLİĞİ
DR. TUĞRUL TAŞCI
Ders Planı
Hafta Konu Başlığı
Hafta
Konu Başlığı
1
Veri Madenciliği Nedir? Ne Değildir?
8
Sınıflandırma
2
Veri Tipleri, Verinin Yorumlanması
9
Kümeleme
3
Bilgi Keşfi Süreci ve Veri
Madenciliği Aşamaları
Ödev
10
11
4
5
Veri Temizleme, İndirgeme, Bütünleştirme
12
Veri Ambarı
6
Veri Dönüştürme Yaklaşımları ve
Teknolojileri
13
7
Birliktelik Analizi
Kısa Sınav
14
Ara Sınav
MS Analysis
Services ile VM
Uygulamaları
SQL Server, Analysis Services,
Integration Services,
Reporting Services, SQL
Server Data Tools
VM Araştırma
Eğilimleri İmge
Madenciliği
Kısa Sınav
Veri Madenciliği Ne Değildir?

Bir telefon defterinden telefon numarası aramak

Arama motorlarından anahtar kelime aramak

Maaşların farklı yaş gruplarına göre dağılım grafiğini çıkarmak

Bir SQL sorgusuyla veritabanından sonuç döndürmek

İlişkisel bir veritabanından çok boyutlu veri küpleri oluşturmak
Veri Madenciliği Nedir?

Mercedes sahibi kişiler ne tür özelliklere sahip?

Bu müşteri için kredi geri ödemesi ne kadar olmalı?

Bu işletme için iyi yeni müşteri kimdir?

En iyi ürün dağıtım kanalı hangisi?

Bu makaleye benzeyen başka makaleler var mı?

Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi

Borsa indeksinin değeri önümüzdeki ay ne olabilir?

Keşfedilen bu yeni canlı hangi sınıfa ait?

Market raflarındaki ürünler nasıl dizilmeli?

Otomobil alan müşterinin hangi öznitelikleri
önemlidir?


Hangi ürün promosyonlarının karlılık üzerindeki
etkisi en yüksek?
ATM’de günlük olarak ne kadar para tutulmalı?
Veri Madenciliği Nedir?

Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa
miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli,
önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek
ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.
Veri Artışı ( Gerçekleşen – Projeksiyon )

1 zettabyte

1024 eksabyte

1048576 petabyte

1073741824 terabyte

1099511627776 gigabyte

1125899906842620 megabyte

1152921504606850000 kilobyte

1180591620717410000000 byte

1208925819614630000000000 bit
Veri Madenciliğine Olan İhtiyaç &
Tetikleyici Etkenler

Küresel Pazarlarda rekabet baskısının artması

Bilimsel araştırmalarda yeni bulgular elde etme isteği

Ürün / Hizmet Kalitesini artırma isteği

Bilişim sistemlerindeki gelişmeler

Veri tabanı sistemlerinin ve yaklaşımlarının / yöntemlerin gelişmesi

Verilerin olağanüstü bir şekilde artması ve veri kaynaklarının çeşitlenmesi
Veri Madenciliğinin Önemi

İşletmelerde verimlilik / karlılık artışı

Giderlerinin azaltılması

Zarar oluşmadan tahmin edip ortadan kaldırılması

Risk Yönetimi / Hilekarlık Tespiti

Bilimsel araştırmalarda hız ve etkinlik artışı

İnsansız sistemlerin gelişimine destek

Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler
alınması ve hizmet iyileştirme
Veri Kaynakları





Müşteri Alış-veriş Kayıtları ( Fiziksel ve
Sanal Mağazalar )
Müşteri İşlem Kayıtları (
Telekomünikasyon, Bankacılık ve Internet
Bankacılığı )
İşletme İşlem Kayıtları ( Diğer işletmelerle
yapılan alım-satımlar, banka işlemleri,
borsa işlemleri )
Bilimsel Veriler (uzay araştırmaları, ilaç
araştırmaları, okyanus ve yer altı
araştırmaları, deprem araştırmaları,
canlılarla ilgili araştırmalar )
Güvenlik ve Gözetleme Sistemleri (Şehir
merkezleri, AVM’ler , Şehir giriş çıkışları,
hava alanları, Otoparklar, Binalar)

Uydu ve Haberleşme Sistemleri

Olimpiyat Oyunlar, Ulusal ve uluslararası
spor müsabakaları

Dijital Medya: Dijital resim, müzik ve
videolar ( Filmler )

Dijital Kütüphaneler

Web Siteleri ve Mobil Uygulamalar

E-Posta & Sosyal Medya: Youtube,
Facebook, Twitter, Instagram, WhatsApp

Tıbbi Kayıtlar ve Kişisel Veriler
Verilerle Ne Tür Uygulamalar Yapılabilir ?

Karakterizasyon: Belli bir sınıfa ait karakteristik özellikler


Ayrıştırma: Belli sınıfları birbirinden ayırmak



Ayda 30 kezden daha fazla alışveriş yapan müşteri sınıfı
30’dan fazla alışveriş yapanlar ile 5’ten az alış veriş yapanların ayrımı
Evrilme ve Sapma: Zamanla değişen verilerle ilgili yapılan çalışmalardır.

Evrilme analizi sonucunda karakterizasyon, karşılaştırma, sınıflandırma ve kümeleme ile
ilgili çalışmalara zemin oluşturacak eğilimler tespit edilir.

Sapma analizinde, ölçülen değerler ile beklenen değerler arasındaki farkların
incelenir, ve beklentilerden neden sapma olduğu tespit edilir.
Sınıflandırma: Verinin önceden belirlenmiş sınıflara bölümlenmesidir.

Örneğin bir banka müşterilerini karlı, normal, riskli gibi gruplara ayırıp ürün
pazarlamasını buna göre yapmak isteyebilir.
Verilerle Ne Tür Uygulamalar Yapılabilir ?

Kümeleme: Verilerin benzerliklerine göre gruplanması

Tahmin: Eldeki verilerin benzer özniteliklerine göre bilinmeyen değerlerin tahmin
edilmesi ya da yeni bir verinin özniteliklerine göre daha önce belirlenmiş
sınıflardan hangisine girebileceğinin belirlenmesi

Aykırılık Analizi: Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi

Birliktelik Analizi: Veriler arasındaki karşılıklı ilişkilerin analizi. Özellikle market sepet
analizinde kullanılır.

Değişken Tespiti

Görselleştirme

Kredi kartı işlemleri şüpheli olan kişilerin ev sahipliği durumu, yaş, meslek ve gelir
bilgilerini anlık ve grafiksel olarak keşfetme
Veri Madenciliği Uygulamaları ( İşlevsel )



Birliktelik Analizi (Kural Keşfi)

Mercedes sahibi kişilerin başka hangi araç ya da ürünleri var?

Market sepet analizi: HepsiBurada size şu ürünü öneriyor.

Yeterince müşteri tarafından bir arada alınan ürünleri tespit etme
Sınıflandırma

BMW sahibi kişilerin diğerlerine göre bariz özellikleri nelerdir?

Kredi kartı borcunu ödememe ihtimali olan müşteriler kimlerdir?

Daha sonra incelenmesi gereken şüpheli işlemler nelerdir?
Kümeleme

Her birine farklı bir ürün grubu kullanılarak kampanya yapılabilecek farklı müşteri
grupları oluştur.

İçindeki önemli terimlere bakarak birbirine en yakın/benzeyen belgeleri çıkar.
Veri Madenciliği Uygulamaları ( İşlevsel )



Sıralı Örneklem Tahmini

İlk üç taksitinden iki veya daha fazlasını geç ödeyen müşteriler %60 takibe uğruyor.

Borsa indeksinin zaman serisi tahmini

Süpermarketlerde ürünlerin raflardaki yerlerinin belirlenmesi
Tahmin

Herhangi bir gün için dünya çapında test sürüşü isteklerimiz kaç tane olacak?

Perakende mağazaları mevsim ve promosyonlara bağlı olarak hangi üründen kaç
adet istemeli?
Olay Tabanlı Modelleme

Yeni bir ürün için promosyon kampanyasıyla ilgilenebilecek müşteriler kimler olabilir?

Reklam harcamasına bağlı olarak yeni bir üründeki satış ne kadar olabilir?
Veri Madenciliği Uygulamaları ( İşlevsel )


Değer Tahmini

Yeni bir otomobili satışa çıkarıldığında belli bir perakende satış mağazası bu
otomobilden 1 yıl içinde kaç tane satabilir?

Bu müşteri için kredi geri ödemesi kaç para olacak?

Telefon, Mobil, TV ürünlerini birlikte satışa çıkarıldığında bunun satış fiyatı ne olacak?
Sıra dışı Durum / Hilekarlık Tespiti


Demografik bilgileri ve işlem geçmişi listelenen belli bir kişinin hangi işlemlerinin hileli
olabileceğinin tespit edilmesi
Değişken Belirleme

Otomobil alırken, yaş gelir, ailedeki fert sayısı önemli iken saç rengi önemli değildir.
Veri Madenciliği Uygulamaları ( Sektörel )

Müşteri İlişkileri Yönetimi - Satış - Pazarlama:

Müşterilerin satın alma davranışlarının belirlenmesi,

Promosyon kampanyalarında cevap verme oranının tahmini ve artırılması,

Eski müşterileri inceleyerek iyi yeni müşteri profilinin çıkarılması

Yeni ürün ve hizmetlerin karlılık üzerindeki etkisi ne olacak?

Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek?

En iyi dağıtım kanalı hangisi?

Müşteri kayıp analizi ve bunun sebeplerinin ortaya çıkarılması

Çapraz satış ve üst kategori ürün satışı (Süt – Çocuk bezi)
Veri Madenciliği Uygulamaları ( Sektörel )



Tıp

Klinik testler ile hastalıkların erken teşhisi

Hastalıkların teşhisi için görüntü analizi

Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi
Eczacılık

Yeni ilaçların belirlenmesi

Eczane açılabilecek yerlerin tespit edilmesi
Bilimsel veri analizi

Alt galaksi kümelerinin incelenip yeni galaksilerin tespit edilmesi

Keşfedilen yeni canlı türlerinin sınıflandırılması
Veri Madenciliği Uygulamaları ( Sektörel )


Bankacılık ve Sigortacılık

Kredi kartı ve sigorta dolandırıcılıklarının tespiti,

Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi,

Kredi skoru hesaplama

Yeni sigorta poliçesi talep edecek müşterilerin tahmin edilmesi,
Web Madenciliği

Yeni satış stratejileri belirlenmesi

Belli ürün grupları için uygun müşteri profilinin çıkarılması

Müşterilerin satın alma davranışlarının öğrenilmesi

Müşterilerin uygulama kullanma deneyimlerine göre web sitelerinin özelleştirilmesi
Veri Madenciliği Uygulamaları ( Sektörel )



Güvenlik ve Hukuk

Suç ve terörizm ile ilgili örüntülerin tespit edilmesi

Biyolojik ve kimyasal saldırıların tespiti ve ortadan kaldırılması

Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması
Eğlence

Prime-time’da gösterilecek programlara ve reklamlara nerede yer verilmesi
gerektiğine karar verilmesi

Filmlerin finansal başarısının tahmini
Seyahat

Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama) satış tahmini

En karlı müşterilerin tespiti ve özelleştirilmiş hizmetlerin sağlanması
Veri Madenciliği Uygulamaları ( Sektörel )



Bilişim Sistemleri

İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi

Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması
Borsa ve Menkul Kıymetler

Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini

Sermaye dalgalanmalarının yönü ve oranının tahmini

Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi

Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi
Perakendecilik ve Lojistik

Market-sepet analizi

Lojistik optimizasyonu için farklı ürün tiplerine ait tüketim seviyelerinin tahmini

Tedarik zincirindeki ilginç örüntülerin keşfi
Veri Madenciliği Sürecindeki Zorluklar

Yüksek Boyut

Karmaşık ve Düzensiz Veri

Veri Kalitesi

Gizliliğin Korunması
Veri Madenciliği Uygulama Araçları

IBM SPSS Modeler / Clementine

Selford Systems

IBM DB2 Intelligent Miner

Viscovery

IBM Cognos BI

Statistica Data Miner

Oracle Data Mining

Orange

Microsoft Analysis Services

KNIME

Microsoft SharePoint

Weka

SAP Business Objects, BI

DataMinerXL

R, MATLAB, SCILAB, Mathematica

XLMiner

SQL Server Data Mining Add-ins for MSOffice
Bilgi Keşfi Süreci ve Veri Madenciliği
Veri Madenciliği Araştırma Eğilimleri

Veritabanı, Veri Ambarı Web-tabanlı sistemlerin entegrasyonu

Veri madenciliği sorgulama dilinin standardizasyonu

Görsel Veri Madenciliği

Karmaşık veri tipleri için yeni veri madenciliği yöntemleri

Biyolojik veri madenciliği

Veri madenciliği ve yazılım mühendisliği

Web madenciliği

Dağıtık veri madenciliği

Gerçek-zamanlı veri madenciliği

Veri madenciliğinde kişisel veri koruma ve bilgi güvenliği
Kaynaklar

http://ocw.mit.edu/courses/sloan-school-of-management/15-062-data-mining-spring-2003/lecture-notes/

http://infolab.stanford.edu/~ullman/cs345-notes.html

http://ceng464.cankaya.edu.tr/course.php?page=index

http://www.cise.ufl.edu/class/cis4930fa07dm/notes.html

http://www.stat.cmu.edu/~ryantibs/datamining/#schedule

http://www.cs.bu.edu/~gkollios/dm07/lectnotes.html

http://kt.ijs.si/PetraKralj/DataMining0809/DM-2008.pdf

https://files.ifi.uzh.ch/boehlen/dis/teaching/DWDM08/#Lectures

https://mineracaodedados.files.wordpress.com/2012/07/data-mining-in-excel.pdf

http://www.uni-weimar.de/en/media/chairs/webis/teaching/lecturenotes/#machine-learning

http://www.cs.uu.nl/docs/vakken/dm/schedule.html

http://www.cse.cuhk.edu.hk/~taoyf/course/cmsc5724/spr15/cmsc5724.html

http://eprints.fri.uni-lj.si/1150/1/DataMining-Kyoto.pdf
Kaynaklar

https://msdn.microsoft.com/en-us/library/ms167167.aspx

https://iaonline.theiia.org/data-mining-101-tools-and-techniques

http://users.dsic.upv.es/~jorallo/dm/

http://michael.hahsler.net/SMU/EMIS7332/

http://dms.irb.hr/tutorial/tut_intro.php

Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques. Elsevier.

https://walton.uark.edu/enterprise/Microsoft/DataMining/downloads/Example_SQL_Server_Data_Tools_Data_Mining.pdf

http://www.davidroihardoon.com/Professional/Speaking_files/tutorial2.pdf

https://webdocs.cs.ualberta.ca/~zaiane/courses/cmput690/

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.120.9494&rep=rep1&type=pdf

http://www.statsoft.com/portals/0/products/data-mining/shortcourseindatamining.pdf

Yrd. Doç. Dr. Halil İbrahim Cebeci, Veri Madenciliği Ders Notları

Yrd. Doç. Dr. Mustafa Yılmaz, Veri Madenciliği Ders Notları

Tasci T., Intelligent Techniques for Data Analysis in Diverse Settings, Image Mining : Techniques for Feature Extraction, 2016
Ders Planı
Hafta Konu Başlığı
Hafta
Konu Başlığı
1
Veri Madenciliği Nedir? Ne Değildir?
8
Sınıflandırma
2
Veri Tipleri, Verinin Yorumlanması
9
Kümeleme
3
Bilgi Keşfi Süreci ve Veri
Madenciliği Aşamaları
Ödev
10
11
4
5
Veri Temizleme, İndirgeme, Bütünleştirme
12
Veri Ambarı
6
Veri Dönüştürme Yaklaşımları ve
Teknolojileri
13
7
Birliktelik Analizi
Kısa Sınav
14
Ara Sınav
MS Analysis
Services ile VM
Uygulamaları
SQL Server, Analysis Services,
Integration Services,
Reporting Services, SQL
Server Data Tools
VM Araştırma
Eğilimleri İmge
Madenciliği
Kısa Sınav
Download