ISE 302 VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI Ders Planı Hafta Konu Başlığı Hafta Konu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 8 Sınıflandırma 2 Veri Tipleri, Verinin Yorumlanması 9 Kümeleme 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 10 11 4 5 Veri Temizleme, İndirgeme, Bütünleştirme 12 Veri Ambarı 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 13 7 Birliktelik Analizi Kısa Sınav 14 Ara Sınav MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav Veri Madenciliği Ne Değildir? Bir telefon defterinden telefon numarası aramak Arama motorlarından anahtar kelime aramak Maaşların farklı yaş gruplarına göre dağılım grafiğini çıkarmak Bir SQL sorgusuyla veritabanından sonuç döndürmek İlişkisel bir veritabanından çok boyutlu veri küpleri oluşturmak Veri Madenciliği Nedir? Mercedes sahibi kişiler ne tür özelliklere sahip? Bu müşteri için kredi geri ödemesi ne kadar olmalı? Bu işletme için iyi yeni müşteri kimdir? En iyi ürün dağıtım kanalı hangisi? Bu makaleye benzeyen başka makaleler var mı? Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi Borsa indeksinin değeri önümüzdeki ay ne olabilir? Keşfedilen bu yeni canlı hangi sınıfa ait? Market raflarındaki ürünler nasıl dizilmeli? Otomobil alan müşterinin hangi öznitelikleri önemlidir? Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek? ATM’de günlük olarak ne kadar para tutulmalı? Veri Madenciliği Nedir? Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir. Veri Artışı ( Gerçekleşen – Projeksiyon ) 1 zettabyte 1024 eksabyte 1048576 petabyte 1073741824 terabyte 1099511627776 gigabyte 1125899906842620 megabyte 1152921504606850000 kilobyte 1180591620717410000000 byte 1208925819614630000000000 bit Veri Madenciliğine Olan İhtiyaç & Tetikleyici Etkenler Küresel Pazarlarda rekabet baskısının artması Bilimsel araştırmalarda yeni bulgular elde etme isteği Ürün / Hizmet Kalitesini artırma isteği Bilişim sistemlerindeki gelişmeler Veri tabanı sistemlerinin ve yaklaşımlarının / yöntemlerin gelişmesi Verilerin olağanüstü bir şekilde artması ve veri kaynaklarının çeşitlenmesi Veri Madenciliğinin Önemi İşletmelerde verimlilik / karlılık artışı Giderlerinin azaltılması Zarar oluşmadan tahmin edip ortadan kaldırılması Risk Yönetimi / Hilekarlık Tespiti Bilimsel araştırmalarda hız ve etkinlik artışı İnsansız sistemlerin gelişimine destek Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler alınması ve hizmet iyileştirme Veri Kaynakları Müşteri Alış-veriş Kayıtları ( Fiziksel ve Sanal Mağazalar ) Müşteri İşlem Kayıtları ( Telekomünikasyon, Bankacılık ve Internet Bankacılığı ) İşletme İşlem Kayıtları ( Diğer işletmelerle yapılan alım-satımlar, banka işlemleri, borsa işlemleri ) Bilimsel Veriler (uzay araştırmaları, ilaç araştırmaları, okyanus ve yer altı araştırmaları, deprem araştırmaları, canlılarla ilgili araştırmalar ) Güvenlik ve Gözetleme Sistemleri (Şehir merkezleri, AVM’ler , Şehir giriş çıkışları, hava alanları, Otoparklar, Binalar) Uydu ve Haberleşme Sistemleri Olimpiyat Oyunlar, Ulusal ve uluslararası spor müsabakaları Dijital Medya: Dijital resim, müzik ve videolar ( Filmler ) Dijital Kütüphaneler Web Siteleri ve Mobil Uygulamalar E-Posta & Sosyal Medya: Youtube, Facebook, Twitter, Instagram, WhatsApp Tıbbi Kayıtlar ve Kişisel Veriler Verilerle Ne Tür Uygulamalar Yapılabilir ? Karakterizasyon: Belli bir sınıfa ait karakteristik özellikler Ayrıştırma: Belli sınıfları birbirinden ayırmak Ayda 30 kezden daha fazla alışveriş yapan müşteri sınıfı 30’dan fazla alışveriş yapanlar ile 5’ten az alış veriş yapanların ayrımı Evrilme ve Sapma: Zamanla değişen verilerle ilgili yapılan çalışmalardır. Evrilme analizi sonucunda karakterizasyon, karşılaştırma, sınıflandırma ve kümeleme ile ilgili çalışmalara zemin oluşturacak eğilimler tespit edilir. Sapma analizinde, ölçülen değerler ile beklenen değerler arasındaki farkların incelenir, ve beklentilerden neden sapma olduğu tespit edilir. Sınıflandırma: Verinin önceden belirlenmiş sınıflara bölümlenmesidir. Örneğin bir banka müşterilerini karlı, normal, riskli gibi gruplara ayırıp ürün pazarlamasını buna göre yapmak isteyebilir. Verilerle Ne Tür Uygulamalar Yapılabilir ? Kümeleme: Verilerin benzerliklerine göre gruplanması Tahmin: Eldeki verilerin benzer özniteliklerine göre bilinmeyen değerlerin tahmin edilmesi ya da yeni bir verinin özniteliklerine göre daha önce belirlenmiş sınıflardan hangisine girebileceğinin belirlenmesi Aykırılık Analizi: Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi Birliktelik Analizi: Veriler arasındaki karşılıklı ilişkilerin analizi. Özellikle market sepet analizinde kullanılır. Değişken Tespiti Görselleştirme Kredi kartı işlemleri şüpheli olan kişilerin ev sahipliği durumu, yaş, meslek ve gelir bilgilerini anlık ve grafiksel olarak keşfetme Veri Madenciliği Uygulamaları ( İşlevsel ) Birliktelik Analizi (Kural Keşfi) Mercedes sahibi kişilerin başka hangi araç ya da ürünleri var? Market sepet analizi: HepsiBurada size şu ürünü öneriyor. Yeterince müşteri tarafından bir arada alınan ürünleri tespit etme Sınıflandırma BMW sahibi kişilerin diğerlerine göre bariz özellikleri nelerdir? Kredi kartı borcunu ödememe ihtimali olan müşteriler kimlerdir? Daha sonra incelenmesi gereken şüpheli işlemler nelerdir? Kümeleme Her birine farklı bir ürün grubu kullanılarak kampanya yapılabilecek farklı müşteri grupları oluştur. İçindeki önemli terimlere bakarak birbirine en yakın/benzeyen belgeleri çıkar. Veri Madenciliği Uygulamaları ( İşlevsel ) Sıralı Örneklem Tahmini İlk üç taksitinden iki veya daha fazlasını geç ödeyen müşteriler %60 takibe uğruyor. Borsa indeksinin zaman serisi tahmini Süpermarketlerde ürünlerin raflardaki yerlerinin belirlenmesi Tahmin Herhangi bir gün için dünya çapında test sürüşü isteklerimiz kaç tane olacak? Perakende mağazaları mevsim ve promosyonlara bağlı olarak hangi üründen kaç adet istemeli? Olay Tabanlı Modelleme Yeni bir ürün için promosyon kampanyasıyla ilgilenebilecek müşteriler kimler olabilir? Reklam harcamasına bağlı olarak yeni bir üründeki satış ne kadar olabilir? Veri Madenciliği Uygulamaları ( İşlevsel ) Değer Tahmini Yeni bir otomobili satışa çıkarıldığında belli bir perakende satış mağazası bu otomobilden 1 yıl içinde kaç tane satabilir? Bu müşteri için kredi geri ödemesi kaç para olacak? Telefon, Mobil, TV ürünlerini birlikte satışa çıkarıldığında bunun satış fiyatı ne olacak? Sıra dışı Durum / Hilekarlık Tespiti Demografik bilgileri ve işlem geçmişi listelenen belli bir kişinin hangi işlemlerinin hileli olabileceğinin tespit edilmesi Değişken Belirleme Otomobil alırken, yaş gelir, ailedeki fert sayısı önemli iken saç rengi önemli değildir. Veri Madenciliği Uygulamaları ( Sektörel ) Müşteri İlişkileri Yönetimi - Satış - Pazarlama: Müşterilerin satın alma davranışlarının belirlenmesi, Promosyon kampanyalarında cevap verme oranının tahmini ve artırılması, Eski müşterileri inceleyerek iyi yeni müşteri profilinin çıkarılması Yeni ürün ve hizmetlerin karlılık üzerindeki etkisi ne olacak? Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek? En iyi dağıtım kanalı hangisi? Müşteri kayıp analizi ve bunun sebeplerinin ortaya çıkarılması Çapraz satış ve üst kategori ürün satışı (Süt – Çocuk bezi) Veri Madenciliği Uygulamaları ( Sektörel ) Tıp Klinik testler ile hastalıkların erken teşhisi Hastalıkların teşhisi için görüntü analizi Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi Eczacılık Yeni ilaçların belirlenmesi Eczane açılabilecek yerlerin tespit edilmesi Bilimsel veri analizi Alt galaksi kümelerinin incelenip yeni galaksilerin tespit edilmesi Keşfedilen yeni canlı türlerinin sınıflandırılması Veri Madenciliği Uygulamaları ( Sektörel ) Bankacılık ve Sigortacılık Kredi kartı ve sigorta dolandırıcılıklarının tespiti, Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi, Kredi skoru hesaplama Yeni sigorta poliçesi talep edecek müşterilerin tahmin edilmesi, Web Madenciliği Yeni satış stratejileri belirlenmesi Belli ürün grupları için uygun müşteri profilinin çıkarılması Müşterilerin satın alma davranışlarının öğrenilmesi Müşterilerin uygulama kullanma deneyimlerine göre web sitelerinin özelleştirilmesi Veri Madenciliği Uygulamaları ( Sektörel ) Güvenlik ve Hukuk Suç ve terörizm ile ilgili örüntülerin tespit edilmesi Biyolojik ve kimyasal saldırıların tespiti ve ortadan kaldırılması Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması Eğlence Prime-time’da gösterilecek programlara ve reklamlara nerede yer verilmesi gerektiğine karar verilmesi Filmlerin finansal başarısının tahmini Seyahat Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama) satış tahmini En karlı müşterilerin tespiti ve özelleştirilmiş hizmetlerin sağlanması Veri Madenciliği Uygulamaları ( Sektörel ) Bilişim Sistemleri İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması Borsa ve Menkul Kıymetler Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini Sermaye dalgalanmalarının yönü ve oranının tahmini Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi Perakendecilik ve Lojistik Market-sepet analizi Lojistik optimizasyonu için farklı ürün tiplerine ait tüketim seviyelerinin tahmini Tedarik zincirindeki ilginç örüntülerin keşfi Veri Madenciliği Sürecindeki Zorluklar Yüksek Boyut Karmaşık ve Düzensiz Veri Veri Kalitesi Gizliliğin Korunması Veri Madenciliği Uygulama Araçları IBM SPSS Modeler / Clementine Selford Systems IBM DB2 Intelligent Miner Viscovery IBM Cognos BI Statistica Data Miner Oracle Data Mining Orange Microsoft Analysis Services KNIME Microsoft SharePoint Weka SAP Business Objects, BI DataMinerXL R, MATLAB, SCILAB, Mathematica XLMiner SQL Server Data Mining Add-ins for MSOffice Bilgi Keşfi Süreci ve Veri Madenciliği Veri Madenciliği Araştırma Eğilimleri Veritabanı, Veri Ambarı Web-tabanlı sistemlerin entegrasyonu Veri madenciliği sorgulama dilinin standardizasyonu Görsel Veri Madenciliği Karmaşık veri tipleri için yeni veri madenciliği yöntemleri Biyolojik veri madenciliği Veri madenciliği ve yazılım mühendisliği Web madenciliği Dağıtık veri madenciliği Gerçek-zamanlı veri madenciliği Veri madenciliğinde kişisel veri koruma ve bilgi güvenliği Kaynaklar http://ocw.mit.edu/courses/sloan-school-of-management/15-062-data-mining-spring-2003/lecture-notes/ http://infolab.stanford.edu/~ullman/cs345-notes.html http://ceng464.cankaya.edu.tr/course.php?page=index http://www.cise.ufl.edu/class/cis4930fa07dm/notes.html http://www.stat.cmu.edu/~ryantibs/datamining/#schedule http://www.cs.bu.edu/~gkollios/dm07/lectnotes.html http://kt.ijs.si/PetraKralj/DataMining0809/DM-2008.pdf https://files.ifi.uzh.ch/boehlen/dis/teaching/DWDM08/#Lectures https://mineracaodedados.files.wordpress.com/2012/07/data-mining-in-excel.pdf http://www.uni-weimar.de/en/media/chairs/webis/teaching/lecturenotes/#machine-learning http://www.cs.uu.nl/docs/vakken/dm/schedule.html http://www.cse.cuhk.edu.hk/~taoyf/course/cmsc5724/spr15/cmsc5724.html http://eprints.fri.uni-lj.si/1150/1/DataMining-Kyoto.pdf Kaynaklar https://msdn.microsoft.com/en-us/library/ms167167.aspx https://iaonline.theiia.org/data-mining-101-tools-and-techniques http://users.dsic.upv.es/~jorallo/dm/ http://michael.hahsler.net/SMU/EMIS7332/ http://dms.irb.hr/tutorial/tut_intro.php Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques. Elsevier. https://walton.uark.edu/enterprise/Microsoft/DataMining/downloads/Example_SQL_Server_Data_Tools_Data_Mining.pdf http://www.davidroihardoon.com/Professional/Speaking_files/tutorial2.pdf https://webdocs.cs.ualberta.ca/~zaiane/courses/cmput690/ http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.120.9494&rep=rep1&type=pdf http://www.statsoft.com/portals/0/products/data-mining/shortcourseindatamining.pdf Yrd. Doç. Dr. Halil İbrahim Cebeci, Veri Madenciliği Ders Notları Yrd. Doç. Dr. Mustafa Yılmaz, Veri Madenciliği Ders Notları Tasci T., Intelligent Techniques for Data Analysis in Diverse Settings, Image Mining : Techniques for Feature Extraction, 2016 Ders Planı Hafta Konu Başlığı Hafta Konu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 8 Sınıflandırma 2 Veri Tipleri, Verinin Yorumlanması 9 Kümeleme 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 10 11 4 5 Veri Temizleme, İndirgeme, Bütünleştirme 12 Veri Ambarı 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 13 7 Birliktelik Analizi Kısa Sınav 14 Ara Sınav MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav