T.C. SELÇUK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ VERİ MADENCİLİĞİNDEN BİRLİKTELİK KURALI İLE ONKOLOJİ VERİLERİNİN ANALİZ EDİLMESİ: MERAM TIP FAKÜLTESİ ONKOLOJİ ÖRNEĞİ Adnan KARAİBRAHİMOĞLU DOKTORA TEZİ İstatistikAnabilim Dalı Ağustos-2014 KONYA Her Hakkı Saklıdır TEZ BİLDİRİMİ Bu tezdeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edildiğini ve tez yazım kurallarına uygun olarak hazırlanan bu çalışmada bana ait olmayan her türlü ifade ve bilginin kaynağına eksiksiz atıf yapıldığını bildiririm. DECLARATION PAGE I hereby declare that all information in this document has been obtained and presented in accordance with academic rules and ethical conduct. I also declare that, as required by these rules and conduct, I have fully cited and referenced all material and results that are not original to this work. İmza Adnan KARAİBRAHİMOĞLU Tarih: 12/08/2014 iii ÖZET DOKTORA TEZİ VERİ MADENCİLİĞİNDEN BİRLİKTELİK KURALI İLE ONKOLOJİ VERİLERİNİN ANALİZ EDİLMESİ: MERAM TIP FAKÜLTESİ ONKOLOJİ ÖRNEĞİ Adnan KARAİBRAHİMOĞLU Selçuk Üniversitesi Fen Bilimleri Enstitüsü İstatistik Anabilim Dalı Danışman: Prof. Dr. Aşır GENÇ 2014, 126 Sayfa Jüri Prof. Dr. Aşır GENÇ Doç. Dr. Coşkun KUŞ Prof. Dr. Melih Cem BÖRÜBAN Doç. Dr. Buğra SARAÇOĞLU Yrd. Doç. Dr. Aydın KARAKOCA Teknoloji ile birlikte yaşamın her alanında artan veri miktarı “veri ambarları” kavramını gündeme getirmiştir. Veri madenciliği, ortaya çıkan çok büyük veri kümelerinin oluşturduğu veri ambarlarının analiz edilerek yararlı bilgiler elde edilmesini sağlayan yaklaşımlar bütünüdür. Veri miktarının büyük olduğu ve her geçen gün arttığı alanlardan birisi de sağlık sektörüdür. Her gün binlerce hastaya ait gerek kişisel gerek tıbbi veriler kayıt altına alınmakta ve bu enformasyon depolanmaktadır. Ancak bu verilerin çok az bir kısmı analiz edilebilmekte ve geriye kalan kısmından faydalı olabilecek enformasyon elde edilememektedir. Özellikle hastane yönetim sistemleri, tedavi yöntemleri ve koruyucu hekimlik konusunda maliyetleri azaltıcı yöntemlerin geliştirilmesi için ambardaki verilerin analiz edilmesi gerekmektedir. Klasik istatistiksel yöntemler ile büyük veri kümelerini analiz etmek zor olduğu için, çeşitli veri madenciliği yöntemleri geliştirilmiş ve bilgisayar programcılığı yardımıyla analiz yapmak daha uygulanabilir hale gelmiştir. Birliktelik kuralı, sağlık alanında yeni kullanılan analiz yöntemlerinden birisi olup; değişkenlerin birlikte görülme olasılıkları üzerinden örüntü oluşturmak ve buna bağlı olarak destek ve güven değerlerini hesaplamak için kullanılmaktadır. Bu çalışmada, Meram Tıp Fakültesi Onkoloji Hastanesine ait retrospektif çalışma sonucu elde edilen göğüs kanseri verileri üzerinde APRIORI algoritması uygulanacak ve verilerdeki birliktelik örüntüleri ortaya çıkarılmaya çalışılacaktır. Anahtar Kelimeler: Apriori algoritması, Birliktelik kuralı, Destek, Güven, Veri madenciliği iv ABSTRACT Ph.D. THESIS ANALYZING BREAST CANCER DATA USING ASSOCIATION RULE MINING: MERAM FACULTY OF MEDICINE ONCOLOGY DEPARTMENT Adnan KARAİBRAHİMOĞLU THE GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCE OF SELÇUK UNIVERSITY DOCTOR OF PHILOSOPHY IN STATISTICS Advisor: Prof. Dr. Aşır GENÇ 2014, 126Pages Jury Prof. Dr. Aşır GENÇ Assoc. Prof. Coşkun KUŞ Prof. Dr. Melih Cem BÖRÜBAN Assoc. Prof. Buğra SARAÇOĞLU Asst. Prof. Aydın KARAKOCA The amount of data, increasing together with the technology, has brought the concept of “data warehouse” in every field of life. Data Mining is a set of approaches analyzing these data warehouses formed by very large data sets and allows to gather useful information. One of the fields where the amount of data is large and getting larger everyday is the health sector. Many personal and medical data belonging to thousands of patients are recorded and stored. However, small part of these data can be analyzed and the remaining part may not be helpful to obtain useful information. The data in warehouses must be analyzed to improve the methods for hospital management systems, treatment and health care systems to reduce the costs. Since analyzing large data sets using classical statistical methods is difficult, various data mining methods have been developed and these methods have become more feasible with the help of certain softwares. Association rule is an important data-mining task to find hidden patterns between the variables and used recently in the field of healthcare. In this study, we will calculate the support and confidence of the associations in data set. APRIORI algorithm will be applied onto the retrospectively obtained breast cancer data belonging to Oncology Hospital of Meram Faculty of Medicine. Keywords: Apriori Algorithm, Association Rule, Confidence, Data Mining, Support v ÖNSÖZ “İlim ilim bilmektir İlim kendin bilmektir Sen kendin bilmezsen Bu nice okumaktır” dizeleriyle “Beşikten mezara kadar ilim öğreniniz” sözünün açılımını yapmış olan Yunus Emre, içimdeki öğrenme duygusunu harekete geçirerek bugünlere getirdi. Fakat bu yolculuk tek başına olmazdı. Bir eğitim süreci olduğundan her zaman minnetle anacağım hocalarım oldu. Yüksek Lisans döneminden danışman hocam Prof. Dr. Hamza EROL’a; doktora eğitimine başladığımda ilk danışmanım olan Prof. Dr. Necati YILDIZ’a; Selçuk Üniversitesi’nde İstatistiğin kapılarını bana açan ve akademik dünyaya girebilmem için elinden geleni yapan danışmanım ve değerli hocam Prof. Dr. Aşır GENÇ’e teşekkürlerimi borç bilirim. Bu tez, nasıl bir konu üzerinde çalışsam diye düşünürken işyerindeki bir arkadaşımın fikir vermesiyle ortaya çıktı. Bunun üzerine makale taramaya ve konuyu öğrenmeye başladım. Şu an geldiğim seviye istediğim düzeyde olmasa da üç yıl öncesine göre kendimi ilerlemiş hissediyorum. Ayrıca, Tıp Eğitimi ve Bilişimi Anabilim Dalı başkanı Doç. Dr. Nazan KARAOĞLU’na doktora eğitimi boyunca desteklerini esirgemedikleri; veri kümesini analizler için benimle paylaşan değerli dostum Tıbbi Onkoloji bölüm başkanı Prof. Dr. Melih Cem BÖRÜBAN’a çok teşekkür ederim. Ve tabi ki ailem… Başta dualarıyla manevi olarak yardımını hiçbir zaman esirgemeyen annem; kendileri ile daha fazla zaman geçirmem gerekirken tezle ilgilenmek zorunda kalarak vakit ayırmadığım çocuklarım Zeynel, Ceyda ve Onur; yıllardan beri tüm sıkıntılara benimle beraber göğüs geren, çoğu zaman beni sırtlayan, beni cesaretlendiren desteğini her zaman yanımda hissettiğim çok sevgili eşim Nesrin; sizlere çok ama çok teşekkür ediyorum. Adnan KARAİBRAHİMOĞLU KONYA-2014 vi İÇİNDEKİLER ÖZET .............................................................................................................. iv ABSTRACT .....................................................................................................v ÖNSÖZ ........................................................................................................... vi İÇİNDEKİLER ............................................................................................. vii SİMGELER VE KISALTMALAR ............................................................... ix 1. GİRİŞ .............................................................................................1 2. KAYNAK ARAŞTIRMASI...........................................................3 3. MATERYAL VE YÖNTEM .........................................................5 3.1. Veri Madenciliği’nin Tarihçesi ........................................................5 3.2. Enformasyon Kavramı .....................................................................7 3.3. Keşfedici Veri Analizi .....................................................................8 3.4. Veri Tabanları................................................................................ 11 3.5. Veri Ambarları............................................................................... 13 3.5.1. Veri Ambarı Oluşturulması ............................................................ 14 3.5.2. Veri Ambarının Özellikleri ............................................................ 16 3.6. Veri Madenciliği Süreci ................................................................. 19 3.6.1. Verilerin Hazırlanması ................................................................... 22 3.6.2. Veri Madenciliği Yönteminin Uygulanması ................................... 25 3.6.3. Sonuçların Değerlendirilmesi ve Sunulması ................................... 28 3.6.4. Veri Madenciliği Uygulama Programları ....................................... 35 3.6.5. Veri Madenciliği Uygulamasında Karşılaşılan Sorunlar ................. 35 3.7. Veri Madenciliği Yöntemleri ......................................................... 36 3.7.1. Sınıflandırma Yöntemleri............................................................... 37 3.7.1.1. Karar Ağaçları ....................................................................... 38 3.7.1.2. Bayes/Naïve-Bayes Sınıflandırma ......................................... 41 3.7.1.3. k-En Yakın Komşu (k-ortalama) algoritması .......................... 42 3.7.1.4. k-medoid ............................................................................... 43 3.7.1.5. Destek Vektör Makineleri (SVM) .......................................... 43 3.7.1.6. Yapay Sinir Ağları (Artificial Neural Networks) ................... 44 3.7.1.7. Genetik Algoritma ................................................................. 46 3.7.1.8. Bellek Temelli Nedenleme (Memory Based Reasoning) ........ 47 3.7.1.9. Regresyon ............................................................................. 48 3.7.2. Kümeleme Yöntemleri ................................................................... 48 3.7.2.1. Hiyerarşik Yöntemler ............................................................ 51 3.7.2.2. Bölümlemeli Yöntemler ........................................................ 51 3.7.2.3. K-Ortalamalar (K-Means) Bölümleme Yöntemi..................... 52 3.7.2.4. K-Medoids Bölümleme Yöntemi ........................................... 53 3.7.2.5. PAM Algoritması .................................................................. 54 3.7.2.6. CLARA Algoritması ............................................................. 54 3.7.2.7. CLARANS Algoritması ........................................................ 55 vii 3.7.3. 3.7.4. 3.7.5. 3.7.6. 3.8. 3.8.1. 3.8.2. 3.8.3. Yoğunluğa Dayalı Yöntemler ........................................................ 55 Izgara Tabanlı Yöntemler .............................................................. 56 Dalga Kümeleme (Wave Cluster)................................................... 57 Kohonen Ağlar (Kohonen Networks) ............................................. 57 Birliktelik Kuralı (Association Rule Mining) ................................. 58 İlişki Analizi (Affinity Analysis) .................................................... 58 Market Sepeti Analizi (Market Basket Analysis) ............................ 59 Destek, Güven ve Kaldıraç Kavramları (Support, Confidence and Lift)......................................................................................... 61 3.8.4. Büyük Nesne Kümeleri (Large Itemsets)........................................ 63 3.8.5. Örüntü ve Kural Çıkarma (Pattern Recognition and Rule Extraction) ..................................................................................... 64 3.8.6. Algoritmalar .................................................................................. 65 3.8.6.1. AIS Algoritması .................................................................... 65 3.8.6.2. SETM Algoritması ................................................................ 65 3.8.6.3. Apriori Algoritması ............................................................... 66 3.8.6.4. Apriori-TID Algoritması ....................................................... 68 3.8.6.5. Paralel Veri Madenciliğinde Birliktelik (Parallel Data Mining) ................................................................................ 69 3.8.7. Negatif Birliktelik Kuralı (Negative Association Rule) .................. 69 3.9. Önerilen İlginçlik Ölçütü ............................................................... 75 3.10. Genelleştirilmiş Birliktelik Kuralları (Generalized Rule Extraction) .. ..................................................................................................... 78 3.11. Birliktelik Kuralı Uygulama Alanları ............................................. 80 3.12. Veri Madenciliği ve Sağlık Sektörü Uygulamaları ......................... 81 4. ARAŞTIRMA SONUÇLARI VE TARTIŞMA .......................... 83 4.1. Kanser ve meme kanseri ................................................................ 83 4.2. Verinin Hazırlanması ..................................................................... 85 4.2.1. Analizler İçin Paket Programlar ..................................................... 85 4.2.2. SPSS Clementine ile Veri Madenciliği ........................................... 85 4.2.2.1. Modelleme ............................................................................ 87 4.2.2.2. Clementine ve Association Rules........................................... 89 4.2.2.3. Apriori Kural Keşfi ............................................................... 90 4.3. Teze İlişkin Veriler ........................................................................ 91 4.4. Bulgular ......................................................................................... 93 5. SONUÇLAR VE ÖNERİLER ................................................... 104 5.1. 5.2. Sonuçlar ...................................................................................... 104 Öneriler ....................................................................................... 106 KAYNAKLAR ............................................................................................. 107 EKLER ......................................................................................................... 115 6. ÖZGEÇMİŞ ............................................................................... 116 viii SİMGELER VE KISALTMALAR ARM: BKA: CARMA: CCD: CCPD: CEMI: CLARA: CLARANS: CLIQUE: DBMS: DBSCAN: DD: DENCLUE: DVM: EDA: GRI: HRA: IDD: KDD: KVA: MAP: MBR: OCD: OLAP: PAM: PAR: PCA: PDM: RBF: RDBMS: RVM: SOM: SVM: TID: VM: YSA: Association Rule MiningBiçimsel Kavram Analizi Continuous Association Rule Mining Algorithm Count Distribution Common Candidate Partitioned Database Clementine External Module Interface Clustering LARge Applications (Geniş Uygulamaların Kümelenmesi) Clustering Large Applications based on RANdomized Search (RasgeleAramaya Dayalı Geniş Uygulamaların Kümelenmesi) Clustering in Quest Database Management Systems Density Based Spatial Clustering of Applications with Noise Data Distribution Algoritması DENsity Based CLUestEring Destek Vektör Makineleri Explanatory Data Analysis Generalized Rule Induction Hash-based Parallel Mining of Association Rules Intelligent Data Distribution Knowledge Discovery from Data Mining (Veri Tabanlarından Bilgi Keşfi) Keşfedici Veri Analizi Maximum A Posteriori Classification Memory Based Reasoning (Bellek Temelli Nedenleme) Off-line Candidate Determination On-Line Analytical Processing PartitioningAroundMedoids (Temsilciler Etrafında Bölümleme) Parallel Association Rule Principal Component Analysis Parallel Data Mining Radial Base Function Relational Database Management Systems Relevance Vector MachineSelf OrganizingMap Support Vector Machines Transaction Identification Veri Madenciliği Yapay Sinir Ağları ix 1 1. GİRİŞ İstatistik ve bilgi sistemlerinin karar sistemleri ile olan etkileşimi dünya dinamiklerini, ülkeleri, sektör, alt sektör ve firmaları önemli düzeyde etkilemektedir. Bu etkilerin ortaya çıkarılması ve yorumların içselleştirilmesi bilimsel katma değeri yüksek bir olgudur (Güvenen, 2011). Önceki çağların tek bir adı olmasına karşın içinde bulunduğumuz çağ için birçok isim kullanılmaktadır. "Enformasyon Çağı”, “Teknoloji Çağı”, Bilgisayar Çağı” örneklerden birkaçıdır. Teknoloji ilerledikçe bilgisayar kullanımı artmakta, bu artışa paralel olarak ta “veriler” oluşmaktadır. Veri miktarındaki hızlı artış, depolama sorunlarını beraberinde getirmekte ve her geçen gün depolama ünitelerinin daha yüksek kapasiteli ve daha hızlı bir yapıya sahip olmasını gerektirmektedir. Bu durumda iki temel sorun karşımıza çıkmaktadır. Birincisi, depolanan verilerin güvenlik sorunu; ikincisi ise arşivlenen veri yığınları ile nelerin yapılacağıdır. Veritabanı denilen bu yığınların içerisinde belki de stratejik öneme sahip bilgiler gizli olabilir. O halde, bir sürü ağacın olduğu bir yerde orman hakkında ne gibi anlamlı sonuçlar çıkarılabilir? Sorunun cevabı veri madenciliğidir. Dünya çapındaki yenilikçi organizasyonlar veya işletmeler müşterilerinin şikâyetlerini değerlendirmek, ürünlerini yeniden düzenlemek veya kayıplarını en aza indirgemek için kısacası gelirleri artırmak, masrafları azaltmak için veri madenciliğini kullanmaktadırlar (Edelstein, 1999). Veri madenciliği, veriler arasındaki ilişkiyi bulup geçerli tahminler yapmak ve model ortaya koymak için çeşitli veri analiz yöntemlerini kullanan bir süreçtir. İlk adım, veriyi tanımlamaktır. İstatistiksel özelliklerini (örneğin; ortalama veya standart sapma), grafik veya şekiller yardımıyla görsel yapısını ve değişkenler arasındaki potansiyel olarak anlamlı ilişkileri ortaya koymaktır. Veriyi tanımlamak yalnız başına planımızı harekete geçirmez. İkinci aşama, tahminleyici bir model oluşturmaktır. Model, orijinal örneğin haricindeki veriler üzerinde test edilir. İyi bir model hiçbir zaman gerçekle karıştırılmamalıdır fakat sonuçları anlamak açısından çok faydalı olacaktır. Son basamak ise modelin deneysel olarak doğrulanmasıdır (Alpaydın, 2000). Bu çalışmada genel olarak veri madenciliği yöntemleri konusu ele alınacaktır. Çalışmanın ikinci bölümünde veri madenciliği yöntemleri ve özellikle birliktelik kuralının gelişimi ve literatürdeki uygulamaları üzerinde durulacaktır. Üçüncü bölümde veri madenciliği tanımı, tarihsel seyri, ilişkili olduğu disiplinler ve yöntemleri geniş 2 olarak anlatılacaktır. Ayrıca sınıflandırma analizi başlığı altında karar ağaçları (decision trees), yapay sinir ağları (artificial neural networks), k-en yakın komşu (k-nearest neighbour) ve kümeleme analizi başlığı altında birliktelik kuralı (association rule), kortalama (k-means algorithm) algoritması yöntemleri detaylı olarak anlatılacaktır. Dördüncü bölümde hastane verileri ile birliktelik kuralı uygulaması yapılacak ve sonuçları ortaya konulacaktır. Son bölümde ise çalışmaya ait sonuç ve önerilere yer verilecektir. 3 2. KAYNAK ARAŞTIRMASI Veri madenciliğinin tarihi J. Tukey’nin (1977) ortaya attığı Keşfedici Veri Analizi (Exploratory Data Analysis) çalışmalarına kadar dayanır. Klasik istatistiksel yöntemlerin katı varsayımları nedeniyle veri setlerinin yeterince analiz edilemediğinden hareketle yeni teknikler ortaya atılmış ve veri örüntüleri arasındaki ilişkilerin ortaya çıkarılması için her geçen gün sağlam (robust) ve keşfedici yöntemler geliştirilmiştir. KVA (EDA) teknikleri için Tukey (1977) ve Hoaglin et al. (1983)’e, sağlam (robust) teknikler için ise yine Hoaglin et al. (1983) ve Huber (1981)’e başvurulabilir. 90lı yıllarda bilgisayar teknolojilerinin de gelişmesi ile birlikte bilgisayar mühendisleri tarafından “veri madenciliği” kavramı ortaya atıldı. Daha önceki dönemlerde taramalar oldukça uzun sürüyordu fakat istenilen verilere ulaşmak mümkündü. Bu nedenle, büyük miktarda veriler üzerinde yapılan işlemler için veri taraması (data dredging), veri yakalama (data fishing), bilgi çıkarımı (knowledge extraction), örüntü analizi (pattern analysis) veya veri arkeolojisi (data archeology) gibi isimler kullanılmıştır. Keşfedici Veri Analizi kavramıyla birlikte Veri Tabanlarından Bilgi Keşfi (Knowledge Discovery from Data Mining-KDD) kavramı gelişmiş ve bu haliyle kullanılmaya devam edilmiştir. Kimileri veri madenciliği ile KDD’yi eş anlamlı görürken kimileri ise veri madenciliğini bilgi keşfi sürecinin bir adımı olarak görmektedirler. Veri madenciliği çalışmaları geniş haliyle Fayyad et al.(1996) tarafından ortaya konulmuş ve bilgi keşfi konusunda yeni teknikler geliştirmişlerdir. Fayyad “veri madenciliği, verideki geçerli, alışılmışın dışında, kullanışlı ve anlaşılabilir örüntülerin(pattern) belirlenmesi sürecidir” tanımını yapmaktadır. Daha çok regresyon çalışmaları ile veri madenciliğine katkıda bulunan Friedman (1997) ise “veri madenciliği, geniş veri tabanlarında bilinmeyen ve beklenmeyen bilgi örüntülerini araştıran bir karar destek sürecidir” şeklinde bir tanım getirmektedir. Aynı şekilde, Zekulin (1997), Ferruza (1998), John (2009) gibi veri madenciliği konusunda çalışan önemli isimler de aynı yönde tanımlar getirmişlerdir. Veri madenciliğinde en önemli iki analiz sınıflandırma analizi ve kümeleme analizidir. Sınıflandırma analizi, istatistiğin birçok dalında çalışmalar yapmış olan Fisher (~1920)’in çalışmalarına dayanır. Sınıflandırma analizi tekniklerinden olan yapay sinir ağları konusu Anderson (1977), Kohonen (1977) ve Hopfield (1982) tarafından geliştirilmiştir. Dasarathy (1991) ise k-en yakın komşu algoritmaları üzerinde çalışmış, Shakhnarovish ve Darrel (2005) bu algoritmayı daha da geliştirmişlerdir. 4 Kümeleme analizi aynı tip verilerin bir arada bulunarak gruplandırılması temeline dayanan bir analiz yöntemidir. Sibson (1977)’ın çalışmaları ile başlayan yöntem, Ng ve Han (1994) tarafından CLARANS tekniği olarak, ayrıca Zhang (1996) tarafından BIRCH tekniği şeklinde geliştirilerek günümüze kadar gelmiştir. Kümeleme analizi yöntemlerinden olan ve bu tezde uygulamasını göstereceğimiz teknik, birliktelik kuralı (Association Rule) dır. 1994 yılında IBM Almaden Araştırma Merkezi’nde Agrawal ve Srikant tarafından geliştirilmiştir. 5 3. MATERYAL VE YÖNTEM 3.1. Veri Madenciliği’nin Tarihçesi İkinci Dünya Savaşı’nın en hareketli ve kızıştığı dönemlerde askeri amaçlı, şifre çözmeye yarayan bir makine geliştirildi. ENIAC adı verilen makine, daha sonraları von Neumann (1945) mimarisi ile geliştirilerek 80’lerde kişisel kullanım (PC) makinelerine kadar gelişti. Büyük alan kaplayan, tonlarca ağırlığa sahip yüzlerce tüp ile çalışan ENIAC’tan artık avuç içine sığacak kadar küçülen, fakat hızı ve işlem kapasitesi çok yüksek olan bilgisayarlara ulaşıldı. Günümüz bilgisayarları hala aynı mimari mantığıyla çalışmaktadır. Dolayısıyla daha önceki yıllarda çeşitli makineler geliştirilmesine karşın, bilgisayarın atası ENIAC-EDVAC kabul edilmektedir. Başlarda hızlı hesap yapması için tasarlanan bilgisayarlar zamanla bilgi depolamak zorunda kaldılar. PunchCard (Delikli Kart) ile başlayan hafıza ünitelerini disketler, CD’ler, DVD’ler, taşınabilir flash bellekler izledi. Depolama kapasitesi son derece arttı. Günümüzde depolama ünitelerinin kapasitesi “terabayt”lar şeklinde ifade ediliyor. 1 TB, yaklaşık 106 MB’a ve o da yaklaşık 8*1012 bit’lik bilgiye karşılık gelmektedir. İlerleyen yıllarda TB ifadesi de çok küçük kalacak ve yeni üniteler geliştirilecektir. Ülkemizde ise ilk bilgisayar IBM-650 olup, yol hesapları yapması için 1960 yılında Karayolları Genel Müdürlüğü tarafından getirilmiştir. Bunu diğer kurumlar ve çeşitli üniversiteler takip etmiştir. Son yapılan araştırmalara göre yaklaşık %35 oranında hanelerde bilgisayar ve %42 oranında internet kullanımı vardır. Resmi kurumların tamamı bilgisayar ve internet kullanımına sahipken girişimlerde ise %92 lik bir oranda bilgisayar kullanımı ve internet erişimi mevcuttur. Teknolojiyi kullanmak açısından ülkemiz, birçok dünya ülkesi ile paralel gitmektedir. Modern çağda insanın etkileşim içinde olduğu her alanda bilgisayarlar ve internet yoğunluklu bir şekilde kullanılmaktadır. Her alışverişte, her bankacılık işleminde, her telefon kullanımında veya her medya kaynaklarına ulaşmada veriler oluşmaktadır. Sadece uydu ve diğer uzay araçlarından elde edilen görüntülerin saatte 50 gigabyte düzeyinde olması, bu artışın boyutlarını daha açık bir şekilde göstermektedir.1995 yılında birincisi düzenlenen Knowledge Discovery in Databases konferansı bildiri kitabı sunuşunda, enformasyon teknolojilerinin oluşturduğu veri dağları, aşağıdaki cümleler ile vurgulanmaktadır. 6 “Dünyadaki enformasyon miktarının her 20 ayda bir ikiye katlandığı tahmin edilmektedir. Bu ham veri seti ile ne yapmamız gerekmektedir? İnsan gözleri bunun ancak çok küçük bir kısmını görebilecektir. Bilgisayarlar bilgelik pınarı olmayı vaat etmekte, ancak veri sellerine neden olmaktadır. “ Dünyadaki büyük işletmelerin veri tabanlarının belirlenmesi amacı ile Winter Corporation tarafından yapılan bir araştırmada, Sears, Roebuckand Co.’nun sadece karar destek amaçlı kullanılan veri tabanının 1998 yılında 4630 gigabyte’a eriştiği görülmektedir. Veri tabanı sistemlerinin artan kullanımı ve hacimlerindeki bu olağanüstü artış, organizasyonları elde toplanan bu verilerden nasıl faydalanılabileceği problemi ile karşı karşıya bırakmıştır (Yaralıoğlu, 2013). Bilgisayar sistemlerinin her geçen gün ucuzlaması ve güçlerinin artması, daha büyük miktardaki veriyi işlemeleri ve depolamaları anlamına gelmektedir. Ayrıca, ortaya çıkan bu verilere başka bilgisayarların da hızla ulaşabilmesi demektir. Dijital teknolojinin yaygın olarak kullanılması büyük veri tabanlarının ortaya çıkmasına neden olmaktadır. Bilgisayar sistemleri her geçen gün hem daha ucuzluyor, hem de güçleri artıyor. İşlemciler gittikçe hızlanıyor, disklerin kapasiteleri artıyor. Artık bilgisayarlar daha büyük miktardaki veriyi saklayabiliyor ve daha kısa sürede işleyebiliyor. Bunun yanında bilgisayar ağlarındaki ilerleme ile bu veriye başka bilgisayarlardan da hızla ulaşabilmek olası. Bilgisayarların ucuzlaması ile sayısal teknoloji daha yaygın olarak kullanılıyor. Veri doğrudan sayısal olarak toplanıyor ve saklanıyor. Bunun sonucu olarak da detaylı ve doğru bilgiye ulaşabiliyoruz. Veri kelimesi Latince’de “gerçek, reel” anlamına gelen “datum” kelimesine denk gelmektedir. “Data” olarak kullanılan kelime ise çoğul “datum” manasına gelmektedir. Her ne kadar kelime anlamı olarak gerçeklik temel alınsa da her veri daima somut gerçeklik göstermez. Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. Bu anlamıyla değerlendirildiğinde çevremizdeki her nesne bir veri olarak algılanabilir. Veri, oldukça esnek bir yapıdadır. Temel olarak varlığı bilinen, işlenmemiş, ham haldeki kayıtlar olarak adlandırılırlar. Bu kayıtlar ilişkilendirilmemiş, düzenlenmemiş yani anlamlandırılmamışlardır. Ancak bu durum her zaman geçerli değildir. İşlenerek farklı bir boyut kazanan bir veri, daha sonra bu haliyle kullanılmak üzere kayıt altına alındığında, farklı bir amaç için veri halini koruyacaktır (Öğüt, 2009). Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer 7 bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır. Veriler, enformasyon parçacıklarıdır. Bu nedenle, enformasyon kavramını açıklamamız gerekir. Derlenen verilerin oluşturmuş olduğu bütüne enformasyon denir. Belli bir konuya yöneliktir. Ayıklanıp düzenlendikten sonra kullanıma sunulacak ve bir problemin çözümüne katkı sağlayacak bilgi haline dönüşmüş olur. Öğüt’ün düşüncesine göre (2009) bilgi, bu süreçteki üçüncü aşamadır. Bireyin algılama yeteneği, yaratıcılığı, deneyimi ve kişisel becerileri ile enformasyonun özümsenerek sonuç çıkarılmasıyla gerçekleşir. Bilgelik ise ulaşılmaya çalışılan nihai noktadır ve bu kavramların zirvesindeyer alır. Bilgilerin kişi tarafından toplanıp bir sentez haline getirilmesiyle ortayaçıkan bir olgudur. Yetenek, tecrübe gibi kişisel nitelikler birer bilgelik elemanıdır. 3.2. Enformasyon Kavramı Shannon ve Weaver’ın 1949’da ortaya koydukları Enformasyon Kuramı daha sonraki yıllarda iletişimin temeli olmuştur. Shannon’a göre iletişimde 5 temel unsur vardır: Aslında bu iletişim sistemini, alıcı, verici ve mesaj şeklinde 3 temel bileşen olarak görmek mümkündür. Diğer bileşenler sistemin yapısına göre eklenebilir. Verici, enformasyon kaynağıdır. Gerek kendisi gerekse çevreden aldığı enformasyonu iletiye (sinyal) çevirir ve gönderir. İletiler, kanallarda yol alır. Sinyali bozucu çevre elemanları olabilir. Bunlara gürültü kaynakları denir. İleti kanalında kodlayıcılar vardır. Kodlama ile iletiler alıcının anlayacağı mesaj haline dönüşür. Mesaj ile hedefe ulaşılmış olur. İdeal bir iletişimde minimum enerji ile maksimum mesaj iletilmeli, gürültülerden minimum oranda etkilenmeli ve alıcı, iletiyi maksimum oranda hedefe dönüştürecek yapıda olmalıdır. 8 Şekil 3.1. Enformasyon teorisine göre iletişim sistemindeki elemanlar Aksini düşünürsek; veri kaynağındaki sorunlar, vericinin ilettiği sinyallere parazitlerin etkisinin fazla olması, iletiyi dönüştüren veya kodlayan sistemlerde problem olması, alıcının gelen sinyali mesaja dönüştürecek yeteneğinin az olması gibi problemler nedeniyle hedefe istenilen ölçüde ulaşılamayacaktır. Zaman dinamiğinde, artan bilgi akışı; bilimi ve dolayısıyla karar sistemlerini teorik ve deneysel düzeyde etkilemektedir. Bilginin işlenmesinin kolaylaşmasıyla birlikte, karar sistemlerinin etkinliği artmış ve dünya dinamiklerinde önemli değişikliklerin gerçekleşmesine neden olmuştur. Ancak karar sistemlerine yaptığı etkiden dolayı bilgi akışının doğru bir şekilde izlenmesi, kaos ve belirsizliğin yüksek olduğu alanlarda bilgi tahrifinden olabildiğince arındırılması gerekmektedir. Kısacası, iletişim sorunu enformasyon sorununa dönüşür ve kalitesiz hedefler ortaya çıkar. Bu nedenle, sistemin başlangıcı olan kaynakta “veri kalitesi” sağlanmalıdır (Güvenen, 2011). 3.3. Keşfedici Veri Analizi Veri üzerinde klasik istatistiksel tekniklerin uygulanabilmesi için bazı varsayımların yerine getirilmesi gerekmektedir. Ancak, pratikte bu tür varsayımların gerçekleşmediği birçok durum ile karşılaşmak mümkündür. Bu nedenle, klasik istatistiksel teknikler geçerli sonuçları vermekten uzak kalmaktadırlar. İstatistiksel 9 analizlerin etkililiğini arttırmak için sağlam (robust) ve keşfedici yöntemlerin geliştirilmesi ve uygulamaları giderek genişlemektedir. Keşfedici Veri Analizi (Exploratory Data Analysis), belli bir veri kümesinin yapısı hakkında hızlı ve kolay bir şekilde bilgi sahibi olmamıza yardımcı olan teknikler bütünüdür. İstatistiksel tekniklerin ve analizlerin doğru kullanımı için, özet bazı istatistikleri elde etmeden veya hipotez testlerini gerçekleştirmeden önce veriler, oldukça detaylı bir şekilde incelenmelidir. Kısaca keşfedici veri analizi (KVA), verilerin ne anlattığını anlamak ile ilgilidir. Tukey (1977), KVA’nin “polisiye” bir çalışma olduğunu vurgulamaktadır. Bir suçu incelemeye alan bir polisin hem bazı araç gerece hem de kavrama veya anlayış gücüne gereksinimi vardır. Eğer polisin parmak izi tozu yoksa birçok yüzeydeki parmak izlerini bulmada başarısız olacaktır. Diğer taraftan, suçun nerede işlendiği ve parmak izlerinin nerede olabileceğini anlamazsa, parmak izlerini doğru alanlardan alamayacaktır. Benzer şekilde, veri analizi yapanların da hem bazı araçlara hem de verileri anlama yeteneğinin olması gerekmektedir. Hoaglin et al. (1983), KVA’nde dört temanın göründüğünü ve bunların sıklıkla birlikte kullanıldığını belirtmiştir. Bunlar, direnç (resistance), artıklar (residuals), yeniden açıklama (re-expression) ve açığa çıkarma (revealation) olarak verilmektedir. Direnç, verilerde bulunan aşırılıklara karşı duyarsızlığı sağlar. Dirençli bir yöntem kullanıldığında, verilerin az bir miktarı oldukça farklı başka sayılarla yer değiştirilse bile, fazla değişmeyecektir. Bunun nedeni, dirençli yöntemlerin veriler içerisindeki sapanlardan (outliers) ziyade verilerin çoğunluğunun bulunduğu yere odaklanmasıdır. Örneğin medyan sapanlara karşı dirençli bir istatistik iken aritmetik ortalama değildir. Direnç ile benzer bir kavram olan sağlamlık (robustness) ise genellikle verilerin geldiği kabul edilen belli bir olasılıksal modelin varsayımlarındaki zayıflamalara karşı duyarsızlığı ifade etmektedir. Medyan bir örneğin merkezi eğilimini ölçmede oldukça dirençli bir istatistik iken, sağlamlık açısından kendisinden daha sağlam tahminleyiciler de vardır. Aritmetik ortalama ise dirençli olmamakla beraber sağlam bir tahminleyici de değildir. Artıklar, verilerin özetlenmesi veya bir model uyumu yapılmasından sonra, veriler ile modele göre yapılan kestirimler arasındaki farktır: ı = – Örneğin, veriler (xi, yi) şeklinde eşleştirilmiş bir yapıda ve uyum ( 3.1) 10 yˆ i a bxi ( 3.2) şeklinde tanımlanmış doğru ise artıklar da ri y i yˆ i ( 3.3) olacaktır. Keşfedici veri analizinin anahtar özelliği, artıkların detaylı bir analizi yapılmadan veri kümesinin analizinin tamamlanmadığını söylemesidir. Artıkların analizi verilerdeki hâkim olan davranış ile anormal davranış arasında açık bir ayırım yapılabilmesi için dirençli analizleri de kullanmalıdır. Verilerin çoğunluğu tutarlı bir örüntü gösteriyorsa, bu örüntü dirençli bir doğru bulunmasını sağlar. Ardından elde edilen dirençli artıklar, şansa bağlı olarak artıp azalanların yanında, örüntüden oldukça fazla uzak olan artıkları da içerecektir. Anormal artıklar, bunları ortaya çıkaran ilgili gözlemlerin hangi koşullarda nasıl toplandığının üzerinde durulması gerektiğine işaret etmektedir. Uygun yöntemler kullanılarak incelenen artıklar, verilerin davranışındaki başka önemli sistematik durumlara (eğrisellik, etkileşimler, varyansın sabit olmaması, başka bir faktörün varlığı vb.) da işaret edebilirler. Yeniden açıklama, verilerin analizini kolaylaştıracak uygun ölçeğin (logaritmik, karekök vb.) bulunması ile ilgilidir. Keşfedici veri analizi, öncelikle verilerin orijinal ölçeğinde yapılan ölçümlerin tatmin edici olup olmadığının ele alınması gerektiği üzerinde durmaktadır. Eğer bu ölçümler tatmin edici değilse, yeniden açıklama, verilerin yapısına bağlı olarak, simetrinin sağlanmasına, değişkenliğin sabitlenmesine, ilişkilerin doğrusallaştırılmasına veya etkilerin eklenebilirliğinin sağlanmasına yardımcı olabilir. Açığa çıkarma, araştırmacılar için, verilerin, uyumların, tanı (diagnostic) ölçülerinin ve artıkların (residuals) davranışlarını görme gereksinimini karşılar. Açığa çıkarma yönteminde ağırlıklı olarak grafik teknikleri kullanılmaktadır. Özellikle gövdeyaprak, histogram ve kutu grafikleri en yaygın ifade yöntemleridir. Bu grafiklerin oluşturulması için veri üzerinde çok sayıda işlem uygulanır. Çünkü çoğu zaman veriler işleme hazır halde değildirler. Veriler üzerinde bir takım dönüşümler uygulayarak, verileri temizleyerek, verileri düzleştirerek veya harf değerlerine dönüştürerek verilerin analizleri yapılmaktadır (Hoaglin, 1983). KVA’nın makine öğrenimi, uzman sistemler ve istatistik ile sıkı bir ilişkisi vardır. Bu ilişkilerden birisi de veriler ile ilgili modelleme yapmaya yarayan Biçimsel Kavram Analizi (BKA) dir. Rudolf Wille (1982) tarafından kafes teorisinin genişletilmesiyle ortay çıkmıştır. Matematiksel anlamda biçimsel mantık esasına 11 dayanır. BKA kavramı birçok disiplinde genel bir mekanizma olarak karşımıza çıkmaktadır. Analiz iki bölümden oluşur: kapsam (extent) ve içerik (intent). İçerik kavramın özelliklerini, kapsam ise kavramda yer alan nesneleri verir. Nesnelerin taşıdıkları özelliklere göre gruplandırılmasına kavramlaştırma denir. BKA, kavramları verilen bir bağlam içerisinde tanımlar ve aralarındaki ilişkiyi bağlama karşılık gelen kafes yapısını kullanarak inceler. Biçimsel olarak bağlam, nesneler (G), özellikler (M) ve ilişkilerden (I) oluşan üçlü bir cebirsel yapıyla ifade edilir. g nesnesi ve m niteliği için (g,m) ∈I gösterimi “g nesnesi m niteliği taşır” anlamına gelmektedir (Sever, 2003). Bu tanımlamalar ışığında Biçimsel Kavram Analizi, veri madenciliğindeki birliktelik kuralının temelini oluşturmuş ve Agrawal et al. (1993) tarafından matematiksel temele oturtularak algoritma geliştirilmiştir. KVA ile ilgili yöntemler ve bilgiler detaylı incelendiğinde veri madenciliğinin temeli olduğu görülecektir. Veri madenciliği de veri kümesi üzerindeki veri keşfi ile ilgilidir. Ancak, veri madenciliği daha ileri teknik ve algoritmaları kullanmaktadır. Keşfedici veri analizinin yalnızca hipotez testleri öncesi veri hakkında detaylı bilgi sahibi olmak ve sonuçları görselleştirmek için kullanıldığı görmekteyiz. Bu nedenle veri madenciliği KVA’nın bir sonraki ve ileri aşaması olmaktadır. 3.4. Veri Tabanları Çevremizde olup biten tüm olaylar sonucunda “veri” oluşmaktadır. Veriler, göndericiler tarafından iletilmek üzere kullanılır. Ancak veriler, kullanım hızından daha süratli artmaktadır. Artan verilerin depolanması gerekmektedir. Düzenli verilerin bir araya gelerek oluşturduğu bilgiler topluluğuna “veri tabanı” adı verilir. Veri tabanı terimi, ilk yıllarda “kütük (file)” kavramının bir devamı olarak kullanılmıştır. Bilgisayar terminolojisinde ise veri tabanı, sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen bilgiler kümesidir. Bir başka tanımı da, bir bilgisayarda sistematik şekilde saklanmış, programlarca istenebilecek veri yığınıdır. Her veri kümesi veri tabanı olarak kabul edilmez. Veri tabanı aşağıdaki özellikleri taşımalıdır: Veri tabanı belli bir kuruluşun birçok uygulamasında kullanılan, birbiriyle ilişkili işletimsel verilerden oluşur. Veri tabanında saklanan veriler kuruluşun birden çok uygulamasında kullanılan sürekli verilerdir. 12 Giriş/çıkış verileri ve geçici veriler veri tabanında yer almaz. Veri tabanındaki veriler gereksiz yinelemelerden arınmış olarak, düzenli bir biçimde bilgisayar belleklerinde saklanır ve bu veriler ilgili kuruluşun birden çok uygulaması tarafından paylaşılan ortak verilerdir. Veri tabanında saklanan veriler değişmeyen statik veriler değildir. Ekleme, silme ve güncelleme işlemleriyle veri tabanındaki veriler değiştirilebilir. Ayrıca sorgulama ve raporlama işlemleri de yapılabilmektedir. Veri tabanındaki veriler üzerinde merkezi bir denetim vardır. Kullanıcılar işletim sistemi komutları ya da genel amaçlı programlama dilleri ile yazılmış uygulama programlarını kullanarak, doğrudan veri tabanındaki verilere erişemezler ve bu verileri değiştiremezler. Bir veri tabanını oluşturmak, saklamak, çoğaltmak, güncellemek ve yönetmek için kullanılan programlara Veri Tabanı Yönetme Sistemi (DBMS – Database Management Systems) adı verilir. DBMS özelliklerinin ve yapısının nasıl olmasını gerektiğini inceleyen alan Bilgi Bilimi (Information Science)'dir. Veri Tabanında asıl önemli kavram, kayıt yığını ya da bilgi parçalarının tanımlanmasıdır. DBMS aracılığıyla, veri tabanının bilgisayar belleklerindeki fiziksel yapısı kullanıcılardan gizlenir. Kullanıcılara daha yalın mantıksal yapılar sunulur. Veri tabanı yazılımı ise verileri sistematik bir biçimde depolayan yazılımlara verilen isimdir. Birçok yazılım bilgi depolayabilir ama aradaki fark, veri tabanın bu bilgiyi verimli ve hızlı bir şekilde yönetip değiştirebilmesidir. Veri tabanı, bilgi sisteminin kalbidir ve etkili kullanmakla değer kazanır. Bilgiye gerekli olduğu zaman ulaşabilmek esastır. Bağıntısal Veri Tabanı Yönetim Sistemleri (Relational Database Management Systems - RDBMS) büyük miktarlardaki verilerin güvenli bir şekilde tutulabildiği, bilgilere hızlı erişim imkânlarının sağlandığı, bilgilerin bütünlük içerisinde tutulabildiği ve birden fazla kullanıcıya aynı anda bilgiye erişim imkanının sağlandığı programlardır. Oracle veri tabanı da bir bağıntısal veri tabanı yönetim sistemidir (Usgurlu, 2010). İlişkisel Veri Tabanı Sistemleri • PostgreSQL • MySQL • Oracle 13 • Sybase • BerkeleyDB • Firebird Veri Tabanı Dilleri • SQL • PL/SQL • Tcl Veri tabanının sağladığı faydalar şu şekilde özetlenebilir: Herhangi bir evrakın saklanmasına gerek kalmaz Bilgiler daha hızlı güncellendiğinden zamandan tasarruf edilir. Yalnızca istediğimiz bilgiye istediğimiz zaman ulaşma imkanı vardır. Verilerin kontrolü merkezi idare tarafından sağlanır. Veri tekrarları azalır. Tutarsız (hatalı) bilgi girişi engellenir. Verilerin paylaşımı sağlanır. Veri deseninde bütünlük sağlanır. Genel veya özel raporlar almak mümkündür (Çıngı, 2007). 3.5. Veri Ambarları Veri ambarı kavramının babası olarak nitelenen William H. Inmon’un 1992 yılında yapmış olduğu “Developing the Data Warehouse” çalışmasına göre veri ambarı, konu odaklı, kara verme sürecini etkinleştiren, bütünleşik ve kalıcı veri topluluğudur. Bir veri ambarı, analizler ve sorgular için kullanılabilir, bütünleşmiş bilgi deposudur. Veri ve bilgiler, üretildiklerinde heterojen kaynaklardan elde edilirler. Veri Ambarları, sağlık sektöründen coğrafi bilişim sistemlerine, işletmelerin pazarlama bölümünden üretime, geleceğe dönük tahminler yapmada, sonuçlar çıkarmada ve işletmelerin yönetim stratejilerini belirlemede kullanılmakta olan bir sistemdir. Pahalı bir yatırım maliyeti olsa bile sonuç olarak getirisi (yararı) bu maliyeti kat kat aşmaktadır. Belirli bir döneme ait, yapılacak çalışmaya göre konu odaklı olarak düzenlenmiş, birleştirilmiş ve sabitlenmiş işletmelere ait veri tabanlarına “veri ambarı” denir. Veri ambarları üzerinde çeşitli stratejiler hakkında karar vermek için yapılan veri analizi ve sorgulama işlemlerine OLAP (On-Line Analytical Processing) denir. Günlük sorgulamalardan farklı olarak olasılık barındır. Haftalık alış-satış oranı OLAP değilken; 14 süt ürünleri satışlarının 10 bin’i aşma olasılığı OLAP olur. OLAP ile veri madenciliği birbirinden farklıdır. OLAP analizcisi hipoteze dayalı örüntü ve ilişkileri üretir ve onları veri kümesi üzerinde ispat etmeye çalışır. Veri madenciliği analizcisi ise hipoteze dayalı hareket etmektense bizzat veri kümesi üzerinde örüntüler ve ilişkiler bulmaya çalışır. Buna karşın OLAP ve VM birbirlerini tamamlarlar. Araştırmacı önce olasılıksal düşünerek ilişkileri belirlemeye çalışır ve sonrasında veri kümesi üzerinde işlemler uygulayarak bu ilişkileri ortaya çıkarır (Küçüksille, 2010). 3.5.1. Veri Ambarı Oluşturulması Veri ambarı aşaması veri madenciliği sürecinde önemli bir aşamadır. Bu süreç, toplam maliyet ve zamanın önemli bir kısmını almaktadır. Madenciliği yapılacak veri tek bir yapı içerisinde bulunmayabilir. Bu nedenle bilginin tek çatı altında toplanması gerekir. Fakat veriyi tek çatı altında toplamak veri ambarı oluşturma anlamına gelmez. Veri kümeleri üzerinde ayrıca başka işlemlerin de yapılması gerekmektedir. İş organizasyonlarında veri ambarları iki amaçla oluşturulmaktadır: 1. Hareketsel ve organizasyonel görevler arasındaki depo ve analitik stratejik verilerin birikimini sağlar. Bu veriler daha sonra yeniden kullanılmak üzere arşivlenir. Veri ambarları verilerin sorgulanabildiği ve analiz yapılabilindiği bir depodur. 2. Veri Ambarlarının pazarda yeni fırsatlar bulmaya, rekabete katkı, yoğun proje çevirimi, iş, envanter, ürün maliyetlerinin azalmasının yanında farklı işlere ait verilerin ilişkilendirilmesi, karar destek ve alınan bilgiye hızlı cevap verebilme gibi birçok katkısı vardır. Veri ambarı oluşturma aşamaları: i. Toplama: farklı kaynaklarda olan verilerin tek kaynakta birleştirilmesi işlemidir. Örneğin, hastaların tıbbi verileri yanı sıra bazı demografik özelliklerinin de bilinmesi gerekebilir. Bu tür verilerin farklı kaynaklardan alınarak tıbbi veriler ile birleştirilmesi yani toplanması gerekebilir. ii. Uyumlandırma: farklı kaynaklardan alınan veriler arasında uyumsuzluklar ortaya çıkabilir. Veri madenciliği sürecinin başarısında veri uyumu önemli rol oynamaktadır. Örneğin, cinsiyet verileri bir kaynakta 1/0 şeklinde tutulurken diğer bir kaynakta E/K, veya Erkek/Bayan şeklinde tutuluyor olabilir. Dolayısıyla veriler toplanırken bu uyumsuzluğun giderilmesi gerekmektedir. 15 iii. Birleştirme ve Temizleme: Uyumlandırma işlemi sırasında verilerin dikkatli bir biçimde birleştirilmesi ve fazlalıkların temizlenmesi gerekir. iv. Seçme: Kurulacak model için uygun verinin seçilmesi işlemidir. Özellikle sınıflandırma uygulamalarında özniteliklere uygun verinin belirlenmesi önem göstermektedir. Çünkü veri tabanlarındaki işlem hızları artmasına rağmen uygun seçilmemiş veriler ile model denemesi yapılması zaman ve maliyet açısından kayıplara neden olmaktadır (Kaya, 2010). Veri Ambarı oluşturmasına bir örnek verelim. ÖrnekMüşteriVeriTabanı Müşteri No Ad-Soyad 1280001 AAABB ------------------------------------- DoğumTarihi 15.04.1982 ------------------- ↓ ÖrnekSatışVeriTabanı Müşteri No Ürün 128001 Gömlek ------------------------------------- Miktar 2 ------------------- ↓ ÖrnekÜrünVeriTabanı Ürün No Marka 23500 Sarar ------------------------------------- Miktar 300 ------------------- ↓ ÖrnekMüşteriVeriAmbarı MüşteriBurcu Marka Koç Sarar ------------------------------------- AlışverişGünü 04.03.2013 ------------------- Miktar 2 ------------------- Çizelge 3.1. Müşteri, satış ve Ürün veri tabanlarının kullanılarak Müşteri Veri Ambarı oluşturulması 16 3.5.2. Veri Ambarının Özellikleri Bir veri ambarının taşıması gereken özellikler şunlardır: Konu Odaklılık: Bir veri ambarı, karar vericiler için de kullanıcılar için de yalnızca gerekli olan verilere odaklı olup, o konu hakkında basit ve kısa görüş elde etmeyi sağlamalıdır. Bütünleşik olma: Bir veri ambarı, genellikle ilişkisel veri tabanları, standart dosyalar ve online işlem kayıtları gibi çoklu heterojen yapıdaki kaynakların bütünleştirilmesiyle oluşturulmaktadır. Belirli zaman dilimine ait olma: Tarih açısından belli bir trend yakalamak amacıyla son 5-10 yılın verileri saklanmaktadır. Her veri, dolaylı veya doğrudan bir zaman değişkeni ile ilişkilendirilir. Kalıcılık (Uçucu olmayan): Ambardaki veri, yönetimin ihtiyaçlarına cevap vermek üzere tasarlandığından günlük işlemlere tabi tutulmamakta; yani silme veya güncelleme işlemi yapılmamaktadır. Veriler yalnızca okunabilir (read-only) yapıda tutulmaktadır. Ambarlarda “veri yükleme (loading)” ve “veriye erişim (access)” olmak üzere yalnızca iki tür işlem uygulanır. Veri tabanları üzerinde dönüşüm yapılarak konu odaklı olarak veri ambarları oluşturulur. Veri ambarının belli bir konuya göre düzenlenmiş, sadece belli bir bölümünü ilgilendiren parçasına veri pazarı (data mart) denir (Silahtaroğlu, 2008). Veri ambarlarında özelliklerine göre şu tür veriler bulunur: Metaveri: Veriye ilişkin temel veri olarak tanımlayabileceğimiz metaveri, veri ambarının en temel bileşenlerinden birisidir. Konu ile ilgilenen karar destek analizcilerine yardım etmek üzere tasarlanmış bir dizindir ve ilgili ambarın içeriğinde neler olduğunu belirtir. Verinin konumu, hangi algoritmaya göre oluşturulduğu, içeriği, kapsamı, çerçevesi vb. gibi bilgileri içeren bir kılavuz niteliğindedir. 17 Hanehalkı Bilişim Teknolojileri Kullanım İstatistikleri Analitik Çerçeve, Kapsam, Tanımlar ve Sınıflamalar Amaç: Hanehalkı Bilişim Teknolojileri Kullanım Araştırması, hanelerde ve bireylerde sahip olunan bilgi ve iletişim teknolojileri ile bunların kullanımları hakkında bilgi derlemek amacıyla 2004 yılından itibaren uygulanmakta olup, söz konusu teknolojilerin kullanımı hakkında bilgi veren temel veri kaynağıdır. Bu araştırma ile aşağıdaki alanlarda veri derlenmektedir: - Hanelerde bulunan bilgi ve iletişim teknolojileri - Bilgisayar (Bireylerin bilgisayar kullanımı, sıklığı v.b.) - İnternet (Hanelerde İnternet erişimi sahipliği, bağlantı tipleri, bağlı araçlar, bireylerin İnternet kullanım sıklığı, kullanım amaçları v.b) - e-Ticaret - e-Devlet uygulamaları - Bilişim güvenliği Tanımlar: Hanehalkı: Aralarında akrabalık bağı bulunsun ya da bulunmasın aynı konutta veya konutlarda, aynı konutun bir bölümünde yaşayan, kazanç ve masraflarını ayırmayan, hanehalkı hizmet ve yönetimine katılan bir veya birden fazla kişiden oluşan topluluk. Kent: 20 001 ve daha fazla nüfuslu yerleşim yerleridir. Kır: 20 000 ve daha az nüfuslu yerleşim yerleridir. bir işte çalışmış olanlar, Uluslararası İşteki Durum Sınıflamasına (ICSE,1993) uygun olarak sınıflandırılmakta ve yayımlanmaktadır. Şekil 3.2. Hanehalkı Bilişim Teknolojileri Anketine ait verilerin bulunduğu ambardaki Çizelge 3.2Hanehalkı Bilişim Teknolojileri Anketine ait verilerin bulunduğu metaveri örneği (Anonim4) ambardaki metaveri örneği(Kaynak: TÜİK internet sitesi- 18 3. Statistical presentation 3.1. Data description The Unemployment - LFS adjusted series (including also Harmonised long-term unemployment) is a collection of monthly, quarterly and annual series based on the quarterly results of the EU Labour Force Survey (EU-LFS), which are, where necessary, adjusted and enriched in various ways, in accordance with the specificities of an indicator. Harmonised unemployment is published in the section 'LFS main indicators', which is a collection of the main statistics on the labour market. Other information on 'LFS main indicators' can be found in the respective ESMS page. General information on the EU-LFS can be found in the ESMS page for 'Employment and unemployment (LFS)' (see link in section 21.2). Detailed information regarding the survey methods, organization and comparability issues is available on the EU-LFS webpage. 3.2. Classification system The 'LFS main indicators' are produced in accordance with the relevant international classification systems. The main classifications used are NACE Rev.1 (NACE Rev.1.1 from 2005) and NACE Rev. 2 (from 2008) for economic activity, ISCO 88 (COM) for occupation and ISCED 1997 for the level of education. For more details on classifications, levels of aggregation and transition rules, please view the EU-LFS webpage: Statistical classifications in EU-LFS. 3.3. Sector coverage Not applicable 3.4. Statistical concepts and definitions Definitions of employment and unemployment, as well as other survey characteristics, follow the definitions and recommendations of the International LabourOrganisation. The definition of unemployment is clarified further in Commission Regulation (EC) No 1897/2000. This domain comprises collections of monthly averages of unemployed persons and unemployment rates. The relevant definitions are as follows: Unemployed persons are all persons 15 to 74 years of age (16 to 74 years in ES, SE (19952000), UK, IS and NO) who were not employed during the reference week, had actively sought work during the past four weeks and were ready to begin working immediately or within two weeks. Figures show the number of persons unemployed in thousands. The duration of unemployment is defined as the duration of a search for a job or as the length of the period since the last job was held (if this period is shorter than the duration of search for a job). Unemployment rate is the number of people unemployed as a percentage of the labour force. The labour force is the total number of people employed and unemployed. 3.5. Statistical unit Persons 3.6. Statistical population The EU-LFS results cover the total population usually residing in Member States, except for persons living in collective or institutional households. While demographic data are gathered for all age groups, questions relating to labour market status are restricted to persons in the age group of 15 years or older. For exceptions, please consult EU-LFS webpage: Comparability of results. Şekil 3.3. İşsizlik Oranları Çalışmasına ait verilerin bulunduğu ambardaki metaveri örneği (Anonymous14) 19 Ayrıntı veri: veri ambarında en son olayları içeren ve henüz işlenmediği için diğerlerine oranla daha büyük hacimli ve disk üzerinde saklandığından erişimleri ve yönetimleri pahalı olan verilerdir. Eski ayrıntı veri: Ayrıntı verinin dışında kalan ve daha eski tarihe ait olan verilerdir. Ayrıntılı veriye göre daha düşük bir ayrıntı düzeyine indirgenerek saklanmaktadır. Düşük düzeyde özetlenmiş veri: Ayrıntı veriden süzülerek elde edilen düşük seviyede özetlenmiş verilerdir. Veri ambarının tasarımı esnasında hangi verinin özetleneceği ve özetleme işleminin ne düzeyde olacağı belirlenmelidir. Yüksek düzeyde özetlenmiş veri: Ayrıntı veri daha yüksek düzeyde özetlenerek, kolayca erişilebilir hale getirilebilir. Bu tür veriler de veri ambarının bir bileşeni olarak yer alabilir. Kısacası Veri Ambarları, stratejik kararları verme konusunda bir organizasyonun ihtiyacı olan bilgiyi depolayan ve yapısal veya amaca özel sorgulamaların yapılabildiği, birçok veri türünü bütünleştiren bir mimari olarak görülmektedir (Atılgan, 2011). 3.6. Veri Madenciliği Süreci Veri madenciliği, belli belirsiz tanımlanmış bir alandır. Yapılan tanımlar uygulama zeminine veya uygulayıcılara göre değişmektedir. Veri madenciliği veri içindeki, geçerli, yeni, potansiyel olarak faydalı ve nihai olarak anlaşılır örüntüleri anlamanın basit olmayan bir yoludur (Fayyad). Veri madenciliği büyük veri tabanlarındaki daha önceden bilinmeyen, kavranabilir ve işlemeye uygun bilginin ortaya çıkarılması ve bu bilginin önemli iş kararları verilmesinde kullanılması sürecidir (Zekulin). Veri madenciliği veri içindeki daha önceden bilinmeyen ilişki ve örüntüleri ayırt etmede bilgi keşif sürecinde kullanılan yöntemlerin kümesidir (Ferruza). Veri madenciliği veri içindeki faydalı örüntüleri keşi sürecidir (John). Veri madenciliği büyük veri tabanlarında bilinmeyen ve beklenmeyen bilgi örüntülerini araştırdığımız kara deste sürecidir (Parsaye). Veri madenciliği ile ilgili yapılan yüzlerce tanımda iki orak kavram ortaya çıkmaktadır. İlki “çok fazla” miktarda verinin olması, ikincisi ise bu verilerden “anlamlı” bilgiler elde edilmesidir. Veri madenciliği uygulamaları günümüzde daha çok 20 ticari eksenli gelişmiştir ve kamu alanında yapılan uygulama sayısı başlarda az olmuştur. Bu nedenle istatistik kurumlarının ve ofislerinin her geçen gün artan veri yığınlarıyla baş edebilmeleri için veri madenciliği uygulamalarına gerekmiştir. Bunun sonucunda verilerin temiz ve tutarlı hale getirilmesinde ve veri giriş performanslarının incelenmesinde kullanılmaya başlayan veri madenciliği teknikleri sayesinde kamu alanında da veri kalitesi artmaya başlamıştır (Babadağ, 2006). Tüm bu tanımlamalara rağmen Veri Madenciliği (VM) ticari bir girişimin konusu olarak günümüze kadar gelmiş ve madencilikten ziyade madencilere yazılım ve donanım satmanın bir aracı olmuştur. Firmalar, büyük veritabanlarını yönetme ihtiyacı içerisindedirler. Rekabet amacıyla her firma kendi sahip olduğu verilerden örüntü çıkarma peşine düşmektedir. Bu durum, daha büyük disk alanları, daha hızlı işlem yapan bilgisayarlar ve daha çabuk analiz yapacak yazılımların ihtiyacını doğurmaktadır. Hem donanım hem de yazılım tacirleri abartılı reklamlar ile firmaların rekabetçi damarını kaşırlar. Dolayısıyla, VM için çok büyük bir yazılım, donanım ve eğitim pazarı oluşmuştur. Pazarın büyüklüğü milyar dolarlar ile ifade edilmektedir. Başlarda birçok firma veritabanlarını idare edecek kapsayıcı paketler üretirken günümüzde birçok firma tek bir amaç için uzmanlaşmış paketleri pazarlama çabası içerisine girmişleridir. Mevcut VM ürünleri genel olarak aşağıdaki özelliklere sahiptirler: Çekici bir grafik ara yüzü Sorgulama dili Veri çözümleme prosedürleri dili, Esnek uygun girdi Tıklama ikonları ve menüler Girdi için iletişim kutuları Çözümlemeleri betimleyen diyagramlar Çıktıların çok yönlü ve hızlı grafikleri Bunun yanı sıra istatistiksel çözümleme için şu yöntemleri de barındırırlar: Karar ağaçları Kural çıkarma Kümeleme yöntemleri İlişkilendirme kuralları Örüntü tanıma Yapay sinir ağları Bayesian ağları 21 Genetik algoritma Kendini örgütleyen haritalar Bulanık sistemler Bununla birlikte VM paketlerinin neredeyse tamamında Hipotez testleri Deneysel tasarım (M)ANOVA GLM Regresyon Diskriminant Analizi Kanonik Korelasyon Faktör Analizi gibi istatistiki analiz yöntemleri bulunmaz. Bu tür temel analizler istatistik paketlerinin içeriğidir ve VM paketleri istatistik alanı dışında geliştirildiğinden temel yöntemler büyük ölçüde göz ardı edilmiştir. Bu durum, VM’nin görünürde istatistik ile ilgisinin yüksek olmadığı izlenimini uyandırmaktadır. Çünkü VM kavramını büyük çoğunlukla bilgisayarcılar geliştirmektedir. Oysa olayın geri planında teorik istatistik ve matematik yoğun olarak kullanılmaktadır. Bu nedenle, “VM entelektüel bir disiplin midir?” veya “VM istatistiğin bir parçası olmalı mıdır?” sorularının yanıtı net olmadığından henüz kesin olarak cevaplanamamaktadır. Ancak VM’nin ticari düşünceden uzaklaşması ve astronomik, meteorolojik, uzaktan algılama veya endüstriyel proses gibi büyük veri tabanlarının bilim ile daha ilgili olmaları nedeniyle gelecekte verilebilecek cevap şüphesiz: “evet!” olacaktır. Ticari de düşünsek bilimsel de düşünsek teknolojiyle beraber verilerin hızla arttığı gerçeğini de göz önünden uzaklaştırmamak gerekmektedir. SLAC firması Muhasebe Müdürü Chuck Dickens: “Hesap gücümüz her on katına çıktığında, neyi nasıl hesaplamak istediğimizi yeniden düşünmeliyiz.” demektedir. Bunun anlamı şudur: Veri miktarı hızla artmaktadır ve her on katlık artışta, nasıl bir analiz yapılması gerektiğinin yeniden düşünülmesi ve sürekli yeni yöntemlerin veya algoritmaların geliştirilmesi gerekmektedir. Bu anlamda, VM gelişiminin yalnızca bilgisayarcılar tarafından değil de istatistikçilerin de katkılarıyla yapılması gerekir. İstatistikçilerin klasik analiz yöntemleri yanı sıra programlama ve VM sürecine dahil olmaları gerekmektedir. VM’de bilgisayar amaç değil bir araçtır. 22 Sonuçta, VM süreci istatistiksel analiz süreçlerinden ayrı düşünülemez. Her ikisinde de bir akış şeması vardır ve VM sürecinin % 70’ini verilerin ön işleme süreci oluşturur. VM modelleri kara vericiler için en önemli yardımcı haline geldiğinden aykırı, yanlış ve tutarsız veriler ile karar modelleri oluşturmak çok riskli olacaktır (Friedman, 2012). Veri madenciliği büyük veri kümeleri üzerinde oluşan bir süreç olduğundan çok sayıda alanda kullanılmaktadır: 1) Pazarlama a) Müşterilerin satın alma örüntüleri b) Demografik özellikler c) Posta kampanyalarına cevap verme d) Mevcut müşterilerin elde tutulması e) Market sepet analizi f) Risk yönetimi ve dolandırıcılık saptama 2) İletişim: Telekomünikasyon hatlarındaki parazitlenmeyi tespit etme, gürültü giderme 3) Biyoloji: DNA ve gen teknolojisi 4) Sağlık: Kesin teşhis yöntemleri, cerrahi risk, hastane yönetim sistemleri, sağlıkta maliyet düşürme, radyolojik görüntüleme 5) Bankacılık: Müşteriler arası bilgiler, sahte kart ve kredi olaylarını saptama (Silahtaroğlu, 2008). 3.6.1. Verilerin Hazırlanması Tüm veri madenciliği aktiviteleri, verinin özellikleri ve sunulması üzerine kuruludur. Eğer veri işleme hazır semantik model halinde değilse kullanıcı verinin uygun hale getirilmesi için bir takım tedbirler alır. Eksik veriler sorunu; tutarsız, gürültülü ve gereksiz veriler ile ilgili işlemler sürecin bir parçasıdır. Veri madenciliği yapanlar kayıtları kullanılabilir hale getirmek zorundadırlar, genellikle ikili veya sıralı değişkenler şeklinde hazırlanır. Verilerin standart forma dönüştürülemediği durumlar da olabilmektedir. Aynı şekilde VM, sıralı nümerik değerleri analiz etmeye tasarlanmıştır, kategorize verileri kolaylıkla analiz edemez (Benoit, 2002). Veri madenciliğinde kullanılan modeller, tahmin edici (predictive) ve tanımlayıcı (descriptive) şeklinde iki ana gruba ayrılır. Tahmin edici modellerde, bilinen 23 sonuçlara sahip modellerden hareket edilerek sonuçları bilinmeyen veri kümeleri için sonuç değerlerinin tahmin edilmesi amaçlanır. Örneğin, bir sigorta şirketi eski müşterilerine ait elinde olan verileri kullanarak bilgi sahibi olmadığı yeni müşterilerinin risk durumlarını tahmin edebilir. Burada bağımsız değişkenler müşterilerin bilgileri, bağımlı değişken ise sigortalanma riskidir. Veriler kullanılarak model oluşturulur ve yeni müşterilerin risk analizi yapılabilir. Tanımlayıcı modelde ise eldeki mevcut veriler arasındaki ilişkiler ortaya çıkarılmaya çalışılır. Ortaya konan örüntüler yardımıyla ilgili gruba giren kayıtlar ile ilgili bilgi sahibi olunur. Bir bankanın, konut kredisi kullanan ailelerin özel araca sahip olma durumu ile araç kredisi kullanan müşterilerin kendi konutuna sahip olma durumları arasındaki örüntüyü ortay çıkarması tanımlayıcı modele örnek olabilir (Özekes, 2003). Veri madenciliği uygulamasına başlamadan önce verilerin dikkatlice gözden geçirilmesi gerekmektedir. Ham veri tabanlarındaki kayıtların büyük çoğunluğu işlenmemiş, eksik ve gürültülü veri içerirler. Dolayısıyla bu verilerin elden alınması gerekmektedir. Veritabanında eksik kayıtlar olabildiği gibi kayıtların bir kısmı aşırı uç ya da yanlış girilmiş olabilirler. Bunlara gürültü terimi (noisy data) denir. Bazı değişkenlerin birleştirilmeleri gerekebilir. Veri hazırlama aşamaları şöyledir: 1) Verilerin temizlenmesi:Eğer veri tabanında eksik verilerin olduğu kayıtlar varsa; a) Eksik (kayıp) verilerin bulunduğu kaydı çıkarmak: Analizi yapacak kişi ya da ekip tarafından belirlenecek olan eksik verilerin bulunduğu kayıtlar veri kümesinden çıkarılır. Ancak çıkarılacak olan kayıt sayısına dikkat etmek gerekir. Çok sayıda verinin çıkarılması yapılacak analizin sonuçlarını etkileyebilir. b) Eksik verileri elle teker teker doldurmak: eksik verilerin bulunduğu değişkenin dağılımı tespit edilerek bu dağılımdan üretilecek olan rastgele (random) sayılar ile eksik veriler doldurulur. c) Tüm eksik verilere aynı bilgiyi girmek: analizi yapacak işi veya ekip tarafından belirlenecek bir sabit sayı ile tüm eksik veriler doldurulur. d) Eksik verilere tüm verilerin ortalama değerini vermek: var olan kayıtların ortalaması hesaplanarak eksik olan verilere ortalama değeri verilir. Böylece genel ortalama etkilenmemiş olur. e) Regresyon yöntemi ile eksik verileri tahmin etmek: eksik verilere ait olan değişken kayıtları regresyon uygulamaya uygun ise elde olan veriler ile 24 varsayımlar sağlanarak regresyon uygulaması yapılır. Elde edilen denklemden faydalanılarak eksik değerler ait gözlemler elde edilerek doldurulur. 2) Verilerin yeniden yapılandırılması: a) Yanlış gruplandırılmış veriler: Veri setindeki değişkenlere ait kayıtlarda farklı gruplarda olmaları gerekirken aynı grupta işaretlenmiş veriler varsa bunların uygun grup kategorilerine alınması gerekir. b) Aykırı değerlerin tespit edilmesi: Aykırı değerler veri setindeki değişkene ait kayıtları sınırları dışında kalan veya verinin trendinin tersine giden değerlerdir. Mutlaka tespit edilip düzeltilmeleri gerekir. Çünkü analiz sonuçlarında hataya sebep olurlar. Bu amaçla, daha çok istatistiksel yönetmelere başvurulur. Histogram, saçılım veya kutu grafikleri aykırı değerleri tespit etmenin en öncelikli yöntemlerinden bir kaçıdır. c) Veri dönüştürme: Bazı durumlarda, değişkenlerin içinde bulunması gereken aralıktan farklı değerler ile karşılaşılır. Eğer bir değişkenin belli bir aralıkta olması ile ilgileniyorsak ve karşımıza çıkan veri bu aralığın dışında ise bu durumda elimizdeki verilerin kullanılacak algoritmaya uygun hale getirilmesi ve verilerin yeniden yapılandırılması gerekir. Bunun için bazı yöntemler vardır. En yaygın kullanılan iki tanesi: Min-Maks normalizasyon: Her bir değerin minimum ile farkının Min-Maks ={ , aralığından ne kadar büyük olduğu esasına göre hesaplanır. şeklinde bir değerler dizisi ve ,…, } , .normalleştirilen değer olmak üzere (0,1) aralığındaki normal değerler için Min-Maks yöntemi: = ( ) ( ) ( 3.4) ( ) Herhangi bir (a,b) aralığı için Min-Maks yöntemi: = = _ ( ) ( ) ( ) = ve .( _ − _ _ olmak üzere )+ _ ( 3.5) Sıfır ortalamalı standart normalizasyon: Her bir değerin ortalamaları ile farkının standart sapması değerine bölünmesiyle hesaplanır. değeri ve , dizinin standart sapması olmak üzere , dizisinin ortalama 25 = ( 3.6) d) Veri boyutunu indirgeme: Genellikle iki yöntem kullanılır: Dalga Dönüşümü (Wavelet Transform) ve Temel bileşenler analizi (Karhunen – Loéve) (Larose, 2005). 3.6.2. Veri Madenciliği Yönteminin Uygulanması Veri madenciliğinin hızla gelişmesinin nedenlerinden birisi de kuruluşların (kamu veya özel) büyük miktarda veriyi otomatik olarak toplamasıdır. Bu nedenle toplanan verilerin hızla artan veri yığınının üzerinden zaman geçmeden veya rekabete dayalı olarak daha önce bilgiyi ortaya koyma amaçlı analiz edilmesi gerekmektedir. Bazı işletmelerde uyuşukluk, tembellik ve veri madenciliğine karşı gelişigüzel bir yaklaşım sergilenmesi nedeniyle endüstriler arası standart kavramının geliştirilmesi gerekli olmuştur. Tarafsız sanayi, tarafsız malzeme ve tarafsız uygulama sloganıyla ortaya çıkan Cross Industry Standard Process for Data Mining (CRISP-DM) kavramı ilk olarak 1996 yılında Daimler-Chrysler, SPSS ve NCR firmalarının analizcileri tarafından geliştirilmiştir. CRISP yaklaşımı, veri madenciliği ile model oluşturmada tescilli olmayan ve özgür standart süreçler sağlar. CRISP-DM yaklaşımına göre bir veri madenciliği projesi altı aşamadan oluşur. Aşama sıralaması adaptifdir. Yani her bir aşama bir önceki aşamanın gerçekleşmesine bağlıdır. CRISP süreci bir döngü ile sembolize edilir (Cespivova, 2004) 26 İşletmeye / Araştırmaya ait amacın belirlenmesi aşaması Uygulama aşaması Verinin anlaşılması aşaması VERİ Verinin hazırlanması aşaması Değerlendirme aşaması Modelleme aşaması Şekil 3.4. CRISP-DM adaptif süreç döngüsü CRISP-DM döngüsünün aşamaları altı tanedir. 1 Amacın belirlenmesi (Business Understanding): Hangi konuda çalışma yapılacaksa bu çalışmaya ait genel amaç ve alt hedefler belirlenir. Problemin doğru tanımlanması ve gereken çözüm süreci için önemli bir aşama olup taslak plan oluşturulur. 2 Veriyi Anlama (Data Understanding): Hazırlanan hedeflere veya plana göre mevcut verilerin durumu veya derlenmesi gereken veriler ile ilgili temel özellikler ortaya konulur. Verilerin türleri, veri kalitesi, alt kümelere ait özellikler, verilerdeki hata durumu ve eksik veri durumu tespit edilir. 3 Veriyi Hazırlama (Data Preperation): verilerin analiz edilemeden önceki tüm süreçlerini kapsayan bir aşamadır ve çok önemlidir. Uygun hazırlanmayan bir veri yanlış sonuçların çıkmasına neden olabilir. Verilerin ön analizleri yapılarak 27 tanımlayıcı istatistikleri hesaplanır. Böylece gürültü terimleri belirlenmiş olur. Eksik verilerin giderilmesi, hatalı verilerin düzeltilmesi, verilerin indirgenmesi, verilerin dönüştürülmesi gibi veri temizleme işlemleri bu aşmada yapılır. Birden çok tablolarda bulunan kayıtlar için birleştirme işlemleri yapılır. 4 Modelleme (Modeling): temizlenmiş ve hazırlanmış veriler üzerinde hangi modellemelerin yapılacağına karar verilir. Modeller ile ilgili çeşitli ayarlamalar yapılır. Uygun olduğu düşünülen model veri kümesi üzerine uygulanarak sonuçlar alınır. Modellemelerde çok sayıda teknik kullanılabilmektedir. Dolayısıyla bu aşamada geriye dönmek ve yeniden uygulama yapmak gerekebilir. 5 Değerlendirme (Evaluation): Modellerin geçerliği ve uygunluğu açısından genel bir değerlendirme yapılır. Çıkan sonuçlara yorumlanarak başlangıçta belirtilen hedefler ve amaca ulaşılma durumu kontrol edilir. Eksik kalan hedefler ile ilgili yeniden çalışmalar yapılır. 6 Sonuçları kullanma (Deployment): Nihai olarak elde edilen tüm bulgular ile ilgili değerlendirmeler yapılır. Sonuçların ne şekilde uygulanacağına karar verilerek tüm faaliyet rapor halinde sunulur. Bazı durumlarda yeniden veri madenciliği süreci başlatmak gerekebilir. Bu aşama, hedeflerin gerçekleştirilmesi açısından hem işletmeye (kurum) hem de kullanıcılara (müşteri) bağlıdır (Çınar ve Arslan, 2008). CRISP-DM aşamaları daha sonraki yıllarda daha da detaylandırılmış ve sürece yeni kavramlar eklenmiştir. Buna göre, veri madenciliği uygulama aşamaları şu şekilde verilebilir. 1) Problemin tanımlanması 2) Veri tabanının hazırlanması a) Verinin toplanması b) Verinin tanımlanması c) Verinin seçilmesi d) Kalite kontrolü ve verinin temizlenmesi e) Verinin uygun hale getirilmesi f) Meta datanın oluşturulması g) VM veritabanının yüklenmesi h) VM veri tabanının işletilmesi 3) Verinin araştırılması 4) Modelleme için verinin hazırlanması a) Değişkenlerin seçimi 28 b) Satırların seçimi c) Yeni değişkenlerin üretilmesi d) Değişkenlerin dönüşümü 5) Modelin oluşturulması 6) Sonuçları bulma a) Model geçerliliği b) Dış geçerlilik 7) Sonuçların raporlanması 3.6.3. Sonuçların Değerlendirilmesi ve Sunulması Mevcut veri kümesine uygun modelleme sonrasında veri madenciliği uygulaması yapılarak belirlenen hedeflere ulaşma doğrultusunda değerlendirme rapor hazırlanır. Rapor, hedefleri, ulaşma oranını ve yorumları içerir. Ancak metin halindeki raporlar kullanıcıların belli bir kısmına hitap ederler. Genel kitlenin kullanımına yönelik bir bilgi için etkin sunuş yöntemlerini kullanmak gerekir. Bu anlamda en etkili yöntem görsel ve işitsel ortamın kullanılmasıdır. Anlatılan konunun tablo halinde sunulması anlamayı bir seviye kolaylaştırır. Ancak tabloların kalabalık ve karmaşık olması, sayıların çok büyük veya ondalıklı olması anlamayı zorlaştırmakta ve dikkati dağıtabilmektedir. Bu nenle, tabloların grafik hale dönüştürülmesi anlamayı bir adım daha kolaylaştırmaktadır. Veri tipine uygun grafiklerin seçilmesi önemlidir. Ancak grafik sunumlarında da dikkat edilmesi gereken noktalar vardır. Ölçekler üzerinde yapılan değişiklikler veya grafik tipi sonuçların farklı bir şekilde algılanmasına yol açabilir. Bu nedenle verilmek istenilen bilginin objektif ve standart bir biçimde grafik halde sunulup yorumların açık bir biçimde yazılması gerekmektedir. Histogram, dalyaprak, dilim ve kutu grafikleri temel istatistiksel sonuçları yorumlamak için idealdirler. Ancak çok değişkenli analizlerde bu tür grafikler ile sonuçların yorumlanması zordur. Bu nedenle farklı gösterim biçimlerine ihtiyaç vardır. Veri madenciliği, verinin görselleştirilmesi kavramını ileri boyutlara taşınmasına yardımcı olmuş, bilgisayar teknolojilerindeki ilerleme sayesinde iki ve üç boyutlu görsellik sunumları bir uğraşı konusu haline gelmiştir. Veri madenciliği paket programları, sonuçların görselliği ile ilgili sürekli kendilerini yenileme ve kullanıcılarına daha kolay yorumlama imkanı sağlayan yöntemleri sağlama çabası içerisindedirler (Berardi, 2006). Veri madenciliğinde üç tip bilginin değerlendirme ve yorumlaması yapılır. Bunlar: 29 a. Nesnelerin gösterimi (Item Visualization): Madencilik uygulanacak veri kümesinin faktöryel düzlem üzerinde çeşitli boyutlarda grafiksel olarak gösterimidir. Şekil 3.5. Nesnelerin gösterimine örnek (Anonymous11) b. Uygulanan yöntemin gösterimi (Rules Visualization): Veri kümesi üzerinde uygulanacak yöntem (veya kural) ile ilgili faktöryel düzlem üzerinde analiz süreci hakkında bilgi veren grafiksel gösterimdir. Şekil 3.6. Nesnelerin gösterimine örnek (Anonymous8) 30 c. Analiz sonuçlarını gösterimi (Conjoint Visualization): Nesnelerin ve kuralların bir arada gösterildiği veya analiz sonuçlarının yorumlanmak üzere ortaya konulan faktöryel düzlem üzerindeki grafiksel gösterimdir (Bruzzese et al., 2008). Şekil 3.7. Sonuçların gösterimine örnek (Anonymous1) Veri madenciliğinde kullanılan belli başlı grafik yöntemleri şunlardır: a. Saçılım Grafikleri: İki veya daha fazla değişken arasındaki ilişkinin durumunu gösteren iki veya üç boyutlu olarak hazırlanabilen önemli grafiklerdendir. Saçılım grafiklerinin merkez çevresinde istenen yüzde sınırları içerisinde kalan ve kalmayan gözlemlerin belirlenebilmesi için kullanılan özel grafiklere ise kontur grafiği denilir. 31 Şekil 3.8. Saçılım grafiklerine ve kontur grafiğine örnekler (Anonymous9) b. Kabarcık Grafikleri: Saçılım grafiğinin değişik bir gösterim biçimidir. Üç veya dört değişenli verilerde ilişkiyi daha iyi anlayabilmek için iki boyutlu düzlemdeki saçılım grafiğinin üçüncü değişken için farklı işaretler (marker) ile belirlenmesi şeklinde hazırlanır. 32 Şekil 3.9. İki ve üç boyutlu kabarcık grafiğine örnekler (Anonymous3) c. Çok Boyutlu İkon Grafikleri: bağımsız gözlem birimlerinin özelliklerinin nesneler ile ifade edildiği grafiklere ikon grafikleri denir. Chernoff yüzleri, dairesel ikon grafikleri, adımsal ikon grafikleri ve profil grafikleri adlarında çeşitleri vardır. Şekil 3.10. İkon grafiklerine örnekler (Anonymous13) d. Andrew Grafikleri: Benzer birimlerde olan değişkenler için Fourier serilerine dayalı bir gösterim biçimidir. 33 Şekil 3.11. Andrew grafiğine örnek (Anonymous6) e. Biplot Grafikler: n x p veri matrisindeki bilgilerin grafiksel sunumu olarak tanımlanır. Biplot ismi hem gözlemleri hem de değişkenleri dikkate almasındandır Şekil 3.12. Biplot grafiklere örnekler (Anonymous4) f. Ağaç diyagramı: Özellikle kümeleme analizinde kullanılan bir gösterim biçimidir. 34 Şekil 3.13. Ağaç diyagramına (Dengdogram) örnek (Anonymous5) g. Buz Saçağı Grafiği: Şekil 3.14. Buz saçağı grafiğine örnek (Anonymous12) h. Path Diyagramı Şekil 3.15. Path diyagramına örnek (Alpar, 2011) 35 3.6.4. Veri Madenciliği Uygulama Programları Veri madenciliği yöntemleri ve programlarının amacı büyük miktarlardaki verileri etkin ve verimli hale getirmektir. Bilgi ve tecrübeyi birleştirmek için bu konuda geliştirilmiş yazılımların kullanılması gerekmektedir. Bu kapsamda birçok ticari ve açık kaynak kodlu program geliştirilmiştir. Ticari programların bazıları SPSS Clementine, Excel makroları, SAS Miner, Angoss, KXEN, SQL Server, Statistica Data Miner gibileridir. Daha önce de değindiğimiz gibi, ticari programlar sektörü müşterilerini sürekli ihtiyaç içerisinde gösterip yeni programları veya versiyonlarını satmaktadırlar. Bu anlamda milyonlarca dolarlık bir pazar oluşmuştur. Bu pazarda işletmeleri için kaynak aktaramayan firmalar için açık kaynak kodlu yazılımlar da bulunmaktadır. Bunlardan bazıları RapidMiner (YALE), WEKA, Orange, Scriptella, GMDH Shell, ETL, jHepWork, KNIME, ELKI, R ve Tanagra sayılabilir. Yapılan araştırma ve karşılaştırmalarda, sahip olduğu birçok özelliği nedeniyle RapidMiner programı diğerlerine göre daha üstün bulunmuştur (Tekerek, 2011). 3.6.5. Veri Madenciliği Uygulamasında Karşılaşılan Sorunlar Veri madenciliğinde esas olan, ham verilerin girdi olarak kullanıldığı veri tabanlarıdır. Dolayısıyla veri tabanın yapısı ve kayıtlardaki veriler nedeniyle birçok sorunla karşılaşılabilir. Veri tabanının dönüştürülmesi esnasında verinin durumuna göre sonuçları ortaya koyamayacağımız sınırlı bilgi barındırabilir. Günümüz teknolojisinde sürekli yeni algoritmalar geliştirilmesine karşın büyük boyutlu veri tabanları uygumla açısından sorun yaratabilir. Toplanmış veriler içerisinde analiz yapmayı güçleştirecek ve ilişkinin saptanması zor olan aykırı veriler olabilir. Eksik gözlem verileri de analizi zorlaştırmaktadır. Eksik verilerin giderilmesi için birçok yöntem olsa da değişkenin durumuna göre eksikliği giderilemeyecek veri miktarının fazla olması zorluk çıkarabilir. Birçok program verilerin tamamının var olduğu durumlarda analiz yapmak üzere tasarlandıklarından elde edilen istatistiklerin geçerliğini azaltmaktadır. Veri tabanı ile ilgili sorunların yanı sıra uygun analiz yönteminin belirlenememesi ve kullanılan paket programın uyum sorunu, kullanılacak olan algoritmanın veri seti ile uyumlu olmaması da uygulama esnasında karşımıza çıkabilecek sorunlardandır. Ortaya konulacak sonuç ve bulguların değerlendirilmesi ve sunumu ile ilgili fazladan paket programların gereksinimi de ekonomiklik açısından sorun teşkil edebilir (Çıngı, 2007). 36 3.7. Veri Madenciliği Yöntemleri Teknolojinin gelişmesiyle birlikte bilgisayarcıların gündemine “yapay zeka” kavramı girmiştir. İnsanın düşünme mekanizmalarını analiz ederek ve taklit ederek oluşturulan yapay yönergelerin geliştirilmesine yapay zeka (artificial intelligence) denilmektedir. Yapay yönergelerin uygulanarak bilgisayar kontrollü gerçekleştirilen somut hareketlere ise makine öğrenmesi denilir. İnsanoğlu eskiden beri kendi yaptığı hareket ve davranışları bir makineye yaptırmak istemektedir. Bu amaçla birçok programlama dili geliştirilmiştir. İstenilen hareketleri yapabilen programlanmış makinelere robot denmektedir. Dolayısıyla konuya öğrenme kavramı girmektedir. Eğer bir bilgisayar programı belirli bir işteki performansını gittikçe artırıyorsa makine öğrenmesinden bahsedilir. Konuşulan kelimeleri öğrenme, satranç oynamayı öğrenme, gıda ürünlerini sınıflandırmayı öğrenme, araba kullanmayı öğrenme gibi süreçler makine öğrenmesine iyi birer örnektir. Bu girişimler gün geçtikçe hızla değişmekte ve insan zekasından bağımsız, düşünebilen ve öğrenebilen zeka türleri üzerinde çalışılmaktadır. Sibernetik, uzman sistemler ve bulanık mantık konuları ile insan zekasına alternatif oluşturma çabaları kuantum yapıda çalışan bilgisayarların geliştirilmesine öncülük etmektedir. Veri madenciliği, makine öğrenimi ve istatistik bilimleri arasında yer alır. Veri madenciliğinde kullanılan algoritmaların bir kısmı makine öğrenmesi alanındaki çalışmalar sonucu ortaya çıkmıştır. Dolayısıyla makine öğrenmesi veri madenciliğinin sonuçlarından biri olarak ortaya çıkmaktadır. Veri madenciliği yöntemleri makine öğrenmesi açısından iki kategoriye ayrılır: gözetimli öğrenme ve gözetimsiz öğrenme. Gözetimli öğrenme (Supervised Learning), önceden belirlenmiş ve sonuçları bilinen (etiketlenmiş/labeled) değişkenlere ait verileri kullanarak bu verileri ve sonuçlarını kapsayan bir fonksiyon oluşturmayı amaçlayan makine öğrenimi metodudur. Gözetimli öğrenmede önceden bilinen eğitim verileri (training set) çıktılarıyla birlikte sisteme verilerek, makinenin kendi başına tümevarım yapması sağlanır, bu "öğrenme" sürecidir. Öğrenme sonunda ortaya çıkan model sayesinde gelecekteki veriler için de doğru sonuçları veren işlemler yapılabilecektir. Karar ağaçları, yapay sinir ağları ve k-en yakın komşu gibi yöntemleri içeren tüm sınıflandırma yöntemleri ve regresyon yöntemleri gözetimli öğrenme grubuna girer. Gözetimsiz öğrenmede (Unsupervised Learning) ise önceden belirlenmiş bir değişken yoktur. Algoritma, mevcut verilerden gizli kalmış bir örüntü veya kural çıkarmaya çalışır. Veriler arasında böyle bir ilişki olabilir veya olmayabilir, bu yüzden gözetimsiz 37 öğrenmede yanlış sonuca varma gibi bir durum yoktur. En yaygın kullanılan gözetimsiz öğrenme yöntemleri kümelemedir. Gözetimli veya gözetimsiz öğrenme olarak kabul edilmeyen veya her iki gruba da dahil olabilecek algoritma birliktelik kuralıdır. Önceden hedef değişken belirleme gibi bir olay yoktur ve çok sayıda veri arasından anlamlı örüntüler bulma yöntemidir, bu anlamda gözetimsiz öğrenmeye örnek olabilir. Ancak birliktelik kuralı algoritmasında önceden belirlenen destek ve güven değerleri olması gerekmektedir. Bu anlamda gözetimli öğrenme sayılabilmektedir (Larose, 2005). 3.7.1. Sınıflandırma Yöntemleri Sınıflandırma, en yaygın kullanılan veri madenciliği yöntemlerinden biridir. Sınıflandırmada önceden tespit edilen sınıflar veya kategorilere ayrılmış hedef kategorik değişkeni belirlenir. Örneğin, yüksek – düşük gelir, hastalık şiddeti ağır-hafif, riskli müşteri-risksiz müşteri gibi. Bankacılık, eğitim, tıp, hukuk veya ülke güvenliği gibi alanlarda kullanılmaktadır. Araştırmacı çok sayıda kayıt ve değişken içeren küme ile ilgileniyordur. Buna kayıt kümesi (training set) denir. Bu kümede olmayan bir bilgiye ulaşmak istiyordur. Bu da hedef değişkendir (target variable). Kayıtlar arasında sınıflama yaparak hedef değişken kategorilerine ulaşmak sınıflamanın temel sürecidir. Matematiksel olarak ={ , ,…, } bir veri tabanı ve ={ , ,…, } : bir kayıt, m adet sınıf kümesi olmak üzere olarak tanımlansın ve = { | ( ) = ,1 ≤ ≤ , ∈ } sınıfına ait kayıtları içerir şeklinde tanımlanır. Çizelge 3.2’de verilen örnekte, kişilere ait kayıtlar vardır. Gelir düzeyi bilgisi bilinmemektedir. Kayıt kümesindeki bilgilerden hedef değişken olan “gelir düzeyi” bilgisi elde edilemeye çalışılır ve kategorize edilir. 38 Çizelge 3.2. Sınıflandırma yöntemi için kayıt kümesi örneği Sıra No 001 Yaş Cinsiyet Meslek 44 E 002 003 . . . 32 57 . . . K E . . . Satış Sorumlusu Doktor Öğretmen . . . Doğum Tarihi 12.03.1969 Araç Durumu Var Konut Durumu Kira Gelir Düzeyi Orta 27.08.1981 01.02.1956 . . . Var Yok . . . Mülk Mülk . . . Yüksek Orta . . . Hedef Değişken Kayıt 3.7.1.1. Karar Ağaçları Sınıflandırma teknikleri içerisinde en sık kullanılan, ilgi çekici ve anlaşılması kolay bir yöntemdir. Başlangıçta veri tabanı ve bu tabana ait kayıtlar (rootnode) vardır. Bu kayıt dallara (branches) ayrılır. Dallardan ise yapraklara (leafnodes) inilir. Yapraklar birer sınıf ve dal ayrımları düğümlerdir. = { , , …, olsun. } bir veri tabanı ve oluşturulan karar ağacı aşağıdaki gibi kök kaydından karar düğümleri ile dalları ile karar sorgulamaları yapılır. ’den ve dallarına inilir. dalı ile ’den yaprağına inilir. ve ile ilk karar düğümü sonlandırılmış olur. Aynı işlemler diğer tüm dallar için yapılır ve artık tamamen yapraklara ulaşınca süreç sona ermiş olur. Şekil 3.16. Karar ağacı örneği 39 Daha sonra ulaşılan yapraklardan (sınıflardan) sonuçlar belirlenmeye çalışılır. Gereksiz bilgiler çıkarılır veya budanır (prunning). Düğüm belirleme, dal sayısı belirleme ve sınıf belirleme tekniklerine göre çok çeşitli karar ağaçları algoritmaları vardır. Ayrıca budama yöntemlerine göre de çeşitli algoritmalar geliştirilmiştir. Bunlardan ID3, C 4.5 ve C5: J. Ross Quinlan tarafından Sydney Üniversitesinde geliştirilen ve entropiye dayalı algoritmalardır. Makine öğrenmesi ve bilişim teorisine dayalı olarak geliştirilmiştir. Entropi, bir sistemdeki belirsizliğin ölçüsüdür. Veriler genellikle tek bir sınıfa ait değildir. Hedef değişkenin her bir sınıfa ait olma olasılıkları farklıdır ve mutlaka bir sınıfa ait olması gerekir. Entropi 0 ile 1 arasında bir değer alır. Matematiksel olarak şöyle ifade edilir: , Hedef değişkenin sınıflara ait olasılıkları ,…., olsun ( ≠ 0). Olasılıkların toplamının 1 olması gerekir. Bu durumda entropi aşağıdaki formül ile tanımlanır. ( , ,…., ) =− ∑ ∙ ( ) ( 3.7) Her üç algoritma da veri tabanının bölünmeden önceki ve bölündükten sonraki yani dallanma başladıktan sonraki kazanımına göre işler. Dolayısıyla verilerin ham halinin entropisi ile yani başlangıçtaki entropi ile her bir alt bölümün entropilerinin ağırlıklı toplamı arasındaki fark alınır. Bu fark hangi alt bölüm için büyükse o alt bölüme doğru dallanma yapılır. Bu durumda kazanım için formül ı ( )= şeklinde ∑ olur. ( )∙ −∑ Burada ( )∙ kayıt ( 3.8) kümesinin ham halinin entropisi ve ise dallanma sonrası her bir kayda ait alt bölüm entropileri toplamıdır. CART (Classification And Regression Trees): Sınıflandırma ve regresyon ağacı algoritması 1984’te Breiman et al. tarafından geliştirilmiştir. Ağacın her bir karar düğümünden itibaren içerisindeki kayıtların daha homojen olduğu iki dala ayrılması ilkesine dayanmaktadır. CART algoritması da en iyi dallanma kriterini seçerken entropiden yararlanmaktadır, fakat bunun için bu algoritmalardan daha farklı iki yöntem kullanmaktadır: Twoing ve Gini yöntemleri. CHAID (Chi-Squared Automatic Interaction Detector): 1980 yılında Kass tarafından geliştirilen algoritma, bölümleme veya ağaç oluşturma için oldukça etkili 40 istatistiksel bir yöntemdir. CHAID istatistiksel bir testi dallanma kriteri olarak kullanarak, tüm bağımsız değişkenler için bir değerlendirme yapmaktadır. Hedef değişken (bağımlı değişken) değerlerine göre istatistiksel olarak homojenlik gösteren (farklılık göstermeyen) değerleri birleştirmekte, farklılık gösterenlere ise dokunmamaktadır. Daha sonra dallarında homojen değerlerin yer aldığı ağacın ilk dalını oluşturmak için en iyi bağımsız değişkeni seçmekte ve bu süreç ağaç tamamen büyüyene kadar yinelemeli bir şekilde devam etmektedir. Dallanma kriteri olarak kullanılacak istatistiksel test hedef (bağımlı) değişkenin ölçme düzeyine göre farklılık göstermektedir. Eğer hedef değişken sürekli ise F testi, kategorik ise ki-kare testi kullanılmaktadır. En küçük p değerine sahip değişken ile ağacın ilk dalı oluşturulmaktadır. QUEST (Quick, Unbiased, Efficient Statistical Tree): 1997’de Loh ve Shih tarafından geliştirilen ikili ağaç üreten bir algoritmadır. Hem uygun bölünme için değişken seçimiyle hem de bölünme noktası belirleme ile ilgilenmektedir. Sınıflandırma türündeki problemler için QUEST algoritması CART, CHAID algoritmalarından hız bakımından daha üstündür. Fakat regresyon türündeki (sürekli bağımlı değişkenli) problemlerde QUEST algoritması kullanılamamaktadır. SLIQ (Supervised Learning In Quest) : 1996 yılında IBM Almaden Araştırma Merkezinde Mehta, Agrawal ve Rissanen tarafından önerilen hem sayısal hem de kategorik verilerin sınıflandırılmasında kullanılabilen bir algoritmadır. Sayısal verilerin değerlendirilmesindeki maliyeti azaltmak için ağacın oluşturulması sırasında önceden sıralama tekniği kullanılır. Sayısal verilerle işlem yapılırken en iyi dallara ayırma kriterini bulmak için verileri sıralama önemli bir faktördür. SLIQ algoritmasında kullanılan teknik ise verileri sıralama işlemini her düğümde yapmak yerine öğrenme verilerini ağacın büyüme aşamasının başlangıcında olmak üzere sadece bir kez yaparak gerçekleştirmesidir. Algoritma dallanma kriteri olarak “Gini indeksini” kullanmaktadır (Mehta, 1996). SPRINT (Scalable PaRallelizable Induction of DecisionTrees) : ID3, CART ve C4.5 gibi algoritma önce derinlik ilkesine göre çalışmakta ve en iyi dallanma kriterine ulaşabilmek için her düğümde sürekli olarak verileri sıraya dizmektedirler. SPRINT ise her bir değişken için ayrı bir liste kullanarak bu sıraya dizme işlemini sadece bir kez yapmaktadır (Rahman, 2011). 41 3.7.1.2. Bayes/Naïve-Bayes Sınıflandırma Naïve-Bayes Sınıflandırması makine öğreniminde gözetimli öğrenme alt sınıfındadır. Sınıflandırma işleminde genel olarak elde bir örüntü (pattern) vardır. Buradaki işlem de bu örüntüyü daha önceden tanımlanmış sınıflara sınıflandırmaktır. Her örüntü nicelik kümesi tarafından temsil edilir. Elde varolan halihazırdaki sınıflanmış verileri kullanarak yeni verinin hangi sınıflardan birine gireceği olasılığını hesaplar. Bayes teoremine göre geliştirilmiş bir algoritma olup bu kurala göre istatistiksel kestirim yapar (Olmuş, 2003). göre ={ , , …, ={ , , …, kümesinin } sınıf üyeliği bilinmeyen bir veri kümesi ve } veri kümesi üzerindeki n tane sınıf olsun. Bayes teoremine üzerinde koşullandırılmasıyla olasılığı aşağıdaki şekilde hesaplanır. ( ) =∑ . ( ) ( 3.9) ve = . ( ) ( 3.10) ( ) Hesaplamalardaki işlem yükünü azaltmak üzere yoluna gidilebilir. Bunun için örneğe ait olasılığı için basitleştirme değerlerinin birbirinden bağımsız olduğu kabul edilerek şu bağıntı kullanılabilir. =∏ ( | ) Bilinmeyen örnek (3.11) ’i sınıflandırmak için Eşitlik (3.10)’da içinde yer alan paydalar birbirine eşit olduğuna göre pay değerlerinin karşılaştırılması yeterlidir. Bu değerler içinden en büyük olanı seçilerek bilinmeyen örneğin bu sınıfa ait olduğu belirlenmiş olur. Sonsal olasılıkları kullanan yukarıdaki ifade, En Büyük Sonsal Sınıflandırma yöntemi (Maximum A Posteriori classification=MAP) olarak da bilinmektedir. O halde sonuç olarak Eşitlik (3.11)’den dolayı Bayes sınıflandırıcısı olarak, = bağıntısı kullanılır. ( )∏ ( | ) (3.12) 42 3.7.1.3. k-En Yakın Komşu (k-ortalama) algoritması k-ortalama (k-means) algoritması en iyi bilinen ve yaygın kullanılan mesafeye dayalı kümeleme algoritması ve bölümleme tekniğidir. İlk olarak J. MacQueen tarafından 1967 yılında tanıtılmıştır. Mesafe ölçümü verilerin birbirlerine olan uzaklıkları veya benzerlikleri hesaplanarak yapılır. En sık kullanılan mesafe ölçüsü Öklit (Euclides) mesafesidir. Bunun yanı sıra Minkowski ve Manhattan uzaklık ölçüm teknikleri de kullanılmaktadır. Algoritmaya k-ortalama denilmesinin sebebi algoritma çalışmadan önce sabit bir küme sayısı belirlenmesindendir. Küme sayısı k ile gösterilir ve elemanların birbirlerine olan yakınlıklarına göre oluşacak grup sayısını ifade eder. Buna göre k, önceden bilinen ve kümeleme işlemi bitene kadar değeri değişmeyen sabit bir pozitif tamsayıdır. Kümeleme işlemi, verilerin en yakın veya benzer oldukları küme merkezleri (centroid) etrafına yerleştirilmesi ile gerçekleştirilir. Bu nedenle tekniğin adı daha çok k-en yakın komşu (k-nearest neighbour) olarak kullanılır. Belirlenen noktaya en yakın şehir, istasyon, yeşil alan gibi mekanların belirlenmesini içeren coğrafi bilgi sistemleri başta olmak üzere endüstri, medya ve tıp alanında kullanılmaktadır. Algoritma basamakları şöyle sıralanmaktadır: i. k parametresini seç ii. Uygun bir mesafe ölçüm uzayı belirle iii. Birbirine en yakın k adet noktayı belirle iv. Belirlenen grubun en çok rastlandığı sınıfı belirle v. Bu gruba belirlenen sınıfın listesini ata Çok yaygın kullanımı olmakla birlikte zayıf yanları da bulunmaktadır. k sayısının başlangıçta belirlenmesine gerek vardır. Dolayısıyla elde edilecek sonuçlar k sayısına göre değişkenlik gösterebilir. Eğer küme sayısı belli değilse denem yoluyla en uygun sayı bulunur. Gürültülü ve istisna veriler algoritmayla hesaplanan ortalamayı değiştirdiği için gürültülü verilere karşı duyarlıdır. Çakışan kümelerde iyi sonuç vermemektedir ve sadece sayısal veriler ile kullanılabilmektedir (Dinçer, 2007). 43 3.7.1.4. k-medoid Medoid, herhangi bir kümedeki tüm elemanlara olan ortalama uzaklığı (benzemezlik ölçüsü) en küçük olan küme elemanıdır. 1987 yılında Kaufman and Rousseeuw tarafından geliştirilmiştir. Bir grup nesneyi k tane kümeye bölerken asıl amaç, birbirine çok benzeyen nesnelerin bir arada bulunduğu ve farklı kümelerdeki nesnelerin birbirinden benzersiz olduğu kümeleri bulmaktır. k adet temsilci nesne tespit edildikten sonra her bir nesne en yakın olduğu temsilciye atanarak k tane küme oluşturulur. Veri kümesindeki k-medoid bulunarak bu medoide olan uzaklıklarına göre toplamdaki n noktayı kümelemeye çalışan bir yaklaşımdır. Sonraki adımlarda her bir temsilci nesne temsilci olmayan nesne ile değiştirilerek kümelemenin kalitesi yükseltilinceye kadar ötelenir. Bu kalite nesne ile ait olduğu kümenin temsilci nesnesi arasındaki ortalama benzersizlik maliyet fonksiyonu (cost function) kullanılarak değerlendirilir. k-medoid, tutarsız ve aykırı gözlemelere sahip verilerde daha iyi sonuçlar vermektedir. Ayrıca, Öklit uzaklıkları kareleri toplamı ile değil, benzemezlik değerlerini toplamının en aza indirgenmesi şeklinde hesaplandığından matematiksel olarak bu yöntem daha iyi sonuç vermektedir. Medoidler uç değerler ve düzensizliklerin varlığında küme merkezine göre daha az etkilenirler. Medoid Etrafında Bölümleme (Partitioning Around Medoids-PAM) en çok bilinen algoritma olarak kullanılmaktadır (Karaağaoğlu, 2012). 3.7.1.5. Destek Vektör Makineleri (SVM) Destek Vektör Makinesi (Support Vector Machine), 1960’lı yılların sonunda Vladimir Vapnik ve Alexey Chervonenkis tarafından geliştirilmiş, temel olarak istatistiksel öğrenme teorisine dayanan parametrik olmayan bir makine öğrenmesi yöntemidir. DVM metodu son yıllarda özellikle veri madenciliğinde değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için sıklıkla kullanılmaktadır. Büyük boyutlu verilerde en önemli sorun doğrusal olarak ayrılamamasıdır. Klasik istatistiksel yöntemlerin de en büyük dezavantajı bu noktadır. Bu metot, temelde iki sınıflı problemlerin çözümünde doğrusal bir sınıflayıcı olarak düşünülmüş, daha sonra doğrusal olarak ayrılamayan veya çok sınıflı sınıflama problemlerinin çözümüne de genelleştirilerek, bu problemlerin çözümünde de yaygın olarak kullanılmaya başlanmıştır. Bu işlemin yapılması için iki gruba da yakın ve 44 birbirine paralel iki sınır çizgisi çizilir ve bu sınır çizgileri birbirine yaklaştırılarak ortak sınır çizgisi üretilir. Herhangi bir şekilde doğrusal olarak sınıflanamayan verileri daha yüksek boyutlu uzaya aktarır ve marjini en büyük olan hiper-düzlemleri bulur. Veriler bu ayırt edici hiper-düzeleme göre sınıflara atanır. Bu düzlemi ve boyutları birer özellik olarak düşünmek mümkündür. Yani basit anlamda sisteme giren her girdinin bir özellik çıkarımı (feature extraction) yapılmış ve sonuçta bu iki boyutlu düzlemde her girdiyi gösteren farklı bir nokta elde edilmiştir. Bu noktaların sınıflandırılması demek, çıkarılmış olan özelliklere göre girdilerin sınıflanması demektir. Ayrıca, verileri çok boyutlu uzayda kategorilere ayırmak için farklı çekirdek fonksiyonlar kullanılabilir. En sık kullanılan çekirdek fonksiyonları doğrusal ve çok terimli radyal temel fonksiyonu (RBF) ve sigmoiddir. DVM algoritması öğrenme teorisinin ve pratiğinin kesiştiği bir uygulamadır. Gerçek dünya uygulamaları, teorik olarak çözülmesi zor ve karmaşık olan uygulamalardır. DVM algoritması bu iki zorluğu da basitçe kaldırabilir ve karmaşık modellerde çözüm getirebilir Ayrıca, bayesyen yaklaşım mantığını kullanarak sınıflama ve regresyonda daha hassas sonuçlar veren geçerli vektör makinesi (Relevance Vector Machine-RVM) adında bir yöntem de bulunmaktadır (Karaağaoğlu, 2012). Şekil 3.17. Destek Vektör Makinesi Algoritması problem çözüm düzlemi 3.7.1.6. Yapay Sinir Ağları (Artificial Neural Networks) Yapay Sinir Ağları (YSA) üzerinde ilk çalışmanın McCulloch ve Pitts tarafından yapay sinir tanımını yaparak hücre modeli geliştirmeleri şeklinde 1943 yılında başladığı 45 kabul edilir. İnsan beyninin bilgi işleme tekniğinden ve biyolojik sinir ağlarından esinlenerek geliştirilmiş bir bilgi işlem teknolojisidir. Simüle edilen sinir hücreleri nöronlar içerirler ve bu nöronlar çeşitli şekillerde birbirlerine bağlanarak ağı oluştururlar. Bu ağlar öğrenme, hafızaya alma ve veriler arasındaki ilişkiyi ortaya çıkarma kapasitesine sahiptirler. Diğer bir ifadeyle, YSA'lar, normalde bir insanın düşünme ve gözlemlemeye yönelik doğal yeteneklerini gerektiren problemlere çözüm üretmektedir. Bir insanın, düşünme ve gözlemleme yeteneklerini gerektiren problemlere yönelik çözümler üretebilmesinin temel sebebi ise insan beyninin ve dolayısıyla insanın sahip olduğu yaşayarak veya deneyerek öğrenme yeteneğidir. YSA’nın çeşitli özellikleri vardır. Bunlar, doğrusal olmama, adaptif öğrenme, genelleme, uyarlanabilirlik, hata toleransı ve donanım hızıdır. YSA, arıza analizi, tıp, savunma sanayi, haberleşme, üretim, otomasyon ve kontrol gibi çok geniş alanlarda uygulanmaktadır. Birbirine bağlı nöronlar, bağlantılar arasındaki ağırlıklar ve ateşleme fonksiyonu en temel bileşenleridir. Yapay Sinir Ağları girdi, çıktı ve gizli şeklinde üç katmandan oluşur. Gizli katman , her bir girdi katmanı gizli katmanına bağlayan = . + . + … + den işaret alır. ağırlıkları vardır. Bu durumda, . nöronlarını nöronunun girdisi (3.13) şeklinde işaret ve ağırlıkların lineer çarpımına eşit olur. Y nöronunun aktif hale gelmesi için Yani, değerinin bir fonksiyon eşliğinde belirli bir eşik değerine ulaşması gerekir. = ( ) şeklinde olmalıdır. Bu amaçla, çeşitli fonksiyonlar kullanılır. En sık kullanılan fonksiyonlar sigmoid s-lojistik ( ) = (3.14) hiperbolik tanjant ( ) = (3.15) 46 Şekil 3.18. Yapay Sini Ağı ve katmanlarını gösteren bir örnek çizim nöronu ’leri ateşleyecektir. Ancak, her bir işaretin ağırlığı farklı olduğundan bunlar birbirine eşit olmayacaktır. Yapay sinir ağlarında kullanılan ∆ ağırlıkları her seferinde kadar düzeltilerek yenilenir. = +∆ Gerçekte var olan değer (3.16) ile; ağırlıkları ile elde edilen değer ile gösterilirse hata fonksiyonu = = ( − ) (3.17) olarak hesaplanır. Geliştirilen YSA modelleri arasında en yaygın kullanılanları tek ve çok katmanlı algılayıcılar, LVQ, ART ve SOM ağlarıdır. Yapay sinir ağlarının üstünlüklerinin yanı sıra bazı sakıncaları olduğu da söylenebilir: Sistem içerisinde ne olduğu bilinemez, bazı ağlar hariç kararlılık analizleri yapılamaz, farklı sistemlere uygulanması zor olabilir (Silahtaroğlu, 2008). 3.7.1.7. Genetik Algoritma Genetik algoritmaların temel ilkeleri ilk kez Michigan Üniversitesi'nde John Holland tarafından 1975 yılında ortaya atılmıştır. Holland, yaptığı çalışmaları “Adaptation in Natural and Artificial Systems” adlı kitabında bir araya getirmiştir. İlk olarak Holland evrim yasalarını genetik algoritmalar içinde eniyileme problemleri için 47 kullanmıştır. Genetik algoritmalar, doğal seçim ilkelerine dayanan bir arama ve optimizasyon yöntemidir. Genetik algoritmalar problemlere tek bir çözüm üretmek yerine farklı çözümlerden oluşan bir çözüm kümesi üretir. Böylelikle, arama uzayında aynı anda birçok nokta değerlendirilmekte ve sonuçta bütünsel çözüme ulaşma olasılığı yükselmektedir. Çözüm kümesindeki çözümler birbirinden tamamen bağımsızdır. Her biri çok boyutlu uzay üzerinde bir vektördür. Genetik algoritmalar problemlerin çözümü için evrimsel süreci bilgisayar ortamında taklit ederler. Diğer eniyileme yöntemlerinde olduğu gibi çözüm için tek bir yapının geliştirilmesi yerine, böyle yapılardan meydana gelen bir küme oluştururlar. Problem için olası pekçok çözümü temsil eden bu küme genetik algoritma terminolojisinde nüfus adını alır. Nüfuslar vektör, kromozom veya birey adı verilen sayı dizilerinden oluşur. Birey içindeki her bir elemana gen adı verilir. Nüfustaki bireyler evrimsel süreç içinde genetik algoritma işlemcileri tarafından belirlenirler. Geleneksel optimizasyon yöntemlerine göre farklılıkları olan genetik algoritmalar, parametre kümesini değil kodlanmış biçimlerini kullanırlar. Olasılık kurallarına göre çalışan genetik algoritmalar, yalnızca amaç fonksiyonuna gereksinim duyar. Çözüm uzayının tamamını değil belirli bir kısmını tararlar. Böylece, etkin arama yaparak çok daha kısa bir sürede çözüme ulaşırlar. Diğer bir önemli üstünlükleri ise çözümlerden oluşan popülasyonu eş zamanlı incelemeleri ve böylelikle yerel en iyi çözümlere takılmamalarıdır. Genetik algoritma, fonksiyon optimizasyonu, çizelgeleme, mekanik öğrenme, tasarım, hücresel üretim, finans, pazarlama, araç rotalama, tesis yerleşim ve otomatik programlama gibi alanlarda başarılı ile uygulanmaktadır (Emel, 2002) (Mitchell, 1999). 3.7.1.8. Bellek Temelli Nedenleme (Memory Based Reasoning) Bellek Temelli Nedenleme (MBR), daha önceki deneyimlerden yararlanarak mevcut problemlere benzer durumları tanımlayıp geçmiş benzer problemlere getirilen uygun çözümleri mevcut problemlere uygulaya çalışan bir gözetimli öğrenme sınıfına ait veri madenciliği yöntemidir. MBR tekniğinin performansını belirleyen iki fonksiyon vardır: uzaklık ve kombinasyon fonksiyonları. İki kayıt arasındaki uzaklığın bulunmasını uzaklık fonksiyonu, sonuçların anlamlı olacak şekilde birleştirilmesini ise kombinasyon fonksiyonu sağlar. Her türlü veri tipi için geçerli bir tekniktir. Ancak, yeni kayıtların sınıflandırılması bu kayıtlara en yakın komşu kayıtların sistemde taranacağı anlamına geldiğinden, bu teknik MBR ya da karar ağaçları tekniklerinden 48 çok daha fazla zaman alıcı olmaktadır. Ayrıca sonuçlar uzaklık fonksiyonu, kombinasyon fonksiyonu ve komşu sayısı seçimlerine göre değişmektedir. Sahtekarlık tespiti, müşteri cevap tahmini, tıp ve sınıflama yanıtları alanlarında kullanılmaktadır. 3.7.1.9. Regresyon İki veya daha fazla değişken arasındaki ilişkinin matematiksel olarak belirlenmesi yöntemidir. En küçük kareler yöntemiyle elde edilen tek değişkenli, doğrusal bir regresyon modeli = + + şeklinde olur. katsayısıdır. = (3.18) denklemin sabit katsayısı, doğrunun eğimi aynı zamanda regresyon ise denklemdeki hata terimidir. Verilere ait denklem hiçbir zaman + (3.19) şeklinde olmaz. Denklemin bu hali deterministiktir. Oysa gerçek gözlemlerin her zaman stokastik yönü vardır. Hata terimleri stokastik kısmı oluşturur. Denklem bize ’teki bir birimlik değişimin y üzerinde yaratacağı değişikliği gösterir. Veri madenciliği açısından , sınıfları temsil eder. ’nin alacağı değere göre olacağı tahmin edilecektir. değişkenleri değerlerinin hangi sınıfa dahil sınıfını temsil ederken oluşturacakları model her zaman doğrusal olmayabilir. Kuadratik veya kübik modeller de karşımıza çıkabilir. Üçüncüdereceden daha üst dereceli fonksiyonlar kullanılmaz. Eldeki verilere bağımlı sonuçlar elde edileceğinden üst dereceli fonksiyonların kullanılmasına gerek yoktur. Tek veya çok değişkenli regresyon modelleri nümerik veriler ile çalışır. Ancak verilerin veya sınıf değişkeninin değerleri sıralı veya nominal ise lojistik regresyon modeli kullanılır. Regresyon konusu çok geniş bir konudur. Burada detaylı olarak anlatılmayacaktır. 3.7.2. Kümeleme Yöntemleri Kümeleme analizi sınıflandırmada olduğu gibi verileri gruplara ayırma işlemidir. Eldeki veriler incelenerek birbirine benzeyenler bir kümeye, benzemeyenler ise başka bir kümeye toplanmaktadırlar. Ancak sınıflandırma işleminde, sınıflar önceden belirli iken kümelemede sınıflar önceden belirlenmemiştir. Bu özelliği nedeniyle denetimsiz öğrenmeye örnek teşkil eden kümeleme analizi istatistik, makine öğrenmesi, matematik ve yapay zeka gibi bir çok disiplin tarafından biyoloji, tıp, antropoloji, pazarlama, ekonomi ve telekomünikasyon gibi alanlarda sıkça kullanılmaktadır. 49 Örneğin istatistikte sıkça başvurulan önemli birçok değişkenli analiz yöntemidir. Kümeleme analizinde belirlenecek kümelerin özellikleri ve sayısı önceden bilinmemektedir. Ancak algoritmaların zaman karmaşıklığını ve alınacak sonuçların kullanılabilirliğini artırabilmek için literatürdeki algoritmaların bir kısmı ya kümesayısını ya da her bir kümede bulunacak eleman sayısı veya bu elemanlar arasındaki minimum-maksimum benzerlik uzaklık ölçütünü kullanıcıdan istemektedir. Kümeleme analizinde amaç verileri birbirleriyle benzer alt kümelere ayırmaktır. Verilerin hangi kümelere ayrılacağı, hatta kaç değişik küme oluşturulacağı verilerinbirbirine olan benzerliğine ve uzaklığına göre belirlenmektedir. Verilerin benzerliği ile kastedilen şey ise aralarındaki mesafenin ölçülmesi ve değerlendirilmesidir. Bu veritabanında bulunan her bir kaydın diğer bir kayıtla olan benzerliği ya da diğer kayıtlara uzaklığı olduğu gibi oluşturulan gerçek ve aday kümeler arasındaki benzerlik ve uzaklığı da içermektedir. En çok kullanılan uzaklık ölçütleri Öklit, Manhatten, Minkowski; benzerlik ölçütleri ise Dice, Jaccard, Cosine, Overlap’dir. Bunlar dışında da birçok ölçüt önerilmiştir. Şekil 3.19. İki nokta arasındaki Öklit uzaklığı Öklit uzaklığı şu şekilde ölçülür: Ö ( , )= ∑ ( − veya çok büyük kümelerde Ö ( , )=1− ‖ ) (3.20) = { ,…, } = { ,…, }dizileri için ∙ (3.21) ‖∙‖ ‖ şeklinde hesaplanır. Burada < ∙ > , X ve Y’nin vektörel çarpımıdır. 50 ve özelliklerine sahip verilerin topluluğu için verilerin bulunduğu düzlem aşağıdaki gibi olsun. Şekil 3.20. Kümeleme örneği Noktaların birbirlerine olan uzaklıkları dikkate alındığında iki farklı kümenin oluştuğu açıkça görülmektedir. O halde, küme oluşturmak için mesafe ölçüme ihtiyaç vardır. Örneğin; A={1,1,2,2,5}, B={1,2,3,4,2}, C={1,3,5,1,3} kümeleri beş ayrı sözcüğün üç farklı web sitesinde kullanım sıklığını göstersin. Hangi web sitesine ait metin diğerine daha çok benzemektedir? Ö ( , )= 1− 1.1 + 1.2 + 2.3 + 2.4 + 5.2 √1 + 1 + 2 + 2 + 5 . √1 + 2 + 3 + 4 + 2 27 =1− √35. √34 = 0,217 bulunur. ( , ) = 1 − √ = 0,218 .√ de aynı şekilde bulunur. ( , )< ( , ) olduğundan A metni B metnine daha fazla benzemektedir. ={ , …, = (∑ ={ , } ve – ) …, } ∈ olmak üzere Minkowski uzaklığı (3.22) 51 şeklinde hesaplanır. Pozitif tamsayısı için = 1 ise Manhatten uzaklığı, = 2 ise Öklit uzaklığı elde edilir. Ses, karakter ve resim tanıması, makine öğrenimi, web sayfası aranması, DNA analizi, Coğrafi Bilgi Sistemleri ve bilgisayar alanlarında kullanılır (Atılgan, 2011). 3.7.2.1. Hiyerarşik Yöntemler Kümeleme yöntemleri ya hiyerarşik ya da hiyerarşik değildir. Hiyerarşik kümelemede tekrarlı bölünmeler veya mevcut kümelerin birleştirilmesi şeklinde ağaca benzer bir yapı (dendrogram) oluşturulur. Hiyerarşik kümeleme yöntemleri, birimleri birbirleri ile değişik aşamalarda bir araya getirerek ardışık biçimde kümeler belirlemeyi ve bu kümelere girecek elemanların hangi uzaklık (ya da benzerlik) düzeyinde küme elemanı olduğunu belirlemeye yarayan yöntemdir. Hiyerarşik kümeleme iki grupta incelenebilir, bunlar yığılmalı (agglomerative) hiyerarşik kümeleme ve bölünmeli (divisive) hiyerarşik kümelemelerdir. Yığılmalı hiyerarşik kümeleme, verideki her bir gözlemi bir küme olarak düşünür. Birleştirme işlemleri uygulanarak kümeler tek bir küme elde edilinceye kadar devam ettirilir. Bölünmeli hiyerarşik kümelemede, başlangıçta tüm birimlerin bir küme oluşturduğu kabul edilerek, birimleri aşamalı olarak kümelere ayırır. 3.7.2.2. Bölümlemeli Yöntemler Bölmeli metotlar, hiyerarşik olmayan kümeleme metotlarıdır. Bu metotlar, n adet birimden oluşan veri setini başlangıçta belirlenen k<n olmak üzere k adet kümeye ayırmak için kullanılır. Bölmeli metotların hiyerarşik metotlardan en önemli farkından birisi de budur. Hiyerarşik yöntemlerin tersine kullanıcı tarafından verilen bazı kriterlere uygun kümeler yatırılırken, yaratılacak küme sayısı önceden belirlidir. Kullanıcı algoritmayı kümeler arasındaki minimum / maksimum mesafeyi ve kümelerin iç benzerlik kriterlerini de vermek zorundadır. Bölmeli metotlarda işlemler şu sıra ile yapılır: İlk olarak başlangıç küme merkezleri gelişi güzel olarak seçilir. Birimlerin, belirlenen kümelerin merkezlerine olan uzaklıklarına göre yeni küme merkezleri oluşturulur. Ardından her küme için ortalama hesaplanır ve hesaplanan bu değer o kümenin yeni merkezi olur. Bu işlemler birbirilerinden farklı, kendi içlerinde homojen, birbirileri arasında benzerlik bulunmayan k adet küme oluşturuluncaya kadar 52 sürdürülür. Görüldüğü gibi, bu metotlar iteratif süreçlerden oluşan metotlardır. Bölmeli metotları arasında en bilinenleri k-ortalamalar kümeleme ve k-Medoids parçalamalar yöntemidir. Şekil 3.21. Bölmeli yöntemin uygulanma aşamaları 3.7.2.3. K-Ortalamalar (K-Means) Bölümleme Yöntemi K-ortalamalar yönteminin uygulanabilmesi için en önemli koşul, veri setindeki değişkenlerin en azından aralık ölçekte bulunmasıdır. Çünkü küme merkezleri oluşturulurken her bir iterasyonda oluşan kümeler için değişkenlerin ortalamaları alınır. İkinci önemli koşul ise, oluşturulacak olan küme sayısının başlangıçta biliniyor olmasıdır. K-ortalamalar yönteminin kullandığı algoritma aşağıdaki gibidir: i. k adet birim başlangıç küme merkezleri olarak rastgele seçilir. ii. Küme merkezi olmayan birimler, belirlenen uzaklık ölçütlerine başlangıç küme merkezlerinin ait oldukları kümelere atlanır iii. Yeni küme merkezleri, oluşturulan k adet başlangıç kümesindeki değişkenlerin ortalamaları alınarak oluşturulur. iv. Birimler en yakın oldukları oluşturulan yeni küme merkezlerine birimlerin uzaklıkları hesaplanarak kümeye atlanır. 53 v. Bir önceki küme merkezlerine olan uzaklıklar ile yeni oluşturulan küme merkezlerine olan uzaklıklar karşılaştırılır. vi. Uzaklıklar makul görülebilir oranda azalmış ise iv. adıma dönülür. vii. Eğer çok büyük bir değişiklik söz konusu olmamış ise iterasyon sona erdirilir. İterasyonun durdurulması için kullanılan ölçütlerden birisi, kareli hata ölçütleridir. Bu ölçüt veri uzayında bir nokta, ise kümesine ait ortalama ya da küme merkezi olmak üzere şu biçimdedir: =∑ ∑ ∈ | − | (3.23) 3.7.2.4. K-Medoids Bölümleme Yöntemi k-ortalamalar kümeleme yöntemine benzer biçimde işlem yapan fakat her bir iterasyon sonucunda referans alınacak küme merkezlerini seçerken değişkenlerin ortalama değerlerini almayıp birimleri küme merkezi olarak alan bir kümeleme yöntemidir. Eğer veri setindeki kümeleme için kullanılacak olan değişkenler kategorik değişkenler ise k- medoids yöntemi tercih edilir. k-ortalamalar kümeleme yöntemi küme merkezlerini oluştururken ortalama aldığı için aşırı değerlere duyarlı olmasına karşılık k-medoids parçalama yöntemi, birimleri küme merkezi olarak seçtiğinden dolayı aşırı değerlere karşı duyarlı değildir. k-medoids parçalama yönteminin amacı her bir küme için temsili bir birim bulmaktır. Bu temsili birime medoid adı verilir. Medoid küme içerisine en merkezi birimdir. Medoidler aşırı değerlerin varlıklarından etkilenmedikleri gibi, medoidler incelenen birimlerin sırasına da bağlı değildir. k-medoids parçalama yönteminin takip ettiği algoritma aşağıdaki gibidir: i. k adet birim başlangıç medoidleri olarak rastgele seçilir. ii. Her bir birimin yakın olduğu medoide atanır. iii. Medoid olmayan birimler sırasıyla seçilir. iv. Sıra ile seçilen bir birim ile medoidin yer değiştirmesinin toplam maliyeti hesaplanır. v. Toplam maliyetler sıralanır. vi. En küçük toplam maliyet sıfırdan küçükse, iii. adıma dönülür. vii. Toplam maliyet sıfırdan büyük veya sıfıra eşit çıkarsa, iterasyon sona erer. (Çıngı, 2007) 54 3.7.2.5. PAM Algoritması PAM (Partitioning Around Medoids / Temsilciler Etrafında Bölümleme) yöntemi Kaufman ve Rousseuw tarafından 1990 yılında geliştirilmiş bir algoritmadır. PAM algoritması k adet kümeyi bulmak için seçilen temsilcilerin etrafına ana kümedeki tüm elemanları toplayarak ve her defasında bu temsilcileri değiştirerek kümeleme işlemini tamamlar. PAM algoritmasının temsilci olarak seçtiği noktaya medoid denilir; dolayısıyla bu algoritma k-medoid algoritması olarak da anılır. Bu temsilci (medoid) seçiminden kasıt ise kümenin merkezine yakın mesafede bulunan noktanın belirlenmesidir. k adet küme için seçilen k adet temsilci belirlendikten sonra, veri tabanındaki temsilci olmayan diğer noktalar (veriler) kendilerine en çok benzeyen temsilcinin etrafında toplanır. Temsilciler (medoid) belirlenmesi süreci k adet temsilcinin ana veri tabanından rastgele seçilmesiyle başlar. Daha sonraki her adımda seçilmiş bir temsilciyle, seçilmemiş bir noktasının yer değiştirmesinin kümenin kalitesi üzerinde yaratacağı iyileştirme hesaplanarak, temsilcilerin değiştirilip değiştirilemeyeceğine algoritma tarafından karar verilir. 3.7.2.6. CLARA Algoritması CLARA (Clustering LARge Applications / Geniş Uygulamaların Kümelenmesi) büyükveritabanlarının daha kısa süre içerisinde kümelenmesi amacıyla Kaufman ve Rousseuew tarafından 1990’da geliştirilmiş bir algoritmadır. Kümeleme işleminin yapım süresi azaldığı halde gerçekte algoritmanın zaman karmaşıklığında herhangi bir iyileşme söz konusu değildir. CLARA algoritması bütün veritabanını tarayarak temsilci noktalar seçmek yerine, veritabanından rastgele bir kümeyi alarak, PAM algoritmasını bu örnek küme üzerine uygular. Bu uygulama sonucunda oluşacak olan kümelerin her birinin temsilcisi belirlenir. Daha sonra ana kümeyi oluşturan veritabanından bir örnek küme daha seçilir. Bu esnada ilk temsilcilerin rastgele seçilmesi yerine bir önceki aşamada belirlenmiş temsilciler kullanılır. Bu da algoritma içinde temsilci değişimini azaltacak ve algoritma hem daha hızlı bir şekilde işleyecek hem de daha kaliteli sonuçlar verecektir. Bu tekrar örnekleme işleminin 5 defa yinelenmesi ve her defasında 40 + 2 adet örnek seçilmesinin en iyi sonucu verdiği Kaufman ve Rousseuew (1990) tarafından rapor edilmiştir. 55 3.7.2.7. CLARANS Algoritması CLARANS (Clustering Large Applications based on RANdomizedSearch – Rasgele Aramaya Dayalı Geniş Uygulamaları Kümeleme) algoritması isminden de anlaşılacağı gibi PAM ve CLARA algoritmalarının geliştirilmiş halidir. Algoritma verilen n adet temsilciler aracılığıyla ve bir şebeke diyagramından yararlanılarak k adet kümeye ayrılması şeklinde özetlenebilir (Atılgan, 2011). 3.7.3. Yoğunluğa Dayalı Yöntemler Farklı şekildeki kümeleri belirlemek için yoğunluğa dayalı algoritmalar geliştirilmiştir. Dağılmış noktaların oluşturduğu kümelerin k-means algoritması gibi sadece noktalar arasındaki Öklit mesafesine dayanarak belirlenmesi oldukça güçtür; üstelik bazı değişik şekildeki kümeler için de imkansızdır. Bu tür kümelerin tespit edilmesinde uç verilerin (outliers) ayıklanması da gerekmektedir. Aslında hiçbir kümeye ait olmayan bu uç veriler kümelerin belirlenmesi için yapılması gereken hesaplamaları etkileyeceğinden gerçek kümeler ortaya çıkartılmayacaktır. Bu gibi durumlarda, kümeleme işlemi, yoğunluğa dayanılarak yapılabilir; birlikte bir yoğunluk oluşturan noktalar ayrı birer küme olarak değerlendirilirler. Yoğunluğa dayalı kümelemede işlem kümeleri veri kümesinin geri kalanından daha yüksek yoğunluklu kısımların belirlenmesi olarak tanımlanır. Belirlenen yoğunluk alanlarının aralarında kalan veriler gürültü terimleri veya sınır noktaları olarak kabul edilir. En bilinen yoğunluk tabanlı algoritmalar DBSCAN, DENCLUE ve OPTICS algoritmalarıdır. DBSCAN (Density Based Spatial Clustering of Applications with Noise), 1996 yılında Martin Esler ve arkadaşları Hans-Peter Kriegel, Jörg Sander ve Xiaowei Xu tarafından geliştirilmiş bir algoritmadır. “Ulaşılabilir yoğunluk” esasına göre minimum küme sayısı komşuluk ve parametrelerini kullanarak çalışmaktadır. OPTICS algoritması DBSCAN algoritmasının genelleştirilmiş hali olarak kabul edilebilir. DENCLUE Algoritması (DENsityBasedCLUestEring), veri tabanında bulunan noktaların etki fonksiyonlarının toplamından yararlanılarak elde edilen genel bir yoğunluk fonksiyonunun, yerel maksimumlarının kullanılmasıyla yoğunluğa dayalı bir kümeleme gerçekleştirir. Birinci adımda, her bir noktanın kendi çevresi kapsamındaki etki fonksiyonu hesaplanır; bu fonksiyon parabolik, kare dalga fonksiyonu veya Gauss fonksiyonu olabilir. Bu fonksiyon veritabanındaki tüm noktalara uygulanır. İkinci adımda ise bu fonksiyonların toplamı bulunur. Hesaplanan bu etki fonksiyonları toplamı 56 bu veritabanının genel yoğunluğunu vermiş olacaktır. Üçüncü adımda kümeler matematiksel olarak yoğunluk–çekicileri (density-attractors) yardımıyla tespit edilir. Burada yoğunluk–çekicilerinden kasıt genel yoğunluk fonksiyonunun yerel maksimumlarıdır. Yoğunluk çekicileri yoğunluk fonksiyonunun gradyenti yardımıyla hesaplanır. 3.7.4. Izgara Tabanlı Yöntemler Izgara tabanlı kümeleme özellikle çok büyük veri setleri ile ilgilenmek için uygundur. Izgara tabanlı kümeleme yaklaşımı veri noktalarından çok hücreleri göz önüne alan bir yaklaşımdır. Bu özelliğinden dolayı, ızgara-tabanlı kümeleme algoritmaları genel olarak tüm kümeleme algoritmalarından hesapsal olarak daha etkindir. Bu yaklaşıma örnek olarak STING, STING+, WaveCluster, CLIQUE ve GDILC algoritmaları verilebilir. Izgara tabanlı kümeleme yaklaşımı çok çözümlü grid veri yapısını kullanır. Kümeleme yapılacak alanın sonlu sayıda hücrelere bölünmesiyle oluşur. Prensip, ilk olarak veri setini, ızgara gibi özetledikten sonra ızgara hücrelerini kümeyi oluşturmak üzere tekrar birleştirmek üzerinedir. Ana avantajı genelde birbirinden bağımsız sayıda veri nesnelerinde hızlı işlem zamanıdır. STING uzayı dikdörtgensel hücrelere bölen bir tekniktir. Bu hücreler hiyerarşik yapıdadır. Üst seviyedeki bütün hücreler bir sonraki alt seviyede parçalanmış hücrelerden oluşur. Her bir grid hücresindeki niteliklerle ilişkili istatistiksel bilgi (örneğin mean, maksimum veya minumum değerler) ön işlenir veya tutulur. Üst seviyede hücre istatistiksel parametreleri, alt seviyedeki hücre istatistiksel parametrelerden kolayca hesaplanabilir. Bu parametreler şu şekildedir: parametre, (sayı); nitelik-bağımlı parametreler, (minimum), (ortalama), bağımsız (standart sapma), (maksimum) ve hücrelerin nitel dağılımlarındaki dağılım tipi: normal, tek biçimli, üstel veya hiçbiri (dağılım bilinmiyor) gibi. Veri, veritabanına kaydedilirken, en alt seviyede hücrelerdeki , , s, ve parametreleri direkt olarak hesaplanır. CLIQUE (Clustering in Quest) algoritması yoğunluğa dayalı ve grid temelli yöntemleri birleştiren algoritmadır. Çok yüksek veri gruplarının kümelenmesi için geliştirilmiştir. Algoritma aşağıdaki ilkeler çerçevesinde çalışır. Öncelikle CLIQUE algoritmasının çok boyutlu veri uzayının alt uzaylarında çalıştığında ve bu sayede daha iyi kümeleme gerçekleştirdiğini belirtmek gerekir. Ayrıca, veri uzayının dağınık ve birbirinden 57 bağımsız veriler tarafından doldurulduğu kabul edilir. Algoritma, birbirine yakın noktalardan oluşan bölgeleri başka bir deyişle yoğun olan bölgeleri diğer bölgelerden ayırır ve bu bölgelere “birim” ismi verilir. Yoğunluk kavramı ise bir bölgedeki toplam veri sayısının daha önceden girilen bir değeri aşmasıdır. CLIQUE algoritması genel olarak üç adımda tamamlanır; i. Kümeleri kapsayan alt uzay tanımlaması ii. Kümelerin tanımlanması iii. Kümeler için minimum tanımın genelleştirilmesi (Silahtaroğlu, 2008). 3.7.5. Dalga Kümeleme (Wave Cluster) Wavelet dönüşümü kullanan kümeleme yöntemi olarak bilinen dalga kümelemesi (Wave Cluster), çoklu çözüm kümeleme algoritmasıdır. İlk olarak veri uzayını çok boyutlu grid yapısına dönüştürür. Sonra wavelet dönüşümü aracılığıyla yoğun bölgeleri bularak orijinal uzayda dönüşüm yapar. Farklı çözüm seviyelerindeki göreceli mesafe verimi wavelet dönüşümü sayesinde saklanır. Bu doğal kümeleri daha çok ayırt edilebilir hale getirir. İlgi alanındaki yoğun bölgeleri arayarak kümeler tanımlanabilir. Nokta kümelerin olduğu bölgeleri vurgulayarak şapka şeklinde filtreler kullanır. Aynı zamanda zayıf bilgileri küme sınırları dışına atar. Bu şu anlama gelir; veri kümelerinde, bilgileri otomatik olarak belirler ve bölgelerde temizlik yapar. Wavelet dönüşüm sınır dışındaki verileri otomatik olarak temizler. Wavelet dönüşüm, kümelerdeki farklı seviyedeki doğruluğu keşfeder. 3.7.6. Kohonen Ağlar (Kohonen Networks) Kohonen ağlar, Self OrganizingMap (SOM) olarak ta bilinen, kümeleme amaçlı kullanılan ve denetimsiz öğrenme çeşidi olan bir yapay sinir ağı yöntemidir. Algoritmada temel nokta “nöron”lardır. Nöronlar “girdi”ve “çıktı” şeklinde iki tabakadan oluşur. Girdi nöronlarının tamamı çıktı nöronları ile bağlıdır. Bu bağlar “güç” olarak adlandırılan ölçülerle ifade edilir. Algoritma çalışınca çıktı nöronları en çok veriyi kendilerine bağlamak için yarışırlar. İlişki vektör tabakası iki boyutlu ve ilişkisiz grid yapısı oluşturur. Öncelikle tüm girdi nöronları için çıktı nöronlarına ağırlık atanır. En güçlü ağırlığa göre veriler çıktı nöronlara gönderilir. Analiz sonucunda benzer veriler grid üzerinde aynı yerde, farklı olanlar ise uzak yerlerde kümelenir (Larose, 2005). 58 Şekil 3.22. 2-boyutlu Kohonen ağa ait ilişki vektörü tabakası 3.8. Birliktelik Kuralı (Association Rule Mining) 3.8.1. İlişki Analizi (Affinity Analysis) Kurum ve kuruluşların sahip oldukları veri tabanlarındaki bilgi gün geçtikçe artmakta bu nedenle büyük bilgi kümeleri içerisindeki ilişkileri ortaya çıkarma çabası içerisine girilmiştir. Bu tür ilişkiler kurum veya kuruluşlar için altın değerinde sonuçlar doğurabilecek kararların alınmasında önemli rol oynamaktadır. Günümüzde büyük kavramından kasıt; terabaytlar ile açıklanan miktarlardaki veri kümeleridir. İstatistik ve makine öğrenmesinin birleşimi ile bu kümeler içerisindeki gizli kalmış ilişkilerin açığa çıkarılması yöntemleri ortaya çıkmıştır. İlişki analizi veritabanındaki bir dizi ya da kaydın diğer kayıtlarla olan bağlantısını açıklayan işlemler dizisidir. Bir kayıt varken başka bir kaydın var olma olasılığı nedir veya üç, dört, daha fazla kaydın aynı anda veritabanına girme olasılığı nedir? Bu tür soruların cevabını ilişki analizi verir (Flank, 2004). Sınıflama yöntemleri, önemi olan kategorik özelliği tahmin etmeye yönelikti. Ancak ilişki analizi çok daha genel olup bir veri kümesindeki herhangi bir kuralı ortaya çıkarmaya yöneliktir. Basit anlamda söyleyecek olursak, “EĞER … ÖYLEYSE …” mantıksal bağlaç kuralı ile “özellik = değer” denkliği oluşturarak oluşturulur. Denkliğin sağ ve sol tarafları vardır. Ayrıca bütün özelliklerin kategorik olduğunu varsayarız. 59 Sınıflamadan farklı olarak sağ ve sol tarafın her ikisi de test edilebilir. Satışpazarlamadan, katalog tasarımlarına market sepeti analizinden iletişim hatlarındaki parazitlerin tespitine kadar birçok alanda kullanılmaktadır. Örneğin, herhangi bir ürünü satın alırken başka bir ürün de beraberinde alınıyorsa bu ürünler arasında bir bağlantı var demektir. Finansal bir veri kümesinden örnek verecek olursak: EĞER Mortgage=Evet VE Banka_Hesap_Durumu=Kredili İSE O HALDE İş_Durum=Çalışıyor VE Yaş_Grup=65 yaş altı olabilir. Özelliklerin sahip olduğu değerler arasında kurulan bu ilişkilere “birliktelik kuralı” denir. Bir veri kümesinden bu kuralları ortaya çıkarma işlemine ise birliktelik kuralı madenciliği (association rule mining- ARM) denilir (Bramer, 2007). 3.8.2. Market Sepeti Analizi (Market Basket Analysis) “Market Sepeti Analizi” ürünler arasında ilişkilerden yola çıkarak müşterilerin alışveriş alışkanlıklarının veri tabanındaki bilgiler aracılığıyla ortaya çıkarılması işlemidir. Bu bilgiler, market içerisinde ürünlerin yerleştirilmesi, marketin alan tasarımı ve satılacak ürünlerin belirlenmesine yardımcı olur. Market sepeti verisi müşteriler tarafından beraber satın alınan nesneleri içerir. Bu tür nesneler kümesine işlem (transaction) denir. Son yıllarda bu konu üzerinde çok sayıda çalışma yapılmıştır. Tespit edilen birliktelikler sayesinde rafların ürün tasarımlarının yapılması, müşterilerin kişisel tercihleri, promosyon düzenlemeleri gibi tüketiciye yönelik aktiviteler daha bilinçli bir şekilde yapılabilmektedir. Bu yöntem, web tabanlı sistemlere de kolaylıkla adapte edilebilmekte ve web sayfaları, yayınlar ve dokümanlar arasındaki benzerlikler bulunabilmektedir (Hahsler, 2005). Birliktelik kuralı matematiksel olarak şu şekilde ifade edilir: = { , ,…, } bir nesneler kümesi olsun. = { , , …, } veri tabanındaki işlemleri göstersin. Her bir ’nın alacağı değer 0 veya 1 olur. Eğer satın alınmışsa 1, alınmamışsa 0 değerini alır. Bu işlemler veritabanında kayıt altına alındığından, olmak üzere ve ⊆ için ’deki her bir ’ya karşılık gelen bir nesne kümesi değeri olur ve =1 dir. ⊆ ve ⊆ olmak üzere her işlemdeki ikili değişkenler eşleştirilir. Birliktelik kuralı; ⊂ , ⊂ ve ∩ = olmak üzere denilen bir belirteç ile 60 ⟹ (3.24) şeklinde tanımlanır. Denkliğin sol tarafına öncül (antecedent), sağ tarafına ise sonuç (consequent) denilir. Öncül kısmı kurallarda hangi öncül olayın gerçekleştiğini, sonuç ise hangi durum hakkında bir tanımlama yapılacağını belirtmektedir (Aggarwal, 2002). “EĞER Öncül O HALDE Sonuç” birlikteliği basitçe bir Venn diyagramı ile gösterilebilir. Şekil 3.23. Birliktelik kuralının Venn Diyagramı ile gösterilmesi Tanımda verilen ∩ = ifadesi ile Şekil 3.23’te verilen küme kesişimi arasında bir çelişki var gibi görülebilir. Teorik tanımdaki ayrık küme kavramı X ve Y’nin farklı özelliklere sahip işlemler (değişkenler) olduğunu anlatmaktadır. Dolayısıyla kesişimleri boş kümedir. Ancak şekilde gösterilen kesişim bölgesi, nesnelerin kesişimini değil de işlemlerin kesişimini göstermektedir. Yani X ve Y’nin aynı anda (birlikte) gerçekleştiği kayıtları ifade etmektedir. ⟹ birlikteliği; ( ⇒ ) şeklinde olursa tek nesneli birliktelik olur fakat daha kompleks birliktelikler de oluşturulabilir. ( , , , , … . ⇒ ) çokludan teke birliktelik; ( ⇒ , , , , … ) tekten çokluya birliktelik; ( , , , , , … ⇒ , , , … ) çokludan çokluya birliktelik kuralları çıkarılabilir. Çok boyutlu birliktelik kuralları, birden fazla karşılaştırma elemanı ya da özellik içeren birliktelik kurallarıdır. Örneğin, a ürününü alan müşterilerin b ürününü de almaları tek boyutlu bir birliktelik iken müşterilerin hangi gün, hangi mağazadan neler satın aldığı gibi birden fazla özelliği içeren birliktelikler çok boyutludur ve bu birliktelikler OLAP küpü kullanılarak keşfedilmektedir (Birant, 2010). 61 Şekil 3.24. OLAP Küpü örneği 3.8.3. Destek, Güven ve Kaldıraç Kavramları (Support, Confidence and Lift) Verilen bir veri kümesinden yüzlerce kural çıkarılabilir. Küme içerisindeki nesne sayısı arttıkça kural sayısı da hızlı bir şekilde artmakta ve incelenmesi zor olmaktadır. nesne sayısı ve = 3 −2 kural sayısı olmak üzere + 1 (3.25) şeklinde hesaplanır. Küçük bir örnek ile durumu anlatalım: Çizelge 3.3. Kural sayısı örneği # # ı ı 5 180 10 57.002 100 5,1537752 × 10 Veritabanı kayıtlarında, nesnelerin gruplandırılması ile elde edilen bağımlılık ilişkilerinin yüzde yüz geçerli olması beklenemez. Ancak, çıkarsaması yapılan kuralın, veritabanının önemli bir kısmı tarafından desteklenmesi, yani söz konusu durumun sıkça görülüyor olması gerekir. Oluşturulan birlikteliklerden hangisinin daha geçerli olduğunu ortaya çıkarmak için analiz performansı yapılır. Performans kriteri olarak temelde iki ölçü kullanılır: destek (support) ve güven (confidence). 62 büyük veri seti ve kümesi işlemleri (transactions) içeren kümeler olsunlar. ve , kümesi içerisindeki küçük nesne kümeleri olsunlar. arasındaki A örüntüsü için (A : ⟹ ve birliktelik kuralı için); Destek, ilgilenilen öncül ve sonuç değişkenlerinin her ikisinin de birlikte meydana gelme olasılığı olarak ifade edilir. Olasılık değeri, hem hem de ’yi içeren işlemlerin sayısının tüm işlemlerin sayısına oranı olarak gösterilir. s(T): T kümesindeki tüm işlemlerin sayısını göstermek üzere ( ) ( ∩ ) = ( ) ( )= ç ş ü ş (3.25) Güven ise kuralın doğruluğunun bir ölçüsü olup öncül özelliğinin gerçekleşmesinden sonra sonuç özelliğinin gerçekleşmesi olasılığıdır. Güven değeri bir koşullu olasılık ölçüsü olup hem hem de ’yi içeren işlemlerin sayısının yalnızca ‘i içeren işlemlerin sayısına oranı olarak gösterilir. ü ( ) ( | ) = ( )= ( ∩ ) ( ) ç ç ş = ş (3.26) Genellikle oluşturulan kuralda büyük destek oranı istenilir. Güçlü destek ve yüksek güven oranı olan kurallar güçlü kural (strong rules) olarak kabul edilir. Birliktelik kuralının esas amacı bu şekilde tanımlanan güçlü ilişkileri tespit etmektir (Chen, 1996). Ancak kuralın güçlü olabilmesi için hangi destek değeri güçlü ve hangi güven değeri yüksek kabul edilecektir? Bu nedenle destek ve güven değerleri için bir eşik değere ihtiyaç vardır. Bu değerler kullanıcı tarafından belirlenen minimum destek (min.des - minsup) ve minimum güven (min.güv – minconf) değerleridir. O halde, oluşturulan tüm kurallarda elde edilen destek ve güven değerlerinin beraberce min.des ve min.güv değerlerinden yüksek olması gerekir. Birliktelik kurallarının destek ve güven değerleri ne kadar büyük olursa, kurallarında oderece güçlü olduğu söylenmesine rağmen bu durum her zaman doğru olmayabilir. Çünkü veri tabanından elde edilen bir kuralda öncülün olması olasılığı, sonucun olması olasılığından daha düşük olmalıdır ki, öncül sonuca katkı yapmış olsun. Bu durumun ölçüsü ise Kaldıraç (Lift) ile ifade edilmektedir. 63 ç( ) ı ü ( ) ( ) ( | ) ( ) = = ( ∩ ) ( )∙ ( ) = ç ( )= ş ç ş × ç ş (3.27) Yani öncül değişkeninin sonuç değişkenini hangi yönde (+→ −) ve hangi oranda (0 → 1) etkilediğini gösterir (Agrawal, 1993). Verilen bir veritabanında birliktelik kuralı oluşturmak için kullanıcı tarafından önceden belirlenmiş olan minimum güven seviyesinden daha yüksek bir destek ve güven seviyesine sahip kuralların çıkarılması gerekir. Minimum destek seviyesini sağlayan kümelere geniş nesne kümesi, diğerlerine ise küçük nesne kümesi denir. Algoritmaların nasıl oluşturulduğuna geçmeden önce birkaç örnekle destek ve güven seviyelerini açıklayalım. Yaş (kişi, “20-30”) ⇒ satın alır (kişi, “LCD TV”) [Destek= %2, Güven= %13] kuralı; yaşları 20-30 arasında olan kişilerin tüm müşterilerin %2’si kadar olduğunu ve bunların da %13’ünün LCD TV aldığını ifade etmektedir. Yaş (kişi, “20-30”) ⋀ Cinsiyet (kişi, “erkek”) ⇒ satın alır (kişi, “LCD TV”) [Destek= %1, Güven= %60] İlk kural tek boyutluydu. Burada ise iki boyut vardır: yaş ve cinsiyet. Yani yaşları 20-30 arasında değişen ve erkek müşterilerden LCD TV alanların tüm müşterilere oranının %1 olduğunu ve yaşı 20-30 arasında olan erkek müşterilerin %60’ının LCD TV aldığını ifade eder. Çok boyutlu bir örnek şöyle olabilir: Yaş (kişi, “20-30”) ⋀ Cinsiyet (kişi, “erkek”) ⋀satın alır (kişi, “LCD TV”) ⇒ satın alır (kişi, “DVD Player”) [Destek= %1, Güven= %65] Burada ise yaşları 20-30 arasında olan erkek müşterilerden LCD TV alanların %65’inin aynı zamanda DVD Player da satın aldığı ifade edilmektedir. 3.8.4. Büyük Nesne Kümeleri (Large Itemsets) Veri madenciliğinin temel çıkış noktası büyük veri kümeleri olmuştur. Hızla büyüyen veri miktarı analiz ile ilgili yeni yöntemlerin ve algoritmaların gelişmesine neden olmuş ve madencilik kavramı bugüne gelmiştir. Ticari işletme ve bilgi işlem 64 sektöründe faaliyet gösteren lider firmaların yaklaşık %90’ı çok büyük veri kümelerine sahip olduklarını ve bunların mutlaka işleme konulması gerektiğini ifade etmektedirler. Hand ve ark. (2001), veri madenciliğini büyük veri kümesi üzerinden “Veri madenciliği büyük veri kümelerinin, önceden akla gelmeyen ilişkileri bulmak ve veriyi hem anlaşılır hem de kullanılabilir hale getirecek biçimde özetlemek için analiz edilmesidir.” ifadesi ile tanımlamaktadırlar. Büyük veri kümeleri üzerinde algoritma oluşturmak için veri üzerinden çok kez geçmek gerekir. İlk taramada alt kümelere ait destek değerleri sayılarak hangi kümenin büyük olduğuna karar verilir. Daha sonraki taramalarda yalnızca büyük kümeler üzerinde işlem yaparak aday (candidate) kümeler belirlenir. Aday kümeler için destek değerleri sayılır ve tarama sonunda hangi kümelerin gerçekten büyük aday kümesi olduğu tespit edilir. Bu işlem yeni aday küme bulunmayıncaya kadar devam eder. Bu işlem ile ilgili geliştirilen AIS, SETM, Apriori, AprioriTid gibi algoritmalar vardır. Bunlar arasındaki farklar ileriki bölümlerde açıklanacaktır. Büyük veritabanlarından birliktelik kuralları elde etmek iki adımdan oluşan bir süreçtir: 1- En küçük destek değerini sağlayan tüm geniş nesne kümelerini bulma 2- Bulanan geniş nesne kümelerinden minimum destek ve güven koşullarını sağlayan kurallar oluşturma (Srikant, 1996). 3.8.5. Örüntü ve Kural Çıkarma (Pattern Recognition and Rule Extraction) Makine öğrenmesi sistemlerinde sürekli tekrar eden veya devam eden kuralları keşfetmeye örüntü tanıma veya kural çıkarma denilmektedir. Sınıflama en basitinden bir örüntü tanımadır. Çünkü her girdi değerini bir sınıfa atamaya çalışır. Örüntü tanıma teknolojileri birçok alanda kullanılmaktadır. Yüz tanıma teknolojisi, konuşma tanıma teknolojisi, web sitesi içerisinde belli bir metnin taranması, protein zincirlerinde sekans etiketleme gibi alanlarda örüntülerin ortaya çıkarılması öncelikli konulardandır. Aynı şekilde, birliktelik kuralı ile ilgili veri analizi yaparken de en önemli olay kural belirleme veya örüntü tanımadır. Birçok veri analizinde problem başlangıçta bellidir. Ancak birliktelik kuralı analizinde veri ile ilgili herhangi bir öngörümüz yoktur. Yalnızca min.des ve min.güv değerleri belirlenerek veriler analiz edilir ve sonucunda değişkenler için bir örüntü bulmaya çalışılır. Her geçen gün yeni örüntü tanıma algoritmaları geliştirilmektedir. Günümüzde veriler farklı tarzda derlenmekte veya farklı sektörlere ait veriler karşımıza çıkmaktadır. Bu nedenle, her algoritmanın yavaş kaldığı 65 veya analizin daha fazla hafıza gerektirdiği durumlarda araştırmacılar daha hızlı örüntü tanıma algoritmaları üzerinde çalışmaktadırlar (Bayardo, 1999). 3.8.6. Algoritmalar 3.8.6.1. AIS Algoritması 1993 yılında Agrawal tarafından, geniş nesne kümeleri oluşturmak için geliştirilmiş bir algoritmadır. Veritabanındaki nesnelerin A’dan Z’ye sıralanması kısıtını taşır. AIS algoritması veritabanını birçok kez tarar ve her taramada tüm işlemleri okur. İlk tarama esnasında veritabanındaki tüm nesneleri sayarak hangilerinin geniş olduğunu belirler. Geniş olanları aday nesne olarak işaretler. Bir işlem tarandıktan sonra, bir önceki taramada geniş oldukları belirlenen nesne kümeleriyle, o işlemin nesneleri arasındaki nesne kümeleri belirlenir. Belirlenen bu ortak nesne kümeleri işlemde mevcut olan diğer nesnelerle birleştirilerek yeni aday kümeler oluşturulur. Herhangi bir I nesne kümesi bir işlemdeki nesnelerle birleşip aday kümelerden birini oluşturabilmesi için, birleşeceği nesnenin hem geniş olması hem de harf sırası açısından nesne kümesi içerisindeki tüm nesnelerden sonra geliyor olması gerekir. Bu işlemin gerçekleşmesi için bir budama tekniği kullanılır. Bu tekniğe göre, aday kümeler içindeki gereksiz kümeler silinir. Sonra, her aday kümenin desteği hesaplanır. Daha önce belirlenen minimum destek seviyesine eşit veya büyük olan kümeler geniş nesne kümesi olarak işaretlenir. İşaretlenen geniş nesne kümeleri aday kümeleri belirlemek için kullanılır (Agrawal, 1993). 3.8.6.2. SETM Algoritması AIS algoritmasından farklı olarak bu algoritmada geniş nesne kümesinin her bir elemanı iki parametreden oluşur. Bunlar, nesnenin ismi ve nesneyi ayırt etmeye yarayacak bir özellik kodudur. Algoritma işletilirken bu numara bir TID (Transaction Identification)-işlem numarası olarak kullanılır. ∈ olmak üzere : < TID, isim > formatındadır. SETM algoritması da nesneleri teker teker sayar ve hangilerinin geniş nesne olduğunu belirler. Sonraki taramada yalnızca işaretlenen kümeleri tarayarak aday kümeleri belirler. Tarama esnasında TID bilgisini de saklar. Aday nesne kümeleri isimlerine göre sıralanır ve küçük nesne kümeleri silinir. Eğer isme göre değil de TID’ye göre sıralanırsa geniş nesne kümeleri TID’ye göre belirlenir ve küçük nesne 66 kümeleri silinir. SETM algoritması TID bilgisini de tuttuğundan yer karmaşıklığını arttırmaktadır. Ayrıca hem isim hem de TID sıralaması yapılması zaman karmaşıklığını arttırdığından dezavantaj sayılmaktadır (Srikant, 1995). 3.8.6.3. Apriori Algoritması Birliktelik kuralları içerisinde en bilinen ve en çok kullanılan bir algoritmadır. AIS ve SETM algoritmaları birçok kez tarama yapar ve her taramada aday nesne kümeleri üretilir. Yeni aday nesne kümeleri ise diğer işlemlerde elde edilen kümelerin birleştirilmesiyle üretilir. Bu durum, aslında küçük nesne kümesi olan birçok aday nesne kümesinin sanki geniş nesne kümesiymiş gibi üretilmesi sonucunu doğurur. Ancak apriori algoritması da veritabanını birçok kez tarayıp her bir aday nesne kümesinin destek seviyesini daha önceden belirlenen min.des seviyesi ile karşılaştırmasına rağmen bir sonraki taramada yalnızca geniş olarak belirlenen nesne kümelerinden başlar. Fakat bu işi veritabanındaki işlemleri işin içine sokmadan, yalnızca geniş nesne kümesi olarak tespit edilmiş nesne kümelerinin alt kümelerini tarayarak elde eder. K adet nesneden oluşmuş bir kümenin k-1 adet nesneye sahip geniş nesne kümelerinin birleştirilmesi ve alt kümeleri geniş olmayanların silinmesi esasıyla elde edilir. Birleştirme ve silme işlemleri sonucunda daha az sayıda aday nesne kümesi oluşacaktır. Agrawal ve Srikant tarafından 20. VLDB (Very Large Data Bases) Konferansında (1994) sunulan apriori algoritmasının kodu şu şekildedir: L1 = {Geniş 1-nesne kümeleri}; k=2; //k, nesne sayısını belirtir while L k-1 = 0 do begin Ck = apriori-gen(L k-1); // Ck; L k-1 kümesinden oluşturulan k sayılı yeni aday kümesi for all t∈ D işlemleri do begin Ct = altküme(C k,t); // t’deki her nesnenin tüm öncüllerini t’ye ekle, çakışmaları gider k=k+1; end Lk = min-desteğe sahip tüm Ck adayları için sayma başlat; end end Cevap = 67 Bu algoritma şu şekilde özetlenebilir: Verilerin ilk taranması sırasında, geniş nesne kümelerinin tespiti için tüm nesneler sayılır. Bir sonraki tarama, k. tarama iki aşamadan oluşur. Apriori-gen fonksiyonu ile k1. taramada elde edilen, Lk-1 nesne kümeleriyle Ck aday nesne kümeleri oluşturulur. Veritabanı taranarak Ck’daki adayların desteği sayılır. Örnek: Aşağıdaki verilere min.des %30 ve min.güv %60 olacak şekilde apriori algoritmasını uygulayınız. Çizelge 3.4. Apriori uygulaması ID 100 200 300 400 500 600 Sepet Elma, Muz, Dondurma, Simit Elma, Muz, Simit Yumurta, simit Yumurta, Erik Elma, Muz Elma, Muz, Yumurta ↓ Birinci tarama Ürün Miktar Elma 4 Muz 4 Dondurma 1 Simit 3 Yumurta 3 Erik 1 Destek %67 %67 %17 %50 %50 %17 ↓ İkinci tarama Ürün Miktar Elma, Muz 4 Elma, Simit 2 Elma, Yumurta 1 Muz, Simit 2 Muz, Yumurta 1 Simit, Yumurta 1 Destek %67 %33 %17 %33 %17 %17 ↓ Üçüncü tarama Ürün Elma, Muz, Simit Miktar 2 Destek %33 Bu durumda, geniş nesne kümeleri ve destek ile güven değerleri şöyle olur: Elma 4 kayıt Muz ve Simit alır 2 kayıt [Destek %33, Güven %50] Muz 4 kayıt Elma ve Simit alır 2 kayıt [Destek %33, Güven %50] Simit 3 Kayıt Elma ve Muz alır 2 kayıt [Destek %33, Güven %67] 68 Elma ve Muz 4 kayıt Simit alır 2 kayıt [Destek %33, Güven %50] Elma ve Simit 2 kayıt Muz alır 2 kayıt [Destek %33, Güven %100] 3. ve 5. Kayıtlar %30 destek ve %60 güven değerlerinin üzerinde bir seviyeye sahip olduklarından geniş nesne kümeleri olurlar. Bu durumda, Elma-Muz-Simit en geniş nesne kümesidir. 3.8.6.4. Apriori-TID Algoritması Tüm algoritmalar destek hesaplamak için tüm veritabanını tararlar ancak, her aşamada veritabanının tamamının taranmasına gerek yoktur. Buna göre Agrawal, AprioriTid algoritmasını önermiştir. Bu algoritma apriori-gen fonksiyonunu kullanır. İlk geçişten sonra veritabanı taranmaz bunun için Ck kullanılır. Ck’nın her elemanı <TID, Nesne ismi {Xk}> formundadır. Önerilen algoritma şu şekildedir: C1 = D veritabanı for k=2; Lk-1 = 0; k=k+1; do begin Ck = apriori-gen(Lk-1); // yeni adaylar Ck =0; for all işlemler t ∈ Ck-1 do begin // TID numaralı işlemdeki Ck içinde bulunan tüm aday nesne kümelerini belirle Ct = {c ∈ Ck | (c-ck) ∈ t.nesne kümeleri ⋀ (c-ck-1) ∈ t.nesne kümeleri} for all adaylar c ∈Ct do c=c+1; If (ct=0) then Ck = Ck + <t.TID, Ct> end Lk = { c ∈ Ck | c ≥ min-destek} end Cevap= 69 3.8.6.5. Paralel Veri Madenciliğinde Birliktelik (Parallel Data Mining) Bunların yanı sıra çeşitli algoritmalar geliştirilmiştir. Özellikle daha hızlı çalışacak ve kullandığı veritabanını yormayacak, hafızada çok miktarda veri kaydı tutmayacak algoritmalar daha fazla tercih edilmektedir. Apriori-hybrid, OCD (Off-line Candidate Determination), Partitioning tekniği, Örnekleme tekniği, CARMA (Continuous Association Rule Mining Algorithm), CCD (Count Distribution), PDM Parallel Data Mining), CCPD (Common Candidate Partitioned Database), DD (Data Distribution), IDD (Intelligent Data Distribution), HRA (Hash-based Parallel Mining of Association Rules) ve PAR (Parallel Association Rule) gibi son yıllarda geliştirilmiş birçok algoritma vardır (Örs, 2010). 3.8.7. Negatif Birliktelik Kuralı (Negative Association Rule) Birliktelik kuralı, iki değişken arasındaki güçlü ilişkileri bulmak için kullanılmaktadır. Yani, değişkenler arasındaki korelasyon güçlü ve pozitif olmalıdır. Ancak, güçlü olmayan ilişkiler de söz konusu olabilir ve gizli kalmış küçük korelasyonların büyük veri kümeleri içerisinde önemi olabilir. Bu tür ilişkileri bulmak için bazı yayınlarda önermeler yapılmıştır. Negatif birliktelikleri görmenin temeli şuna dayanmaktadır: “EĞER X, ÖYLEYSE Y” bir güçlü kural ise, yani min.des/min.güv eşik değerlerini sağlıyorsa X ve Y arasında pozitif bir kuraldan söz edilebilir. Fakat “EĞER X, ÖYLEYSE –Y” gibi bir kural da karşımıza çıkabilir. Aynı şekilde, ⇒ − ;− ⇒ − ⇒− gibi kurallar da bizler için fikir verebilecek gizli kalmış kurallar olabilirler. Negatif birliktelik kuralı genel literatürde “−“ sembolü ile gösterilmektedir. Ancak bu sembol, küme teorisi ile uyuşmamaktadır ve yanlış algılamaya sebep olabilir. Bu nedenle, bundan böyle kümenin olumsuzu (veya tümleyeni) ∗ şeklinde gösterilecektir. Ayrıca dikotom değer alan bir veri kümesi için (-1=0 veya -0=1) olabilirken ikiden fazla kategorisi olan kümeler için bu notasyon yetersiz kalmaktadır. Aslında negatif kurallar, pozitif kuralları çıkarırken eşik seviyelerini düşük tutarak elde edilebilir. Ancak bu durumda kural sayısı patlaması ile karşı karşıya kalınacaktır. Bu nedenle, başka bir algoritma ile minimum sayıda kural elde edilmelidir. Market sepeti analizini tekrar ele alalım. Pozitif kurallar, “eğer süt alıyorsa, büyük bir olasılıkla ekmek te alır” şeklindeydi. Negatif kural olarak düşünüldüğünde ise “eğer süt 70 alıyorsa, çok az bir olasılıkla turşu da alır” şeklinde olacaktır. Eğer iki değişken bağımsız iseler aralarındaki korelasyon 0 olacaktır ve negatif kural çıkmayacaktır (Ayad, 2000). Olayı dört gözlü tablo üzerinde görmeye çalışalım: Çizelge 3.5. Negatif kural için dört gözlü tablo ∗ Toplam ∗ Toplam Tabloya göre sıklık değeri pozitif kuralları, , ve sıklık değerleri ise negatif kuraları göstermektedir. Dört gözlü tablolardaki ilişki ki-kare istatistiği ile hesaplanabiliyordu. Bu durumda, O(d) gözlenen sepet değeri, E(d) ise beklenen sepet değeri olmak üzere ki-kare değeri =∑ ( ) (3.28) ile hesaplanır. Pozitif kurallar ile ilişkilidir. Ne kadar büyükse destek ve güven , değerleri de o ölçüde büyük olacaktır. Negatif kurallar için ise veya ‘nin herhangi birinin yeterince büyük olması bizlere güçlü negatif kurallar verecektir. Çizelge 3.6. Negatif kural için satış örneği A marketi ∗ Toplam ü ü ∗ 220 74 97 45 Toplam 438 A marketinden alışveriş yapan 438 müşterinin süt ve ekmek satın alma durumunu gösteren tabloya göre; 220 kişi hem süt hem de ekmek almış, 74 ve 97 müşteri iki üründen birisini almış, 45 müşteri ise ne ekmek ne de süt almıştır. Dört farklı kural için destek ve güven değerleri hesaplanabilir. Yalnızca iki ürün için durum böyleyken veri kümesi ve değişken sayısı büyüdükçe ilişkileri görmek zorlaşacaktır. Güçlü algoritmalar sayesinde veri tabanlarını hızlı bir şekilde taramak daha kolay olacaktır. Ancak büyük 71 veritabanlarını tarayacak algoritmaların yazılması zor ve dikkat gerektirmektedir. Apriori algoritmasının daha hızlı çalışması için birçok yeni yaklaşımlar geliştirilirken bir de tüm negatif birliktelikleri tarayacak ve ortaya çıkaracak yaklaşımların geliştirilmesi için çalışmalar yapılmaktadır. Apriori tarzı algoritmaların temel özelliği en iyi budama tekniklerinin algoritmaya yerleştirilmesidir. Bu nedenle eşik değerleri önceden belirlenerek budama gerçekleştirilmektedir. O halde negatif birlikteliklerde tarafların ilişkili olması için hangi eşik değerlerini sağlaması gerekir? Tüm durumlar için farklı eşik değerleri tespit etmek gerekecektir. Bu noktadan hareketle her bir kural için min.des, min.güv ve min.il değerleri tespit edilip bunlara göre anlamlı kurallar çıkarılabilir. Pozitif yönde birlikteliğe sahip kurallar için ( ⇒ )= ( ∩ )≥ ü . ( ⇒ )= ( | )≥ (3.29) . ü (3.30) olmalıydı. Bu değerler sık nesne kümelerinin belirlenmesine yeterli olmuyor, ancak güçlü kural ölçütü olarak yetersiz kalıyorlardı. Bu nedenle, ilginçlik ölçütleri içerisinden lift değerini kullanmıştık. Bu durumda, ( ∪ ) ( ⇒ )= = ( ). ( ) ( | ) ( ) ≥ . (3.31) olacaktır. lift ölçütü için üç durum söz konusu olur: 1. ( ⇒ ) = 1 , 2. ( ⇒ ) > 1 , ( | ) = ( ) ( | ) > ( ) 3. ( ⇒ ) < 1 ğı ı ı . , ğı ı ı . , ğı ı ı . , ( | ) < ( ) ğ ş ,− , ğı ı ı . , ( | ) − ( ) ç − ( ) ≤ ( | ) − ( ) < 0 ℎ ,0 < ( | )− ( ) ≤ 1 − ( ) ı ı . . Bu oran ne kadar büyükse negatif bağımlılık ta o kadar güçlü olacaktır. Negatif birliktelik kuralına göre sık nesne kümelerinin belirlenmesi için aynı tarz kısıtları sıralayabiliriz: a. ( ⟹ ∗) ≥ . b. ü ( ⟹ ∗) ≥ . ü c. ( ⟹ ∗) ≥ . 72 Burada ( ⟹ ü ( ⟹ ∗) ∗) = ( )− ( ∩ ) (3.32) = (− | ) = 1 − ( | ) (3.32) şeklinde tanımlanabilir. Negatif birliktelikleri iki durumda düşünebiliriz: ( ) ( ) değerleri oldukça büyüktür. Ancak ( ∩ ) yeterince büyük olmayabilir. Bu durumda eşik seviyelerinin büyük kabul edilmesi ile çok sayıda pozitif kurallar elde edilmez ve negatif kuralların sayısı çok olacaktır. Örneğin: “Çay ve kahve satışları çok yüksektir. Ancak her ikisini birden satın alanların sayısı az olabilir. Olasılık azalacağından her iki ürünü birden satın alanların korelasyonu düşük olacaktır. ( ) ( ) den birisi veya her ikisinin değeri oldukça düşük olabilir. Örneğin: “Marketteki bazı ürünlerin satış miktarı çok sık değildir. Bu durumda oluşacak birliktelikler çok küçük olacaktır. Çay alan birisinin aynı zamanda limon tuzu alma olasılığı düşüktür. Aynı durum markalar için de geçerli olabilir. T markasının tuvalet kağıdının satış oranı yüksek olurken S markasının satışı çok az olabileceğinden çay ile T marka tuvalet kağıdı yüksek güven değeri verirken, çay ile S marka tuvalet kağıdının güven değeri eşik seviyesinin altında kalacağından negatif kural şeklinde düşünülebilir. Bu tür birlikteliklere “Seyrek Birliktelik Kuralı (Rare Association Rule)” denilmektedir. Buna göre Negatif Birliktelik Kuralı (i) ile Seyrek Birliktelik Kuralı (ii) farklı olmaktadır; her iki durumu ayrıştırmak ve ayrı ayrı incelemek gerekir. Apriori algoritması min.güv eşik değerine göre budama yapıyor ve yalnızca sık nesne kümelerini ortaya çıkarıp tarama yapıyordu. Negatif ve seyrek birliktelikleri ortaya çıkarabilmek için budama algoritmasını değiştirmek gerekecektir. Bu işlemi, sisteme yük getirmeden ve çok sayıda tarama yapmadan uygulamak gerekmektedir. Ayrıca burada iki durum karşımıza çıkmaktadır: hem sık nesne kümelerinde var olan negatif kuralları hem de sık olmayan nesne kümelerindeki pozitif kuralları ortaya çıkarmak. 73 Veritabanı Pozitif kurallar Sık nesne kümesi Negatif birliktelikler Sık Seyrek olmayan nesne kümesi birliktelikler Şekil 3.25. Pozitif ve negatif birlikteliklerin veritabanında gösterilmesi Özellikle sağlık verilerinde bu durumlar sıklıkla karşımıza çıkmaktadır. İki alerjen madde ayrı ayrı ekili olurken, birlikte çok seyrek olarak reaksiyon gösterebilmektedir. Bu tezde üzerinde çalıştığımız veri kümesi de bu tür birlikteliklerin görülebileceği yapıya sahiptir. Birçok değişken ikili kategoriye sahip olup (0,1) bazılarının hastalarda görülme oranı azdır. Özellikle alkol ve sigara kullanımı ile hipotiroid komorbiditesi az olduğundan bunlara bağlı kurallar negatif çıkmaktadır. Ayrıca satış verilerinde çok küçük güven değerleri bir anlam ifade etmezken sağlık verilerinde çok küçük olasılıkların bile önemli anlamı olabilir. Negatif veya seyrek birliktelik kural çıkarımı hala tam olarak keşfedilmemiş bir alandır. Bazı algoritma önermeleri yapılmış ancak üzerinde çalışılması gereken yerler vardır. Destek, güven veya ilginçlik ölçütleri üzerinden çeşitli yöntemler önerilmiştir. Tan, et al. (2000) tarafından ilginçlik ölçütü budama sürecinde min.il olarak önerilmiştir. ( ∩ ) ( , ) = ( ). ( ) = ( ∩ ) . ( ). ( ) Hamano ve Sato (2004) tarafından ( ∪ ) (3.33) ölçütünün bazı olumsuz yanları belirtilmiş ve ölçütünü önermişlerdir. Φ( , ) = ( ∩ ) ( ). ( ) (3.34) ( ). ( ∗). ( ). ( ∗) korelasyon fonksiyonu olmak üzere = ( ⟹ ) = = ( ∩ ) ( ). ( ) ( ∩ ).( ( ). ( ) ( ) , ğ Φ( , ) ≥ 0 ( )) ( ∩ ) ( ∩ ) . ( , . . ) (3.35) 74 Bu ölçütte, pozitif birlikteliği, ise seyrek birlikteliği göstermektedir. Zhang ve Zhang (2002) ise PL (Positive Itemset of Interest) ve NL (Negative Itemset of Interest) ölçütleri ile aşağıdaki algoritmayı önermişlerdir. PL: pozitif sık nesne kümesi NL: negatif sık nesne kümesi Temk: Veritabanındaki tüm k-nesne kümeleri Fi: tüm sık nesne kümeleri Nk:Temk’deki sık olmayan nesne kümeleri veya Nk=Temk-Fk olmak üzere 75 procedure ilginç_nesne_kümesi_budama begin input D, min.des output PL, NL let PL=0; let NL=0; let F1 = {sık nesne kümesi-1}; let PL=PL ∪F1; for (k=2; Lk-1≠0 ve Sk-1 ≠0; k++) do begin // D kümesindeki tüm mümkün olan ilginç pozitif ve negatif k-nesne kümesini üret let Temk=Fi (1≤ i < k-1)’den çıkarılan k-nesne kümesi; for t∈D do begin // t’de hangi k-nesne kümesinin bulunduğunu kontrol et let Temk = hem t hem de Temk’de bulunan k-nesne kümesi; for A⊂Temt do let A.count =A.count+1; end let Ck=her bir k-nesne kümesinin Lk-1’de en azından bir alt küme içerdiği Temk’de bulunan k-nesne kümesi; let Fk={c| c∈Ck ∧ (destek(c)= . | | ≥ min. des)}; let Lk=Fk; let Nk=Temk - Fk; //Lk’deki ilginç olmayan k-nesne kümelerini buda for i∈Lk do begin if i ilginç değilse then let Lk=Lk-{i}; let PL= PL ∪ Lk; let Sk={i| i∈Nk ve i negatif nesne kümesi}; // Sk’deki ilginç olmayan k-nesne kümelerini buda end for i∈Sk do begin if i ilginç değilse then let Sk=Sk-{i}; let NL= NL ∪ Sk; end end end output PLve NL; end 3.9. Önerilen İlginçlik Ölçütü Pozitif birliktelik kurallarını bulmak için çok sayıda algoritma önerilmiştir. Algoritmalar içerisinde budama işlemi için de bir takım eşik değerleri ve ayrıca kuralın 76 gücünü göstermek için bir çok ölçüt önerilmiştir. Ancak negatif kural çıkarımı için yeterince algoritma ve ölçüt çalışması yoktur. Daha önceki bölümde söz ettiğimiz gibi iki önemli ve büyük çalışma Tan et al.(2000) ve Hamano et al.(2004) tarafından yapılmıştır. Bu tez çalışmasında Hamano ve Sato’nun çalışmaları ışığında, önerdikleri lift değeri revize edilerek yeni bir ilginçlik ölçütü önerilecektir. Yukarıda da belirttiğimiz gibi özellikle sağlık verilerinde en küçük ayrıntıları bile kaçırmamak gerekmektedir. Bu nedenle, negatif birliktelikler içerisinde ilginçlik değeri büyük olan kuralları tespit etmek için yeni bir ilginçlik ölçütü kullanılacaktır. ölçütünde negatif kural içerisinde olması gereken durumlar pozitif birliktelik olarak ortaya çıkmaktadır. Bu durum aşağıda basit bir örnek ile anlatılacaktır. Önerdiğimiz ilginçlik ölçütü MINN (Measure of INterestingness for Negative rules) olacaktır. ( ⟹ ∗) = | ( ). ( ∗) ü ( ⟹ ∗ )| (3.36) ( ∗ )) ( )).( ( Φ ölçütü yalnızca nesnelerin olasılıkları kullanılarak hesaplanmaktadır. Fakat MINN ölçütü nesnelere ilişkin destek ve güven değerlerini kullanmaktadır. Bu durum ölçütü daha da güçlendirmektedir. Çünkü güven değeri koşullu olasılık ile bulunmaktadır. Φ ölçütünde negatif değerler karşımıza çıkmaktadır. Ancak MINN ölçütünün negatif olma olasılığı yoktur. Çünkü 0< ( ) < 1 ve 0 < ü ( ⟹ 0< ( ). ( ). ( ( ∗ ∗ )<1 ∗) < 1 dir. olacaktır. )< ü ( ⟹ ∗) olma ihtimali de vardır. Bu nedenle, karekök işlemi içerisinde ifadenin mutlak değeri alınmıştır. 1 − ( ) > 0 daima pozitif olacağından ∈ (0, ∞) olacaktır. Burada üst sınır ∞ ile belirtilmesine rağmen destek değerleri maksimum olsa dahi aşırı büyük değer almaz. Ancak veritabanına göre ölçüt değeri değişeceğinden herhangi bir üst sınır belirtilmemiştir. Peki neden böyle bir ölçüt formülü seçilmiştir? IS ve Φ ölçütlerinin alacağı değerler incelendiğinde bazı eksik yanlarının olduğu görülmüş ve her iki ölçüt revize edilerek bazı matematiksel dönüşümler yarımıyla MINN ölçütü önerilmiştir. 77 Örnek: 10 adet kayıttan oluşan ikili bir örnek veri kümesi alalım. 1:evet, 0:hayır şeklinde düzenlenmiş olsun. A,B ve C nesneleri için Φ ve MINN ölçütlerini karşılaştıralım. Çizelge 3.7. Örnek veri seti A B C 1 1 1 0 0 1 0 1 1 0 1 0 1 1 0 1 1 0 0 0 0 0 0 0 0 0 1 1 0 1 Tablodan görüleceği gibi ( ) = 0,6; ( ) = 0,5 ve ( ) = 0,3 olur. Öncelikle A ve –B kuralı için ilginçlik ölçütlerini bulalım. ∗) Φ( ⟹ ∗) ( ∩ = − ( ). ( ∗ ∗ ). ∗) ( ). ( ( ⟹ = ∗) | = ( ). ( ) = 0,3 − 0,6.0,5 0,6.0,4.0,5.0,5 =0 ( ). ( ∗ ) − ü ( ⟹ ∗ )| ( )) . (1 − ( ∗ )) (1 − |0,6.0,5 − 0,3/0,6| 0,44 = = 2,23 0,4.0,5 0,2 C nesnesi için negatif durumların oranı daha yüksek olduğundan A ve ∗ kuralları için lift ölçütlerini araştıralım: Φ( ⟹ ∗) = ( ∩ ∗) ( ). ( Φ değeri negatif olduğundan − ( ). ( ∗ ∗ ). ∗) ( ). ( ) = 0,4 − 0,6.0,7 = −0,09 √0,6.0,4.0,7.0,3 ölçütü olarak D değerini hesaplarız ve = 0,11 bulunur. ( ⟹ ∗) = |0,6.0,7 − 0,5/0,6| = 5,35 (1 − 0,6). (1 − 0,7) Her iki durumda da MINN ölçütleri daha yüksek değerlere sahip olup eşik değeri olarak kullanıldığı takdirde daha ilginç (güçlü) kuralları verecektir. Uygulama bölümünde tez veri kümesi üzerinde bazı uygulama sonuçları görülecektir. 78 3.10. Genelleştirilmiş Birliktelik Kuralları (Generalized Rule Extraction) Smyth ve Goodman (1992), “Genelleştirilmiş Kural Çıkarıma Teorik Bir Yaklaşım” adlı yayınlarında kural çıkarma için optimal ölçü ile ilgili bir algoritma geliştirmişlerdir. Algoritma, geniş nesne kümelerinikullanmak yerine aday birliktelik kuralının ilginçliğini belirlemede kuramsal bir yaklaşımkullanmaktadır. J-ilginçlik ölçütü: = ( ). [ ( | ). ( | ) ( ) + 1 − ( | ) . ln ( | ) ( ) ] (3.37) formülü ile bulunmaktadır. Burada; - ( ), ’in olasılığıdır ve öncülün kapsamasının bir ölçütüdür. Gözlenen x değerinin güvenidir. Öncül değişkenin sıklık dağılımından hesaplanabilir. - ( ), ’nin güven değerini ya da önsel olasılığını göstermektedir. y değişkeninin güven değeridir. - ( | ), bilindiğinde y’nin koşullu olasılığıdır. Birliktelik kuralları terminolojisinde kuralın güven değeri olarak geçmektedir. GRI algoritmasında minimum güven ve destek değerinin yanı sıra kural sayısının da kullanıcı tarafından belirlenmesine olanak sağlanmıştır. Algoritma tek öncüle sahip kural oluşturur ve ilginçlik ölçütü olan J’yi hesaplar ve kural tablosundaki en küçük J değerine sahip kuraldan büyük ise bu kural tablodaki diğer kurallara eklenir ve tablodaki en küçük J değerine sahip kural tablodan çıkarılır. Böylece kural sayısı korunmuş olur. J istatistiğinin yüksek değere sahip olması ( 1’e yakın) ( ) olasılığının yüksek olması ile ilişkilidir. Yani, öncülün daha yaygın olduğunu ve veri kümesini daha fazla kapsadığını yansıtır. J-ölçüsü, hem çok yüksek hem de çok düşük güven değerine sahip olan kuralları destekler. Eğer p(y|x) çok küçük bir değere sahipse, araştırmacı birlikteliğin tersini düşünerek negatif birliktelik kuralı oluşturabilir ve bu negatiflik ilginç olabilir. Örneğin R kuralı; R: EĞER bira alıyorsa, O HALDE el kremi de alır. şeklinde tanımlanmış ve güven değeri olarak p(y|x)= %0,01 değerine sahipse, J-ölçüsü de küçük olacağından R’nin negatif formu düşünülür ve ~R: EĞER bira alıyorsa, O HALDE el kremi almaz. kuralı için güven değeri %99,99 olur (Larose, 2005). 79 Agrawal ve ark. (1994) ise genelleştirilmiş kural çıkarma işlemini taksonomi şeklinde açıklamışlardır. Her işlemin bir nesne kümesi olduğu ve nesnelerin tanımlandığı bir taksonomiye sahip olan işlem veritabanı verilsin. Taksonominin herhangi bir seviyesindeki nesneler arasında birliktelikler buluruz. Apriori algoritmasını bir örnek küme üzerinde açıklamaya çalışalım: L,nesneler kümesi ve T, taksonomi olarak verilsin. İşlenmiş Gıda Unlu Mamul Ekmek İşlenmemiş Gıda Dondurma Domates Salatalık Biber Simit Şekil 3.26. T-taksonomi örneği L= {ekmek, simit, dondurma, domates, salatalık, biber} olsun. Kullanıcı tarafından belirlenmiş%30 destek ve %60 güven seviyesinden daha büyük değerlere sahipken geniş nesne kümesini bulunuz. Çizelge 3.8. Taksonomiye uygun olarak nesne tarama İşlem No(TID) 100 200 300 400 500 600 Sepet Domates, Salatalık, Dondurma, Simit Domates, Salatalık, Simit Ekmek, simit Ekmek, Biber Domates, Salatalık Domates, Salatalık, Ekmek ↓ Birinci tarama (Geniş nesne kümeleri) Ürün Miktar Destek Domates 4 %67 Salatalık 4 %67 Biber 1 %17 Simit 3 %50 80 Dondurma Erik 3 1 %50 %17 ↓ İkinci tarama (Budanmış geniş nesne kümeleri) Ürün Miktar Destek Domates, Salatalık 4 %67 Domates, Simit 2 %33 Domates, Ekmek 1 %17 Salatalık, Simit 2 %33 Salatalık, Ekmek 1 %17 Ekmek, Simit 1 %17 ↓ Üçüncü tarama (Aday Kümeler) Ürün Domates, Salatalık, Simit Miktar 2 Destek %33 Bu durumda, destek ve güven değerleri için kurallar şunlardır: Domates 4 kayıt Salatalık ve Simit alır 2 kayıt [Destek %33, Güven %50] Salatalık 4 kayıt Domates ve Simit alır 2 kayıt [Destek %33, Güven %50] Simit 3 Kayıt Domates ve Salatalık alır 2 kayıt [Destek %33, Güven %67] Domates ve Salatalık 4 kayıt Simit alır 2 kayıt [Destek %33, Güven %50] Domates ve Simit 2 kayıt Muz alır 2 kayıt [Destek %33, Güven %100] 3. ve 5. işlemler en geniş nesne kümeleri olurlar. Çünkü, destek > min.des ve güven > min.güv. Yani %33 > %30, %67 > %60 ve %100 > %60. Bu durumda, domates, salatalık ve simit en geniş nesne kümesidir. Güven seviyesi ise değişmektedir. Her domates ve simit alan salatalık ta almıştır fakat her domates ve salatalık alan simit almıştır diyemeyiz. 3.11. Birliktelik Kuralı Uygulama Alanları Birliktelik kuralı algoritmaları ekonomiden sağlığa kadar birçok alanda kullanılmaktadır. Denetimli veya denetimsiz öğrenme metotları içerisine net olarak girmediğinden her iki türdeki veri kümelerine uygulanma şansı vardır. Market sepeti analizi olarak gelişmiş ve bankacılıkta kredilendirme riski belirlenmesi için kullanılmaya başlanmıştır. Yoğunlukla müşteri temelli veri tabanlarının mevcut olduğu alanlarda kullanılmakla birlikte çok fazla verinin bulunduğu iletişim sistemlerinde de bazı ilişkilerin ortaya çıkarılması için, özellikle sesli iletişim sistemlerindeki parazitlerin ortaya çıkarılmasında tercih edilmektedir (Kotsiantis, 2006). 81 3.12. Veri Madenciliği ve Sağlık Sektörü Uygulamaları Tıp sektörü verinin yoğun olarak kullanıldığı ve depolandığı alanlardan birisidir. Bu nedenle veri madenciliğinin hemen hemen her yöntemi bu sektörde kullanılmaya başlanmıştır. Kümeleme analizleri, destek vektör makineleri, k-means yöntemler, yapay sinir ağları gibi yöntemleri ile veri indirgeme uygulanmaktadır. Makine öğreniminin ilk olarak 1999 yılında tıpta kullanılmasıyla birlikte veri madenciliği de sektör içerisine iyice girdi. Bu teknikler, diagnoz, prognoz, tedavi yöntemleri, post-op durumların tahmin edilmesi gibi birçok konuda bilgi keşfini sağlamaktadır (Bath, 2004). Tıbbi veriler, tipine bağlı olarak heterojenlikleri ile karakterize edilirler. Bu tür veriler gürültü terimleri içerirler, eksik gözlemler daha yoğunluklu olarak mevcuttur ve hatalar içerirler. Bu nedenle analiz aşamasında daha titiz davranılması gerekmektedir. Çünkü doğrudan insan sağlığını ilgilendiren hayati öneme sahip verilerdir. Örneğin, kanser epidemiyolojisi önemli bir alandır ve görüntüleme sonuçları ve patolojik raporlar ile çok büyük veri kümeleri oluşmaktadır (Wasan, 2006). Sağlık sektörünün verilerinin bir handikapı vardır; o da verinin madencilik yapmak için yeterince büyük olmamasıdır. Yalnızca hastane kayıt sistemleri veya gen bilgileri gibi alanlarda çok sayıda veri kayıtları bulunmaktadır. Ancak, hastalıklara veya kullanılan tedavi yöntemlerine ait kayıt bilgileri de gün geçtikçe artmaktadır. Bu nedenle hastaların teşhis ve tedavilerine ilişkin kayıtlar, veri madenciliği için yeterince büyük kabul edilmektedir. Veri madenciliği, biyoinformatik veya mekansal analiz yöntemlerinin sağlık alanında kullanılması için veri elde etmek zor olmaktadır. Bunun bazı sebepleri vardır: maliyet, etik kurallar, kayıt sistemleri, verinin paylaşılmasında kişi ya da kurumların isteksiz davranması gibi. Ülkemiz açısından sağlık alanında veri madenciliği yöntemlerinin kullanılması yakın zamanda başlamıştır. Bu gecikme, kayıt sistemlerinin yeterince gelişmemesi ve veriye ulaşmada sıkıntının olması nedeniyle gerçekleşmiştir (Ordonez, 2000), (Smith, 2009), (Srinivas, 2012), (Stolba, 2005), (Theodoraki, 2010). Birliktelik kuralı (ARM), ekonomi ve finans alanında yaygın olarak kullanılmasının yanı sıra sağlık alanında da yoğun olarak kullanılmaya başlanmıştır. Hastane sistemlerinde organizasyon ve maliyet azaltma konularından hastalık teşhislerinin tespit edilmesi ve gen bilgilerinin ortaya çıkarılmasına kadar geniş bir alanda kullanım alanı bulmuştur. Sağlık uygulamaları ve tedaviler büyük oranda maliyet gerektirirler. İlaç tüketimi de ayrı bir sağlık ve maliyet konusudur. Bu nedenle hastane bilgi sistemlerinde verimliliği arttırmak ve maliyeti düşürmek ana hedeflerden birisidir 82 (Bertsimas, 2008). Ancak bu hedefler gerçekleştirilirken hasta konforunun maksimum oranda düşünülmesi gerekmektedir. Her iki sorunda optimum çözümleri bulmak üzere veri madenciliği yöntemlerinin kullanılmasına geçilmiştir (Yıldırım ve ark., 2008). Hasta kayıt sistemlerinde otomasyona geçilmesi ve verilerin klasik istatistik yöntemleri yerine madencilik yöntemleriyle analiz edilmesi ile enfeksiyon kontrolünde ve hastane epidemiyolojisinde daha verimli bilgilere ulaşılmıştır (Brossette, 1998), (Obenshain, 2004), (Suner, 2010). Tiroid Bezi verileri kullanılarak k-en yakın komşu yöntemiyle sınıflamalar yapılmıştır (Albayrak, 2002). Aynı şekilde gırtlak kanseri hastaların bilgilerine dayanarak K-ortalamalar yöntemi ile hastalığın tekrar nüks etmesi ve hastaların hayatta kalma oranları ile ilgili bilgiler elde edilmiş ve ameliyat öncesi evreler incelenerek ameliyat sonrası başarılar tahmin edilmiştir (Dinçer, 2007). Kafa travması geçiren hastalardan alınan bilgisayarlı tomografi görüntüleri ile birliktelik kuralına dayanan Boolean Analyzer (BA) yöntemi ile ilginç kurallar oluşturulmaya çalışılmıştır (Imberman et al, 2002). Günümüzde tıbbi görüntüleme yöntemleri aşırı oranda kullanılmaktadır. Hizmet sunucuları açısından çok büyük depolama alanları oluşturan bu görüntülerde çok fazla bilgi mevcuttur. Bu bilgilerin analiz edilmesi amacıtla görüntülemede birliktelik kullanılacağı düşünülmüş ve bu konuda çalışmalar yapılmıştır(Antonie, 2001). Gen ifadeleri birer kayıt ve proteinlerin her birinin bir nesne olarak düşünüldüğü genetik çalışmada birliktelikler bulunarak maya verisi için proteinler arasındaki ilişkiler ortaya çıkarılmıştır (Creighton, 2003). Genetik verilerdeki hızlı gelişme nedeniyle araştırmacılar sürekli yeni ve daha hızlı yöntemler arayışlarına girmişlerdir. Farklı dokulara ait genlerdeki DNA sekansları veya RNA replikasyonları arasındaki ilişkiler ortaya çıkarılmaya çalışılmıştır (Anandhavalli et al, 2010). Kwasnicka ve Switalski (2005), yaptıkları çalışmada genetik birliktelik kuralı geliştirmişler ve gen mutasyonlarındaki ilişkileri incelemişlerdir. Geliştirilen Sınırlı Birliktelik Kuralı (Constrained Association Rules) yöntemi ile hastalara ait bilgilerden yola çıkılarak sağlıklı arterlerin tespit edilmesi gerçekleştirilmiştir (Ordonez, 2006). Çek Cumhuriyeti’nde STULONG adlı bir araştırmada alkol tüketimi, sigara kullanımı, beden kitle indeksi, tansiyon, kolesterol değerleri gibi değişkenler kullanılarak birliktelik kuralı yardımıyla ateroskleroz hastaları için risk faktörleri belirlenmeye çalışılmıştır (Trémeaux, 2006). Negatif kural çıkarma teknikleri yardımıyla kalp hastaları üzerinde yapılan çalışmada hastalara ait verilerden gereksiz olanları belirlenip kurallardan çıkarılarak hastalık teşhisi için pozitif olanlar belirlenmiştir (Gupta et al., 2005). Doğan ve Türkoğlu (2008), karar destek sistemlerini birliktelik kuralı ile 83 birleştirerek lipit parametrelerini (total kolesterol, LDL, HDL, VHDL, trigliserid) analiz etmişler ve hastalara hiperlipidemi teşhisi konulup konulamayacağını ortaya koymuşlardır. Agrawal ve Srikant tarafından geliştirilen apriori algoritmasının değişik veri kümeleri üzerinde uygulanması ve algoritma üzerinde bir takım değişikliklerin yapılması ile farklı teknikler her geçen gün geliştirilmektedir. Birçok çalışmada ise bu teknikler arasındaki hız farklılıkları çalışılmış ve hangi veri kümesinde hangi tekniğin daha verimli ve hızlı olduğu ortaya konulmaya çalışılmıştır. Altı farklı kanser türü verisi için apriori, predictive apriori ve tertius teknikleri ile çalışma yapılmış ve apriori temelli algoritmaların tertius algoritmasına göre daha hızlı olduğu görülmüştür. Ayrıca her bir kanser türü için hastalıktan korunmaya yönelik kurallar geliştirilmiştir (Nahar et al., 2009). Geliştirilmiş apriori algoritması (improved apriori) ile göğüs kanseri verileri analiz edilmiş ve tümörün yeniden nüksetmesi durumu için kurallar geliştirilmiştir (Hu, 2010). Genç insanlardaki negatif lenf noduna sahip tümörlere ait 70 farklı gen içeren van’t Veer veri seti bulanık (fuzzy) yönteminin birliktelik kuralı ile birleştirilerek analiz edilmesi ile göğüs ve kolon kanserine ilişki genler ile ilgili kurallar çıkarılmıştır (Mahmoodian et al., 2011). ABD’de yapılan bir çalışmada kanser çeşitlerine ait mortalitenin sosyo-ekonomik eşitsizliği, birliktelik kuralı ve mekansal analiz bağlamında beraberce incelenmiş ve ülkedeki kanser mortalitesine ait kuralların mekansal bilgileri ortaya konulmuştur (Vinnakota, 2006). 4. ARAŞTIRMA SONUÇLARI VE TARTIŞMA 4.1. Kanser ve meme kanseri Kanser, hücrelerde DNA'nın hasarı sonucu hücrelerin kontrolsüz veya anormal bir şekilde büyümesi ve çoğalmasıdır. Günde vücudumuzda (DNA'da) yaklaşık 10.000 mutasyon olmasına rağmen immün sistemimiz her milisaniye vücudumuzu tarar ve kanserli hücreleri yok eder. Sağlıklı vücut hücreleri bölünebilme yeteneğine sahiptirler. Ölen hücrelerin yenilenmesi ve yaralanan dokuların onarılması amacıyla bu yeteneklerini kullanırlar. Fakat bu yetenekleri de sınırlıdır. Sonsuz bölünemezler. Her hücrenin hayatı boyunca belli bir bölünebilme sayısı vardır. Sağlıklı bir hücre ne zaman ve nerede bölünebileceğini bilme yeteneğine sahiptir. Buna karşın kanser hücreleri, bu bilinci kaybeder, kontrolsüz bölünmeye başlar ve çoğalırlar. Kanser hücreleri toplanarak urları (tümörleri) oluştururlar, tümörler 84 normal dokuları sıkıştırabilirler, içine sızabilirler ya da tahrip edebilirler. Eğer kanser hücreleri oluştukları tümörden ayrılırsa, kan ya da lenf dolaşımı aracılığı ile vücudun diğer bölgelerine gidebilirler. Gittikleri yerlerde tümör kolonileri oluşturur ve büyümeye devam ederler. Kanserin bu şekilde vücudun diğer bölgelerine yayılması olayına metastaz adı verilir. Meme kanseri, meme hücrelerinde başlayan kanser türüdür. Akciğer kanserinden sonra, dünyada görülme sıklığı en yüksek olan kanser türüdür. Her 8 kadından birinin hayatının belirli bir zamanında meme kanserine yakalanacağı bildirilmektedir. Erkeklerde de görülmekle beraber, kadın vakaları erkek vakalarından 135 kat fazladır. 1970'lerden bu yana meme kanserinin görülme sıklığında artış yaşanmaktadır ve bu artışa modern, Batılı yaşam tarzı sebep olarak gösterilmektedir. Kuzey Amerika ve Avrupa gibi endüstrileşmiş ülkelerde görülme sıklığı, dünyanın diğer bölgelerinde görülme sıklığından daha fazladır. Meme kanseri, yayılmadan önce, erken tespit edilirse, hasta %96 yaşam şansına sahiptir. Her yıl 44000'de bir kadın meme kanserinden ölmektedir. Yaş 35’ten 65’e ilerlerken meme kanserinde 6 kat hızlı artış olmaktadır. Meme kanserine yakalanmış hastaların yaklaşık %66’sında bilinen herhangi bir risk faktörü bulunmamıştır. Ancak, yaş, hormonal faktörler, adet düzensizlikleri, çocuk sahibi olamama veya ileri yaşlarda çocuk sahibi olma, doğum kontrol haplarının kullanımı, aile öyküsünde meme kanseri vakası olması gibi durumların hastalık riskini belli oranlarda arttırdığı tespit edilmiştir. Bunların yanı sıra daha bir çok risk faktörü olabilecek nedenler sayılabilir: alkol, sigara, aşırı vitamin kullanımı, radyasyon alımı, genetik (özellikle BRCA1 ve BRCA2 genleri) faktörler, geçirilen farklı hastalıklar ve obezite gibi. Tüm bu faktörlere karşın “fullterm” gebelik yaşının küçük olması, 35 yaş öncesi yapay menopoz, laktasyon (emzirme), fiziksel aktivite, uygun vitamin alımı ve diyet yapmanın riski azaltan faktörler olduğu belirtilmektedir. Meme kanserine karşı en iyi koruyucu yöntem erken teşhistir. Meme kanserinin birçok tipi vardır. En sık rastlanan duktal karsinoma, memenin süt kanallarında başlar. Meme kanseri memenin dışına yayıldığında koltuk altındaki lenfatik nodüller en sık görülen yayılım yerleridir. Kanser hücreleri memenin diğer Lenf Nodlarına, Kemiğe, Karaciğer ve Akciğere yayılabilir. Meme kanserli hastalar öncelikle tümör boyutu olmak üzere bölgesel lenf nodu ve metastaz yerleşimine göre evreler halinde gruplandırılır. Son yıllarda evreleme tanımları oldukça detaylı hale getirilmiştir. Evre 1: Tümör 20 mm. ve daha küçüktür. Bu durumda kanser lenf bezlerine sıçramamıştır. Tedavide meme koruyucu yöntemle lenf bezlerinin alınmasından sonra 85 radyasyon tedavisi uygulanır. Desteklemek için kemoterapi ve/veya hormonoterapi eklenir. Bir diğer uygulama da mastektomi yönetmidir. Bu yöntemde kanserli göğüs alınarak koltuk altı lenf bezleri çıkarılır. Evre 2-A: Tümörün 20 – 50 mm. arasında olup, lenf bezlerine sıçramamış halidir. Evre 2-B: Tümörün 2-A evresindeki gibi bir boyut aralığında olup (50 mm. den büyük olabilir), koltuk altı lenf bezlerine sıçramamış halidir. Evre 2: Evre 1 ile aynı tedavi yöntemi uygulanmakla birlikte, eğer tümör aşırı büyümüş ya da lenf bezlerine sıçramışsa kemoterapi, hormonoterapi ve radyasyon tedavisi tamamlayıcı olarak önerilir. Evre 3-A: Tümör koltuk altı lenf bezlerine ve göğüs dışı dokulara sıçramış durumdadır ve bu halde mastektomi yöntemiyle tedavi yoluna gidilir. Cerrahi müdahaleden sonra kemoterapi ve hormon tedavisi uygulanır. Evre 3-B: Bu aşamada tümörün boyutu dikkate alınmaz; tümör göğüs duvarına bağlıdır ve lenf bezlerine sıçramıştır. "Neoadjuvan" adı verilen tümörün boyunun küçültülmesi amaçlı kemoterapi uygulanmasının ardından tümörün boyunun küçülmesinden sonra lampektomi veya mastektomi yapılır. Evre 4: Bu aşamada kanser göğüs dışındaki vücut bölümlerine yayılmıştır. Bu evre tedavisinde hastanın yaşam süresini artırmak ve yaşam kalitesini yüksek düzeyde tutmak hedeflenir. Kemoterapi ve hormonoterapi yapılır. Hasta şikayetlerine bağlı olarak mastektomi de uygulanabilir (Orlando, 2005). 4.2. Verinin Hazırlanması 4.2.1. Analizler İçin Paket Programlar Bir önceki bölümde tanımlanan değişkenlerin analizi için SPSS Clementine 12.0 paket programı, SPSS 21.0 paket programı ve Excel Office programları kullanılacaktır. Apriori, CART, karar ağaçları ve regresyon için Clementine veri madenciliği programı kullanılacağından yalnızca bu program ile ilgili bilgiler verilecektir. 4.2.2. SPSS Clementine ile Veri Madenciliği Teknolojinin gelişmesiyle birlikte veri madenciliği uygulamaları için birçok ürün geliştirilmiştir. 1997 yılından itibaren günümüze kadar Intelligent Miner, Relational Data Miner, SPSS Clementine, ASIC, DarwinTM, SAS Enterprise Miner, 86 STATISTICA Data Miner gibi birçok veri madenciliği ürünü kullanılmıştır. Bunların yanı sıra daha birçok programlama tabanlı derleyiciler vardır. Ancak, programlama yapmak, kod yazmak temel algoritmalar için artık gereksiz zaman kaybı olmaktadır. Algoritmalar ile ilgili geliştirilen yeni yöntemler kullanılacaksa bu durumda R veya SQL gibi bazı derleyicileri kullanmak daha yararlı olacaktır. Bu çalışmada tercih edilen SPSS Clementine programı, özellikle son zamanlarda tercih edilen, programlamaya gerek olmaksızın tahmine yönelik modelleri hızlı ve kolay birşekilde oluşturabilen bir veri madenciliği ürünüdür. Ayrıca gelişmiş analitik uygulamalar ile desteklenen bir görsel arabirim kullanarak verilerdeki kalıpları ve eğilimleri keşfetmeye çalışır. Bu bölümde SPSS Clementine ile veri madenciliği bilgi keşfi süreci ele alınacaktır. Bu süreç; Verilerin toplanması; Verilerdeki aykırılıkların ve tutarsızlıkların temizlenmesi; Birçok veri kaynağındaki verilerin birleştirilmesi; Analizde kullanılacak olan verilerin seçilmesi; Verinin, veri madenciliği tekniğinde kullanılabilecek hale getirilmesi; Veri madenciliği modelleme tekniklerinin uygulanması; Bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntülerin tanımlanması; Bilgilerin kullanıcıya sunumu aşamalarını içermektedir. Veri Madenciliği projesinde kullanılacak olan veri setinin modellemeye hazırlanması, modelleme sonrasında yeniden veri üzerinde çeşitli düzenlemelerini içerir ve veri hazırlama adımı birden fazla tekrarlanabilir. CLEMENTINE programında verininmodellemeye hazırlanması amacı ile çok sayıda metot kullanılmaktadır. Veriye erişim aşamasında CLEMENTINE açık bir çözümdür. ODBC uyumlu olan bütün veri tabanı verilerine kolayca bağlanılabilir ve verilerin formatı değiştirilmeden kullanılabilir. SPSS ve SAS verileri ile serbest ve sabit ASCII formatındaki veriler kolayca alınabilir. CLEMENTINE programına entegre olarak kullanılan Text Mining çözümü ile yapısal olmayan yazı tipindeki veriler ile web kayıt verileri kolayca kullanılabilir. Veri üzerinde temizlik yapma, verinin düzenlenmesi amacı ile çok sayıda işlemci bulunmaktadır. Variable File ve Fixed File işlemcileri ile geçersiz karakterler temizlenir. Kayıtlar ve alanlar üzerinde yapılan işlemler için çok sayıda işlemci 87 bulunmaktadır. Kayıt seçimi ile ilgili olarak “sample”, “merge”, “sorte", “aggregate", “derive, vb. işlemciler kullanılabilir. 4.2.2.1. Modelleme CLEMENTINE zengin bir içerik sunmaktadır. Clementine içerisinde yer alan modelleme yöntemleri 3 ana grup altında toplanmaktadır: I. Prediktif Modeller: Neural Networks, iki farklı rule induction tekniği- C5.0 ve C&Rtree, Regresyon, Lojistik Regresyon ve Sequence Detection olmak üzere 6 ayrı teknik içermektedir. Prediktif modellerde bir dizi input değeri baz alınarak bir “sonuç" değerinin tahmin edilmesi amaçlı modeller söz konusudur. II. Clustering Amaçlı Modeller: benzer nitelik gösteren segmentlerin belirlenmesi amaçlıdır. Kohonen Ağlar K-Means, Two StepCluster; olmak üzere üç ayrı clustering yöntemi bulunmaktadır. III. Association Teknikleri: genelleştirilmiş prediktif yöntemler olarak ta tanımlanmakta olup, belirli bir sonucu bir dizi kural ile ilişkilendirmeye çalışırlar. Clementine içerisinde Apriori ve GRI olmak üzere iki ayrı ilişkisel kural belirleme yöntemi vardır. Daha çok prediktif modelleme öncesinde, nadiren de Clustering uygulamalarında kullanılan bir veri indirgeme yöntemi PCA (Principal Component Analysis) Factor algoritması mevcuttur. Clementine External Module Interface (CEMI) ile PMML- genere edilmiş ve Clementine içerisinde olmayan herhangi bir algoritma Clementine programına entegre olarak kullanılabilir. Kullanıcının esas çalışma alanı, Stream Canvas (Akım Tuali) olup, bu alan görsel programlama tekniklerini kullanarak veri madenciliği yapmamıza olanak sağlar. Aşağıda, Clementine’ın ara yüzü gösterilmiştir: 88 Şekil 4.1. CLEMENTINE programı açılış arayüzü Nodlar veri üzerinde yapılacak işlemleri niteler. Her palet, kendisiyle ilişkili birkaç nod içerir. Örneğin “Sources”paleti, verileri modelimize eklememize yarayan nodları içerir. Nodlar, Stream Canvas’a yerleştirildikten sonra birbirine bağlanarak akımlar (streams) oluşturulur. Akımlar, nodlardan veri akışını simgeler ve her akım bir çıktı (output) veya modelle sonlanır. Clementine penceresinin sağ üst köşesinde üç tip Manager vardır: Streams, Outputs ve Models. Akımları açmak, saklamak, adlarını değiştirmek ve silmek için Streams tabı kullanılır. Clementine programının çıktıları (grafik ve tablolar) “Outputs”tabında saklanır. “Models”tabı, Clementine'da oluşturulan modelleri saklamak için kullanılır. Modeller direkt olarak “Browse”seçeneğiyle görüntülenebilir ya da “Stream Canvas” ta bulunan akımlara eklenebilir. Sol alt köşede, veri madenciliği çalışmalarımızı organize edebileceğimiz Projects penceresi bulunur. “CRISP-DM” tabı, akımları (streams), çıktıları (outputs) ve dip notları (annotations) CRISP-DM fazlarına uygun olarak düzenlememizi sağlar. “Classes”tabı, oluşturduğumuz nesnelerin kategorilerine uygun olarak düzenlenmesini sağlar. 89 Şekil 4.2. Akım tuali üzerinde kaynak veri kümesi ve bağlantı nodları Şekil 4.3. Veri tipi belirleme 4.2.2.2. Clementine ve Association Rules Clementine, iki adet birliktelik kuralı algoritması içerir: Apriori ve GRI. Algoritmalar öncelikle, çok basit kurallar oluştururlar. Sonra, basit kurallar irdelenerek daha ilginçve karışık kurallar kaydedilir. Bu algoritmalar diğer kurallara bağımlı olmayan ve herhangi bir çıktı ya da bağımlı alanıyla sınırlı olmayan kurallar üretir. Bu 90 algoritmalar bir süper markete bir müşterinin bir seferde yaptığı alışverişteki ekmek, şarap ve peynir gibi ürünlerden bir kaçını aynı anda alması kurallarını keşfederek bir ya da birden fazla alanın değerlerinin beraberce ortaya çıkmasını açıklar. Aynı şekilde negatif ilişkilerde ortaya çıkarılır. Şekil 4.4. Birliktelik kuralları oluşturma 4.2.2.3. Apriori Kural Keşfi Apriori algoritması sadece sembolik verilerle çalışmasına rağmen aynı veri setinde GRI’a göre daha verimli ve hızlıdır. Kural çıkarımındaki hesap İşlemlerini hızlandırmak için gelişmiş bir indekslemesi ve bütün verinin içinden geçişi azaltan özellikleri vardır. Apriori algoritmasının default ayarları 10%, 80% ve %5 olan minimum rule support, minimum rule confidence, ve maximum rule preconditions vardır. GRI algoritması Apriori algoritmasına göre daha geniş aralıkta veriler kullanır ve herhangi bir kuralın ne derece enteresan olduğuna karar verirken farklı bir ölçüt kullanır. GRI sayısal alanları kural içerisinde input-antecedents- olarak kullanabilirken sadece sembolik alanları sonuç (Type işlemcisinde Out veya Both) olarak kullanır. Kanvasa Apriori işlemcisi koy Apriori işlemcisini edit et 91 Expert tab’ına tıkla Expert seçeneğini tıkla Expert Mode seçildiğinde Evaluation Measure listesi aktif hale gelir. Aynı şekilde Rule Confidence seçildiyse Evaluation measure lower bound spin control aktif hale gelir. Eğer kurallar sadece güven (confidence) veya doğru tahminlerden seçilmiş ise algoritma yalnızca doğru kuralları bulacaktır. Bu totoloji gibi anlaşılsa dahi doğru kuralların her zaman en enteresan ve kullanışlı olan kurallar olduğu doğru değildir. Boş bir kuralın güven’i basitçe sonuç’ un frekansıdır ve prior confidence olarak adlandırılır. Bir veya birden çok öncül’ü olan bir kuralın güven’i posterior confidence olarak adlandırılır ve oranına artırma ölçütü (lift measure) denir 4.3. Teze İlişkin Veriler Tez çalışmasının bu bölümünde tezin analizinde kullanılacak veriler ile ilgili bilgiler verilecektir. Çalışmamız retrospektif olup, veriler Meram Tıp Fakültesi Tıbbi Onkoloji Anabilim Dalı’nda tedavi gören 1371 adet meme kanseri hastasına aittir. Hastalar, 2000 ile 2012 yılları arasında kanser tanısı ile hastaneye başvurmuş, değerler dosyalara kaydedilmiş ve daha sonra dijital ortama alınarak tablo haline getirilmiştir. Hastalara ait toplam 76 değişken vardır. Ancak bu değişkenlerden bazıları analiz dışında bırakılacaktır. Çünkü hasta adı-soyadı veya dosya numarası gibi değişkenlerin kural çıkarma işlemlerinde etkisi olmayacaktır. Değişkenlerin tanımları ve eksik gözlemler ile ilgili bilgiler aşağıda açıklanacaktır. 92 Çizelge 4.1. Veri kümesinde kullanılan değişkenlerin listesi Sıra No 1 2 3 4 5 6 7 8 9 10 11 12 Değişken AD-SOYAD Dosya no boy kilo BKİ kan Grubu il telefon cinsiyet doğum tarihi tanı anında yaşı menopoz durumu 13 oral kontraseptif 14 HRT 15 komorbit hastalık 16 17 18 19 24 25 26 27 28 DM HT tiroid hastalığı hipertiroidihipotiroidi Alkol sigara Sekonder Kanser öyküsü ailede kanser varsa tipi Aile kanser oykusu İAT İDT çocuksayısı emzirme 29 30 tanı tarİhi biyopsi tipi 20 21 22 23 31 32 operasyon tarihi Sağ-Sol 33 multifokal tutulum Açıklama Değer --Sayısal Sayısal Eksik Gözlem Beden kitle indeksi İkamet il/ilçe Tedavi öncesi ve sonrası menopoz durumu Doğum Kontrol Hapı kullanma Hormon Replasman Tedavisi Birlikte görülen hastalık Şeker hastalığı Yüksek tansiyon Guatr hastalığı İkinci tip kanser hastalığı durumu İlk adet görme yaşı İlk doğum yaşı Çocuk durumu emzirme Tümör hangi tarafta Memede çok sayıda tümör durumu +/- A, B, AB, 0 --E, K -Sayısal PRE, POST, ERKEK 434 424 436 701 7 1 4 27 EVET, HAYIR, ERKEK 1167 EVET, HAYIR, ERKEK 1169 VAR, YOK, KOAH, KAH, HİPERLİPİDEMİ, BEYİN TM, PULMONER EMBOLİ, PACEMAKER,… VAR, YOK VAR, YOK VAR, YOK VAR, YOK 65 VAR, YOK VAR, YOK VAR, YOK 125 125 24 ANNE, BABA, KARDEŞ, AKRABA VAR, YOK Sayısal Sayısal Sayısal VAR, YOK, E 197 -İNSİZYONEL, EKSİZYONEL, TRUCUT -SAĞ, BİLATERAL VAR, YOK 23 254 66 67 122 128 203 1123 1150 383 1080 İİAB, SOL, 597 16 1010 93 Sıra No 34 Değişken LVI DURUMU 35 36 37 38 grade ER yüzdesi PR yüzdesi cerb2 yüzdesi 39 TRIPLE 40 fish 41 TM çapı evre olarak 42 43 44 45 Tm size pozitif lenf nodu negatif lenf nodu tanı anında MET DURUMU Evre KT-HT başlama tarihi AdjuvantNeoadjuvant 46 47 48 49 herceptin 50 zolodex kullanımı 51 52 53 HT RT mikrokalsifikasyon 54 kemik metastaz durumu patolojik mikrokalsifikasyon 55 Açıklama Lenf sistemine sıçrama Evre Östrojen Reseptörü Progesteron reseptörü Epidermal büyüme faktörü reseptörü ER, PR ve CERB2 reseptörlerinin her üçünün de olmaması Flourescent In Situ Hibridization: Meme kanseri teşhisi için güçlü bir yöntem Tümör çapı evresi Değer VAR, YOK Eksik Gözlem 626 1, 2, 3 POZİTİF, NEGATİF POZİTİF, NEGATİF POZİTİF, NEGATİF 607 153 168 204 POZİTİF, NEGATİF 1172 BAKILMADI, NEGATİF 582 T1, T2, T3, T4, OPERE OLMADI Sayısal Sayısal Sayısal VAR, YOK -- Metastaz evresi KemoterapiHormonterapi Ameliyat sonrası veya öncesi adjuvan tedavisi Herceptin ilacı kullanma durumu Zolodex ilacı kullanma durumu Hormon tedavi Radyoterapi Tümör çevresi kireçlenme Kemikte metastaz M0, M1 -- 47 51 ADJUVAN, NEOADJUVAN 22 EVET, HAYIR 35 EVET, HAYIR 37 VAR, YOK VAR, YOK, PALYATİF VAR, YOK 38 59 833 VAR, YOK 114 Patolojik kireçlenme bulgusu VAR, YOK 920 Tümör çapı 253 188 214 61 4.4. Bulgular Veri seti klasik apriori uygulamaları ile aynı tarzda olmadığından çıkan sonuçların diğer yöntemler ile karşılaştırılması gerekmektedir. Market sepet analizinde ssatırlar müşterilere ait kayıtları sütunlar ise alışveriş esnasında aldıkları ürün sıralamasını göstermektedir. Daha sonra sütunlara ürünleri değişken olarak tanımlayıp “aldı-almadı” şeklinde ikili veri kümeleri de oluşturulmuştur. Bizim çalışmamızdaki veri kümesi ikini forma benzemektedir. Çünkü satırlar her bir hastaya ait kayıtlar, sütunlar ise ölçülen değerler veya alınan bilgilerden oluşan değişkenlerdir. Ancak 94 burada değişkenlere ait kategoriler yalnızca ikili değil iki, üç, dört veya daha fazla kategoriye sahip olmaktadır. Bu durumda apriori algoritması için kural çıkarmak daha zorlaşmakta ve işlem uzamaktadır. Sağlık verilerinde küçük olasılıkların da önemli olması, negatif kuralların da çıkarılmasını gerektirmektedir. Clementine programı yardımıyla apriori ve GRI algoritma sonuçları karşılaştırılarak verilecektir. Ayrıca, daha önce önermiş olduğumuz minimum ilginçlik ölçütüne göre çıkarılmış negatif kurallarda da örnekler verilecek ve negatif birlikteliklerin güçlü kurallar çıkarıp çıkaramayacağı test edilmiş olacaktır. Verilerin tanımlayıcı ölçüleri ortaya konuldu. Buna göre, 15 hastanın (%1,1) erkek olduğu, en yüksek oranda kan grubunun ise (%51,1) 0+ olduğu görüldü. Çok düşük oranlarda (yaklaşık %3) hormon replasman tedavisi aldıkları ve oral kontraseptif kullandıkları anlaşıldı. Hastaların yaklaşık yarısının komorbit hastalığı olduğu ve dörtte bir oarnında ailelerinde kanser öyküsü olduğu görüldü. %10 oranında metastaz ve bunlarında %20 kadarında kemik metastazı görüldü. Hastaların boy ve kilo değerleri sırasıyla 158±5,46 cm ve 75±11,9 kg olmuştur. Beden kütle indeksi ise 15,43 ile 52,89 arasında çok geniş bir skala göstermektedir. Bu da hastaların çok zayıftan obeze kadar her grupta olabildiklerini göstermektedir (Şekil 4.7 ve 4.8). Ortalama çocuk sayıları 2,2 ve lenf nodu sayıları çok değişken olmakla birlikte ortalama 3,52 pozitif; 13,52 ile negatif lenf nodu sayısı olduğu görülmektedir (Şekil 4.5 ve 4.9). Tümör çapı evreleri sayısı veri kümemiz için en önemli değişken olarak karşımıza çıkmaktadır. Çünkü apriori algoritması uygulamasında sonuç değişkeni tümör evresi olacaktır. Evre frekanslarına ait bilgiler Şekil 4.6’da gösterilmiştir. Hastaların büyük çoğunluğunun T2 evresine ait olduğu görülmektedir. 95 Şekil 4.5. Tümör çaplarna göre pozitif lenf nodu sayıları Şekil 4.6. Tümör çapı sayıları 96 Şekil 4.7. Tümör evrelerine göre beden kütle indeksi Şekil 4.8. Boy-kilo saçılım grafiği 97 Şekil 4.9. Pozitif-negatif lenf nodları saçılım grafiği Yapılan lojistik regresyon uygulamasında metastaz, lenfovasküler invazyon ve mikrokalsifikasyon değişkenleri tümör çapı evrelerine ait parametre tahmininde anlamlı sonuçlar çıkarmıştır (p<0,05). Buna karşın, ailede kanser öyküsü ve çeşitli komorbit hastalıklara ait değişkenler eksik gözlem sayılarının çok olması nedeniyle modele anlamlı katkı yapamamıştır. Regresyon uygulaması ile veri ve değişken sayısı arttığında sonuç elde etmesi zor olmakta ve zaman almaktadır. Çünkü çok büyük boyutlarda matrisler oluşmakta ve terslerinin alınması paket programları çok yormaktadır. WEKA programı yardımıyla elde edilen regresyon modelleri aşağıdadır. = 0.0973062 − tiroidhastalığı ∗ 0.116498 + " ∗ 0.0827949 + " ∗ 0.087399 = 0.606683 − " " ∗ 0.144963– ∗ 0.063813 + ∗ 0.185193 = 0.451203 − Menapozdurumu ∗ 0.039143 + ailedekanserkimde ∗ 0.0135488 − multifokaltutulum ∗ 0.152805 98 = 0.552971 + " ∗ 0.245458 − " = 0.000677247 + " ∗ 0.066708– " ∗ 0.0704731 ∗ 0.00396467 + ∗ 0.00526586– ∗ 0.00708301 Kurulan modellerde katsayıların anlamlılığı ile ilgili sorunlar ortaya çıkmıştır. Ayrıca tümör çapı evresi kategorik sıralı bir değişken olduğundan tahmin sonuçları sayısal bir değer çıkmaktadır. Bu nedenle, birliktelik kurallarının uygulanması hem daha az zaman almakta hem de programları daha az yormaktadır. Her geçen gün süreyi kısaltıcı ve programlara daha az yük getirecek algoritmaların sayısı artmaktadır. Ancak birliktelik kural çıkarımı, herhangi bir varsayım gerektirmediği gibi daha yoğun olarak ticari işletmelere yönelik ve kar amaçlı olduğundan veri kümesi üzerinde uygulama yapılırken dikkatli olunması gerekmektedir. Özellikle sağlık verisi gibi müşteri temeline dayanmayan verilerde karşılaştırmalı ve kontrollü uygulanmalıdır. 42 değişken ve 1371 hastaya ait 1371x42 boyutlarında bir matris için apriori algoritması işletildiğinde yaklaşık 59 bin pozitif kural çıkmaktadır. Bunun nedeni değişkenlerin kategori sayısının ikiden fazla olması ve eşik değerlerin düşük tutulmasıdır. Program, min.des değerini %10 ve min.güv değerini %80 olarak belirlemektedir. Ancak, bu değerler sağlık verileri için yüksektir. Gözden kaçabilecek kuralların ortaya çıkarılabilmesi için min.des değeri %10, min.güv değeri %55 olarak belirlenmiştir. Eğer eşik düzeyleri daha küçük tutulursa kural sayısı daha da artacaktır. Bunun yanı sıra negatif kurallar da belirlenecektir. Apriori kullanılarak elde edilen sonuçlar çizelgelerde verilmiştir. Çok sayıda kural olduğundan yalnızca güven ve lift değerleri büyük olan birkaç kural ile en zayıf kurallara ait örnekler Çizelge 4.2 - 4.4’de gösterilmiştir. Çizelge 4.2’de öncül olarak “HT, tiroid hastalığı, LVI, cinsiyet, kan grubu ve DM” seçilmiş, destek değeri %10 ve güven değeri %55 olarak belirlenmiştir. En güçlü kural: “HT = VAR ∩ LVI = VAR ∩ cinsiyet = K iken TM çapı evresi:T’” şeklindedir. Çizelge 4.3’de yine tümör çapı evresi sonucuna karşılık “cocuk sayısı, multifokal tutulum ve LVI” %10 destek ve %50 güven değeri ile öncül olarak belirlenmiştir. Çizelge 4.4’de ise “çocuk sayısı, multifokal tutulum ve LVI” öncülleri için “mikrokalsifikasyon” sonuç olarak belirlenip kurallar elde edilmiştir. Çizelge 4.5‘de ise GRI ile elde edilen kurallar gösterilmiştir. Görüldüğü gibi her iki çizelgedeki kurallar 99 farklı çıkmıştır. Bunun nedeni, apriori algoritması ile GRI algoritmasında farklı ölçütlerin kullanılmasıdır. Ölçüt dediğimiz işlemler olasılık hesaplarından oluşmaktadır. Farklı olasılıkların ölçüte dahil edilmesi farklı kuralların çıkmasına neden olmaktadır. GRI algoritması sonuçlarında çok farklı destek ve güven değerleri karşımıza çıkmaktadır. T1 evresi için lift değeri yüksek olmasına ve güven değerinin % 100 olmasına rağmen destek çok küçük çıkmıştır. Aynı şekilde diğer evreler için de benzer durumlar söz konusudur. Bu şekilde kuralların çıkarılması düşük olasılıklardan kaynaklanmaktadır. Çizelge 4.2. apriori sonuçları Sonuç TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 …… TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 Öncüller HT = VAR ve LVI = VAR ve cinsiyet = K HT = VAR ve LVI = VAR LVI = YOK ve tiroid hastalığı = YOK ve cinsiyet = K LVI = YOK ve tiroid hastalığı = YOK LVI = VAR ve Kan Grubu = ? ve tiroid hastalığı = YOK LVI = VAR ve Kan Grubu = ? ve tiroid hastalığı = YOK ve cinsiyet =K ……. LVI = ? ve Kan Grubu = ? ve HT = YOK ve tiroid hastalığı = YOK ve cinsiyet = K Kan Grubu = A(+) Kan Grubu = A(+) ve cinsiyet = K LVI = YOK ve DM = YOK ve cinsiyet = K LVI = YOK ve DM = YOK Destek % Güven% Lift 10.714 63.265 1.105 10.787 62.837 1.098 10.714 62.585 1.093 10.932 62.0 1.083 14.723 61.881 1.081 14.723 61.881 1.081 ……….. ……… ………….. 16.909 56.034 0.979 19.096 55.725 0.973 18.877 55.598 0.971 11.443 55.414 0.968 11.661 55.000 0.961 100 Çizelge 4.3. apriori sonuçları Sonuç TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 ……… TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 TM cap evre = T2 Öncül multifokal tutulum = YOK ve LVI = VAR LVI = VAR LVI = VAR ve multifokal tutulum =? multifokal tutulum = YOK cocuk sayisi = ? ve LVI = VAR ………………… LVI = ? ve multifokal tutulum = ? LVI = ? cocuk sayisi = ? ve LVI = ? cocuk sayisi = ? ve multifokal tutulum = ? cocuk sayisi = ? ve LVI = ? ve multifokal tutulum = ? Destek % Güven % Lift 11.078 63.157 1.103 40.160 61.524 1.075 25.218 61.271 1.070 20.116 61.231 1.070 13.119 61.111 1.068 …………… ………… ………….. 40.160 54.083 0.9452 45.626 53.833 0.940 14.941 53.658 0.937 23.906 53.353 0.932 12.973 52.808 0.922 Çizelge 4.4. apriori sonuçları Sonuç mikro kalsifikayon = ? mikro kalsifikayon = ? mikro kalsifikayon = ? mikro kalsifikayon = ? mikro kalsifikayon = ? ……….. mikro kalsifikayon = ? mikro kalsifikayon = ? Öncül LVI = ? LVI = ? ve multifokal tutulum =? cocuk sayisi = ? ve LVI = ? cocuk sayisi = ? ve LVI = ? ve multifokal tutulum = ? cocuk sayisi = 4 …………. cocuk sayisi = ? ve LVI = VAR LVI = YOK Destek % Güven % Lift 45.626 68.210 1.123 40.160 67.332 1.108 14.941 65.853 1.084 12.973 64.044 1.054 11.807 61.728 1.016 ……………. ………….. ……………. 13.119 52.222 0.860 14.139 51.030 0.840 101 Çizelge 4.5. GRI sonuçları Sonuç Kural Menopoz = POST ve Oral Contraceptif = Hayır ve Multifokalite = Hayır ve metastaz = Evet ve mikrokalsifikasyon = Evet Menopoz = POST ve Komorbit hastalık = Evet ve Aile kanser öyküsü = Hayır ve Multifokalite = Hayır ve LVI = Positif ve metastaz= Evet ve mikrokalsifikasyon = Evet Aile kanser öyküsü = Hayır ve Multifokalite = Evet ve LVI = Positif ve mikrokalsifikasyon = ?Boş TM size stage = T4 TM size stage = T1 TM size stage = T3 Destek% Güven% Lift 2.480 50.000 5.765 0.360 100.000 6.098 0.360 100.000 5.765 Yukarıda verilen tablolardaki ikinci bölümler lift değerinin 1’den küçük olan kurallarını göstermektedir. Bu tür kurallar negatif kurallar olarak düşünülebilir. Ancak bunların dışında lift değeri yüksek fakat pozitif olmayan kurallar da olabilir. Bunun için Zhang et al. tarafından önerilen algoritma kullanılabilir. Ancak bu algoritmanın bizim önerdiğimiz MINN ölçütü kullanılarak yapılması bulunacak kuralları daha güçlü yapacaktır. Bu durumu gösteren birkaç örnek vererek MINN ölçütü için sonuçlar bulacağız. Pozitif kurallar içerisinde komorbit hastalık varken metastaz durumunun “yok” olması kuralı vardı. O ∗ ⟹ halde, = : ⟹ : kuralını düşünelim. ( ⟹ ∗) = |0,435 ∙ 0,099 − 0,108| 0,252 = = 0,497 0,565 ∙ 0,901 0,509 olarak bulunur. İlginçlik ölçütü olarak çok küçük bir değerdir. Bunun nedeni komorbit hastalık varken metastaz olma durumu olasılığının düşük bir değer (%4) olmasından kaynaklanmaktadır. Böyle bir kuralın algoritma sonucu çıkma olasılığı çok düşüktür. Pozitif kural olarak çıkmayan ancak önemli olabileceğini düşündüğümüz başka bir örnek düşünelim. Burada öncül olarak tek değişken değil de üç değişken alacağız. ⟹ ∗ =( : ∧ ∧ ∶ Bu kurala göre MINN ölçütünü hesaplamaya çalışalım: ⟹ : : ) 102 ( ⟹ ∗) = |0,169 ∙ 0,189 ∙ 0,094 − 0,8| 0,797 = = 1,623 (1 − 0,003) ∙ (1 − 0,507) 0.491 şeklinde hesaplanır. Bulunan değer ilginçlik ölçütü olarak uygundur. Faat 1,623 değeri tek başına bir anlam ifade etmez. Tüm istenilen kurallar için ölçütler hesaplanır ve içlerinden büyük olan değerler güçlü olması muhtemel kurallar olarak belirlenir. Bu kural için destek değeri % 1 ve güven değeri ise %80 olduğundan minimum güven eşik değerini fazlasıyla sağlamaktadır, ancak destek eşiğini sağlamamıştır. 1,623 değerinin tüm çıkarılan kurallar içerisinde en büyüğü olduğunu varsayalım. Bu durumda, destek ve güven değerleri ile birlikte düşünerek oluşan kuralın ilginç (güçlü) olduğu düşünülebilir. Yani, menopoz durumu “pre” olduğunda kemik metastazının ve mikrokalsifikasyonun olma durumu yüksek olasılıklı olmaktadır. GRI algoritması ile aynı tarzda bir kural yapısı oluşturmuştur. Yüksek güven ve lift değeri kuralın ilginç olabileceğini gösterir. Karar kullanıcıya aittir. Clementine ile yapılan pozitif kural çıkarma analizinde sonuç olarak T2 evresi çıkmıştı. Bu nedenle, zayıf ta olsalar önemli olabileceği düşüncesiyle MINN ölçütünü diğer evreler için de uygulayalım. ⟹ ∗ =( : ∧ ℎ ∧ : ı : ⟹ ∧ : : 1) Gibi bir kuralı düşünelim. GRI algortiması ile buna benzer bir kuralın ilginçlik ölçütü yaklaşık 6 bulunmuştu. Ancak destek değeri çok küçüktü. MINN ölçütü hesaplamak için öncelikle bazı değerleri belirtelim: 630 = 0,45 1371 ) = 0,10 ( ( )= ( ( ) = 0,43 ) = 0,16 ( 1) = 0,16 ü ( ⟹ ∗) = 0,0007 olarak hesaplanırsa ( ⟹ ∗) = |0,45.0,43.0,10.0,16 − 0,0007| √0,0023 = (1 − 0,003). (1 − 0,16) 0,837 = 0,048 = 0,057 0,837 değeri bulunur. Oluşturulan kuralın hem güven hem de ilginçlik değerleri çok düşüktür. Başlangıçta belirlenen min.il eşik değerini büyük bir olasılıkla sağlamayacaktır. Ancak, kuralda hesaba alınan özelliklerin bulunduğu hastalarda T1 evresi gelişme olasılığınin 103 küçük te olsa (onbinde 7) olabileceğini görmekteyiz. Kuralın gücü binde 57 çıkmıştır. Bir çok hastalığın prevalansının onbinler veya yüzbinler ile ifade edildiği sağlık sektöründe binde 57 gücü dikkate değer olabilir. MINN ölçütü dikotom veri kümelerinde daha kolay hesaplanmasına rağmen çok kategorili değişkenlerin olduğu veri tabanlarında daha zor hesaplanmaktadır. Çünkü güven değerini hesaplamak daha zor olmaktadır. Aynı şekilde yüksek oranlı destek ve güven değerlerini bir araya getirmek zor olmaktadır. Bu nedenle, kategorisi çok olan hatta sıralı kategoriye sahip olan değişkenlerin geliştirilmelidir. bulunduğu veri tabanlarında daha verimli algoritmalar 104 5. SONUÇLAR VE ÖNERİLER 5.1. Sonuçlar Veri madenciliği günümüz analiz tekniklerinin önemli bir bölümünü oluşturmaktadır. Disiplinler arası bir branş olması nedeniyle hem bilgisayar bilimleri hem de istatistik biliminden çok sayıda araştırmacıyı kendine çekmektedir. VM teknikleri üzerinde yapılan araştırmaların sayısı milyonlara yaklaşmakta; ancak çok geniş uygulama alanları bulması nedeniyle bu sayı her geçen gün hızla artmaktadır. Veri madenciliğinin ticari yönü olması nedeniyle işletme ve finans bilimleri ile de yakın ilgili hale gelmiştir. Bu nedenle finansal alanlarda uygulamaların geliştirilmesi yaygınlaşmaktadır. Ayrıca VM’nin kendisi başlı başına bir ticari olgu haline gelmiştir. İlgili yazılımlar her geçen gün gelişmekte; gerek ticari gerekse açık kaynak kodlu uygulama yazılımları geliştirilmektedir. VM yöntemlerinin en önemlilerinden birisi birliktelik kuralıdır. Birliktelik kuralının ortaya çıkış nedeni de ticaridir. Market sepeti analizi şeklinde ortaya çıkmış ancak daha sonraları birçok alanda uygulama şansı elde edilmiştir. Birliktelik kuralı ile ilgili çok çeşitli algoritmalar yazılmıştır. Her yani algoritma bir öncekinden daha hızlı ve daha verimli olmaktadır. Çünkü VM büyük veri kümeleri ile uğraşmaktadır. Bu nedenle işlemcilerin yükünü azaltacak ve daha kısa sürede işlemi sonlandıracak algoritmalara ihtiyaç duyulmaktadır. Birliktelik algoritmaları içerisinde apriori temelli algoritmalar en verimlilerindendir. Veri kümelerinin yapısı uygulama alanlarına göre değişmekte olduğundan her algoritma her veri kümesi için uygun olmamaktadır. Pozitif birlikteliklerin yanı sıra negatif birlikteliklerin de araştırılması gerektiği düşüncesi gelişmiş ve son yıllarda özellikle bu konuda ilerlemeler olmaktadır. Birliktelik kuralı oluşturma yöntemi diğer VM yöntemleri içerisinde ayrı bir disiplin haline gelmeye başlamıştır. Pozitif, negatif, seyrek, işleme dayalı (transactional) ve bulanık (fuzzy) birliktelik kuralları çıkarma şeklinde çok geniş bir alan olmuştur. Bu nedenle, daha üzerinde çalışılması gereken çok fazla konu bulunmaktadır. Bu konuda yapılan yayınlardan görüldüğü kadarıyla gelecek çalışma olarak sunulan yüzlerce konu bulunmaktadır. Klasik istatistiksel yöntemler az sayıda değişken ile çalışmakta ve çok sayıda varsayım gerektirmektedir. Ancak VM yöntemleri bu tür varsayımlara gerek duymamaktadır. Ayrıca çok sayıda değişken ile ve çok büyük sayıda kayıt ile çalışabilmektedir. Klasik analizlerden bir farkı da VM ile yapılan analizlerde bir 105 hipotezinizin olması gerekmemektedir. Çünkü VM yaparken hipotez kurup veriyi hipoteze göre analize sokmuyorsunuz. Başlangıçta büyük bir veriniz var ve bundan “ne çıkarabilirim?” diye soruyorsunuz. Bu nedenle VM daha fazla tercih edilen bir analiz yöntemi haline gelmiştir. Ancak VM uzun ve zorlu bir süreçtir. Özellikle veri kümelerinin çok büyük olması verinin hazırlanması aşamasını zorlaştırmakta ve zaman almaktadır. Ayrıca veri kümesine göre uygun yöntem ve modelleme seçimi de zaman almaktadır. Eğer yüksek ücretler ödeyip kaliteli bir paket program kullanıyorsanız analizleri yapmanız vakit almaz. Ancak açık kaynak kodlu programları kullanmak durumundaysanız ya kod yazıp sonuçları kendiniz elde edersiniz ya da kulanızı dostu olmayan bir ortamda uzun uğraşlardan sonra sonuçlarınıza ulaşabilirsiniz. VM’nin en önemli uğraşılarından birisi de sonuçların raporlanmasıdır. Çünkü kullanıcılar için en önemli şey analizlerden elde edilecek sonuçlardır. Sonuçların görselleştirilmesi için çeşitli grafik ve tablolama yöntemleri geliştirilmektedir. Kuralların, modellerin ve sonuçların görselleştirilmesi ile grafikleme alanında çok önemli gelişmeler kaydedilmiştir. VM yöntemleri sağlık alanında yoğun olarak kullanılmaya başlanmıştır. Bunun en büyük nedeni, hasta ve hastane bilgi sistemlerinin otomasyona geçmesi ve daha fazla kayıt tutulmasıdır. Bu sayede büyük veri kümeleri oluşmakta ve hastalık tedavileri veya hastane yönetim sistemlerinde maliyet düşürme gibi önemli ve öncelikli kavramlar ön plana çıkmaktadır. Buna rağmen birliktelik kuralı uygulamaları henüz başlangıç aşamasındadır. Özellikle gen dizilimleri ve sekanslama, kanser verileri ve hastane yönetim sistemlerine ait veriler bu yöntem için uygundur. Zaten son yıllardaki uygulamalar bu alanlarda yapılmıştır. Bu tez çalışmasında meme kanseri hastalarına ait 1371 kişinin verilerini apriori algoritması ile analiz ettik. Veriler 12 yıl boyunca toplanmış olup daha sonra titizlikle dosyalardan Excel ortamına alınmıştır. Hastaların toplamda 72 değişkene sahip olmasına karşın bazı sözel bilgileri kümden çıkararak yaklaşık 40 değişken ile veri kümesi analiz edilerek gizli kalmış birliktelikler ortaya çıkarılmaya çalışıldı. Tümör çapı evreleri ve metastaz sonuçları ile bunlara etki eden diğer bilgilere ait kurallar çıkarıldı. Apriori’nin haricinde GRI ile de kurallar çıkarıldı. Ve karşılaştırmalar yapıldı. Bu çalışma, bugüne kadar kanser verilerinde yapılan birliktelik uygulamaları içerisinde en büyük hasta sayısına sahip çalışma olmaktadır. Apriori ile bulunan kurallar lojistik regresyon yöntemi ile de karşılaştırıldı. Birbirleri ile paralel sonuçlar ürettikleri anlaşıldı. Negatif kurallar henüz ülkemizde yaygın olmadığından bu konuda literatürde 106 bir çalışmaya rastlanmadı. Bu nedenle tezde negatif kuralların çıkarılmasına da yer verildi. Ayrıca, negatif birliktelik kuralları için bir ilginçlik ölçütü (MINN) önerildi. Veri kümesinden seçilen örnek değişkenler ile MINN ve lift ölçütlerine ait sonuçlar karşılaştırıldı. MINN ölçütünün negatif kuralları belirlemede üzerinde çalıştığımız veri tabanı için lift ölçütünden daha iyi olduğu anlaşıldı. Simüle veri kümesi üzerinde dedaha iyi sonuçların alındığı görüldü. Ancak yine de veri tabanının özelliğine göre (değişken tipi, sektör, gözlem sayısı vs.) değişebileceğinden kullanıcıların bu durumu göz önüne almaları gerekmektedir. 5.2. Öneriler Çıkarılan kurallardan görüldüğü kadarıyla eksik gözlem analizinin çok önemli olduğunu söyleyebiliriz. Eksik gözlemlerin fazla olduğu değişkenler için uygun kuralların çıkarılamadığı görülmüştür. Bu nedenle, büyük veri kümesine sahip olan araştırmacılara birliktelik kuralı analizini kullanmalarını öneriyoruz. Veriler uygun bir şekilde hazırlanıp, eksik gözlemler ile ilgili sorunlar giderildiği takdirde veri madenciliği yöntemleri, özellikle de birliktelik analizi kural çıkarmada en uygun yöntem olabilmektedir. Özellikle sağlık verileri insan ile direk ilgili olduğundan apriori kullanılarak analiz edilmesi uygun olacaktır. Apriori ve GRI algoritmaları genellikle farklı sonuçlar çıkarmaktadır. Bu nedenle GRI algoritması sonuçlarının da dikkate alınması önemlidir. Birliktelik kuralı analizi çok sayıda kural çıkarmaktadır. Negatif fakat önemli olabileceği düşünülen kurallar da düşünüldüğünde yöntemin faydalı olduğunu ifade etmekteyiz. Kuralların değerlendirilmesi konu uzmanları tarafından yapılacağından küçük kurallar bile önemli sonuçlar doğurabilir. Aynı anda çok sayıda değişkeni hesaba katması nedeniyle birliktelik analizi sağlık alanındaki veri kümeleri için uygun bir yöntemdir. 107 KAYNAKLAR Aggarwal, C., Procopiuc, C. and Yu, P., 2002, “Finding Localized Associations in Market Basket Data”, IEEE Transactions on Knowledge and Data Engineering, Vol. 14, p. 51-62 Agrawal, R. and Srikant, R., 1994, “Fast Algorithms for Mining Association Rules”, Proceedings of the 20th VLDB Conference, Chile, p. 1-13 Agrawal, R., Imielinski, T. and Swami, A., 1993, “Mining Association Rules between Sets of Items in Large Databases”, SIGMOD Report of Association for Computing Machinery, USA, p. 207-216 Albayrak, S., 2002, “Tiroit Bezi Verilerinin Bayes ve En Yakın K-Komşu gibi Eğiticili Yöntemlerle Sınıflanması”, İstatistik Araştırma Dergisi, Cilt 1, Sayı 1, s. 131-137 Alpar, C.R., (2011), “Çok Değişkenli İstatistiksel Yöntemler”, Detay Yayıncılık, Ankara, s.71-92 Alpaydın, E., Bilişim 2000 Veri Madenciliği Eğitim Semineri, “Zeki Veri Madenciliği” Sunuş konuşması, 2000 Amandhavalli, M., Ghose, M.k. and Gauthman, K., 2010, “Association Rule Mining in Genomics”, Int’l Journal Of Computer Theory and Engineering, Vol. 2, p. 269-273 Anonim1 http://www.deu.edu.tr/userweb/k.yaralioglu/dosyalar/ver_mad.doc [Ziyaret Tarihi: 22/04/2013] Anonim2 http://www.isletme.istanbul.edu.tr/surekli_yayinlar/dergiler/nisan2000/1.htm [Ziyaret Tarihi: 20/06/2013] Anonim3 http://www.sertacogut.com/blog/wp-content/uploads/2009/03/sertac_ogut__veri_madenciligi_kavrami_ve_gelisim_sureci.pdf [Ziyaret Tarihi: 20/06/2013] Anonim4 http://www.tuik.gov.tr/PreHaberBultenleri.do?id=8572 12/02/2013] [Ziyaret Tarihi: Anonim5 https://tr.wikipedia.org/wiki/Kanser [Ziyaret Tarihi: 14/01/2014] Anonymous1 http://archives.datapages.com [Ziyaret Tarihi: 05/07/2013] Anonymous10 http://technet.microsoft.com/tr-tr/library/ms175595(SQL.100).aspx, “Microsoft Data Mining Algorithms” [Ziyaret Tarihi: 12/03/2013] Anonymous11 http://www.eecs.wsu.edu [Ziyaret Tarihi: 05/07/2013] Anonymous12 http://www.jiad.org [Ziyaret Tarihi: 05/07/2013] Anonymous13 http://www.mypivots.com [Ziyaret Tarihi: 05/07/2013] 108 Anonymous14 http://epp.eurostat.ec.europa.eu/cache/ lmhu_m_esms.htm [Ziyaret Tarihi: 05/07/2013] ITY_SDDS/ EN/ Anonymous2 http://citeseerx.ist.psu.edu/ viewdoc/download?doi=10.1.1.58.5784 &rep=rep1&type=pdf [Ziyaret Tarihi: 18/03/2013] Anonymous3 http://commons.wikimedia.org [Ziyaret Tarihi: 05/07/2013] Anonymous4 http://compbio.pbworks.com [Ziyaret Tarihi: 05/07/2013] Anonymous5 http://dali.feld.cvut.cz [Ziyaret Tarihi: 05/07/2013] Anonymous6 http://motherboard.vice.com [Ziyaret Tarihi: 05/07/2013] Anonymous8 http://sailing.cs.cmu.edu [Ziyaret Tarihi: 05/07/2013] Anonymous9 http://support.sas.com [Ziyaret Tarihi: 05/07/2013] Antonie, M. L., Zaine, O. and Coman, A., 2001, “Application of data Mining Techniques for Medical Image Classification”, Proceedings of the 2nd Int’l Workshop on Multimedia Data Mining, USA, p. 94-101 Atılgan, D., 2009, “Bilgi yönetimi kavramı ve gelişimi” . Türk Kütüphaneciliği. Cilt 23, Sayı 1, s. 201-212 Atılgan, E., 2011, “Karayollarında meydana gelen trafik kazalarının karar ağaçları ve birliktelik kuralı ile analiz edilmesi”, Yüksek Lisans Tezi (Yayımlanmamış) Ayad, A. M., 2000, “A New Algorithm for Incremental Mining of Constrained Association Rules”, MS Thesis, Alexandria University (unpublished) Babadağ, K. K., 2006, “Veri Madenciliği Yaklaşımı ve Veri Kalitesinin Artması için Kullanılması”, 15. İstatistik Araştırma Sempozyumu Bildiriler Kitabı, s. 85-87 Bath, A. P., 2004, “Data Mining in Health and Medical Information”, Annual Review of Information and Technology, Vol. 38, p. 331-369 Bayardo, R. and Agrawal, R., 1999, “Mining the Most Interesting Rules”, Proceedings of SIGMOD Int’l Conference on Knwledge Discovery and Data Mining, p. 145-154 Benoit, G., 2002, “Data Mining”, Annual Review of Information and Technology, Vol. 36, p. 265-310 Berardi, M., Appice, A., Loglisci, C. and Leo, P., 2006, “Supporting Visual Exploration of Discovered Association Rules through Multi-Dimensional Scaling”, Lecture Notes in Computer Sciences, Vol. 4203, p. 369-378 Bertsimas, D. et al, 2008, “Algrithmic Prediction of Health Care Costs”, Operation Research, Vol. 56, p. 1382-1392 109 Biçen, P. ve Fırat, Ü. O., 2003, “Veri Madenciliği Tekniklerini Kullanarak Banka Müşterileri Bölümlendirmesi ve Kredi Skorlama Modeli”, İstatistik Araştırma Dergisi, Cilt 2, sayı 2, s. 135-150 Birant, D. ve ark., 2010, “İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi”, http://ab.org.tr/ab10/bildiri/112.pdf [Ziyaret Tarihi: 07/03/2012] Bramer, M., 2007, “Principles of Data Mining”, Springer-Verlag Publ., London Brossette, S. et al , 1998, “Association Rules and Data Mining in Hospital Infection Control and Public Health Surveillance”, Journal of American Medical Informatics Association, Vol. 5, p. 373-381 Bruzzese, D. and Davino. C., 2008, “Visual Mining of Association Rules”, Visual data Mining, Vol. 4404, p. 103-122 Cespivova, H., Rauch, J., Svatek. V., Kejkula M. and Tomeckova, M., 2004, In Knowledge Discovery and Ontologies (KDO) at ECML/PKDD Chen, M.S., Han. J. and Yu P.S., 1996, “Data Mining: An Overwiev from Database Perspective”, IEEE Transactions on Knowledge and Data Engineering, Vol. 8, p. 866883 Creighton, C. and Hanash, S., 2002, “Mining Gene Expression Databases for Association Rules”, Bioinformatics, Vol. 19, p. 79-86 Çınar, H. ve Arslan, G., 2008, “Veri Madenciliği ve CRISP-DM Yaklaşımı”, 17. İstatistik Araştırma Sempozyumu Bildiriler Kitabı, s. 304-314 Çıngı, H., 2007, “Veri Madenciliğine Giriş”, Ders notları, s. 1-35, http://yunus.hacettepe.edu.tr/~hcingi/ist376a/6Bolum.doc [Ziyaret tarihi: 08/04/2013] Dinçer, E. ve Duru, N., 2007, “Gırtlak Kanseri Ameliyat Verilerinin K-means Yöntemiyle Analizi”, INISTA (International Symposium on Inovations in Intelligent Systems and Applications) Sempozyumu, Türkiye Doğan, Ş. ve Türkoğlu, İ., 2008, “Diagnosing Hyperlipidemia using Association Rules”, Mathematical and Computational Applications, Vol. 13, p. 193-202 Edelstein, H. A., 1999, “Introduction to Data Mining and Knowledge Technology”, Two Crows Corporation, USA, p. 1-36 Emel, G., Taşkın, Ç., 2002, “Genetik Algoritmalar ve Uygulama Alanları”, Uludağ Üniversitesi İİBF Dergisi, Cilt XXI, Sayı 1, s. 129-152 Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P., 1996, From Data Mining to Knowledge Discovery: An Overview. In Advances in Knowledge Discovery and Data Mining, AI Magazine, Vol. 17, p. 37-54 110 Flank, A., 2004, “Multirelational Association Rule Mining”, http://pdf.aminer.org/000/303/250/many_sorted_observational_calculi_for_multi_relati onal_data_mining.pdf [Ziyaret Tarihi: 08/04/2013] Friedman, J., 2012, “Veri madenciliği ve İstatistik: Aradaki bağlantı nedir?” n’den N’ye GEZİNTİ İstatistik Dergisi, Kasım-Aralık 2012, Sayı 9, s.24-33 Gupta, A., Kumar, N. and Bhatnagar. V., 2005, “Analysis of Medical Data using Dta Mining and Formal Concept Analysis”, World Academy of Sciences, Engineering and Technology, Vol. 11, p. 61-64 Güllüoğlu, S. S., 2011, “Tıp ve Sağlık Hizmetlerinde Veri Madenciliği Çalışmaları: Kanser Teşhisine Yönelik Bir Ön Çalışma”, Online Academic Journal of Information Technology, Online Academic Journal of Information Technology, Vol. 2, Num. 5, 1-7 Güvenen, O., 2011, “ İstatistik Bilimi, Etik, Dünya Dinamikleri, Bilgi Tahrifatı ve Karar Sistemlerine Etkileri”, TÜİK İstatistik Araştırma Dergisi, Sayı 2, s. 1-12 Hahsler, M, Grün, B. and Hornik, K., 2005, “A Computational Environment for Mining Association Rules and Frequent Item Sets”, Journal of Statistical Software, Vol. 14, p. 1-25 Han, J. and Kamber, M., 2006, “Data Mining: Concepts and Techniques”, Morgan Kaufmann Publishers, Chapter 5-6 Hashler, M., Hornik, K. and Reutterer, T., 2005, “Implications of Probabilistic Data Modeling for Mining Associations Rules”, Proceedings of the 29th Annual Conference of Data Analysis and Knowledge, Germany, Springer-Verlag Pub., p.1-9 Hoaglin, D. C., Mosteller, F. ve Tukey, J. W.,(1983), “Understanding Robust and Exploratory Data Analysis”, Wiley, New York, USA Hu, R., 2010, “Medical Data Mining based on Asociation Rules”, Computer and Information Science, vol. 3, p. 104-108 Huber, P. J., 1981, Robust Statistics. New York: John Wiley and Sons Imberman S.P., Domanski, B. and Thompson H.W., 2002, “Using Dependency/Association Rules to Find Indications for Computed Tomographing a Head Trauma Dataset”, Artificial Intelligence in Medicine, Vol, 26, p. 55-68 Jabbar, M.A., Chandra, P. and Deekshatulu, B.L., 2011, “Cluster Based Association Rule Mining for Heart Attack Prediction”, Journal of Theoritical and Applied Information Technology, Vol. 32, p. 196-201 Karaağaoğlu, E., 2012, “Veri Mdenciliği ve Yeni Nesil Yöntemleri”, n’den N’ye Gezinti İstatistik Dergisi, Sayı 9, s. 34-38 111 Kaya, E., Bulun, M. ve Arslan, A., 2010, “Tıpta Veri Ambarları Oluşturma ve Veri Madenciliği Uygulamaları”, http://ab.org.tr/ab03/tammetin/96.doc [Ziyaret Tarihi: 12/09/2012] Kotsiantis, S. and Kanellopoulos, D., 2006, “Association Rules Mining: A Recent Overwiev”, GESTS Int’l Transactions on Computer Science and Engineering, Vol. 32, p. 71-82 Küçüksille, E. U., 2010, “Veri Madenciliği ve Uygulama Programları”, Veri Tabanı Yönetim Sistemleri Ders Notları, “ab.org.tr/ab06/ozet/61.html” [Ziyaret Tarihi: 08/04/2013] Kwasnicka, H. and Switalski, K., 2005, “Discovery of Association Rules from Medical Data- Classical Evolutionary Approaches”, Proceedings of 21st Autumn Meeting of Polish Information Processing Society, p. 163-177 Larose, D. T., 2005, “Discovering Knowledge in Data- An Introduction to Data Mining”, John Wiley & Sons Inc., p. 30-36, USA Mahmoodian, H., Abdulrahim, R., Rosli, R. and Saripan, I., 2011, “Using Fuzzy Association Rule Mining in Cancer Classification”, Australas Phys. Eng. Science Med., Vol. 34, p. 41-54 Mehta, M., Agrawal, R., Rissanen, J., 1996, “SLIQ: A Fast Scalable classifier for data mining”, Lecture Notes in Computer Science, Vol. 1057, p. 18-32 Michie, D., Spiegelhalter, D. J. and Taylor, C.C., 1994, “Machine Learning, Neural and Statistical Classification”, Ch. 10, http://www1.maths.leeds.ac.uk/~charles/statlog/whole.pdf [Ziyaret Tarihi: 08/04/2013] Mitchell, M., 1999, “An Introduction to Genetic Algorithm”, The MIT Press, England, ISBN 0−262−13316−4 (HB), 0−262−63185−7 (PB) Nahar, J., Tickle, K., Shawkat, A. and Chen, Y.P., 2009, “Significant cancer Prevention Factor Extarction: An Association Rule Discovery Approach”, J Med Syst, Vol. 35, p. 353-367 Obenshain, M.K., 2004, “Application of Data Mining techniques to Healthcare Data”, Infection Control and Hospital Epidemiology, Vol. 25, No. 8, p. 690-695 Olmuş, H. ve Erbaş, S. O., 2003, “Bayes Ağlarda Koşullu Bağımsızlıkların İncelenmesi üzerine bir Çalışma”, TÜİK İstatistik Araştırma Dergisi, Cilt 2, Sayı 1, s. 89-103 Ordonez , C., Santana, C. and Braal, L., 2000, “Discovering Interesting Association Rules in Medical Data”, Proceedings ACM SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery, p. 1-8 Ordonez, C., 2006, “Comparing Association Rules and Decision Trees for Disease Prediction”, Proceedings of Healthcare Information and Knowledge Management, USA, p. 17-24 112 Orlando, E.S., Zurrida, S. (2005), “Breast Cancer: A Practical Guide”, Elsevier Limited Publications, Oxford, United Kingdom, p. 13-95 Örs, E. T., Bozer, R. ve Koçak, B., 2010, “Paralel Veri Madenciliği”, http://byildiz.etu.edu.tr/bil533/sunumlar/pvmaden_1.ppt [Ziyaret Tarihi: 12/09/2012] Özçakır, F. C. ve Çamurcu, A. Y., 2007, “Birliktelik Kuralı Yöntemi için bir Veri Madenciliği Yazılımı Tasarımı ve Uygulaması”, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, Sayı 12, s. 21-37 Özekes, S., 2003, “Veri Madenciliği Modelleri ve Uygulama Alanları”, İstanbul Ticaret Üniversitesi Dergisi, Cilt 2, sayı 3, s. 65-82 Rahman, R. and Hasan, F.R., 2011, “Using and Comparing Different Decision Tree Classification Techniques for Mining, Hospital Surveillance Data”, Expert Systems with Applications, Vol. 38, p. 11421-11436 Ramaswamy, S., Mahajan, S. and Silberschatz, A., 1998, “On the Discovery of Interesting Patterns in Association Rules”, Proceedings of the 24th Very Large Data Bases Conference, USA, Morgan Kaufmann Publishers Inc., p. 368-379 Rosset, S., Perlich, C., Swirszcz, G., Melville, P. and Liu, Y., 2010, “Medical Data Mining: Insights from Winning Two Competitions”, Data Mining & Knowledge Discovery, Vol. 20, p. 439-468 Sarawagi, S., Thomas, S., and Agrawal, R., 2000, “Integrating Association Rule Mining with relational Database Systems: Alternatives and Implications”, Data Mining and Knowledge Discovery, Vol. 4, p. 89-125 Sever, H. ve Oğuz, B., 2003, “Veri Tabanlarında Bilgi Keşfine Formel Bir Yaklaşım: Kısım II-Eşleştirme sorgularının Biçimsel Kavram Analizi ile Modellenmesi”, Bilgi Dünyası, Sayı 4, s. 15-44 Silahtaroğlu, G., 2008, “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”, Papatya Yayıncılık, İstanbul, s. 83-98 Simovici, D.A., 2004, “Data Mining of Medical data: Opportunities and Challenges in Mining Association Rules”, http://www.cs.umb.edu/~dsim/papersps/dmmd.pdf [Ziyaret Tarihi: 23/10/2012] Smith, M.R., Wang, X. and Rangayyan, R.M., 2009, “Evaluation of the Sensitivity of a Medical Data-mining Application to the Number of Elements in small Databases”, Biomedical Signal Processing and Control, Vol. 4, p. 262-268 Smyth, P., Goodman, R., 1992, “An information theoretic approach to rule induction from databases”, IEEE Trans. On Knowledge and Data Engg., Vol. 4(4), p.652-669 Srikant, R. and Agrawal, R., 1995,”Mining Generalized Association Rules”, Proceedings of the 21st VLDB Conference, Switzerland 113 Srikant, R. and Agrawal, R., 1996, “Mining Quantiative Association Rules in Large Relational Tables”, SIGMOD Report on Management of Data, Vol. 25, p. 1-12 Srinivas, K., Rao, G.R. and Govardhan, A., 2012, “Mining Association Rules from Large Datasets towards Disease Prediction”, Proceedings of Int’l Conf. On Information and Computer Networks, Vol. 27, p. 22-26 Stolba, N. and Tjoa, M., 2005, “The relevance of Data Warehousing and Data Mining in the Field of Evidence-based Medicine to Support Healthcare Decision Making”, World Academiy of Science, Engineering and Technology, Vol. 11, p. 192-197 Suner, A. ve Çelikoğlu, C. C., 2010, “Toplum Tabanlı Bir Çalışmada Çoklu Uygunluk Analizi ve Kümeleme Analizi ile Sağlık Kurumu Seçimi”, Dokuz Eylül Üniversitesi İİBF Dergisi, Cilt 25, Sayı 2, s. 43-55 Tekerek , A., 2011, “Veri Madenciliği Süreçleri ve Açık Kaynak Kodlu Veri Madenciliği Araçları”, XIII. Akademik Bilişim Konferansı Bildirileri, Malatya, s. 161169 Thakur, M., Olafsson, S., Lee, J.S. and Hurburgh, C., 2010, “Data Mining for Recognizing Patterns in Foodborne Disease Outbreaks”, Vol. 97, p. 213-227 Theodoraki, E.M., Katsarakagis, S., Koukouvinos, C. and Parpoula, C., 2010, “Innovative Data Mining Approaches for Outcome Prediction of Trauma Patients”, Journal of Biomedical Science and Engineering, Vol. 3, p. 791-798 Trémeaux., J. and Liu. Y., 2006, http://naku.dochrew.com/dea-ecd/Tremeaux-Liu2006.pdf [Ziyaret Tarihi: 15/08/2012] Tseng. F.S., Kuo, Y.H. and Huang, Y.M., 2010, “Toward Boosting Distributed Association Rule Mining by Data De-Clustering”, Informations Sciences, Vol. 180, p. 4263-4289 Tukey, J. W. (1977), Exploratory Data Analysis, Addison-Wesley, Reading, USA. Usgurlu, B., Özcan, Ö. ve Demirörs, O., 2010, “A Clustering Based Functional Similarity Measurement Approach”, IEEE, Conference Proceedings of 36th EUROMICRO Conference on Software Engineering and Advanced Applications, p.371-375 Vinnakota, S. and Lam, N.S., 2006, “Socioeconomic Inequality of Cancer Mortality in the United States: a Spatial Data Mining Approach”, Int’l J Health Geography, Vol. 5, No. 9, [PMC 1397822 Free Article] Wasan, S.K., Bhatnagar, V. and Kaur, H., 2006, “The Impact of Data Mining Techniques on Medical Diagnostics”, Data Science Journal, Vol. 5, p. 119 Yıldırım, P., Uludağ, M. ve Görür, A., 2008, “Hastane Bilgi Sistemlerinde Veri Madenciliği”, Akademik Bilişim- Onsekiz Mart Üniversitesi Çanakkale, s. 429-434 114 Zhang, C., Zhang, S., 2002, “Association Rule Mining: Models and Algorithms”, Springer-Verlag Publ., Ch. 3, p. 41-82, Berlin 115 EKLER EK-1 Uygun bir başlık buraya yazılmalıdır. EK-2 Uygun bir başlık buraya yazılmalıdır. 116 6. ÖZGEÇMİŞ KİŞİSEL BİLGİLER Adı Soyadı Uyruğu Doğum Yeri ve Tarihi Telefon Faks e-mail : : : : : : Adnan KARAİBRAHİMOĞLU TC Adana, 30.08.1970 +90 535 394 39 80 [email protected] EĞİTİM Derece Lise : Üniversite : Yüksek Lisans : Doktora : Adı, İlçe, İl Adana Erkek Lisesi, Seyhan, Adana ODTÜ, Çankaya, Ankara Çukurova Üniversitesi, Sarıçam, Adana Selçuk Üniversitesi, Selçuklu, Konya Bitirme Yılı 1987 1992 2007 2014 İŞ DENEYİMLERİ Yıl 1996-2004 2004-2013 2013- -- Kurum MEB TÜİK Necmettin Erbakan Üniversitesi Görevi Öğretmen Takım Sorumlusu Uzman UZMANLIK ALANI Matematik, İstatistik, Biyoistatistik YABANCI DİLLER İngilizce, Almanca, Arapça, Farsça BELİRTMEK İSTEĞİNİZ DİĞER ÖZELLİKLER SPSS, Modeller, MS Office YAYINLAR 1. Karaibrahimoğlu A. ve Erol H., Türkiye ve Adana Enflasyon Değerlerinin Karşılaştırılması (2008), Ç.Ü. Fen Bilimleri Dergisi, 17(5), 1-6 (Yüksek Lisans Tezinden yapılmıştır) 2. Talaş, E., Çelik, A.K., Çakmak, F., Kocacan, A, Karaibrahimoğlu, A., “Relative Efficiency Measurement of Enterprises Operating in the Oltu Stone Industry Using Data Envelopment Analysis”, International Journal of Business and Management; 2013, 8-6 117 3. Karaibrahimoğlu, A., Genç, A, “APRIORI Algoritması ile Meme Kanseri Verisinde Kural Çıkarma”, Selçuk Tıp Dergisi, 2014, 30-2 (Doktora Tezinden yapılmıştır) 4. Oltulu R, Karaibrahimoğlu A, “Intraoperative Corneal Thickness Monitoring During Corneal Collagen Cross-Linking With Isotonic Riboflavin”, 2014, The Journal of Cornea and external Diseases (In press) 5. Y. Asar, A. Karaibrahimoğlu and A. Genç, Modified Ridge Regression Parameters: A Comparative Monte Carlo Study, Hacettepe Journal of Mathematics and Statistics, Vol. 43, 2014 (In Press) 6. İnan İ, Gündeslioğlu Ö, Karaibrahimoğlu A, “CLEFT LIP NOSE CORRECTION COMBINING OPEN RHINOPLASTY WITH THE DIBBEL TECHNIQUE”, Journal Of Cranofacial Surgery, 2014 (In Press)