tc selçuk üniversitesi fen bilimleri enstitüsü veri madenciliğinden

T.C.
SELÇUK ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
VERİ MADENCİLİĞİNDEN BİRLİKTELİK
KURALI İLE ONKOLOJİ VERİLERİNİN
ANALİZ EDİLMESİ: MERAM TIP
FAKÜLTESİ ONKOLOJİ ÖRNEĞİ
Adnan KARAİBRAHİMOĞLU
DOKTORA TEZİ
İstatistikAnabilim Dalı
Ağustos-2014
KONYA
Her Hakkı Saklıdır
TEZ BİLDİRİMİ
Bu tezdeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde
edildiğini ve tez yazım kurallarına uygun olarak hazırlanan bu çalışmada bana ait
olmayan her türlü ifade ve bilginin kaynağına eksiksiz atıf yapıldığını bildiririm.
DECLARATION PAGE
I hereby declare that all information in this document has been obtained and
presented in accordance with academic rules and ethical conduct. I also declare that, as
required by these rules and conduct, I have fully cited and referenced all material and
results that are not original to this work.
İmza
Adnan KARAİBRAHİMOĞLU
Tarih: 12/08/2014
iii
ÖZET
DOKTORA TEZİ
VERİ MADENCİLİĞİNDEN BİRLİKTELİK KURALI İLE ONKOLOJİ
VERİLERİNİN ANALİZ EDİLMESİ: MERAM TIP FAKÜLTESİ ONKOLOJİ
ÖRNEĞİ
Adnan KARAİBRAHİMOĞLU
Selçuk Üniversitesi Fen Bilimleri Enstitüsü
İstatistik Anabilim Dalı
Danışman: Prof. Dr. Aşır GENÇ
2014, 126 Sayfa
Jüri
Prof. Dr. Aşır GENÇ
Doç. Dr. Coşkun KUŞ
Prof. Dr. Melih Cem BÖRÜBAN
Doç. Dr. Buğra SARAÇOĞLU
Yrd. Doç. Dr. Aydın KARAKOCA
Teknoloji ile birlikte yaşamın her alanında artan veri miktarı “veri ambarları” kavramını
gündeme getirmiştir. Veri madenciliği, ortaya çıkan çok büyük veri kümelerinin oluşturduğu veri
ambarlarının analiz edilerek yararlı bilgiler elde edilmesini sağlayan yaklaşımlar bütünüdür. Veri
miktarının büyük olduğu ve her geçen gün arttığı alanlardan birisi de sağlık sektörüdür. Her gün binlerce
hastaya ait gerek kişisel gerek tıbbi veriler kayıt altına alınmakta ve bu enformasyon depolanmaktadır.
Ancak bu verilerin çok az bir kısmı analiz edilebilmekte ve geriye kalan kısmından faydalı olabilecek
enformasyon elde edilememektedir. Özellikle hastane yönetim sistemleri, tedavi yöntemleri ve koruyucu
hekimlik konusunda maliyetleri azaltıcı yöntemlerin geliştirilmesi için ambardaki verilerin analiz
edilmesi gerekmektedir. Klasik istatistiksel yöntemler ile büyük veri kümelerini analiz etmek zor olduğu
için, çeşitli veri madenciliği yöntemleri geliştirilmiş ve bilgisayar programcılığı yardımıyla analiz yapmak
daha uygulanabilir hale gelmiştir. Birliktelik kuralı, sağlık alanında yeni kullanılan analiz yöntemlerinden
birisi olup; değişkenlerin birlikte görülme olasılıkları üzerinden örüntü oluşturmak ve buna bağlı olarak
destek ve güven değerlerini hesaplamak için kullanılmaktadır. Bu çalışmada, Meram Tıp Fakültesi
Onkoloji Hastanesine ait retrospektif çalışma sonucu elde edilen göğüs kanseri verileri üzerinde
APRIORI algoritması uygulanacak ve verilerdeki birliktelik örüntüleri ortaya çıkarılmaya çalışılacaktır.
Anahtar Kelimeler: Apriori algoritması, Birliktelik kuralı, Destek, Güven, Veri
madenciliği
iv
ABSTRACT
Ph.D. THESIS
ANALYZING BREAST CANCER DATA USING ASSOCIATION RULE
MINING: MERAM FACULTY OF MEDICINE ONCOLOGY DEPARTMENT
Adnan KARAİBRAHİMOĞLU
THE GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCE OF
SELÇUK UNIVERSITY
DOCTOR OF PHILOSOPHY
IN STATISTICS
Advisor: Prof. Dr. Aşır GENÇ
2014, 126Pages
Jury
Prof. Dr. Aşır GENÇ
Assoc. Prof. Coşkun KUŞ
Prof. Dr. Melih Cem BÖRÜBAN
Assoc. Prof. Buğra SARAÇOĞLU
Asst. Prof. Aydın KARAKOCA
The amount of data, increasing together with the technology, has brought the concept of “data
warehouse” in every field of life. Data Mining is a set of approaches analyzing these data warehouses
formed by very large data sets and allows to gather useful information. One of the fields where the
amount of data is large and getting larger everyday is the health sector. Many personal and medical data
belonging to thousands of patients are recorded and stored. However, small part of these data can be
analyzed and the remaining part may not be helpful to obtain useful information. The data in warehouses
must be analyzed to improve the methods for hospital management systems, treatment and health care
systems to reduce the costs. Since analyzing large data sets using classical statistical methods is difficult,
various data mining methods have been developed and these methods have become more feasible with the
help of certain softwares. Association rule is an important data-mining task to find hidden patterns
between the variables and used recently in the field of healthcare. In this study, we will calculate the
support and confidence of the associations in data set. APRIORI algorithm will be applied onto the
retrospectively obtained breast cancer data belonging to Oncology Hospital of Meram Faculty of
Medicine.
Keywords: Apriori Algorithm, Association Rule, Confidence, Data Mining, Support
v
ÖNSÖZ
“İlim ilim bilmektir
İlim kendin bilmektir
Sen kendin bilmezsen
Bu nice okumaktır”
dizeleriyle “Beşikten mezara kadar ilim öğreniniz” sözünün açılımını yapmış olan
Yunus Emre, içimdeki öğrenme duygusunu harekete geçirerek bugünlere getirdi. Fakat
bu yolculuk tek başına olmazdı. Bir eğitim süreci olduğundan her zaman minnetle
anacağım hocalarım oldu.
Yüksek Lisans döneminden danışman hocam Prof. Dr. Hamza EROL’a; doktora
eğitimine başladığımda ilk danışmanım olan Prof. Dr. Necati YILDIZ’a; Selçuk
Üniversitesi’nde İstatistiğin kapılarını bana açan ve akademik dünyaya girebilmem için
elinden geleni yapan danışmanım ve değerli hocam Prof. Dr. Aşır GENÇ’e
teşekkürlerimi borç bilirim.
Bu tez, nasıl bir konu üzerinde çalışsam diye düşünürken işyerindeki bir
arkadaşımın fikir vermesiyle ortaya çıktı. Bunun üzerine makale taramaya ve konuyu
öğrenmeye başladım. Şu an geldiğim seviye istediğim düzeyde olmasa da üç yıl
öncesine göre kendimi ilerlemiş hissediyorum.
Ayrıca, Tıp Eğitimi ve Bilişimi Anabilim Dalı başkanı Doç. Dr. Nazan
KARAOĞLU’na doktora eğitimi boyunca desteklerini esirgemedikleri; veri kümesini
analizler için benimle paylaşan değerli dostum Tıbbi Onkoloji bölüm başkanı Prof. Dr.
Melih Cem BÖRÜBAN’a çok teşekkür ederim.
Ve tabi ki ailem…
Başta dualarıyla manevi olarak yardımını hiçbir zaman esirgemeyen annem;
kendileri ile daha fazla zaman geçirmem gerekirken tezle ilgilenmek zorunda kalarak
vakit ayırmadığım çocuklarım Zeynel, Ceyda ve Onur; yıllardan beri tüm sıkıntılara
benimle beraber göğüs geren, çoğu zaman beni sırtlayan, beni cesaretlendiren desteğini
her zaman yanımda hissettiğim çok sevgili eşim Nesrin; sizlere çok ama çok teşekkür
ediyorum.
Adnan KARAİBRAHİMOĞLU
KONYA-2014
vi
İÇİNDEKİLER
ÖZET .............................................................................................................. iv
ABSTRACT .....................................................................................................v
ÖNSÖZ ........................................................................................................... vi
İÇİNDEKİLER ............................................................................................. vii
SİMGELER VE KISALTMALAR ............................................................... ix
1.
GİRİŞ .............................................................................................1
2.
KAYNAK ARAŞTIRMASI...........................................................3
3.
MATERYAL VE YÖNTEM .........................................................5
3.1.
Veri Madenciliği’nin Tarihçesi ........................................................5
3.2.
Enformasyon Kavramı .....................................................................7
3.3.
Keşfedici Veri Analizi .....................................................................8
3.4.
Veri Tabanları................................................................................ 11
3.5.
Veri Ambarları............................................................................... 13
3.5.1. Veri Ambarı Oluşturulması ............................................................ 14
3.5.2. Veri Ambarının Özellikleri ............................................................ 16
3.6.
Veri Madenciliği Süreci ................................................................. 19
3.6.1. Verilerin Hazırlanması ................................................................... 22
3.6.2. Veri Madenciliği Yönteminin Uygulanması ................................... 25
3.6.3. Sonuçların Değerlendirilmesi ve Sunulması ................................... 28
3.6.4. Veri Madenciliği Uygulama Programları ....................................... 35
3.6.5. Veri Madenciliği Uygulamasında Karşılaşılan Sorunlar ................. 35
3.7.
Veri Madenciliği Yöntemleri ......................................................... 36
3.7.1. Sınıflandırma Yöntemleri............................................................... 37
3.7.1.1. Karar Ağaçları ....................................................................... 38
3.7.1.2. Bayes/Naïve-Bayes Sınıflandırma ......................................... 41
3.7.1.3. k-En Yakın Komşu (k-ortalama) algoritması .......................... 42
3.7.1.4. k-medoid ............................................................................... 43
3.7.1.5. Destek Vektör Makineleri (SVM) .......................................... 43
3.7.1.6. Yapay Sinir Ağları (Artificial Neural Networks) ................... 44
3.7.1.7. Genetik Algoritma ................................................................. 46
3.7.1.8. Bellek Temelli Nedenleme (Memory Based Reasoning) ........ 47
3.7.1.9. Regresyon ............................................................................. 48
3.7.2. Kümeleme Yöntemleri ................................................................... 48
3.7.2.1. Hiyerarşik Yöntemler ............................................................ 51
3.7.2.2. Bölümlemeli Yöntemler ........................................................ 51
3.7.2.3. K-Ortalamalar (K-Means) Bölümleme Yöntemi..................... 52
3.7.2.4. K-Medoids Bölümleme Yöntemi ........................................... 53
3.7.2.5. PAM Algoritması .................................................................. 54
3.7.2.6. CLARA Algoritması ............................................................. 54
3.7.2.7. CLARANS Algoritması ........................................................ 55
vii
3.7.3.
3.7.4.
3.7.5.
3.7.6.
3.8.
3.8.1.
3.8.2.
3.8.3.
Yoğunluğa Dayalı Yöntemler ........................................................ 55
Izgara Tabanlı Yöntemler .............................................................. 56
Dalga Kümeleme (Wave Cluster)................................................... 57
Kohonen Ağlar (Kohonen Networks) ............................................. 57
Birliktelik Kuralı (Association Rule Mining) ................................. 58
İlişki Analizi (Affinity Analysis) .................................................... 58
Market Sepeti Analizi (Market Basket Analysis) ............................ 59
Destek, Güven ve Kaldıraç Kavramları (Support, Confidence
and Lift)......................................................................................... 61
3.8.4. Büyük Nesne Kümeleri (Large Itemsets)........................................ 63
3.8.5. Örüntü ve Kural Çıkarma (Pattern Recognition and Rule
Extraction) ..................................................................................... 64
3.8.6. Algoritmalar .................................................................................. 65
3.8.6.1. AIS Algoritması .................................................................... 65
3.8.6.2. SETM Algoritması ................................................................ 65
3.8.6.3. Apriori Algoritması ............................................................... 66
3.8.6.4. Apriori-TID Algoritması ....................................................... 68
3.8.6.5. Paralel Veri Madenciliğinde Birliktelik (Parallel Data
Mining) ................................................................................ 69
3.8.7. Negatif Birliktelik Kuralı (Negative Association Rule) .................. 69
3.9.
Önerilen İlginçlik Ölçütü ............................................................... 75
3.10.
Genelleştirilmiş Birliktelik Kuralları (Generalized Rule Extraction) ..
..................................................................................................... 78
3.11.
Birliktelik Kuralı Uygulama Alanları ............................................. 80
3.12.
Veri Madenciliği ve Sağlık Sektörü Uygulamaları ......................... 81
4.
ARAŞTIRMA SONUÇLARI VE TARTIŞMA .......................... 83
4.1.
Kanser ve meme kanseri ................................................................ 83
4.2.
Verinin Hazırlanması ..................................................................... 85
4.2.1. Analizler İçin Paket Programlar ..................................................... 85
4.2.2. SPSS Clementine ile Veri Madenciliği ........................................... 85
4.2.2.1. Modelleme ............................................................................ 87
4.2.2.2. Clementine ve Association Rules........................................... 89
4.2.2.3. Apriori Kural Keşfi ............................................................... 90
4.3.
Teze İlişkin Veriler ........................................................................ 91
4.4.
Bulgular ......................................................................................... 93
5.
SONUÇLAR VE ÖNERİLER ................................................... 104
5.1.
5.2.
Sonuçlar ...................................................................................... 104
Öneriler ....................................................................................... 106
KAYNAKLAR ............................................................................................. 107
EKLER ......................................................................................................... 115
6.
ÖZGEÇMİŞ ............................................................................... 116
viii
SİMGELER VE KISALTMALAR
ARM:
BKA:
CARMA:
CCD:
CCPD:
CEMI:
CLARA:
CLARANS:
CLIQUE:
DBMS:
DBSCAN:
DD:
DENCLUE:
DVM:
EDA:
GRI:
HRA:
IDD:
KDD:
KVA:
MAP:
MBR:
OCD:
OLAP:
PAM:
PAR:
PCA:
PDM:
RBF:
RDBMS:
RVM:
SOM:
SVM:
TID:
VM:
YSA:
Association Rule MiningBiçimsel Kavram Analizi
Continuous Association Rule Mining Algorithm
Count Distribution
Common Candidate Partitioned Database
Clementine External Module Interface
Clustering LARge Applications (Geniş Uygulamaların
Kümelenmesi)
Clustering Large Applications based on RANdomized Search
(RasgeleAramaya Dayalı Geniş Uygulamaların Kümelenmesi)
Clustering in Quest
Database Management Systems
Density Based Spatial Clustering of Applications with Noise
Data Distribution
Algoritması DENsity Based CLUestEring
Destek Vektör Makineleri
Explanatory Data Analysis
Generalized Rule Induction
Hash-based Parallel Mining of Association Rules
Intelligent Data Distribution
Knowledge Discovery from Data Mining (Veri Tabanlarından
Bilgi Keşfi)
Keşfedici Veri Analizi
Maximum A Posteriori Classification
Memory Based Reasoning (Bellek Temelli Nedenleme)
Off-line Candidate Determination
On-Line Analytical Processing
PartitioningAroundMedoids (Temsilciler Etrafında Bölümleme)
Parallel Association Rule
Principal Component Analysis
Parallel Data Mining
Radial Base Function
Relational Database Management Systems
Relevance Vector MachineSelf OrganizingMap
Support Vector Machines
Transaction Identification
Veri Madenciliği
Yapay Sinir Ağları
ix
1
1. GİRİŞ
İstatistik ve bilgi sistemlerinin karar sistemleri ile olan etkileşimi dünya
dinamiklerini, ülkeleri, sektör, alt sektör ve firmaları önemli düzeyde etkilemektedir. Bu
etkilerin ortaya çıkarılması ve yorumların içselleştirilmesi bilimsel katma değeri yüksek
bir olgudur (Güvenen, 2011).
Önceki çağların tek bir adı olmasına karşın içinde bulunduğumuz çağ için birçok
isim kullanılmaktadır. "Enformasyon Çağı”, “Teknoloji Çağı”, Bilgisayar Çağı”
örneklerden birkaçıdır. Teknoloji ilerledikçe bilgisayar kullanımı artmakta, bu artışa
paralel olarak ta “veriler” oluşmaktadır. Veri miktarındaki hızlı artış, depolama
sorunlarını beraberinde getirmekte ve her geçen gün depolama ünitelerinin daha yüksek
kapasiteli ve daha hızlı bir yapıya sahip olmasını gerektirmektedir. Bu durumda iki
temel sorun karşımıza çıkmaktadır. Birincisi, depolanan verilerin güvenlik sorunu;
ikincisi ise arşivlenen veri yığınları ile nelerin yapılacağıdır. Veritabanı denilen bu
yığınların içerisinde belki de stratejik öneme sahip bilgiler gizli olabilir. O halde, bir
sürü ağacın olduğu bir yerde orman hakkında ne gibi anlamlı sonuçlar çıkarılabilir?
Sorunun cevabı veri madenciliğidir. Dünya çapındaki yenilikçi organizasyonlar
veya işletmeler müşterilerinin şikâyetlerini değerlendirmek, ürünlerini yeniden
düzenlemek veya kayıplarını en aza indirgemek için kısacası gelirleri artırmak,
masrafları azaltmak için veri madenciliğini kullanmaktadırlar (Edelstein, 1999).
Veri madenciliği, veriler arasındaki ilişkiyi bulup geçerli tahminler yapmak ve
model ortaya koymak için çeşitli veri analiz yöntemlerini kullanan bir süreçtir. İlk adım,
veriyi tanımlamaktır. İstatistiksel özelliklerini (örneğin; ortalama veya standart sapma),
grafik veya şekiller yardımıyla görsel yapısını ve değişkenler arasındaki potansiyel
olarak anlamlı ilişkileri ortaya koymaktır. Veriyi tanımlamak yalnız başına planımızı
harekete geçirmez. İkinci aşama, tahminleyici bir model oluşturmaktır. Model, orijinal
örneğin haricindeki veriler üzerinde test edilir. İyi bir model hiçbir zaman gerçekle
karıştırılmamalıdır fakat sonuçları anlamak açısından çok faydalı olacaktır. Son
basamak ise modelin deneysel olarak doğrulanmasıdır (Alpaydın, 2000).
Bu çalışmada genel olarak veri madenciliği yöntemleri konusu ele alınacaktır.
Çalışmanın ikinci bölümünde veri madenciliği yöntemleri ve özellikle birliktelik
kuralının gelişimi ve literatürdeki uygulamaları üzerinde durulacaktır. Üçüncü bölümde
veri madenciliği tanımı, tarihsel seyri, ilişkili olduğu disiplinler ve yöntemleri geniş
2
olarak anlatılacaktır. Ayrıca sınıflandırma analizi başlığı altında karar ağaçları (decision
trees), yapay sinir ağları (artificial neural networks), k-en yakın komşu (k-nearest
neighbour) ve kümeleme analizi başlığı altında birliktelik kuralı (association rule), kortalama (k-means algorithm) algoritması yöntemleri detaylı olarak anlatılacaktır.
Dördüncü bölümde hastane verileri ile birliktelik kuralı uygulaması yapılacak ve
sonuçları ortaya konulacaktır. Son bölümde ise çalışmaya ait sonuç ve önerilere yer
verilecektir.
3
2. KAYNAK ARAŞTIRMASI
Veri madenciliğinin tarihi J. Tukey’nin (1977) ortaya attığı Keşfedici Veri
Analizi (Exploratory Data Analysis) çalışmalarına kadar dayanır. Klasik istatistiksel
yöntemlerin katı varsayımları nedeniyle veri setlerinin yeterince analiz edilemediğinden
hareketle yeni teknikler ortaya atılmış ve veri örüntüleri arasındaki ilişkilerin ortaya
çıkarılması için her geçen gün sağlam (robust) ve keşfedici yöntemler geliştirilmiştir.
KVA (EDA) teknikleri için Tukey (1977) ve Hoaglin et al. (1983)’e, sağlam (robust)
teknikler için ise yine Hoaglin et al. (1983) ve Huber (1981)’e başvurulabilir. 90lı
yıllarda bilgisayar teknolojilerinin de gelişmesi ile birlikte bilgisayar mühendisleri
tarafından “veri madenciliği” kavramı ortaya atıldı. Daha önceki dönemlerde taramalar
oldukça uzun sürüyordu fakat istenilen verilere ulaşmak mümkündü. Bu nedenle, büyük
miktarda veriler üzerinde yapılan işlemler için veri taraması (data dredging), veri
yakalama (data fishing), bilgi çıkarımı (knowledge extraction), örüntü analizi (pattern
analysis) veya veri arkeolojisi (data archeology) gibi isimler kullanılmıştır. Keşfedici
Veri Analizi kavramıyla birlikte Veri Tabanlarından Bilgi Keşfi (Knowledge Discovery
from Data Mining-KDD) kavramı gelişmiş ve bu haliyle kullanılmaya devam edilmiştir.
Kimileri veri madenciliği ile KDD’yi eş anlamlı görürken kimileri ise veri
madenciliğini bilgi keşfi sürecinin bir adımı olarak görmektedirler.
Veri madenciliği çalışmaları geniş haliyle Fayyad et al.(1996) tarafından ortaya
konulmuş ve bilgi keşfi konusunda yeni teknikler geliştirmişlerdir. Fayyad “veri
madenciliği,
verideki
geçerli,
alışılmışın
dışında,
kullanışlı
ve
anlaşılabilir
örüntülerin(pattern) belirlenmesi sürecidir” tanımını yapmaktadır. Daha çok regresyon
çalışmaları ile veri madenciliğine katkıda bulunan Friedman (1997) ise “veri
madenciliği, geniş veri tabanlarında bilinmeyen ve beklenmeyen bilgi örüntülerini
araştıran bir karar destek sürecidir” şeklinde bir tanım getirmektedir. Aynı şekilde,
Zekulin (1997), Ferruza (1998), John (2009) gibi veri madenciliği konusunda çalışan
önemli isimler de aynı yönde tanımlar getirmişlerdir.
Veri madenciliğinde en önemli iki analiz sınıflandırma analizi ve kümeleme
analizidir. Sınıflandırma analizi, istatistiğin birçok dalında çalışmalar yapmış olan
Fisher (~1920)’in çalışmalarına dayanır. Sınıflandırma analizi tekniklerinden olan
yapay sinir ağları konusu Anderson (1977), Kohonen (1977) ve Hopfield (1982)
tarafından geliştirilmiştir. Dasarathy (1991) ise k-en yakın komşu algoritmaları üzerinde
çalışmış, Shakhnarovish ve Darrel (2005) bu algoritmayı daha da geliştirmişlerdir.
4
Kümeleme analizi aynı tip verilerin bir arada bulunarak gruplandırılması temeline
dayanan bir analiz yöntemidir. Sibson (1977)’ın çalışmaları ile başlayan yöntem, Ng ve
Han (1994) tarafından CLARANS tekniği olarak, ayrıca Zhang (1996) tarafından
BIRCH tekniği şeklinde geliştirilerek günümüze kadar gelmiştir. Kümeleme analizi
yöntemlerinden olan ve bu tezde uygulamasını göstereceğimiz teknik, birliktelik kuralı
(Association Rule) dır. 1994 yılında IBM Almaden Araştırma Merkezi’nde Agrawal ve
Srikant tarafından geliştirilmiştir.
5
3. MATERYAL VE YÖNTEM
3.1. Veri Madenciliği’nin Tarihçesi
İkinci Dünya Savaşı’nın en hareketli ve kızıştığı dönemlerde askeri amaçlı, şifre
çözmeye yarayan bir makine geliştirildi. ENIAC adı verilen makine, daha sonraları von
Neumann (1945) mimarisi ile geliştirilerek 80’lerde kişisel kullanım (PC) makinelerine
kadar gelişti. Büyük alan kaplayan, tonlarca ağırlığa sahip yüzlerce tüp ile çalışan
ENIAC’tan artık avuç içine sığacak kadar küçülen, fakat hızı ve işlem kapasitesi çok
yüksek olan bilgisayarlara ulaşıldı. Günümüz bilgisayarları hala aynı mimari mantığıyla
çalışmaktadır. Dolayısıyla daha önceki yıllarda çeşitli makineler geliştirilmesine karşın,
bilgisayarın atası ENIAC-EDVAC kabul edilmektedir. Başlarda hızlı hesap yapması
için tasarlanan bilgisayarlar zamanla bilgi depolamak zorunda kaldılar. PunchCard
(Delikli Kart) ile başlayan hafıza ünitelerini disketler, CD’ler, DVD’ler, taşınabilir flash
bellekler izledi. Depolama kapasitesi son derece arttı. Günümüzde depolama
ünitelerinin kapasitesi “terabayt”lar şeklinde ifade ediliyor. 1 TB, yaklaşık 106 MB’a ve
o da yaklaşık 8*1012 bit’lik bilgiye karşılık gelmektedir. İlerleyen yıllarda TB ifadesi de
çok küçük kalacak ve yeni üniteler geliştirilecektir.
Ülkemizde ise ilk bilgisayar IBM-650 olup, yol hesapları yapması için 1960
yılında Karayolları Genel Müdürlüğü tarafından getirilmiştir. Bunu diğer kurumlar ve
çeşitli üniversiteler takip etmiştir. Son yapılan araştırmalara göre yaklaşık %35 oranında
hanelerde bilgisayar ve %42 oranında internet kullanımı vardır. Resmi kurumların
tamamı bilgisayar ve internet kullanımına sahipken girişimlerde ise %92 lik bir oranda
bilgisayar kullanımı ve internet erişimi mevcuttur. Teknolojiyi kullanmak açısından
ülkemiz, birçok dünya ülkesi ile paralel gitmektedir.
Modern çağda insanın etkileşim içinde olduğu her alanda bilgisayarlar ve
internet yoğunluklu bir şekilde kullanılmaktadır. Her alışverişte, her bankacılık
işleminde, her telefon kullanımında veya her medya kaynaklarına ulaşmada veriler
oluşmaktadır. Sadece uydu ve diğer uzay araçlarından elde edilen görüntülerin saatte 50
gigabyte
düzeyinde
olması,
bu
artışın
boyutlarını
daha
açık
bir
şekilde
göstermektedir.1995 yılında birincisi düzenlenen Knowledge Discovery in Databases
konferansı bildiri kitabı sunuşunda, enformasyon teknolojilerinin oluşturduğu veri
dağları, aşağıdaki cümleler ile vurgulanmaktadır.
6
“Dünyadaki enformasyon miktarının her 20 ayda bir ikiye katlandığı tahmin
edilmektedir. Bu ham veri seti ile ne yapmamız gerekmektedir? İnsan gözleri bunun
ancak çok küçük bir kısmını görebilecektir. Bilgisayarlar bilgelik pınarı olmayı vaat
etmekte, ancak veri sellerine neden olmaktadır. “
Dünyadaki büyük işletmelerin veri tabanlarının belirlenmesi amacı ile Winter
Corporation tarafından yapılan bir araştırmada, Sears, Roebuckand Co.’nun sadece
karar destek amaçlı kullanılan veri tabanının 1998 yılında 4630 gigabyte’a eriştiği
görülmektedir. Veri tabanı sistemlerinin artan kullanımı ve hacimlerindeki bu
olağanüstü artış, organizasyonları elde toplanan bu verilerden nasıl faydalanılabileceği
problemi ile karşı karşıya bırakmıştır (Yaralıoğlu, 2013).
Bilgisayar sistemlerinin her geçen gün ucuzlaması ve güçlerinin artması, daha
büyük miktardaki veriyi işlemeleri ve depolamaları anlamına gelmektedir. Ayrıca,
ortaya çıkan bu verilere başka bilgisayarların da hızla ulaşabilmesi demektir. Dijital
teknolojinin yaygın olarak kullanılması büyük veri tabanlarının ortaya çıkmasına neden
olmaktadır.
Bilgisayar sistemleri her geçen gün hem daha ucuzluyor, hem de güçleri artıyor.
İşlemciler gittikçe hızlanıyor, disklerin kapasiteleri artıyor. Artık bilgisayarlar daha
büyük miktardaki veriyi saklayabiliyor ve daha kısa sürede işleyebiliyor. Bunun
yanında bilgisayar ağlarındaki ilerleme ile bu veriye başka bilgisayarlardan da hızla
ulaşabilmek olası. Bilgisayarların ucuzlaması ile sayısal teknoloji daha yaygın olarak
kullanılıyor. Veri doğrudan sayısal olarak toplanıyor ve saklanıyor. Bunun sonucu
olarak da detaylı ve doğru bilgiye ulaşabiliyoruz. Veri kelimesi Latince’de “gerçek,
reel” anlamına gelen “datum” kelimesine denk gelmektedir. “Data” olarak kullanılan
kelime ise çoğul “datum” manasına gelmektedir. Her ne kadar kelime anlamı olarak
gerçeklik temel alınsa da her veri daima somut gerçeklik göstermez. Kavramsal
anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. Bu anlamıyla
değerlendirildiğinde çevremizdeki her nesne bir veri olarak algılanabilir. Veri, oldukça
esnek bir yapıdadır. Temel olarak varlığı bilinen, işlenmemiş, ham haldeki kayıtlar
olarak
adlandırılırlar.
Bu
kayıtlar
ilişkilendirilmemiş,
düzenlenmemiş
yani
anlamlandırılmamışlardır. Ancak bu durum her zaman geçerli değildir. İşlenerek farklı
bir boyut kazanan bir veri, daha sonra bu haliyle kullanılmak üzere kayıt altına
alındığında, farklı bir amaç için veri halini koruyacaktır (Öğüt, 2009). Veriler ölçüm,
sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım
yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer
7
bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır. Veriler, enformasyon
parçacıklarıdır. Bu nedenle, enformasyon kavramını açıklamamız gerekir. Derlenen
verilerin oluşturmuş olduğu bütüne enformasyon denir. Belli bir konuya yöneliktir.
Ayıklanıp düzenlendikten sonra kullanıma sunulacak ve bir problemin çözümüne katkı
sağlayacak bilgi haline dönüşmüş olur. Öğüt’ün düşüncesine göre (2009) bilgi, bu
süreçteki üçüncü aşamadır. Bireyin algılama yeteneği, yaratıcılığı, deneyimi ve kişisel
becerileri ile enformasyonun özümsenerek sonuç çıkarılmasıyla gerçekleşir. Bilgelik ise
ulaşılmaya çalışılan nihai noktadır ve bu kavramların zirvesindeyer alır. Bilgilerin kişi
tarafından toplanıp bir sentez haline getirilmesiyle ortayaçıkan bir olgudur. Yetenek,
tecrübe gibi kişisel nitelikler birer bilgelik elemanıdır.
3.2. Enformasyon Kavramı
Shannon ve Weaver’ın 1949’da ortaya koydukları Enformasyon Kuramı daha
sonraki yıllarda iletişimin temeli olmuştur. Shannon’a göre iletişimde 5 temel unsur
vardır:
Aslında bu iletişim sistemini, alıcı, verici ve mesaj şeklinde 3 temel bileşen
olarak görmek mümkündür. Diğer bileşenler sistemin yapısına göre eklenebilir. Verici,
enformasyon kaynağıdır. Gerek kendisi gerekse çevreden aldığı enformasyonu iletiye
(sinyal) çevirir ve gönderir. İletiler, kanallarda yol alır. Sinyali bozucu çevre elemanları
olabilir. Bunlara gürültü kaynakları denir. İleti kanalında kodlayıcılar vardır. Kodlama
ile iletiler alıcının anlayacağı mesaj haline dönüşür. Mesaj ile hedefe ulaşılmış olur.
İdeal bir iletişimde minimum enerji ile maksimum mesaj iletilmeli, gürültülerden
minimum oranda etkilenmeli ve alıcı, iletiyi maksimum oranda hedefe dönüştürecek
yapıda olmalıdır.
8
Şekil 3.1. Enformasyon teorisine göre iletişim sistemindeki elemanlar
Aksini düşünürsek; veri kaynağındaki sorunlar, vericinin ilettiği sinyallere
parazitlerin etkisinin fazla olması, iletiyi dönüştüren veya kodlayan sistemlerde problem
olması, alıcının gelen sinyali mesaja dönüştürecek yeteneğinin az olması gibi
problemler nedeniyle hedefe istenilen ölçüde ulaşılamayacaktır. Zaman dinamiğinde,
artan bilgi akışı; bilimi ve dolayısıyla karar sistemlerini teorik ve deneysel düzeyde
etkilemektedir. Bilginin işlenmesinin kolaylaşmasıyla birlikte, karar sistemlerinin
etkinliği artmış ve dünya dinamiklerinde önemli değişikliklerin gerçekleşmesine neden
olmuştur. Ancak karar sistemlerine yaptığı etkiden dolayı bilgi akışının doğru bir
şekilde izlenmesi, kaos ve belirsizliğin yüksek olduğu alanlarda bilgi tahrifinden
olabildiğince arındırılması gerekmektedir. Kısacası, iletişim sorunu enformasyon
sorununa dönüşür ve kalitesiz hedefler ortaya çıkar. Bu nedenle, sistemin başlangıcı
olan kaynakta “veri kalitesi” sağlanmalıdır (Güvenen, 2011).
3.3. Keşfedici Veri Analizi
Veri üzerinde klasik istatistiksel tekniklerin uygulanabilmesi için bazı
varsayımların yerine getirilmesi gerekmektedir. Ancak, pratikte bu tür varsayımların
gerçekleşmediği birçok durum ile karşılaşmak mümkündür. Bu nedenle, klasik
istatistiksel teknikler geçerli sonuçları vermekten uzak kalmaktadırlar. İstatistiksel
9
analizlerin etkililiğini arttırmak için sağlam (robust) ve keşfedici yöntemlerin
geliştirilmesi ve uygulamaları giderek genişlemektedir.
Keşfedici Veri Analizi (Exploratory Data Analysis), belli bir veri kümesinin
yapısı hakkında hızlı ve kolay bir şekilde bilgi sahibi olmamıza yardımcı olan teknikler
bütünüdür. İstatistiksel tekniklerin ve analizlerin doğru kullanımı için, özet bazı
istatistikleri elde etmeden veya hipotez testlerini gerçekleştirmeden önce veriler,
oldukça detaylı bir şekilde incelenmelidir.
Kısaca keşfedici veri analizi (KVA), verilerin ne anlattığını anlamak ile ilgilidir.
Tukey (1977), KVA’nin “polisiye” bir çalışma olduğunu vurgulamaktadır. Bir suçu
incelemeye alan bir polisin hem bazı araç gerece hem de kavrama veya anlayış gücüne
gereksinimi vardır. Eğer polisin parmak izi tozu yoksa birçok yüzeydeki parmak izlerini
bulmada başarısız olacaktır. Diğer taraftan, suçun nerede işlendiği ve parmak izlerinin
nerede olabileceğini anlamazsa, parmak izlerini doğru alanlardan alamayacaktır. Benzer
şekilde, veri analizi yapanların da hem bazı araçlara hem de verileri anlama yeteneğinin
olması gerekmektedir. Hoaglin et al. (1983), KVA’nde dört temanın göründüğünü ve
bunların sıklıkla birlikte kullanıldığını belirtmiştir. Bunlar, direnç (resistance), artıklar
(residuals), yeniden açıklama (re-expression) ve açığa çıkarma (revealation) olarak
verilmektedir.
Direnç, verilerde bulunan aşırılıklara karşı duyarsızlığı sağlar. Dirençli bir
yöntem kullanıldığında, verilerin az bir miktarı oldukça farklı başka sayılarla yer
değiştirilse bile, fazla değişmeyecektir. Bunun nedeni, dirençli yöntemlerin veriler
içerisindeki sapanlardan (outliers) ziyade verilerin çoğunluğunun bulunduğu yere
odaklanmasıdır. Örneğin medyan sapanlara karşı dirençli bir istatistik iken aritmetik
ortalama değildir. Direnç ile benzer bir kavram olan sağlamlık (robustness) ise
genellikle verilerin geldiği kabul edilen belli bir olasılıksal modelin varsayımlarındaki
zayıflamalara karşı duyarsızlığı ifade etmektedir. Medyan bir örneğin merkezi eğilimini
ölçmede oldukça dirençli bir istatistik iken, sağlamlık açısından kendisinden daha
sağlam tahminleyiciler de vardır. Aritmetik ortalama ise dirençli olmamakla beraber
sağlam bir tahminleyici de değildir.
Artıklar, verilerin özetlenmesi veya bir model uyumu yapılmasından sonra,
veriler ile modele göre yapılan kestirimler arasındaki farktır:
ı =
– Örneğin, veriler (xi, yi) şeklinde eşleştirilmiş bir yapıda ve uyum
( 3.1)
10
yˆ i  a  bxi
( 3.2)
şeklinde tanımlanmış doğru ise artıklar da
ri  y i  yˆ i
( 3.3)
olacaktır. Keşfedici veri analizinin anahtar özelliği, artıkların detaylı bir analizi
yapılmadan veri kümesinin analizinin tamamlanmadığını söylemesidir. Artıkların
analizi verilerdeki hâkim olan davranış ile anormal davranış arasında açık bir ayırım
yapılabilmesi için dirençli analizleri de kullanmalıdır. Verilerin çoğunluğu tutarlı bir
örüntü gösteriyorsa, bu örüntü dirençli bir doğru bulunmasını sağlar. Ardından elde
edilen dirençli artıklar, şansa bağlı olarak artıp azalanların yanında, örüntüden oldukça
fazla uzak olan artıkları da içerecektir. Anormal artıklar, bunları ortaya çıkaran ilgili
gözlemlerin hangi koşullarda nasıl toplandığının üzerinde durulması gerektiğine işaret
etmektedir. Uygun yöntemler kullanılarak incelenen artıklar, verilerin davranışındaki
başka önemli sistematik durumlara (eğrisellik, etkileşimler, varyansın sabit olmaması,
başka bir faktörün varlığı vb.) da işaret edebilirler.
Yeniden açıklama, verilerin analizini kolaylaştıracak uygun ölçeğin (logaritmik,
karekök vb.) bulunması ile ilgilidir. Keşfedici veri analizi, öncelikle verilerin orijinal
ölçeğinde yapılan ölçümlerin tatmin edici olup olmadığının ele alınması gerektiği
üzerinde durmaktadır. Eğer bu ölçümler tatmin edici değilse, yeniden açıklama,
verilerin yapısına bağlı olarak, simetrinin sağlanmasına, değişkenliğin sabitlenmesine,
ilişkilerin doğrusallaştırılmasına veya etkilerin eklenebilirliğinin sağlanmasına yardımcı
olabilir.
Açığa çıkarma, araştırmacılar için, verilerin, uyumların, tanı (diagnostic)
ölçülerinin ve artıkların (residuals) davranışlarını görme gereksinimini karşılar. Açığa
çıkarma yönteminde ağırlıklı olarak grafik teknikleri kullanılmaktadır. Özellikle gövdeyaprak, histogram ve kutu grafikleri en yaygın ifade yöntemleridir. Bu grafiklerin
oluşturulması için veri üzerinde çok sayıda işlem uygulanır. Çünkü çoğu zaman veriler
işleme hazır halde değildirler. Veriler üzerinde bir takım dönüşümler uygulayarak,
verileri temizleyerek, verileri düzleştirerek veya harf değerlerine dönüştürerek verilerin
analizleri yapılmaktadır (Hoaglin, 1983).
KVA’nın makine öğrenimi, uzman sistemler ve istatistik ile sıkı bir ilişkisi
vardır. Bu ilişkilerden birisi de veriler ile ilgili modelleme yapmaya yarayan Biçimsel
Kavram Analizi (BKA) dir. Rudolf Wille (1982) tarafından kafes teorisinin
genişletilmesiyle ortay çıkmıştır. Matematiksel anlamda biçimsel mantık esasına
11
dayanır. BKA kavramı birçok disiplinde genel bir mekanizma olarak karşımıza
çıkmaktadır. Analiz iki bölümden oluşur: kapsam (extent) ve içerik (intent). İçerik
kavramın özelliklerini, kapsam ise kavramda yer alan nesneleri verir. Nesnelerin
taşıdıkları özelliklere göre gruplandırılmasına kavramlaştırma denir. BKA, kavramları
verilen bir bağlam içerisinde tanımlar ve aralarındaki ilişkiyi bağlama karşılık gelen
kafes yapısını kullanarak inceler. Biçimsel olarak bağlam, nesneler (G), özellikler (M)
ve ilişkilerden (I) oluşan üçlü bir cebirsel yapıyla ifade edilir. g nesnesi ve m niteliği
için (g,m) ∈I gösterimi “g nesnesi m niteliği taşır” anlamına gelmektedir (Sever, 2003).
Bu tanımlamalar ışığında Biçimsel Kavram Analizi, veri madenciliğindeki birliktelik
kuralının temelini oluşturmuş ve Agrawal et al. (1993) tarafından matematiksel temele
oturtularak algoritma geliştirilmiştir.
KVA ile ilgili yöntemler ve bilgiler detaylı incelendiğinde veri madenciliğinin
temeli olduğu görülecektir. Veri madenciliği de veri kümesi üzerindeki veri keşfi ile
ilgilidir. Ancak, veri madenciliği daha ileri teknik ve algoritmaları kullanmaktadır.
Keşfedici veri analizinin yalnızca hipotez testleri öncesi veri hakkında detaylı bilgi
sahibi olmak ve sonuçları görselleştirmek için kullanıldığı görmekteyiz. Bu nedenle veri
madenciliği KVA’nın bir sonraki ve ileri aşaması olmaktadır.
3.4. Veri Tabanları
Çevremizde olup biten tüm olaylar sonucunda “veri” oluşmaktadır. Veriler,
göndericiler tarafından iletilmek üzere kullanılır. Ancak veriler, kullanım hızından daha
süratli artmaktadır. Artan verilerin depolanması gerekmektedir. Düzenli verilerin bir
araya gelerek oluşturduğu bilgiler topluluğuna “veri tabanı” adı verilir. Veri tabanı
terimi, ilk yıllarda “kütük (file)” kavramının bir devamı olarak kullanılmıştır.
Bilgisayar terminolojisinde ise veri tabanı, sistematik erişim imkanı olan, yönetilebilir,
güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen bilgiler
kümesidir. Bir başka tanımı da, bir bilgisayarda sistematik şekilde saklanmış,
programlarca istenebilecek veri yığınıdır. Her veri kümesi veri tabanı olarak kabul
edilmez. Veri tabanı aşağıdaki özellikleri taşımalıdır:

Veri tabanı belli bir kuruluşun birçok uygulamasında kullanılan, birbiriyle ilişkili
işletimsel verilerden oluşur.

Veri tabanında saklanan veriler kuruluşun birden çok uygulamasında kullanılan
sürekli verilerdir.
12

Giriş/çıkış verileri ve geçici veriler veri tabanında yer almaz.

Veri tabanındaki veriler gereksiz yinelemelerden arınmış olarak, düzenli bir
biçimde bilgisayar belleklerinde saklanır ve bu veriler ilgili kuruluşun birden çok
uygulaması tarafından paylaşılan ortak verilerdir.

Veri tabanında saklanan veriler değişmeyen statik veriler değildir. Ekleme, silme
ve güncelleme işlemleriyle veri tabanındaki veriler değiştirilebilir. Ayrıca
sorgulama ve raporlama işlemleri de yapılabilmektedir.

Veri tabanındaki veriler üzerinde merkezi bir denetim vardır.

Kullanıcılar işletim sistemi komutları ya da genel amaçlı programlama dilleri ile
yazılmış uygulama programlarını kullanarak, doğrudan veri tabanındaki verilere
erişemezler ve bu verileri değiştiremezler.

Bir veri tabanını oluşturmak, saklamak, çoğaltmak, güncellemek ve yönetmek
için kullanılan programlara Veri Tabanı Yönetme Sistemi (DBMS – Database
Management Systems) adı verilir. DBMS özelliklerinin ve yapısının nasıl
olmasını gerektiğini inceleyen alan Bilgi Bilimi (Information Science)'dir. Veri
Tabanında asıl önemli kavram, kayıt yığını ya da bilgi parçalarının
tanımlanmasıdır. DBMS aracılığıyla, veri tabanının bilgisayar belleklerindeki
fiziksel yapısı kullanıcılardan gizlenir. Kullanıcılara daha yalın mantıksal yapılar
sunulur.
Veri tabanı yazılımı ise verileri sistematik bir biçimde depolayan yazılımlara
verilen isimdir. Birçok yazılım bilgi depolayabilir ama aradaki fark, veri tabanın bu
bilgiyi verimli ve hızlı bir şekilde yönetip değiştirebilmesidir. Veri tabanı, bilgi
sisteminin kalbidir ve etkili kullanmakla değer kazanır. Bilgiye gerekli olduğu zaman
ulaşabilmek esastır. Bağıntısal Veri Tabanı Yönetim Sistemleri (Relational Database
Management Systems - RDBMS) büyük miktarlardaki verilerin güvenli bir şekilde
tutulabildiği, bilgilere hızlı erişim imkânlarının sağlandığı, bilgilerin bütünlük içerisinde
tutulabildiği ve birden fazla kullanıcıya aynı anda bilgiye erişim imkanının sağlandığı
programlardır. Oracle veri tabanı da bir bağıntısal veri tabanı yönetim sistemidir
(Usgurlu, 2010).
İlişkisel Veri Tabanı Sistemleri
• PostgreSQL
• MySQL
• Oracle
13
• Sybase
• BerkeleyDB
• Firebird
Veri Tabanı Dilleri
• SQL
• PL/SQL
• Tcl
Veri tabanının sağladığı faydalar şu şekilde özetlenebilir:

Herhangi bir evrakın saklanmasına gerek kalmaz

Bilgiler daha hızlı güncellendiğinden zamandan tasarruf edilir.

Yalnızca istediğimiz bilgiye istediğimiz zaman ulaşma imkanı vardır.

Verilerin kontrolü merkezi idare tarafından sağlanır.

Veri tekrarları azalır.

Tutarsız (hatalı) bilgi girişi engellenir.

Verilerin paylaşımı sağlanır.

Veri deseninde bütünlük sağlanır.

Genel veya özel raporlar almak mümkündür (Çıngı, 2007).
3.5. Veri Ambarları
Veri ambarı kavramının babası olarak nitelenen William H. Inmon’un 1992
yılında yapmış olduğu “Developing the Data Warehouse” çalışmasına göre veri ambarı,
konu odaklı, kara verme sürecini etkinleştiren, bütünleşik ve kalıcı veri topluluğudur.
Bir veri ambarı, analizler ve sorgular için kullanılabilir, bütünleşmiş bilgi deposudur.
Veri ve bilgiler, üretildiklerinde heterojen kaynaklardan elde edilirler. Veri Ambarları,
sağlık sektöründen coğrafi bilişim sistemlerine, işletmelerin pazarlama bölümünden
üretime, geleceğe dönük tahminler yapmada, sonuçlar çıkarmada ve işletmelerin
yönetim stratejilerini belirlemede kullanılmakta olan bir sistemdir. Pahalı bir yatırım
maliyeti olsa bile sonuç olarak getirisi (yararı) bu maliyeti kat kat aşmaktadır.
Belirli bir döneme ait, yapılacak çalışmaya göre konu odaklı olarak
düzenlenmiş, birleştirilmiş ve sabitlenmiş işletmelere ait veri tabanlarına “veri ambarı”
denir. Veri ambarları üzerinde çeşitli stratejiler hakkında karar vermek için yapılan veri
analizi ve sorgulama işlemlerine OLAP (On-Line Analytical Processing) denir. Günlük
sorgulamalardan farklı olarak olasılık barındır. Haftalık alış-satış oranı OLAP değilken;
14
süt ürünleri satışlarının 10 bin’i aşma olasılığı OLAP olur. OLAP ile veri madenciliği
birbirinden farklıdır. OLAP analizcisi hipoteze dayalı örüntü ve ilişkileri üretir ve onları
veri kümesi üzerinde ispat etmeye çalışır. Veri madenciliği analizcisi ise hipoteze dayalı
hareket etmektense bizzat veri kümesi üzerinde örüntüler ve ilişkiler bulmaya çalışır.
Buna karşın OLAP ve VM birbirlerini tamamlarlar. Araştırmacı önce olasılıksal
düşünerek ilişkileri belirlemeye çalışır ve sonrasında veri kümesi üzerinde işlemler
uygulayarak bu ilişkileri ortaya çıkarır (Küçüksille, 2010).
3.5.1. Veri Ambarı Oluşturulması
Veri ambarı aşaması veri madenciliği sürecinde önemli bir aşamadır. Bu süreç,
toplam maliyet ve zamanın önemli bir kısmını almaktadır. Madenciliği yapılacak veri
tek bir yapı içerisinde bulunmayabilir. Bu nedenle bilginin tek çatı altında toplanması
gerekir. Fakat veriyi tek çatı altında toplamak veri ambarı oluşturma anlamına gelmez.
Veri kümeleri üzerinde ayrıca başka işlemlerin de yapılması gerekmektedir.
İş organizasyonlarında veri ambarları iki amaçla oluşturulmaktadır:
1. Hareketsel ve organizasyonel görevler arasındaki depo ve analitik stratejik
verilerin birikimini sağlar. Bu veriler daha sonra yeniden kullanılmak üzere arşivlenir.
Veri ambarları verilerin sorgulanabildiği ve analiz yapılabilindiği bir depodur.

2. Veri Ambarlarının pazarda yeni fırsatlar bulmaya, rekabete katkı, yoğun proje
çevirimi, iş, envanter, ürün maliyetlerinin azalmasının yanında farklı işlere ait
verilerin ilişkilendirilmesi, karar destek ve alınan bilgiye hızlı cevap verebilme
gibi birçok katkısı vardır.
Veri ambarı oluşturma aşamaları:
i.
Toplama: farklı kaynaklarda olan verilerin tek kaynakta birleştirilmesi
işlemidir. Örneğin, hastaların tıbbi verileri yanı sıra bazı demografik
özelliklerinin de bilinmesi gerekebilir. Bu tür verilerin farklı kaynaklardan
alınarak tıbbi veriler ile birleştirilmesi yani toplanması gerekebilir.
ii.
Uyumlandırma: farklı kaynaklardan alınan veriler arasında uyumsuzluklar
ortaya çıkabilir. Veri madenciliği sürecinin başarısında veri uyumu önemli rol
oynamaktadır. Örneğin, cinsiyet verileri bir kaynakta 1/0 şeklinde tutulurken
diğer bir kaynakta E/K, veya Erkek/Bayan şeklinde tutuluyor olabilir.
Dolayısıyla veriler toplanırken bu uyumsuzluğun giderilmesi gerekmektedir.
15
iii.
Birleştirme ve Temizleme: Uyumlandırma işlemi sırasında verilerin dikkatli bir
biçimde birleştirilmesi ve fazlalıkların temizlenmesi gerekir.
iv.
Seçme: Kurulacak model için uygun verinin seçilmesi işlemidir. Özellikle
sınıflandırma uygulamalarında özniteliklere uygun verinin belirlenmesi önem
göstermektedir. Çünkü veri tabanlarındaki işlem hızları artmasına rağmen uygun
seçilmemiş veriler ile model denemesi yapılması zaman ve maliyet açısından
kayıplara neden olmaktadır (Kaya, 2010). Veri Ambarı oluşturmasına bir örnek
verelim.
ÖrnekMüşteriVeriTabanı
Müşteri No Ad-Soyad
1280001
AAABB
-------------------------------------
DoğumTarihi
15.04.1982
-------------------
↓
ÖrnekSatışVeriTabanı
Müşteri No Ürün
128001
Gömlek
-------------------------------------
Miktar
2
-------------------
↓
ÖrnekÜrünVeriTabanı
Ürün No
Marka
23500
Sarar
-------------------------------------
Miktar
300
-------------------
↓
ÖrnekMüşteriVeriAmbarı
MüşteriBurcu
Marka
Koç
Sarar
-------------------------------------
AlışverişGünü
04.03.2013
-------------------
Miktar
2
-------------------
Çizelge 3.1. Müşteri, satış ve Ürün veri tabanlarının kullanılarak Müşteri Veri Ambarı
oluşturulması
16
3.5.2. Veri Ambarının Özellikleri
Bir veri ambarının taşıması gereken özellikler şunlardır:

Konu Odaklılık: Bir veri ambarı, karar vericiler için de kullanıcılar için de
yalnızca gerekli olan verilere odaklı olup, o konu hakkında basit ve kısa görüş
elde etmeyi sağlamalıdır.

Bütünleşik olma: Bir veri ambarı, genellikle ilişkisel veri tabanları, standart
dosyalar ve online işlem kayıtları gibi çoklu heterojen yapıdaki kaynakların
bütünleştirilmesiyle oluşturulmaktadır.

Belirli zaman dilimine ait olma: Tarih açısından belli bir trend yakalamak
amacıyla son 5-10 yılın verileri saklanmaktadır. Her veri, dolaylı veya doğrudan
bir zaman değişkeni ile ilişkilendirilir.

Kalıcılık (Uçucu olmayan): Ambardaki veri, yönetimin ihtiyaçlarına cevap
vermek üzere tasarlandığından günlük işlemlere tabi tutulmamakta; yani silme
veya güncelleme işlemi yapılmamaktadır. Veriler yalnızca okunabilir (read-only)
yapıda tutulmaktadır. Ambarlarda “veri yükleme (loading)” ve “veriye erişim
(access)” olmak üzere yalnızca iki tür işlem uygulanır.
Veri tabanları üzerinde dönüşüm yapılarak konu odaklı olarak veri ambarları
oluşturulur. Veri ambarının belli bir konuya göre düzenlenmiş, sadece belli bir
bölümünü ilgilendiren parçasına veri pazarı (data mart) denir (Silahtaroğlu, 2008).
Veri ambarlarında özelliklerine göre şu tür veriler bulunur:

Metaveri: Veriye ilişkin temel veri olarak tanımlayabileceğimiz metaveri, veri
ambarının en temel bileşenlerinden birisidir. Konu ile ilgilenen karar destek
analizcilerine yardım etmek üzere tasarlanmış bir dizindir ve ilgili ambarın
içeriğinde neler olduğunu belirtir. Verinin konumu, hangi algoritmaya göre
oluşturulduğu, içeriği, kapsamı, çerçevesi vb. gibi bilgileri içeren bir kılavuz
niteliğindedir.
17
Hanehalkı Bilişim Teknolojileri Kullanım İstatistikleri
Analitik Çerçeve, Kapsam, Tanımlar ve Sınıflamalar
Amaç:
Hanehalkı Bilişim Teknolojileri Kullanım Araştırması, hanelerde ve bireylerde sahip olunan bilgi
ve iletişim teknolojileri ile bunların kullanımları hakkında bilgi derlemek amacıyla 2004 yılından
itibaren uygulanmakta olup, söz konusu teknolojilerin kullanımı hakkında bilgi veren temel veri
kaynağıdır.
Bu araştırma ile aşağıdaki alanlarda veri derlenmektedir:
- Hanelerde bulunan bilgi ve iletişim teknolojileri
- Bilgisayar (Bireylerin bilgisayar kullanımı, sıklığı v.b.)
- İnternet (Hanelerde İnternet erişimi sahipliği, bağlantı tipleri, bağlı araçlar, bireylerin İnternet
kullanım sıklığı, kullanım amaçları v.b)
- e-Ticaret
- e-Devlet uygulamaları
- Bilişim güvenliği
Tanımlar:
Hanehalkı: Aralarında akrabalık bağı bulunsun ya da bulunmasın aynı konutta veya konutlarda,
aynı konutun bir bölümünde yaşayan, kazanç ve masraflarını ayırmayan, hanehalkı hizmet ve
yönetimine katılan bir veya birden fazla kişiden oluşan topluluk.
Kent: 20 001 ve daha fazla nüfuslu yerleşim yerleridir.
Kır: 20 000 ve daha az nüfuslu yerleşim yerleridir.
bir işte çalışmış olanlar, Uluslararası İşteki Durum Sınıflamasına (ICSE,1993) uygun olarak
sınıflandırılmakta ve yayımlanmaktadır.
Şekil 3.2. Hanehalkı Bilişim Teknolojileri Anketine ait verilerin bulunduğu ambardaki
Çizelge 3.2Hanehalkı
Bilişim Teknolojileri Anketine ait verilerin bulunduğu
metaveri örneği (Anonim4)
ambardaki metaveri örneği(Kaynak: TÜİK internet sitesi-
18
3. Statistical presentation
3.1. Data description
The Unemployment - LFS adjusted series (including also Harmonised long-term
unemployment) is a collection of monthly, quarterly and annual series based on the quarterly
results of the EU Labour Force Survey (EU-LFS), which are, where necessary, adjusted and
enriched in various ways, in accordance with the specificities of an indicator.
Harmonised unemployment is published in the section 'LFS main indicators', which is a
collection of the main statistics on the labour market.
Other information on 'LFS main indicators' can be found in the respective ESMS page.
General information on the EU-LFS can be found in the ESMS page for 'Employment and
unemployment (LFS)' (see link in section 21.2).
Detailed information regarding the survey methods, organization and comparability issues is
available on the EU-LFS webpage.
3.2. Classification system
The 'LFS main indicators' are produced in accordance with the relevant international
classification systems. The main classifications used are NACE Rev.1 (NACE Rev.1.1 from
2005) and NACE Rev. 2 (from 2008) for economic activity, ISCO 88 (COM) for occupation
and ISCED 1997 for the level of education. For more details on classifications, levels of
aggregation and transition rules, please view the EU-LFS webpage: Statistical classifications
in EU-LFS.
3.3. Sector coverage
Not applicable
3.4. Statistical concepts and definitions
Definitions of employment and unemployment, as well as other survey characteristics,
follow the definitions and recommendations of the International LabourOrganisation. The
definition of unemployment is clarified further in Commission Regulation (EC)
No 1897/2000. This domain comprises collections of monthly averages of unemployed
persons and unemployment rates. The relevant definitions are as follows:
Unemployed persons are all persons 15 to 74 years of age (16 to 74 years in ES, SE (19952000), UK, IS and NO) who were not employed during the reference week, had actively
sought work during the past four weeks and were ready to begin working immediately or
within two weeks. Figures show the number of persons unemployed in thousands.
The duration of unemployment is defined as the duration of a search for a job or as the
length of the period since the last job was held (if this period is shorter than the duration of
search for a job).
Unemployment rate is the number of people unemployed as a percentage of the labour
force. The labour force is the total number of people employed and unemployed.
3.5. Statistical unit
Persons
3.6. Statistical population
The EU-LFS results cover the total population usually residing in Member States, except for
persons living in collective or institutional households. While demographic data are gathered
for all age groups, questions relating to labour market status are restricted to persons in the
age group of 15 years or older. For exceptions, please consult EU-LFS webpage:
Comparability of results.
Şekil 3.3. İşsizlik Oranları Çalışmasına ait verilerin bulunduğu ambardaki metaveri
örneği (Anonymous14)
19

Ayrıntı veri: veri ambarında en son olayları içeren ve henüz işlenmediği için
diğerlerine oranla daha büyük hacimli ve disk üzerinde saklandığından erişimleri
ve yönetimleri pahalı olan verilerdir.

Eski ayrıntı veri: Ayrıntı verinin dışında kalan ve daha eski tarihe ait olan
verilerdir. Ayrıntılı veriye göre daha düşük bir ayrıntı düzeyine indirgenerek
saklanmaktadır.

Düşük düzeyde özetlenmiş veri: Ayrıntı veriden süzülerek elde edilen düşük
seviyede özetlenmiş verilerdir. Veri ambarının tasarımı esnasında hangi verinin
özetleneceği ve özetleme işleminin ne düzeyde olacağı belirlenmelidir.

Yüksek düzeyde özetlenmiş veri: Ayrıntı veri daha yüksek düzeyde özetlenerek,
kolayca erişilebilir hale getirilebilir. Bu tür veriler de veri ambarının bir bileşeni
olarak yer alabilir.
Kısacası Veri Ambarları, stratejik kararları verme konusunda bir organizasyonun
ihtiyacı olan bilgiyi depolayan ve yapısal veya amaca özel sorgulamaların yapılabildiği,
birçok veri türünü bütünleştiren bir mimari olarak görülmektedir (Atılgan, 2011).
3.6. Veri Madenciliği Süreci
Veri madenciliği, belli belirsiz tanımlanmış bir alandır. Yapılan tanımlar
uygulama zeminine veya uygulayıcılara göre değişmektedir.

Veri madenciliği veri içindeki, geçerli, yeni, potansiyel olarak faydalı ve nihai
olarak anlaşılır örüntüleri anlamanın basit olmayan bir yoludur (Fayyad).

Veri madenciliği büyük veri tabanlarındaki daha önceden bilinmeyen,
kavranabilir ve işlemeye uygun bilginin ortaya çıkarılması ve bu bilginin önemli
iş kararları verilmesinde kullanılması sürecidir (Zekulin).

Veri madenciliği veri içindeki daha önceden bilinmeyen ilişki ve örüntüleri ayırt
etmede bilgi keşif sürecinde kullanılan yöntemlerin kümesidir (Ferruza).

Veri madenciliği veri içindeki faydalı örüntüleri keşi sürecidir (John).

Veri madenciliği büyük veri tabanlarında bilinmeyen ve beklenmeyen bilgi
örüntülerini araştırdığımız kara deste sürecidir (Parsaye).
Veri madenciliği ile ilgili yapılan yüzlerce tanımda iki orak kavram ortaya
çıkmaktadır. İlki “çok fazla” miktarda verinin olması, ikincisi ise bu verilerden
“anlamlı” bilgiler elde edilmesidir. Veri madenciliği uygulamaları günümüzde daha çok
20
ticari eksenli gelişmiştir ve kamu alanında yapılan uygulama sayısı başlarda az
olmuştur. Bu nedenle istatistik kurumlarının ve ofislerinin her geçen gün artan veri
yığınlarıyla baş edebilmeleri için veri madenciliği uygulamalarına gerekmiştir. Bunun
sonucunda verilerin temiz ve tutarlı hale getirilmesinde ve veri giriş performanslarının
incelenmesinde kullanılmaya başlayan veri madenciliği teknikleri sayesinde kamu
alanında da veri kalitesi artmaya başlamıştır (Babadağ, 2006).
Tüm bu tanımlamalara rağmen Veri Madenciliği (VM) ticari bir girişimin
konusu olarak günümüze kadar gelmiş ve madencilikten ziyade madencilere yazılım ve
donanım satmanın bir aracı olmuştur. Firmalar, büyük veritabanlarını yönetme ihtiyacı
içerisindedirler. Rekabet amacıyla her firma kendi sahip olduğu verilerden örüntü
çıkarma peşine düşmektedir. Bu durum, daha büyük disk alanları, daha hızlı işlem
yapan bilgisayarlar ve daha çabuk analiz yapacak yazılımların ihtiyacını doğurmaktadır.
Hem donanım hem de yazılım tacirleri abartılı reklamlar ile firmaların rekabetçi
damarını kaşırlar. Dolayısıyla, VM için çok büyük bir yazılım, donanım ve eğitim
pazarı oluşmuştur. Pazarın büyüklüğü milyar dolarlar ile ifade edilmektedir. Başlarda
birçok firma veritabanlarını idare edecek kapsayıcı paketler üretirken günümüzde birçok
firma tek bir amaç için uzmanlaşmış paketleri pazarlama çabası içerisine girmişleridir.
Mevcut VM ürünleri genel olarak aşağıdaki özelliklere sahiptirler:
 Çekici bir grafik ara yüzü
 Sorgulama dili
 Veri çözümleme prosedürleri dili,
 Esnek uygun girdi
 Tıklama ikonları ve menüler
 Girdi için iletişim kutuları
 Çözümlemeleri betimleyen diyagramlar
 Çıktıların çok yönlü ve hızlı grafikleri
Bunun yanı sıra istatistiksel çözümleme için şu yöntemleri de barındırırlar:
 Karar ağaçları
 Kural çıkarma
 Kümeleme yöntemleri
 İlişkilendirme kuralları
 Örüntü tanıma
 Yapay sinir ağları
 Bayesian ağları
21
 Genetik algoritma
 Kendini örgütleyen haritalar
 Bulanık sistemler
Bununla birlikte VM paketlerinin neredeyse tamamında
 Hipotez testleri
 Deneysel tasarım
 (M)ANOVA
 GLM
 Regresyon
 Diskriminant Analizi
 Kanonik Korelasyon
 Faktör Analizi
gibi istatistiki analiz yöntemleri bulunmaz. Bu tür temel analizler istatistik paketlerinin
içeriğidir ve VM paketleri istatistik alanı dışında geliştirildiğinden temel yöntemler
büyük ölçüde göz ardı edilmiştir. Bu durum, VM’nin görünürde istatistik ile ilgisinin
yüksek olmadığı izlenimini uyandırmaktadır. Çünkü VM kavramını büyük çoğunlukla
bilgisayarcılar geliştirmektedir. Oysa olayın geri planında teorik istatistik ve matematik
yoğun olarak kullanılmaktadır. Bu nedenle, “VM entelektüel bir disiplin midir?” veya
“VM istatistiğin bir parçası olmalı mıdır?” sorularının yanıtı net olmadığından henüz
kesin olarak cevaplanamamaktadır. Ancak VM’nin ticari düşünceden uzaklaşması ve
astronomik, meteorolojik, uzaktan algılama veya endüstriyel proses gibi büyük veri
tabanlarının bilim ile daha ilgili olmaları nedeniyle gelecekte verilebilecek cevap
şüphesiz: “evet!” olacaktır.
Ticari de düşünsek bilimsel de düşünsek teknolojiyle beraber verilerin hızla
arttığı gerçeğini de göz önünden uzaklaştırmamak gerekmektedir. SLAC firması
Muhasebe Müdürü Chuck Dickens: “Hesap gücümüz her on katına çıktığında, neyi
nasıl hesaplamak istediğimizi yeniden düşünmeliyiz.” demektedir. Bunun anlamı şudur:
Veri miktarı hızla artmaktadır ve her on katlık artışta, nasıl bir analiz yapılması
gerektiğinin yeniden düşünülmesi ve sürekli yeni yöntemlerin veya algoritmaların
geliştirilmesi gerekmektedir. Bu anlamda, VM gelişiminin yalnızca bilgisayarcılar
tarafından değil de istatistikçilerin de katkılarıyla yapılması gerekir. İstatistikçilerin
klasik analiz yöntemleri yanı sıra programlama ve VM sürecine dahil olmaları
gerekmektedir. VM’de bilgisayar amaç değil bir araçtır.
22
Sonuçta, VM süreci istatistiksel analiz süreçlerinden ayrı düşünülemez. Her
ikisinde de bir akış şeması vardır ve VM sürecinin % 70’ini verilerin ön işleme süreci
oluşturur. VM modelleri kara vericiler için en önemli yardımcı haline geldiğinden
aykırı, yanlış ve tutarsız veriler ile karar modelleri oluşturmak çok riskli olacaktır
(Friedman, 2012).
Veri madenciliği büyük veri kümeleri üzerinde oluşan bir süreç olduğundan çok
sayıda alanda kullanılmaktadır:
1) Pazarlama
a) Müşterilerin satın alma örüntüleri
b) Demografik özellikler
c) Posta kampanyalarına cevap verme
d) Mevcut müşterilerin elde tutulması
e) Market sepet analizi
f) Risk yönetimi ve dolandırıcılık saptama
2) İletişim:
Telekomünikasyon hatlarındaki parazitlenmeyi tespit etme, gürültü
giderme
3) Biyoloji: DNA ve gen teknolojisi
4) Sağlık: Kesin teşhis yöntemleri, cerrahi risk, hastane yönetim sistemleri, sağlıkta
maliyet düşürme, radyolojik görüntüleme
5) Bankacılık: Müşteriler arası bilgiler, sahte kart ve kredi olaylarını saptama
(Silahtaroğlu, 2008).
3.6.1. Verilerin Hazırlanması
Tüm veri madenciliği aktiviteleri, verinin özellikleri ve sunulması üzerine
kuruludur. Eğer veri işleme hazır semantik model halinde değilse kullanıcı verinin
uygun hale getirilmesi için bir takım tedbirler alır. Eksik veriler sorunu; tutarsız,
gürültülü ve gereksiz veriler ile ilgili işlemler sürecin bir parçasıdır. Veri madenciliği
yapanlar kayıtları kullanılabilir hale getirmek zorundadırlar, genellikle ikili veya sıralı
değişkenler şeklinde hazırlanır. Verilerin standart forma dönüştürülemediği durumlar da
olabilmektedir. Aynı şekilde VM, sıralı nümerik değerleri analiz etmeye tasarlanmıştır,
kategorize verileri kolaylıkla analiz edemez (Benoit, 2002).
Veri madenciliğinde kullanılan modeller, tahmin edici (predictive) ve
tanımlayıcı (descriptive) şeklinde iki ana gruba ayrılır. Tahmin edici modellerde, bilinen
23
sonuçlara sahip modellerden hareket edilerek sonuçları bilinmeyen veri kümeleri için
sonuç değerlerinin tahmin edilmesi amaçlanır. Örneğin, bir sigorta şirketi eski
müşterilerine ait elinde olan verileri kullanarak bilgi sahibi olmadığı yeni müşterilerinin
risk durumlarını tahmin edebilir. Burada bağımsız değişkenler müşterilerin bilgileri,
bağımlı değişken ise sigortalanma riskidir. Veriler kullanılarak model oluşturulur ve
yeni müşterilerin risk analizi yapılabilir. Tanımlayıcı modelde ise eldeki mevcut veriler
arasındaki ilişkiler ortaya çıkarılmaya çalışılır. Ortaya konan örüntüler yardımıyla ilgili
gruba giren kayıtlar ile ilgili bilgi sahibi olunur. Bir bankanın, konut kredisi kullanan
ailelerin özel araca sahip olma durumu ile araç kredisi kullanan müşterilerin kendi
konutuna sahip olma durumları arasındaki örüntüyü ortay çıkarması tanımlayıcı modele
örnek olabilir (Özekes, 2003).
Veri madenciliği uygulamasına başlamadan önce verilerin dikkatlice gözden
geçirilmesi gerekmektedir. Ham veri tabanlarındaki kayıtların büyük çoğunluğu
işlenmemiş, eksik ve gürültülü veri içerirler. Dolayısıyla bu verilerin elden alınması
gerekmektedir. Veritabanında eksik kayıtlar olabildiği gibi kayıtların bir kısmı aşırı uç
ya da yanlış girilmiş olabilirler. Bunlara gürültü terimi (noisy data) denir. Bazı
değişkenlerin birleştirilmeleri gerekebilir. Veri hazırlama aşamaları şöyledir:
1) Verilerin temizlenmesi:Eğer veri tabanında eksik verilerin olduğu kayıtlar varsa;
a) Eksik (kayıp) verilerin bulunduğu kaydı çıkarmak: Analizi yapacak kişi ya da
ekip tarafından belirlenecek olan eksik verilerin bulunduğu kayıtlar veri
kümesinden çıkarılır. Ancak çıkarılacak olan kayıt sayısına dikkat etmek
gerekir. Çok sayıda verinin çıkarılması yapılacak analizin sonuçlarını
etkileyebilir.
b) Eksik verileri elle teker teker doldurmak: eksik verilerin bulunduğu değişkenin
dağılımı tespit edilerek bu dağılımdan üretilecek olan rastgele (random) sayılar
ile eksik veriler doldurulur.
c) Tüm eksik verilere aynı bilgiyi girmek: analizi yapacak işi veya ekip tarafından
belirlenecek bir sabit sayı ile tüm eksik veriler doldurulur.
d) Eksik verilere tüm verilerin ortalama değerini vermek: var olan kayıtların
ortalaması hesaplanarak eksik olan verilere ortalama değeri verilir. Böylece
genel ortalama etkilenmemiş olur.
e) Regresyon yöntemi ile eksik verileri tahmin etmek: eksik verilere ait olan
değişken kayıtları regresyon uygulamaya uygun ise elde olan veriler ile
24
varsayımlar sağlanarak regresyon uygulaması yapılır. Elde edilen denklemden
faydalanılarak eksik değerler ait gözlemler elde edilerek doldurulur.
2) Verilerin yeniden yapılandırılması:
a) Yanlış gruplandırılmış veriler: Veri setindeki değişkenlere ait kayıtlarda farklı
gruplarda olmaları gerekirken aynı grupta işaretlenmiş veriler varsa bunların
uygun grup kategorilerine alınması gerekir.
b) Aykırı değerlerin tespit edilmesi: Aykırı değerler veri setindeki değişkene ait
kayıtları sınırları dışında kalan veya verinin trendinin tersine giden değerlerdir.
Mutlaka tespit edilip düzeltilmeleri gerekir. Çünkü analiz sonuçlarında hataya
sebep olurlar. Bu amaçla, daha çok istatistiksel yönetmelere başvurulur.
Histogram, saçılım veya kutu grafikleri aykırı değerleri tespit etmenin en
öncelikli yöntemlerinden bir kaçıdır.
c) Veri dönüştürme: Bazı durumlarda, değişkenlerin içinde bulunması gereken
aralıktan farklı değerler ile karşılaşılır. Eğer bir değişkenin belli bir aralıkta
olması ile ilgileniyorsak ve karşımıza çıkan veri bu aralığın dışında ise bu
durumda elimizdeki verilerin kullanılacak algoritmaya uygun hale getirilmesi ve
verilerin yeniden yapılandırılması gerekir. Bunun için bazı yöntemler vardır. En
yaygın kullanılan iki tanesi:
Min-Maks normalizasyon: Her bir değerin minimum ile farkının Min-Maks
={ ,
aralığından ne kadar büyük olduğu esasına göre hesaplanır.
şeklinde bir değerler dizisi ve
,…,
}
, .normalleştirilen değer olmak üzere
(0,1) aralığındaki normal değerler için Min-Maks yöntemi:
=
( )
( )
( 3.4)
( )
Herhangi bir (a,b) aralığı için Min-Maks yöntemi:
=
=
_
( )
( )
( )
=
ve
.(
_
−
_
_
olmak üzere
)+
_
( 3.5)
Sıfır ortalamalı standart normalizasyon: Her bir değerin ortalamaları ile farkının
standart sapması değerine bölünmesiyle hesaplanır.
değeri ve , dizinin standart sapması olmak üzere
,
dizisinin ortalama
25
=
( 3.6)
d) Veri boyutunu indirgeme: Genellikle iki yöntem kullanılır: Dalga Dönüşümü
(Wavelet Transform) ve Temel bileşenler analizi (Karhunen – Loéve) (Larose,
2005).
3.6.2. Veri Madenciliği Yönteminin Uygulanması
Veri madenciliğinin hızla gelişmesinin nedenlerinden birisi de kuruluşların
(kamu veya özel) büyük miktarda veriyi otomatik olarak toplamasıdır. Bu nedenle
toplanan verilerin hızla artan veri yığınının üzerinden zaman geçmeden veya rekabete
dayalı olarak daha önce bilgiyi ortaya koyma amaçlı analiz edilmesi gerekmektedir.
Bazı işletmelerde uyuşukluk, tembellik ve veri madenciliğine karşı gelişigüzel bir
yaklaşım sergilenmesi nedeniyle endüstriler arası standart kavramının geliştirilmesi
gerekli olmuştur. Tarafsız sanayi, tarafsız malzeme ve tarafsız uygulama sloganıyla
ortaya çıkan Cross Industry Standard Process for Data Mining (CRISP-DM) kavramı ilk
olarak 1996 yılında Daimler-Chrysler, SPSS ve NCR firmalarının analizcileri tarafından
geliştirilmiştir. CRISP yaklaşımı, veri madenciliği ile model oluşturmada tescilli
olmayan ve özgür standart süreçler sağlar. CRISP-DM yaklaşımına göre bir veri
madenciliği projesi altı aşamadan oluşur. Aşama sıralaması adaptifdir. Yani her bir
aşama bir önceki aşamanın gerçekleşmesine bağlıdır. CRISP süreci bir döngü ile
sembolize edilir (Cespivova, 2004)
26
İşletmeye /
Araştırmaya ait
amacın belirlenmesi
aşaması
Uygulama
aşaması
Verinin
anlaşılması
aşaması
VERİ
Verinin
hazırlanması
aşaması
Değerlendirme
aşaması
Modelleme
aşaması
Şekil 3.4. CRISP-DM adaptif süreç döngüsü
CRISP-DM döngüsünün aşamaları altı tanedir.
1
Amacın belirlenmesi (Business Understanding): Hangi konuda çalışma
yapılacaksa bu çalışmaya ait genel amaç ve alt hedefler belirlenir. Problemin doğru
tanımlanması ve gereken çözüm süreci için önemli bir aşama olup taslak plan
oluşturulur.
2
Veriyi Anlama (Data Understanding):
Hazırlanan hedeflere veya plana göre
mevcut verilerin durumu veya derlenmesi gereken veriler ile ilgili temel özellikler
ortaya konulur. Verilerin türleri, veri kalitesi, alt kümelere ait özellikler, verilerdeki
hata durumu ve eksik veri durumu tespit edilir.
3
Veriyi Hazırlama (Data Preperation): verilerin analiz edilemeden önceki tüm
süreçlerini kapsayan bir aşamadır ve çok önemlidir. Uygun hazırlanmayan bir veri
yanlış sonuçların çıkmasına neden olabilir. Verilerin ön analizleri yapılarak
27
tanımlayıcı istatistikleri hesaplanır. Böylece gürültü terimleri belirlenmiş olur. Eksik
verilerin giderilmesi, hatalı verilerin düzeltilmesi, verilerin indirgenmesi, verilerin
dönüştürülmesi gibi veri temizleme işlemleri bu aşmada yapılır. Birden çok
tablolarda bulunan kayıtlar için birleştirme işlemleri yapılır.
4
Modelleme (Modeling): temizlenmiş ve hazırlanmış veriler üzerinde hangi
modellemelerin yapılacağına karar verilir. Modeller ile ilgili çeşitli ayarlamalar
yapılır. Uygun olduğu düşünülen model veri kümesi üzerine uygulanarak sonuçlar
alınır. Modellemelerde çok sayıda teknik kullanılabilmektedir. Dolayısıyla bu
aşamada geriye dönmek ve yeniden uygulama yapmak gerekebilir.
5
Değerlendirme (Evaluation): Modellerin geçerliği ve uygunluğu açısından genel
bir değerlendirme yapılır. Çıkan sonuçlara yorumlanarak başlangıçta belirtilen
hedefler ve amaca ulaşılma durumu kontrol edilir. Eksik kalan hedefler ile ilgili
yeniden çalışmalar yapılır.
6
Sonuçları kullanma (Deployment): Nihai olarak elde edilen tüm bulgular ile ilgili
değerlendirmeler yapılır. Sonuçların ne şekilde uygulanacağına karar verilerek tüm
faaliyet rapor halinde sunulur. Bazı durumlarda yeniden veri madenciliği süreci
başlatmak gerekebilir. Bu aşama, hedeflerin gerçekleştirilmesi açısından hem
işletmeye (kurum) hem de kullanıcılara (müşteri) bağlıdır (Çınar ve Arslan, 2008).
CRISP-DM aşamaları daha sonraki yıllarda daha da detaylandırılmış ve sürece yeni
kavramlar eklenmiştir. Buna göre, veri madenciliği uygulama aşamaları şu şekilde
verilebilir.
1) Problemin tanımlanması
2) Veri tabanının hazırlanması
a) Verinin toplanması
b) Verinin tanımlanması
c) Verinin seçilmesi
d) Kalite kontrolü ve verinin temizlenmesi
e) Verinin uygun hale getirilmesi
f) Meta datanın oluşturulması
g) VM veritabanının yüklenmesi
h) VM veri tabanının işletilmesi
3) Verinin araştırılması
4) Modelleme için verinin hazırlanması
a) Değişkenlerin seçimi
28
b) Satırların seçimi
c) Yeni değişkenlerin üretilmesi
d) Değişkenlerin dönüşümü
5) Modelin oluşturulması
6) Sonuçları bulma
a) Model geçerliliği
b) Dış geçerlilik
7) Sonuçların raporlanması
3.6.3. Sonuçların Değerlendirilmesi ve Sunulması
Mevcut veri kümesine uygun modelleme sonrasında veri madenciliği
uygulaması yapılarak belirlenen hedeflere ulaşma doğrultusunda değerlendirme rapor
hazırlanır. Rapor, hedefleri, ulaşma oranını ve yorumları içerir. Ancak metin halindeki
raporlar kullanıcıların belli bir kısmına hitap ederler. Genel kitlenin kullanımına yönelik
bir bilgi için etkin sunuş yöntemlerini kullanmak gerekir. Bu anlamda en etkili yöntem
görsel ve işitsel ortamın kullanılmasıdır. Anlatılan konunun tablo halinde sunulması
anlamayı bir seviye kolaylaştırır. Ancak tabloların kalabalık ve karmaşık olması,
sayıların çok büyük veya ondalıklı olması anlamayı zorlaştırmakta ve dikkati
dağıtabilmektedir. Bu nenle, tabloların grafik hale dönüştürülmesi anlamayı bir adım
daha kolaylaştırmaktadır. Veri tipine uygun grafiklerin seçilmesi önemlidir. Ancak
grafik sunumlarında da dikkat edilmesi gereken noktalar vardır. Ölçekler üzerinde
yapılan değişiklikler veya grafik tipi sonuçların farklı bir şekilde algılanmasına yol
açabilir. Bu nedenle verilmek istenilen bilginin objektif ve standart bir biçimde grafik
halde sunulup yorumların açık bir biçimde yazılması gerekmektedir. Histogram, dalyaprak, dilim ve kutu grafikleri temel istatistiksel sonuçları yorumlamak için idealdirler.
Ancak çok değişkenli analizlerde bu tür grafikler ile sonuçların yorumlanması zordur.
Bu nedenle farklı gösterim biçimlerine ihtiyaç vardır. Veri madenciliği, verinin
görselleştirilmesi kavramını ileri boyutlara taşınmasına yardımcı olmuş, bilgisayar
teknolojilerindeki ilerleme sayesinde iki ve üç boyutlu görsellik sunumları bir uğraşı
konusu haline gelmiştir. Veri madenciliği paket programları, sonuçların görselliği ile
ilgili sürekli kendilerini yenileme ve kullanıcılarına daha kolay yorumlama imkanı
sağlayan yöntemleri sağlama çabası içerisindedirler (Berardi, 2006).
Veri madenciliğinde üç tip bilginin değerlendirme ve yorumlaması yapılır. Bunlar:
29
a. Nesnelerin gösterimi (Item Visualization): Madencilik uygulanacak veri
kümesinin faktöryel düzlem üzerinde çeşitli boyutlarda grafiksel olarak
gösterimidir.
Şekil 3.5. Nesnelerin gösterimine örnek (Anonymous11)
b. Uygulanan yöntemin gösterimi (Rules Visualization): Veri kümesi
üzerinde uygulanacak yöntem (veya kural) ile ilgili faktöryel düzlem üzerinde
analiz süreci hakkında bilgi veren grafiksel gösterimdir.
Şekil 3.6. Nesnelerin gösterimine örnek (Anonymous8)
30
c. Analiz sonuçlarını gösterimi (Conjoint Visualization): Nesnelerin ve
kuralların bir arada gösterildiği veya analiz sonuçlarının yorumlanmak üzere
ortaya konulan faktöryel düzlem üzerindeki grafiksel gösterimdir (Bruzzese
et al., 2008).
Şekil 3.7. Sonuçların gösterimine örnek (Anonymous1)
Veri madenciliğinde kullanılan belli başlı grafik yöntemleri şunlardır:
a. Saçılım Grafikleri: İki veya daha fazla değişken arasındaki ilişkinin
durumunu gösteren iki veya üç boyutlu olarak hazırlanabilen önemli
grafiklerdendir. Saçılım grafiklerinin merkez çevresinde istenen yüzde
sınırları içerisinde kalan ve kalmayan gözlemlerin belirlenebilmesi için
kullanılan özel grafiklere ise kontur grafiği denilir.
31
Şekil 3.8. Saçılım grafiklerine ve kontur grafiğine örnekler (Anonymous9)
b. Kabarcık Grafikleri: Saçılım grafiğinin değişik bir gösterim biçimidir. Üç
veya dört değişenli verilerde ilişkiyi daha iyi anlayabilmek için iki boyutlu
düzlemdeki saçılım grafiğinin üçüncü değişken için farklı işaretler (marker)
ile belirlenmesi şeklinde hazırlanır.
32
Şekil 3.9. İki ve üç boyutlu kabarcık grafiğine örnekler (Anonymous3)
c. Çok Boyutlu İkon Grafikleri: bağımsız gözlem birimlerinin özelliklerinin
nesneler ile ifade edildiği grafiklere ikon grafikleri denir. Chernoff yüzleri,
dairesel ikon grafikleri, adımsal ikon grafikleri ve profil grafikleri adlarında
çeşitleri vardır.
Şekil 3.10. İkon grafiklerine örnekler (Anonymous13)
d. Andrew Grafikleri: Benzer birimlerde olan değişkenler için Fourier
serilerine dayalı bir gösterim biçimidir.
33
Şekil 3.11. Andrew grafiğine örnek (Anonymous6)
e. Biplot Grafikler: n x p veri matrisindeki bilgilerin grafiksel sunumu olarak
tanımlanır. Biplot ismi hem gözlemleri hem de değişkenleri dikkate
almasındandır
Şekil 3.12. Biplot grafiklere örnekler (Anonymous4)
f. Ağaç diyagramı: Özellikle kümeleme analizinde kullanılan bir gösterim
biçimidir.
34
Şekil 3.13. Ağaç diyagramına (Dengdogram) örnek (Anonymous5)
g. Buz Saçağı Grafiği:
Şekil 3.14. Buz saçağı grafiğine örnek (Anonymous12)
h. Path Diyagramı
Şekil 3.15. Path diyagramına örnek (Alpar, 2011)
35
3.6.4. Veri Madenciliği Uygulama Programları
Veri madenciliği yöntemleri ve programlarının amacı büyük miktarlardaki
verileri etkin ve verimli hale getirmektir. Bilgi ve tecrübeyi birleştirmek için bu konuda
geliştirilmiş yazılımların kullanılması gerekmektedir. Bu kapsamda birçok ticari ve açık
kaynak kodlu program geliştirilmiştir. Ticari programların bazıları SPSS Clementine,
Excel makroları, SAS Miner, Angoss, KXEN, SQL Server, Statistica Data Miner
gibileridir. Daha önce de değindiğimiz gibi, ticari programlar sektörü müşterilerini
sürekli ihtiyaç içerisinde gösterip yeni programları veya versiyonlarını satmaktadırlar.
Bu anlamda milyonlarca dolarlık bir pazar oluşmuştur. Bu pazarda işletmeleri için
kaynak aktaramayan firmalar için açık kaynak kodlu yazılımlar da bulunmaktadır.
Bunlardan bazıları RapidMiner (YALE), WEKA, Orange, Scriptella, GMDH Shell,
ETL, jHepWork, KNIME, ELKI, R ve Tanagra sayılabilir. Yapılan araştırma ve
karşılaştırmalarda, sahip olduğu birçok özelliği nedeniyle RapidMiner programı
diğerlerine göre daha üstün bulunmuştur (Tekerek, 2011).
3.6.5. Veri Madenciliği Uygulamasında Karşılaşılan Sorunlar
Veri madenciliğinde esas olan, ham verilerin girdi olarak kullanıldığı veri
tabanlarıdır. Dolayısıyla veri tabanın yapısı ve kayıtlardaki veriler nedeniyle birçok
sorunla karşılaşılabilir. Veri tabanının dönüştürülmesi esnasında verinin durumuna göre
sonuçları ortaya koyamayacağımız sınırlı bilgi barındırabilir. Günümüz teknolojisinde
sürekli yeni algoritmalar geliştirilmesine karşın büyük boyutlu veri tabanları uygumla
açısından sorun yaratabilir. Toplanmış veriler içerisinde analiz yapmayı güçleştirecek
ve ilişkinin saptanması zor olan aykırı veriler olabilir. Eksik gözlem verileri de analizi
zorlaştırmaktadır. Eksik verilerin giderilmesi için birçok yöntem olsa da değişkenin
durumuna göre eksikliği giderilemeyecek veri miktarının fazla olması zorluk çıkarabilir.
Birçok program verilerin tamamının var olduğu durumlarda analiz yapmak üzere
tasarlandıklarından elde edilen istatistiklerin geçerliğini azaltmaktadır. Veri tabanı ile
ilgili sorunların yanı sıra uygun analiz yönteminin belirlenememesi ve kullanılan paket
programın uyum sorunu, kullanılacak olan algoritmanın veri seti ile uyumlu olmaması
da uygulama esnasında karşımıza çıkabilecek sorunlardandır. Ortaya konulacak sonuç
ve bulguların değerlendirilmesi ve sunumu ile ilgili fazladan paket programların
gereksinimi de ekonomiklik açısından sorun teşkil edebilir (Çıngı, 2007).
36
3.7. Veri Madenciliği Yöntemleri
Teknolojinin gelişmesiyle birlikte bilgisayarcıların gündemine “yapay zeka”
kavramı girmiştir. İnsanın düşünme mekanizmalarını analiz ederek ve taklit ederek
oluşturulan yapay yönergelerin geliştirilmesine yapay zeka (artificial intelligence)
denilmektedir. Yapay yönergelerin uygulanarak bilgisayar kontrollü gerçekleştirilen
somut hareketlere ise makine öğrenmesi denilir. İnsanoğlu eskiden beri kendi yaptığı
hareket ve davranışları bir makineye yaptırmak istemektedir. Bu amaçla birçok
programlama dili geliştirilmiştir. İstenilen hareketleri yapabilen programlanmış
makinelere robot denmektedir. Dolayısıyla konuya öğrenme kavramı girmektedir. Eğer
bir bilgisayar programı belirli bir işteki performansını gittikçe artırıyorsa makine
öğrenmesinden bahsedilir. Konuşulan kelimeleri öğrenme, satranç oynamayı öğrenme,
gıda ürünlerini sınıflandırmayı öğrenme, araba kullanmayı öğrenme gibi süreçler
makine öğrenmesine iyi birer örnektir. Bu girişimler gün geçtikçe hızla değişmekte ve
insan zekasından bağımsız, düşünebilen ve öğrenebilen zeka türleri üzerinde
çalışılmaktadır. Sibernetik, uzman sistemler ve bulanık mantık konuları ile insan
zekasına alternatif oluşturma çabaları kuantum yapıda çalışan bilgisayarların
geliştirilmesine öncülük etmektedir. Veri madenciliği, makine öğrenimi ve istatistik
bilimleri arasında yer alır. Veri madenciliğinde kullanılan algoritmaların bir kısmı
makine öğrenmesi alanındaki çalışmalar sonucu ortaya çıkmıştır. Dolayısıyla makine
öğrenmesi veri madenciliğinin sonuçlarından biri olarak ortaya çıkmaktadır. Veri
madenciliği yöntemleri makine öğrenmesi açısından iki kategoriye ayrılır: gözetimli
öğrenme ve gözetimsiz öğrenme. Gözetimli öğrenme (Supervised Learning), önceden
belirlenmiş ve sonuçları bilinen (etiketlenmiş/labeled) değişkenlere ait verileri
kullanarak bu verileri ve sonuçlarını kapsayan bir fonksiyon oluşturmayı amaçlayan
makine öğrenimi metodudur. Gözetimli öğrenmede önceden bilinen eğitim verileri
(training set) çıktılarıyla birlikte sisteme verilerek, makinenin kendi başına tümevarım
yapması sağlanır, bu "öğrenme" sürecidir. Öğrenme sonunda ortaya çıkan model
sayesinde gelecekteki veriler için de doğru sonuçları veren işlemler yapılabilecektir.
Karar ağaçları, yapay sinir ağları ve k-en yakın komşu gibi yöntemleri içeren tüm
sınıflandırma yöntemleri ve regresyon yöntemleri gözetimli öğrenme grubuna girer.
Gözetimsiz öğrenmede (Unsupervised Learning) ise önceden belirlenmiş bir değişken
yoktur. Algoritma, mevcut verilerden gizli kalmış bir örüntü veya kural çıkarmaya
çalışır. Veriler arasında böyle bir ilişki olabilir veya olmayabilir, bu yüzden gözetimsiz
37
öğrenmede yanlış sonuca varma gibi bir durum yoktur. En yaygın kullanılan gözetimsiz
öğrenme yöntemleri kümelemedir. Gözetimli veya gözetimsiz öğrenme olarak kabul
edilmeyen veya her iki gruba da dahil olabilecek algoritma birliktelik kuralıdır.
Önceden hedef değişken belirleme gibi bir olay yoktur ve çok sayıda veri arasından
anlamlı örüntüler bulma yöntemidir, bu anlamda gözetimsiz öğrenmeye örnek olabilir.
Ancak birliktelik kuralı algoritmasında önceden belirlenen destek ve güven değerleri
olması gerekmektedir. Bu anlamda gözetimli öğrenme sayılabilmektedir (Larose, 2005).
3.7.1. Sınıflandırma Yöntemleri
Sınıflandırma, en yaygın kullanılan veri madenciliği yöntemlerinden biridir.
Sınıflandırmada önceden tespit edilen sınıflar veya kategorilere ayrılmış hedef kategorik
değişkeni belirlenir. Örneğin, yüksek – düşük gelir, hastalık şiddeti ağır-hafif, riskli
müşteri-risksiz müşteri gibi. Bankacılık, eğitim, tıp, hukuk veya ülke güvenliği gibi
alanlarda kullanılmaktadır. Araştırmacı çok sayıda kayıt ve değişken içeren küme ile
ilgileniyordur. Buna kayıt kümesi (training set) denir. Bu kümede olmayan bir bilgiye
ulaşmak istiyordur. Bu da hedef değişkendir (target variable). Kayıtlar arasında
sınıflama yaparak hedef değişken kategorilerine ulaşmak sınıflamanın temel sürecidir.
Matematiksel olarak
={ ,
,…,
} bir veri tabanı ve
={ ,
,…,
}
: 
bir kayıt,
m adet sınıf kümesi olmak üzere
olarak tanımlansın ve
= { | ( ) =
,1 ≤ ≤ ,
∈ } sınıfına ait
kayıtları içerir şeklinde tanımlanır.
Çizelge 3.2’de verilen örnekte, kişilere ait kayıtlar vardır. Gelir düzeyi bilgisi
bilinmemektedir. Kayıt kümesindeki bilgilerden hedef değişken olan “gelir düzeyi”
bilgisi elde edilemeye çalışılır ve kategorize edilir.
38
Çizelge 3.2. Sınıflandırma yöntemi için kayıt kümesi örneği
Sıra
No
001
Yaş
Cinsiyet
Meslek
44
E
002
003
.
.
.
32
57
.
.
.
K
E
.
.
.
Satış
Sorumlusu
Doktor
Öğretmen
.
.
.
Doğum
Tarihi
12.03.1969
Araç
Durumu
Var
Konut
Durumu
Kira
Gelir
Düzeyi
Orta
27.08.1981
01.02.1956
.
.
.
Var
Yok
.
.
.
Mülk
Mülk
.
.
.
Yüksek
Orta
.
.
.
Hedef
Değişken
Kayıt
3.7.1.1. Karar Ağaçları
Sınıflandırma teknikleri içerisinde en sık kullanılan, ilgi çekici ve anlaşılması
kolay bir yöntemdir. Başlangıçta veri tabanı ve bu tabana ait kayıtlar (rootnode) vardır.
Bu kayıt dallara (branches) ayrılır. Dallardan ise yapraklara (leafnodes) inilir. Yapraklar
birer sınıf ve dal ayrımları düğümlerdir.
= { , , …,
olsun.
} bir veri tabanı ve oluşturulan karar ağacı aşağıdaki gibi
kök kaydından karar düğümleri ile
dalları ile karar sorgulamaları yapılır.
’den
ve
dallarına inilir.
dalı ile
’den
yaprağına inilir.
ve
ile ilk
karar düğümü sonlandırılmış olur. Aynı işlemler diğer tüm dallar için yapılır ve artık
tamamen yapraklara ulaşınca süreç sona ermiş olur.
Şekil 3.16. Karar ağacı örneği
39
Daha sonra ulaşılan yapraklardan (sınıflardan) sonuçlar belirlenmeye çalışılır. Gereksiz
bilgiler çıkarılır veya budanır (prunning). Düğüm belirleme, dal sayısı belirleme ve sınıf
belirleme tekniklerine göre çok çeşitli karar ağaçları algoritmaları vardır. Ayrıca
budama yöntemlerine göre de çeşitli algoritmalar geliştirilmiştir. Bunlardan
ID3, C 4.5 ve C5: J. Ross Quinlan tarafından Sydney Üniversitesinde
geliştirilen ve entropiye dayalı algoritmalardır. Makine öğrenmesi ve bilişim teorisine
dayalı olarak geliştirilmiştir. Entropi, bir sistemdeki belirsizliğin ölçüsüdür. Veriler
genellikle tek bir sınıfa ait değildir. Hedef değişkenin her bir sınıfa ait olma olasılıkları
farklıdır ve mutlaka bir sınıfa ait olması gerekir. Entropi 0 ile 1 arasında bir değer alır.
Matematiksel olarak şöyle ifade edilir:
,
Hedef değişkenin sınıflara ait olasılıkları
,….,
olsun (
≠ 0). Olasılıkların
toplamının 1 olması gerekir. Bu durumda entropi aşağıdaki formül ile tanımlanır.
(
,
,….,
) =− ∑
∙
( )
( 3.7)
Her üç algoritma da veri tabanının bölünmeden önceki ve bölündükten sonraki
yani dallanma başladıktan sonraki kazanımına göre işler. Dolayısıyla verilerin ham
halinin entropisi ile yani başlangıçtaki entropi ile her bir alt bölümün entropilerinin
ağırlıklı toplamı arasındaki fark alınır. Bu fark hangi alt bölüm için büyükse o alt
bölüme doğru dallanma yapılır. Bu durumda kazanım için formül
ı ( )=
şeklinde
∑
olur.
( )∙
−∑
Burada
(
)∙
kayıt
( 3.8)
kümesinin
ham
halinin
entropisi
ve
ise dallanma sonrası her bir kayda ait alt bölüm entropileri
toplamıdır.
CART (Classification And Regression Trees): Sınıflandırma ve regresyon
ağacı algoritması 1984’te Breiman et al. tarafından geliştirilmiştir. Ağacın her bir karar
düğümünden itibaren içerisindeki kayıtların daha homojen olduğu iki dala ayrılması
ilkesine dayanmaktadır. CART algoritması da en iyi dallanma kriterini seçerken
entropiden yararlanmaktadır, fakat bunun için bu algoritmalardan daha farklı iki yöntem
kullanmaktadır: Twoing ve Gini yöntemleri.
CHAID (Chi-Squared Automatic Interaction Detector): 1980 yılında Kass
tarafından geliştirilen algoritma, bölümleme veya ağaç oluşturma için oldukça etkili
40
istatistiksel bir yöntemdir. CHAID istatistiksel bir testi dallanma kriteri olarak
kullanarak, tüm bağımsız değişkenler için bir değerlendirme yapmaktadır. Hedef
değişken (bağımlı değişken) değerlerine göre istatistiksel olarak homojenlik gösteren
(farklılık
göstermeyen)
değerleri
birleştirmekte,
farklılık
gösterenlere
ise
dokunmamaktadır. Daha sonra dallarında homojen değerlerin yer aldığı ağacın ilk dalını
oluşturmak için en iyi bağımsız değişkeni seçmekte ve bu süreç ağaç tamamen
büyüyene kadar yinelemeli bir şekilde devam etmektedir. Dallanma kriteri olarak
kullanılacak istatistiksel test hedef (bağımlı) değişkenin ölçme düzeyine göre farklılık
göstermektedir. Eğer hedef değişken sürekli ise F testi, kategorik ise ki-kare testi
kullanılmaktadır. En küçük p değerine sahip değişken ile ağacın ilk dalı
oluşturulmaktadır.
QUEST (Quick, Unbiased, Efficient Statistical Tree): 1997’de Loh ve Shih
tarafından geliştirilen ikili ağaç üreten bir algoritmadır. Hem uygun bölünme için
değişken seçimiyle hem de bölünme noktası belirleme ile ilgilenmektedir. Sınıflandırma
türündeki problemler için QUEST algoritması CART, CHAID algoritmalarından hız
bakımından daha üstündür. Fakat regresyon türündeki (sürekli bağımlı değişkenli)
problemlerde QUEST algoritması kullanılamamaktadır.
SLIQ (Supervised Learning In Quest) : 1996 yılında IBM Almaden Araştırma
Merkezinde Mehta, Agrawal ve Rissanen tarafından önerilen hem sayısal hem de
kategorik verilerin sınıflandırılmasında kullanılabilen bir algoritmadır. Sayısal verilerin
değerlendirilmesindeki maliyeti azaltmak için ağacın oluşturulması sırasında önceden
sıralama tekniği kullanılır. Sayısal verilerle işlem yapılırken en iyi dallara ayırma
kriterini bulmak için verileri sıralama önemli bir faktördür. SLIQ algoritmasında
kullanılan teknik ise verileri sıralama işlemini her düğümde yapmak yerine öğrenme
verilerini ağacın büyüme aşamasının başlangıcında olmak üzere sadece bir kez yaparak
gerçekleştirmesidir. Algoritma dallanma kriteri olarak “Gini indeksini” kullanmaktadır
(Mehta, 1996).
SPRINT (Scalable PaRallelizable Induction of DecisionTrees) : ID3, CART
ve C4.5 gibi algoritma önce derinlik ilkesine göre çalışmakta ve en iyi dallanma
kriterine ulaşabilmek için her düğümde sürekli olarak verileri sıraya dizmektedirler.
SPRINT ise her bir değişken için ayrı bir liste kullanarak bu sıraya dizme işlemini
sadece bir kez yapmaktadır (Rahman, 2011).
41
3.7.1.2. Bayes/Naïve-Bayes Sınıflandırma
Naïve-Bayes Sınıflandırması makine öğreniminde gözetimli öğrenme alt
sınıfındadır. Sınıflandırma işleminde genel olarak elde bir örüntü (pattern) vardır.
Buradaki işlem de bu örüntüyü daha önceden tanımlanmış sınıflara sınıflandırmaktır.
Her örüntü nicelik kümesi tarafından temsil edilir. Elde varolan halihazırdaki
sınıflanmış verileri kullanarak yeni verinin hangi sınıflardan birine gireceği olasılığını
hesaplar. Bayes teoremine göre geliştirilmiş bir algoritma olup bu kurala göre
istatistiksel kestirim yapar (Olmuş, 2003).
göre
={ ,
, …,
={ ,
, …,
kümesinin
} sınıf üyeliği bilinmeyen bir veri kümesi ve
} veri kümesi üzerindeki n tane sınıf olsun. Bayes teoremine
üzerinde koşullandırılmasıyla
olasılığı aşağıdaki şekilde hesaplanır.
( ) =∑
. ( )
( 3.9)
ve
= . (
)
( 3.10)
( )
Hesaplamalardaki işlem yükünü azaltmak üzere
yoluna gidilebilir. Bunun için örneğe ait
olasılığı için basitleştirme
değerlerinin birbirinden bağımsız olduğu
kabul edilerek şu bağıntı kullanılabilir.
=∏
(
| )
Bilinmeyen örnek
(3.11)
’i sınıflandırmak için Eşitlik (3.10)’da
içinde yer
alan paydalar birbirine eşit olduğuna göre pay değerlerinin karşılaştırılması yeterlidir.
Bu değerler içinden en büyük olanı seçilerek bilinmeyen örneğin bu sınıfa ait olduğu
belirlenmiş olur. Sonsal olasılıkları kullanan yukarıdaki ifade, En Büyük Sonsal
Sınıflandırma yöntemi (Maximum A Posteriori classification=MAP) olarak da
bilinmektedir. O halde sonuç olarak Eşitlik (3.11)’den dolayı Bayes sınıflandırıcısı
olarak,
=
bağıntısı kullanılır.
( )∏
(
| )
(3.12)
42
3.7.1.3. k-En Yakın Komşu (k-ortalama) algoritması
k-ortalama (k-means) algoritması en iyi bilinen ve yaygın kullanılan mesafeye
dayalı kümeleme algoritması ve bölümleme tekniğidir. İlk olarak J. MacQueen
tarafından 1967 yılında tanıtılmıştır. Mesafe ölçümü verilerin birbirlerine olan
uzaklıkları veya benzerlikleri hesaplanarak yapılır. En sık kullanılan mesafe ölçüsü
Öklit (Euclides) mesafesidir. Bunun yanı sıra Minkowski ve Manhattan uzaklık ölçüm
teknikleri de kullanılmaktadır. Algoritmaya k-ortalama denilmesinin sebebi algoritma
çalışmadan önce sabit bir küme sayısı belirlenmesindendir. Küme sayısı k ile gösterilir
ve elemanların birbirlerine olan yakınlıklarına göre oluşacak grup sayısını ifade eder.
Buna göre k, önceden bilinen ve kümeleme işlemi bitene kadar değeri değişmeyen sabit
bir pozitif tamsayıdır. Kümeleme işlemi, verilerin en yakın veya benzer oldukları küme
merkezleri (centroid) etrafına yerleştirilmesi ile gerçekleştirilir. Bu nedenle tekniğin adı
daha çok k-en yakın komşu (k-nearest neighbour) olarak kullanılır. Belirlenen noktaya
en yakın şehir, istasyon, yeşil alan gibi mekanların belirlenmesini içeren coğrafi bilgi
sistemleri başta olmak üzere endüstri, medya ve tıp alanında kullanılmaktadır.
Algoritma basamakları şöyle sıralanmaktadır:
i.
k parametresini seç
ii.
Uygun bir mesafe ölçüm uzayı belirle
iii.
Birbirine en yakın k adet noktayı belirle
iv.
Belirlenen grubun en çok rastlandığı sınıfı belirle
v.
Bu gruba belirlenen sınıfın listesini ata
Çok yaygın kullanımı olmakla birlikte zayıf yanları da bulunmaktadır. k sayısının
başlangıçta belirlenmesine gerek vardır. Dolayısıyla elde edilecek sonuçlar k sayısına
göre değişkenlik gösterebilir. Eğer küme sayısı belli değilse denem yoluyla en uygun
sayı bulunur. Gürültülü ve istisna veriler algoritmayla hesaplanan ortalamayı
değiştirdiği için gürültülü verilere karşı duyarlıdır. Çakışan kümelerde iyi sonuç
vermemektedir ve sadece sayısal veriler ile kullanılabilmektedir (Dinçer, 2007).
43
3.7.1.4. k-medoid
Medoid, herhangi bir kümedeki tüm elemanlara olan ortalama uzaklığı
(benzemezlik ölçüsü) en küçük olan küme elemanıdır. 1987 yılında Kaufman and
Rousseeuw tarafından geliştirilmiştir. Bir grup nesneyi k tane kümeye bölerken asıl
amaç, birbirine çok benzeyen nesnelerin bir arada bulunduğu ve farklı kümelerdeki
nesnelerin birbirinden benzersiz olduğu kümeleri bulmaktır. k adet temsilci nesne tespit
edildikten sonra her bir nesne en yakın olduğu temsilciye atanarak k tane küme
oluşturulur. Veri kümesindeki k-medoid bulunarak bu medoide olan uzaklıklarına göre
toplamdaki n noktayı kümelemeye çalışan bir yaklaşımdır. Sonraki adımlarda her bir
temsilci nesne temsilci olmayan nesne ile değiştirilerek kümelemenin kalitesi
yükseltilinceye kadar ötelenir. Bu kalite nesne ile ait olduğu kümenin temsilci nesnesi
arasındaki ortalama benzersizlik maliyet fonksiyonu (cost function) kullanılarak
değerlendirilir. k-medoid, tutarsız ve aykırı gözlemelere sahip verilerde daha iyi
sonuçlar vermektedir. Ayrıca, Öklit uzaklıkları kareleri toplamı ile değil, benzemezlik
değerlerini toplamının en aza indirgenmesi şeklinde hesaplandığından matematiksel
olarak bu yöntem daha iyi sonuç vermektedir. Medoidler uç değerler ve düzensizliklerin
varlığında küme merkezine göre daha az etkilenirler. Medoid Etrafında Bölümleme
(Partitioning Around Medoids-PAM) en çok bilinen algoritma olarak kullanılmaktadır
(Karaağaoğlu, 2012).
3.7.1.5. Destek Vektör Makineleri (SVM)
Destek Vektör Makinesi (Support Vector Machine), 1960’lı yılların sonunda
Vladimir Vapnik ve Alexey Chervonenkis tarafından geliştirilmiş, temel olarak
istatistiksel öğrenme teorisine dayanan parametrik olmayan bir makine öğrenmesi
yöntemidir. DVM metodu son yıllarda özellikle veri madenciliğinde değişkenler
arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için sıklıkla
kullanılmaktadır. Büyük boyutlu verilerde en önemli sorun doğrusal olarak
ayrılamamasıdır. Klasik istatistiksel yöntemlerin de en büyük dezavantajı bu noktadır.
Bu metot, temelde iki sınıflı problemlerin çözümünde doğrusal bir sınıflayıcı olarak
düşünülmüş, daha sonra doğrusal olarak ayrılamayan veya çok sınıflı sınıflama
problemlerinin çözümüne de genelleştirilerek, bu problemlerin çözümünde de yaygın
olarak kullanılmaya başlanmıştır. Bu işlemin yapılması için iki gruba da yakın ve
44
birbirine paralel iki sınır çizgisi çizilir ve bu sınır çizgileri birbirine yaklaştırılarak ortak
sınır çizgisi üretilir. Herhangi bir şekilde doğrusal olarak sınıflanamayan verileri daha
yüksek boyutlu uzaya aktarır ve marjini en büyük olan hiper-düzlemleri bulur. Veriler
bu ayırt edici hiper-düzeleme göre sınıflara atanır. Bu düzlemi ve boyutları birer özellik
olarak düşünmek mümkündür. Yani basit anlamda sisteme giren her girdinin bir özellik
çıkarımı (feature extraction) yapılmış ve sonuçta bu iki boyutlu düzlemde her girdiyi
gösteren farklı bir nokta elde edilmiştir. Bu noktaların sınıflandırılması demek,
çıkarılmış olan özelliklere göre girdilerin sınıflanması demektir. Ayrıca, verileri çok
boyutlu uzayda kategorilere ayırmak için farklı çekirdek fonksiyonlar kullanılabilir. En
sık kullanılan çekirdek fonksiyonları doğrusal ve çok terimli radyal temel fonksiyonu
(RBF) ve sigmoiddir.
DVM algoritması öğrenme teorisinin ve pratiğinin kesiştiği bir uygulamadır.
Gerçek dünya uygulamaları, teorik olarak çözülmesi zor ve karmaşık olan
uygulamalardır. DVM algoritması bu iki zorluğu da basitçe kaldırabilir ve karmaşık
modellerde çözüm getirebilir Ayrıca, bayesyen yaklaşım mantığını kullanarak sınıflama
ve regresyonda daha hassas sonuçlar veren geçerli vektör makinesi (Relevance Vector
Machine-RVM) adında bir yöntem de bulunmaktadır (Karaağaoğlu, 2012).
Şekil 3.17. Destek Vektör Makinesi Algoritması problem çözüm düzlemi
3.7.1.6. Yapay Sinir Ağları (Artificial Neural Networks)
Yapay Sinir Ağları (YSA) üzerinde ilk çalışmanın McCulloch ve Pitts tarafından
yapay sinir tanımını yaparak hücre modeli geliştirmeleri şeklinde 1943 yılında başladığı
45
kabul edilir. İnsan beyninin bilgi işleme tekniğinden ve biyolojik sinir ağlarından
esinlenerek geliştirilmiş bir bilgi işlem teknolojisidir. Simüle edilen sinir hücreleri
nöronlar içerirler ve bu nöronlar çeşitli şekillerde birbirlerine bağlanarak ağı
oluştururlar. Bu ağlar öğrenme, hafızaya alma ve veriler arasındaki ilişkiyi ortaya
çıkarma kapasitesine sahiptirler. Diğer bir ifadeyle, YSA'lar, normalde bir insanın
düşünme ve gözlemlemeye yönelik doğal yeteneklerini gerektiren problemlere çözüm
üretmektedir. Bir insanın, düşünme ve gözlemleme yeteneklerini gerektiren problemlere
yönelik çözümler üretebilmesinin temel sebebi ise insan beyninin ve dolayısıyla insanın
sahip olduğu yaşayarak veya deneyerek öğrenme yeteneğidir. YSA’nın çeşitli
özellikleri
vardır.
Bunlar,
doğrusal
olmama,
adaptif
öğrenme,
genelleme,
uyarlanabilirlik, hata toleransı ve donanım hızıdır. YSA, arıza analizi, tıp, savunma
sanayi, haberleşme, üretim, otomasyon ve kontrol gibi çok geniş alanlarda
uygulanmaktadır. Birbirine bağlı nöronlar, bağlantılar arasındaki ağırlıklar ve ateşleme
fonksiyonu en temel bileşenleridir. Yapay Sinir Ağları girdi, çıktı ve gizli şeklinde üç
katmandan oluşur. Gizli katman , her bir girdi katmanı
gizli katmanına bağlayan
=
.
+
.
+ … +
den işaret alır.
ağırlıkları vardır. Bu durumda,
.
nöronlarını
nöronunun girdisi
(3.13)
şeklinde işaret ve ağırlıkların lineer çarpımına eşit olur. Y nöronunun aktif hale gelmesi
için
Yani,
değerinin bir fonksiyon eşliğinde belirli bir eşik değerine ulaşması gerekir.
= (
) şeklinde olmalıdır. Bu amaçla, çeşitli fonksiyonlar kullanılır. En
sık kullanılan fonksiyonlar
sigmoid s-lojistik
( ) =
(3.14)
hiperbolik tanjant
( ) =
(3.15)
46
Şekil 3.18. Yapay Sini Ağı ve katmanlarını gösteren bir örnek çizim
nöronu
’leri ateşleyecektir. Ancak, her bir işaretin ağırlığı farklı olduğundan bunlar
birbirine eşit olmayacaktır. Yapay sinir ağlarında kullanılan
∆
ağırlıkları her seferinde
kadar düzeltilerek yenilenir.
=
+∆
Gerçekte var olan değer
(3.16)
ile; ağırlıkları ile elde edilen değer
ile gösterilirse hata
fonksiyonu
=
= ( − )
(3.17)
olarak hesaplanır.
Geliştirilen YSA modelleri arasında en yaygın kullanılanları tek ve çok katmanlı
algılayıcılar, LVQ, ART ve SOM ağlarıdır. Yapay sinir ağlarının üstünlüklerinin yanı
sıra bazı sakıncaları olduğu da söylenebilir: Sistem içerisinde ne olduğu bilinemez, bazı
ağlar hariç kararlılık analizleri yapılamaz, farklı sistemlere uygulanması zor olabilir
(Silahtaroğlu, 2008).
3.7.1.7. Genetik Algoritma
Genetik algoritmaların temel ilkeleri ilk kez Michigan Üniversitesi'nde John
Holland tarafından 1975 yılında ortaya atılmıştır. Holland, yaptığı çalışmaları
“Adaptation in Natural and Artificial Systems” adlı kitabında bir araya getirmiştir. İlk
olarak Holland evrim yasalarını genetik algoritmalar içinde eniyileme problemleri için
47
kullanmıştır. Genetik algoritmalar, doğal seçim ilkelerine dayanan bir arama ve
optimizasyon yöntemidir. Genetik algoritmalar problemlere tek bir çözüm üretmek
yerine farklı çözümlerden oluşan bir çözüm kümesi üretir. Böylelikle, arama uzayında
aynı anda birçok nokta değerlendirilmekte ve sonuçta bütünsel çözüme ulaşma olasılığı
yükselmektedir. Çözüm kümesindeki çözümler birbirinden tamamen bağımsızdır. Her
biri çok boyutlu uzay üzerinde bir vektördür. Genetik algoritmalar problemlerin çözümü
için evrimsel süreci bilgisayar ortamında taklit ederler. Diğer eniyileme yöntemlerinde
olduğu gibi çözüm için tek bir yapının geliştirilmesi yerine, böyle yapılardan meydana
gelen bir küme oluştururlar. Problem için olası pekçok çözümü temsil eden bu küme
genetik algoritma terminolojisinde nüfus adını alır. Nüfuslar vektör, kromozom veya
birey adı verilen sayı dizilerinden oluşur. Birey içindeki her bir elemana gen adı verilir.
Nüfustaki bireyler evrimsel süreç içinde genetik algoritma işlemcileri tarafından
belirlenirler. Geleneksel optimizasyon yöntemlerine göre farklılıkları olan genetik
algoritmalar, parametre kümesini değil kodlanmış biçimlerini kullanırlar. Olasılık
kurallarına göre çalışan genetik algoritmalar, yalnızca amaç fonksiyonuna gereksinim
duyar. Çözüm uzayının tamamını değil belirli bir kısmını tararlar. Böylece, etkin arama
yaparak çok daha kısa bir sürede çözüme ulaşırlar. Diğer bir önemli üstünlükleri ise
çözümlerden oluşan popülasyonu eş zamanlı incelemeleri ve böylelikle yerel en iyi
çözümlere takılmamalarıdır. Genetik algoritma, fonksiyon optimizasyonu, çizelgeleme,
mekanik öğrenme, tasarım, hücresel üretim, finans, pazarlama, araç rotalama, tesis
yerleşim ve otomatik programlama gibi alanlarda başarılı ile uygulanmaktadır (Emel,
2002) (Mitchell, 1999).
3.7.1.8. Bellek Temelli Nedenleme (Memory Based Reasoning)
Bellek Temelli Nedenleme (MBR), daha önceki deneyimlerden yararlanarak mevcut
problemlere benzer durumları tanımlayıp geçmiş benzer problemlere getirilen uygun
çözümleri mevcut problemlere uygulaya çalışan bir gözetimli öğrenme sınıfına ait veri
madenciliği yöntemidir. MBR tekniğinin performansını belirleyen iki fonksiyon vardır:
uzaklık ve kombinasyon fonksiyonları. İki kayıt arasındaki uzaklığın bulunmasını
uzaklık fonksiyonu, sonuçların anlamlı olacak şekilde birleştirilmesini ise kombinasyon
fonksiyonu sağlar. Her türlü veri tipi için geçerli bir tekniktir. Ancak, yeni
kayıtların sınıflandırılması bu kayıtlara en yakın komşu kayıtların sistemde
taranacağı anlamına geldiğinden, bu teknik MBR ya da karar ağaçları tekniklerinden
48
çok daha fazla zaman alıcı olmaktadır. Ayrıca sonuçlar uzaklık fonksiyonu,
kombinasyon fonksiyonu ve komşu sayısı seçimlerine göre değişmektedir. Sahtekarlık
tespiti, müşteri cevap tahmini, tıp ve sınıflama yanıtları alanlarında kullanılmaktadır.
3.7.1.9. Regresyon
İki veya daha fazla değişken arasındaki ilişkinin matematiksel olarak belirlenmesi
yöntemidir. En küçük kareler yöntemiyle elde edilen tek değişkenli, doğrusal bir
regresyon modeli
=
+
+
şeklinde olur.
katsayısıdır.
=
(3.18)
denklemin sabit katsayısı,
doğrunun eğimi aynı zamanda regresyon
ise denklemdeki hata terimidir. Verilere ait denklem hiçbir zaman
+
(3.19)
şeklinde olmaz. Denklemin bu hali deterministiktir. Oysa gerçek gözlemlerin her zaman
stokastik yönü vardır. Hata terimleri stokastik kısmı oluşturur. Denklem bize ’teki bir
birimlik değişimin y üzerinde yaratacağı değişikliği gösterir. Veri madenciliği açısından
, sınıfları temsil eder.
’nin alacağı değere göre
olacağı tahmin edilecektir.
değişkenleri
değerlerinin hangi sınıfa dahil
sınıfını temsil ederken oluşturacakları
model her zaman doğrusal olmayabilir. Kuadratik veya kübik modeller de karşımıza
çıkabilir. Üçüncüdereceden daha üst dereceli fonksiyonlar kullanılmaz. Eldeki verilere
bağımlı sonuçlar elde edileceğinden üst dereceli fonksiyonların kullanılmasına gerek
yoktur. Tek veya çok değişkenli regresyon modelleri nümerik veriler ile çalışır. Ancak
verilerin veya sınıf değişkeninin değerleri sıralı veya nominal ise lojistik regresyon
modeli kullanılır. Regresyon konusu çok geniş bir konudur. Burada detaylı olarak
anlatılmayacaktır.
3.7.2. Kümeleme Yöntemleri
Kümeleme analizi sınıflandırmada olduğu gibi verileri gruplara ayırma işlemidir.
Eldeki veriler incelenerek birbirine benzeyenler bir kümeye, benzemeyenler ise başka
bir kümeye toplanmaktadırlar. Ancak sınıflandırma işleminde, sınıflar önceden belirli
iken kümelemede sınıflar önceden belirlenmemiştir. Bu özelliği nedeniyle denetimsiz
öğrenmeye örnek teşkil eden kümeleme analizi istatistik, makine öğrenmesi,
matematik ve yapay zeka gibi bir çok disiplin tarafından biyoloji, tıp, antropoloji,
pazarlama, ekonomi ve telekomünikasyon gibi alanlarda sıkça kullanılmaktadır.
49
Örneğin istatistikte sıkça başvurulan önemli birçok değişkenli analiz yöntemidir.
Kümeleme
analizinde
belirlenecek
kümelerin
özellikleri
ve
sayısı
önceden
bilinmemektedir. Ancak algoritmaların zaman karmaşıklığını ve alınacak sonuçların
kullanılabilirliğini artırabilmek
için
literatürdeki algoritmaların
bir
kısmı ya
kümesayısını ya da her bir kümede bulunacak eleman sayısı veya bu elemanlar
arasındaki minimum-maksimum benzerlik uzaklık ölçütünü kullanıcıdan istemektedir.
Kümeleme analizinde amaç verileri birbirleriyle benzer alt kümelere ayırmaktır.
Verilerin hangi kümelere ayrılacağı, hatta kaç değişik küme oluşturulacağı
verilerinbirbirine olan benzerliğine ve uzaklığına göre belirlenmektedir. Verilerin
benzerliği
ile
kastedilen
şey
ise
aralarındaki
mesafenin
ölçülmesi
ve
değerlendirilmesidir. Bu veritabanında bulunan her bir kaydın diğer bir kayıtla olan
benzerliği ya da diğer kayıtlara uzaklığı olduğu gibi oluşturulan gerçek ve aday kümeler
arasındaki benzerlik ve uzaklığı da içermektedir. En çok kullanılan uzaklık ölçütleri
Öklit, Manhatten, Minkowski; benzerlik ölçütleri ise Dice, Jaccard, Cosine, Overlap’dir.
Bunlar dışında da birçok ölçüt önerilmiştir.
Şekil 3.19. İki nokta arasındaki Öklit uzaklığı
Öklit uzaklığı şu şekilde ölçülür:
Ö
( , )=
∑
(
−
veya çok büyük kümelerde
Ö
( , )=1−
‖
)
(3.20)
= { ,…,
}
= { ,…,
}dizileri için
∙
(3.21)
‖∙‖ ‖
şeklinde hesaplanır. Burada <
∙
> , X ve Y’nin vektörel çarpımıdır.
50
ve
özelliklerine sahip verilerin topluluğu için verilerin bulunduğu düzlem aşağıdaki
gibi olsun.
Şekil 3.20. Kümeleme örneği
Noktaların birbirlerine olan uzaklıkları dikkate alındığında iki farklı kümenin oluştuğu
açıkça görülmektedir. O halde, küme oluşturmak için mesafe ölçüme ihtiyaç vardır.
Örneğin; A={1,1,2,2,5}, B={1,2,3,4,2}, C={1,3,5,1,3} kümeleri beş ayrı sözcüğün üç
farklı web sitesinde kullanım sıklığını göstersin. Hangi web sitesine ait metin diğerine
daha çok benzemektedir?
Ö
( , )= 1−
1.1 + 1.2 + 2.3 + 2.4 + 5.2
√1 + 1 + 2 + 2 + 5 . √1 + 2 + 3 + 4 + 2
27
=1−
√35. √34
= 0,217
bulunur.
( , ) = 1 −
√
= 0,218
.√
de aynı şekilde bulunur.
( , )< ( , )
olduğundan A metni B metnine daha fazla benzemektedir.
={ ,
…,
= (∑
={ ,
} ve
–
)
…,
} ∈
olmak üzere Minkowski uzaklığı
(3.22)
51
şeklinde hesaplanır. Pozitif
tamsayısı için
= 1 ise Manhatten uzaklığı,
= 2 ise
Öklit uzaklığı elde edilir.
Ses, karakter ve resim tanıması, makine öğrenimi, web sayfası aranması, DNA
analizi, Coğrafi Bilgi Sistemleri ve bilgisayar alanlarında kullanılır (Atılgan, 2011).
3.7.2.1. Hiyerarşik Yöntemler
Kümeleme yöntemleri ya hiyerarşik ya da hiyerarşik değildir. Hiyerarşik kümelemede
tekrarlı bölünmeler veya mevcut kümelerin birleştirilmesi şeklinde ağaca benzer bir
yapı (dendrogram) oluşturulur. Hiyerarşik kümeleme yöntemleri, birimleri birbirleri ile
değişik aşamalarda bir araya getirerek ardışık biçimde kümeler belirlemeyi ve bu
kümelere girecek elemanların hangi uzaklık (ya da benzerlik) düzeyinde küme elemanı
olduğunu belirlemeye yarayan yöntemdir. Hiyerarşik kümeleme iki grupta incelenebilir,
bunlar yığılmalı (agglomerative) hiyerarşik kümeleme ve bölünmeli (divisive)
hiyerarşik kümelemelerdir. Yığılmalı hiyerarşik kümeleme, verideki her bir gözlemi bir
küme olarak düşünür. Birleştirme işlemleri uygulanarak kümeler tek bir küme elde
edilinceye kadar devam ettirilir. Bölünmeli hiyerarşik kümelemede, başlangıçta tüm
birimlerin bir küme oluşturduğu kabul edilerek, birimleri aşamalı olarak kümelere
ayırır.
3.7.2.2. Bölümlemeli Yöntemler
Bölmeli metotlar, hiyerarşik olmayan kümeleme metotlarıdır. Bu metotlar, n adet
birimden oluşan veri setini başlangıçta belirlenen k<n olmak üzere k adet kümeye
ayırmak için kullanılır. Bölmeli metotların hiyerarşik metotlardan en önemli farkından
birisi de budur. Hiyerarşik yöntemlerin tersine kullanıcı tarafından verilen bazı
kriterlere uygun kümeler yatırılırken, yaratılacak küme sayısı önceden belirlidir.
Kullanıcı algoritmayı kümeler arasındaki minimum / maksimum mesafeyi ve kümelerin
iç benzerlik kriterlerini de vermek zorundadır. Bölmeli metotlarda işlemler şu sıra ile
yapılır: İlk olarak başlangıç küme merkezleri gelişi güzel olarak seçilir. Birimlerin,
belirlenen kümelerin merkezlerine olan uzaklıklarına göre yeni küme merkezleri
oluşturulur. Ardından her küme için ortalama hesaplanır ve hesaplanan bu değer o
kümenin yeni merkezi olur. Bu işlemler birbirilerinden farklı, kendi içlerinde homojen,
birbirileri arasında benzerlik bulunmayan k adet küme oluşturuluncaya kadar
52
sürdürülür. Görüldüğü gibi, bu metotlar iteratif süreçlerden oluşan metotlardır. Bölmeli
metotları arasında en bilinenleri k-ortalamalar kümeleme ve k-Medoids parçalamalar
yöntemidir.
Şekil 3.21. Bölmeli yöntemin uygulanma aşamaları
3.7.2.3. K-Ortalamalar (K-Means) Bölümleme Yöntemi
K-ortalamalar yönteminin uygulanabilmesi için en önemli koşul, veri setindeki
değişkenlerin en azından aralık ölçekte bulunmasıdır. Çünkü küme merkezleri
oluşturulurken her bir iterasyonda oluşan kümeler için değişkenlerin ortalamaları alınır.
İkinci önemli koşul ise, oluşturulacak olan küme sayısının başlangıçta biliniyor
olmasıdır. K-ortalamalar yönteminin kullandığı algoritma aşağıdaki gibidir:
i.
k adet birim başlangıç küme merkezleri olarak rastgele seçilir.
ii.
Küme merkezi olmayan birimler, belirlenen uzaklık ölçütlerine başlangıç küme
merkezlerinin ait oldukları kümelere atlanır
iii.
Yeni küme merkezleri, oluşturulan k adet başlangıç kümesindeki değişkenlerin
ortalamaları alınarak oluşturulur.
iv.
Birimler en yakın oldukları oluşturulan yeni küme merkezlerine birimlerin
uzaklıkları hesaplanarak kümeye atlanır.
53
v.
Bir önceki küme merkezlerine olan uzaklıklar ile yeni oluşturulan küme
merkezlerine olan uzaklıklar karşılaştırılır.
vi.
Uzaklıklar makul görülebilir oranda azalmış ise iv. adıma dönülür.
vii.
Eğer çok büyük bir değişiklik söz konusu olmamış ise iterasyon sona erdirilir.
İterasyonun durdurulması için kullanılan ölçütlerden birisi, kareli hata
ölçütleridir. Bu ölçüt
veri uzayında bir nokta,
ise
kümesine ait ortalama ya da
küme merkezi olmak üzere şu biçimdedir:
=∑
∑
∈
| −
|
(3.23)
3.7.2.4. K-Medoids Bölümleme Yöntemi
k-ortalamalar kümeleme yöntemine benzer biçimde işlem yapan fakat her bir
iterasyon sonucunda referans alınacak küme merkezlerini seçerken değişkenlerin
ortalama değerlerini almayıp birimleri küme merkezi olarak alan bir kümeleme
yöntemidir. Eğer veri setindeki kümeleme için kullanılacak olan değişkenler kategorik
değişkenler ise k- medoids yöntemi tercih edilir.
k-ortalamalar kümeleme yöntemi küme merkezlerini oluştururken ortalama
aldığı için aşırı değerlere duyarlı olmasına karşılık k-medoids parçalama yöntemi,
birimleri küme merkezi olarak seçtiğinden dolayı aşırı değerlere karşı duyarlı değildir.
k-medoids parçalama yönteminin amacı her bir küme için temsili bir birim
bulmaktır. Bu temsili birime medoid adı verilir. Medoid küme içerisine en merkezi
birimdir. Medoidler aşırı değerlerin varlıklarından etkilenmedikleri gibi, medoidler
incelenen birimlerin sırasına da bağlı değildir. k-medoids parçalama yönteminin takip
ettiği algoritma aşağıdaki gibidir:
i.
k adet birim başlangıç medoidleri olarak rastgele seçilir.
ii.
Her bir birimin yakın olduğu medoide atanır.
iii.
Medoid olmayan birimler sırasıyla seçilir.
iv.
Sıra ile seçilen bir birim ile medoidin yer değiştirmesinin toplam maliyeti
hesaplanır.
v.
Toplam maliyetler sıralanır.
vi.
En küçük toplam maliyet sıfırdan küçükse, iii. adıma dönülür.
vii.
Toplam maliyet sıfırdan büyük veya sıfıra eşit çıkarsa, iterasyon sona erer.
(Çıngı, 2007)
54
3.7.2.5. PAM Algoritması
PAM (Partitioning Around Medoids / Temsilciler Etrafında Bölümleme)
yöntemi Kaufman ve Rousseuw tarafından 1990 yılında geliştirilmiş bir algoritmadır.
PAM algoritması k adet kümeyi bulmak için seçilen temsilcilerin etrafına ana kümedeki
tüm elemanları toplayarak ve her defasında bu temsilcileri değiştirerek kümeleme
işlemini tamamlar. PAM algoritmasının temsilci olarak seçtiği noktaya medoid denilir;
dolayısıyla bu algoritma k-medoid algoritması olarak da anılır. Bu temsilci (medoid)
seçiminden kasıt ise kümenin merkezine yakın mesafede bulunan noktanın
belirlenmesidir. k adet küme için seçilen k adet temsilci belirlendikten sonra, veri
tabanındaki temsilci olmayan diğer noktalar (veriler) kendilerine en çok benzeyen
temsilcinin etrafında toplanır. Temsilciler (medoid) belirlenmesi süreci k adet
temsilcinin ana veri tabanından rastgele seçilmesiyle başlar. Daha sonraki her adımda
seçilmiş bir
temsilciyle, seçilmemiş bir
noktasının yer değiştirmesinin kümenin
kalitesi üzerinde yaratacağı iyileştirme
hesaplanarak, temsilcilerin değiştirilip
değiştirilemeyeceğine algoritma tarafından karar verilir.
3.7.2.6. CLARA Algoritması
CLARA (Clustering LARge Applications / Geniş Uygulamaların Kümelenmesi)
büyükveritabanlarının daha kısa süre içerisinde kümelenmesi amacıyla Kaufman ve
Rousseuew tarafından 1990’da geliştirilmiş bir algoritmadır. Kümeleme işleminin
yapım süresi azaldığı halde gerçekte algoritmanın zaman karmaşıklığında herhangi bir
iyileşme söz konusu değildir. CLARA algoritması bütün veritabanını tarayarak temsilci
noktalar seçmek yerine, veritabanından rastgele bir kümeyi alarak, PAM algoritmasını
bu örnek küme üzerine uygular. Bu uygulama sonucunda oluşacak olan kümelerin her
birinin temsilcisi belirlenir. Daha sonra ana kümeyi oluşturan veritabanından bir örnek
küme daha seçilir. Bu esnada ilk temsilcilerin rastgele seçilmesi yerine bir önceki
aşamada belirlenmiş temsilciler kullanılır. Bu da algoritma içinde temsilci değişimini
azaltacak ve algoritma hem daha hızlı bir şekilde işleyecek hem de daha kaliteli
sonuçlar verecektir. Bu tekrar örnekleme işleminin 5 defa yinelenmesi ve her defasında
40 + 2 adet örnek seçilmesinin en iyi sonucu verdiği Kaufman ve Rousseuew (1990)
tarafından rapor edilmiştir.
55
3.7.2.7. CLARANS Algoritması
CLARANS (Clustering Large Applications based on RANdomizedSearch –
Rasgele Aramaya Dayalı Geniş Uygulamaları Kümeleme) algoritması isminden de
anlaşılacağı gibi PAM ve CLARA algoritmalarının geliştirilmiş halidir. Algoritma
verilen n adet temsilciler aracılığıyla ve bir şebeke diyagramından yararlanılarak k adet
kümeye ayrılması şeklinde özetlenebilir (Atılgan, 2011).
3.7.3. Yoğunluğa Dayalı Yöntemler
Farklı şekildeki kümeleri belirlemek için yoğunluğa dayalı algoritmalar
geliştirilmiştir. Dağılmış noktaların oluşturduğu kümelerin k-means algoritması gibi
sadece noktalar arasındaki Öklit mesafesine dayanarak belirlenmesi oldukça güçtür;
üstelik bazı değişik şekildeki kümeler için de imkansızdır. Bu tür kümelerin tespit
edilmesinde uç verilerin (outliers) ayıklanması da gerekmektedir. Aslında hiçbir
kümeye ait olmayan bu uç veriler kümelerin belirlenmesi için yapılması gereken
hesaplamaları etkileyeceğinden gerçek kümeler ortaya çıkartılmayacaktır. Bu gibi
durumlarda, kümeleme işlemi, yoğunluğa dayanılarak yapılabilir; birlikte bir yoğunluk
oluşturan noktalar ayrı birer küme olarak değerlendirilirler. Yoğunluğa dayalı
kümelemede işlem kümeleri veri kümesinin geri kalanından daha yüksek yoğunluklu
kısımların belirlenmesi olarak tanımlanır. Belirlenen yoğunluk alanlarının aralarında
kalan veriler gürültü terimleri veya sınır noktaları olarak kabul edilir. En bilinen
yoğunluk tabanlı algoritmalar DBSCAN, DENCLUE ve OPTICS algoritmalarıdır.
DBSCAN (Density Based Spatial Clustering of Applications with Noise), 1996 yılında
Martin Esler ve arkadaşları Hans-Peter Kriegel, Jörg Sander ve Xiaowei Xu tarafından
geliştirilmiş bir algoritmadır. “Ulaşılabilir yoğunluk” esasına göre
minimum küme sayısı
komşuluk ve
parametrelerini kullanarak çalışmaktadır. OPTICS
algoritması DBSCAN algoritmasının genelleştirilmiş hali olarak kabul edilebilir.
DENCLUE
Algoritması
(DENsityBasedCLUestEring),
veri
tabanında
bulunan
noktaların etki fonksiyonlarının toplamından yararlanılarak elde edilen genel bir
yoğunluk fonksiyonunun, yerel maksimumlarının kullanılmasıyla yoğunluğa dayalı bir
kümeleme gerçekleştirir. Birinci adımda, her bir noktanın kendi çevresi kapsamındaki
etki fonksiyonu hesaplanır; bu fonksiyon parabolik, kare dalga fonksiyonu veya Gauss
fonksiyonu olabilir. Bu fonksiyon veritabanındaki tüm noktalara uygulanır. İkinci
adımda ise bu fonksiyonların toplamı bulunur. Hesaplanan bu etki fonksiyonları toplamı
56
bu veritabanının genel yoğunluğunu vermiş olacaktır. Üçüncü adımda kümeler
matematiksel olarak yoğunluk–çekicileri (density-attractors) yardımıyla tespit edilir.
Burada
yoğunluk–çekicilerinden
kasıt
genel
yoğunluk
fonksiyonunun
yerel
maksimumlarıdır. Yoğunluk çekicileri yoğunluk fonksiyonunun gradyenti yardımıyla
hesaplanır.
3.7.4. Izgara Tabanlı Yöntemler
Izgara tabanlı kümeleme özellikle çok büyük veri setleri ile ilgilenmek için
uygundur. Izgara tabanlı kümeleme yaklaşımı veri noktalarından çok hücreleri göz
önüne alan bir yaklaşımdır. Bu özelliğinden dolayı, ızgara-tabanlı kümeleme
algoritmaları genel olarak tüm kümeleme algoritmalarından hesapsal olarak daha
etkindir. Bu yaklaşıma örnek olarak STING, STING+, WaveCluster, CLIQUE ve
GDILC algoritmaları verilebilir. Izgara tabanlı kümeleme yaklaşımı çok çözümlü grid
veri yapısını kullanır. Kümeleme yapılacak alanın sonlu sayıda hücrelere bölünmesiyle
oluşur. Prensip, ilk olarak veri setini, ızgara gibi özetledikten sonra ızgara hücrelerini
kümeyi oluşturmak üzere tekrar birleştirmek üzerinedir. Ana avantajı genelde
birbirinden bağımsız sayıda veri nesnelerinde hızlı işlem zamanıdır.
STING uzayı dikdörtgensel hücrelere bölen bir tekniktir. Bu hücreler hiyerarşik
yapıdadır. Üst seviyedeki bütün hücreler bir sonraki alt seviyede parçalanmış
hücrelerden oluşur. Her bir grid hücresindeki niteliklerle ilişkili istatistiksel bilgi
(örneğin mean, maksimum veya minumum değerler) ön işlenir veya tutulur. Üst
seviyede
hücre
istatistiksel
parametreleri,
alt
seviyedeki
hücre
istatistiksel
parametrelerden kolayca hesaplanabilir. Bu parametreler şu şekildedir:
parametre,
(sayı); nitelik-bağımlı parametreler,
(minimum),
(ortalama),
bağımsız
(standart sapma),
(maksimum) ve hücrelerin nitel dağılımlarındaki dağılım tipi:
normal, tek biçimli, üstel veya hiçbiri (dağılım bilinmiyor) gibi. Veri, veritabanına
kaydedilirken, en alt seviyede hücrelerdeki
,
, s,
ve
parametreleri
direkt olarak hesaplanır.
CLIQUE (Clustering in Quest) algoritması yoğunluğa dayalı ve grid temelli yöntemleri
birleştiren algoritmadır. Çok yüksek veri gruplarının kümelenmesi için geliştirilmiştir.
Algoritma aşağıdaki ilkeler çerçevesinde çalışır. Öncelikle CLIQUE algoritmasının çok
boyutlu veri uzayının alt uzaylarında çalıştığında ve bu sayede daha iyi kümeleme
gerçekleştirdiğini belirtmek gerekir. Ayrıca, veri uzayının dağınık ve birbirinden
57
bağımsız veriler tarafından doldurulduğu kabul edilir. Algoritma, birbirine yakın
noktalardan oluşan bölgeleri başka bir deyişle yoğun olan bölgeleri diğer bölgelerden
ayırır ve bu bölgelere “birim” ismi verilir. Yoğunluk kavramı ise bir bölgedeki toplam
veri sayısının daha önceden girilen bir değeri aşmasıdır. CLIQUE algoritması genel
olarak üç adımda tamamlanır;
i.
Kümeleri kapsayan alt uzay tanımlaması
ii.
Kümelerin tanımlanması
iii.
Kümeler için minimum tanımın genelleştirilmesi (Silahtaroğlu, 2008).
3.7.5. Dalga Kümeleme (Wave Cluster)
Wavelet dönüşümü kullanan kümeleme yöntemi olarak bilinen dalga kümelemesi
(Wave Cluster), çoklu çözüm kümeleme algoritmasıdır. İlk olarak veri uzayını çok
boyutlu grid yapısına dönüştürür. Sonra wavelet dönüşümü aracılığıyla yoğun bölgeleri
bularak orijinal uzayda dönüşüm yapar. Farklı çözüm seviyelerindeki göreceli mesafe
verimi wavelet dönüşümü sayesinde saklanır. Bu doğal kümeleri daha çok ayırt
edilebilir hale getirir. İlgi alanındaki yoğun bölgeleri arayarak kümeler tanımlanabilir.
Nokta kümelerin olduğu bölgeleri vurgulayarak şapka şeklinde filtreler kullanır. Aynı
zamanda zayıf bilgileri küme sınırları dışına atar. Bu şu anlama gelir; veri kümelerinde,
bilgileri otomatik olarak belirler ve bölgelerde temizlik yapar. Wavelet dönüşüm sınır
dışındaki verileri otomatik olarak temizler. Wavelet dönüşüm, kümelerdeki farklı
seviyedeki doğruluğu keşfeder.
3.7.6. Kohonen Ağlar (Kohonen Networks)
Kohonen ağlar, Self OrganizingMap (SOM) olarak ta bilinen, kümeleme amaçlı
kullanılan ve denetimsiz öğrenme çeşidi olan bir yapay sinir ağı yöntemidir.
Algoritmada temel nokta “nöron”lardır. Nöronlar “girdi”ve “çıktı” şeklinde iki
tabakadan oluşur. Girdi nöronlarının tamamı çıktı nöronları ile bağlıdır. Bu bağlar “güç”
olarak adlandırılan ölçülerle ifade edilir. Algoritma çalışınca çıktı nöronları en çok
veriyi kendilerine bağlamak için yarışırlar. İlişki vektör tabakası iki boyutlu ve ilişkisiz
grid yapısı oluşturur. Öncelikle tüm girdi nöronları için çıktı nöronlarına ağırlık atanır.
En güçlü ağırlığa göre veriler çıktı nöronlara gönderilir. Analiz sonucunda benzer
veriler grid üzerinde aynı yerde, farklı olanlar ise uzak yerlerde kümelenir (Larose,
2005).
58
Şekil 3.22. 2-boyutlu Kohonen ağa ait ilişki vektörü tabakası
3.8. Birliktelik Kuralı (Association Rule Mining)
3.8.1. İlişki Analizi (Affinity Analysis)
Kurum ve kuruluşların sahip oldukları veri tabanlarındaki bilgi gün geçtikçe
artmakta bu nedenle büyük bilgi kümeleri içerisindeki ilişkileri ortaya çıkarma çabası
içerisine girilmiştir. Bu tür ilişkiler kurum veya kuruluşlar için altın değerinde sonuçlar
doğurabilecek kararların alınmasında önemli rol oynamaktadır. Günümüzde büyük
kavramından kasıt; terabaytlar ile açıklanan miktarlardaki veri kümeleridir. İstatistik ve
makine öğrenmesinin birleşimi ile bu kümeler içerisindeki gizli kalmış ilişkilerin açığa
çıkarılması yöntemleri ortaya çıkmıştır. İlişki analizi veritabanındaki bir dizi ya da
kaydın diğer kayıtlarla olan bağlantısını açıklayan işlemler dizisidir. Bir kayıt varken
başka bir kaydın var olma olasılığı nedir veya üç, dört, daha fazla kaydın aynı anda
veritabanına girme olasılığı nedir? Bu tür soruların cevabını ilişki analizi verir (Flank,
2004). Sınıflama yöntemleri, önemi olan kategorik özelliği tahmin etmeye yönelikti.
Ancak ilişki analizi çok daha genel olup bir veri kümesindeki herhangi bir kuralı ortaya
çıkarmaya yöneliktir. Basit anlamda söyleyecek olursak, “EĞER … ÖYLEYSE …”
mantıksal bağlaç kuralı ile “özellik = değer” denkliği oluşturarak oluşturulur. Denkliğin
sağ ve sol tarafları vardır. Ayrıca bütün özelliklerin kategorik olduğunu varsayarız.
59
Sınıflamadan farklı olarak sağ ve sol tarafın her ikisi de test edilebilir. Satışpazarlamadan, katalog tasarımlarına market sepeti analizinden iletişim hatlarındaki
parazitlerin tespitine kadar birçok alanda kullanılmaktadır. Örneğin, herhangi bir ürünü
satın alırken başka bir ürün de beraberinde alınıyorsa bu ürünler arasında bir bağlantı
var demektir. Finansal bir veri kümesinden örnek verecek olursak:
EĞER Mortgage=Evet VE Banka_Hesap_Durumu=Kredili
İSE O HALDE İş_Durum=Çalışıyor VE Yaş_Grup=65 yaş altı
olabilir. Özelliklerin sahip olduğu değerler arasında kurulan bu ilişkilere “birliktelik
kuralı” denir. Bir veri kümesinden bu kuralları ortaya çıkarma işlemine ise birliktelik
kuralı madenciliği (association rule mining- ARM) denilir (Bramer, 2007).
3.8.2. Market Sepeti Analizi (Market Basket Analysis)
“Market Sepeti Analizi” ürünler arasında ilişkilerden yola çıkarak müşterilerin
alışveriş alışkanlıklarının veri tabanındaki bilgiler aracılığıyla ortaya çıkarılması
işlemidir. Bu bilgiler, market içerisinde ürünlerin yerleştirilmesi, marketin alan tasarımı
ve satılacak ürünlerin belirlenmesine yardımcı olur. Market sepeti verisi müşteriler
tarafından beraber satın alınan nesneleri içerir. Bu tür nesneler kümesine işlem
(transaction) denir. Son yıllarda bu konu üzerinde çok sayıda çalışma yapılmıştır. Tespit
edilen birliktelikler sayesinde rafların ürün tasarımlarının yapılması, müşterilerin kişisel
tercihleri, promosyon düzenlemeleri gibi tüketiciye yönelik aktiviteler daha bilinçli bir
şekilde yapılabilmektedir. Bu yöntem, web tabanlı sistemlere de kolaylıkla adapte
edilebilmekte ve web sayfaları, yayınlar ve dokümanlar arasındaki benzerlikler
bulunabilmektedir (Hahsler, 2005). Birliktelik kuralı matematiksel olarak şu şekilde
ifade edilir:
= { , ,…,
} bir nesneler kümesi olsun.
= { , , …,
} veri tabanındaki
işlemleri göstersin.
Her bir
’nın alacağı değer 0 veya 1 olur. Eğer
satın alınmışsa 1, alınmamışsa 0
değerini alır. Bu işlemler veritabanında kayıt altına alındığından,
olmak üzere ve ⊆ için ’deki her bir
’ya karşılık gelen
bir nesne kümesi
değeri olur ve
=1
dir.
⊆ ve ⊆ olmak üzere her işlemdeki ikili değişkenler
eşleştirilir. Birliktelik kuralı;
⊂ ,
⊂
ve
∩
= olmak üzere
denilen bir belirteç ile
60
⟹
(3.24)
şeklinde tanımlanır. Denkliğin sol tarafına öncül (antecedent), sağ tarafına ise sonuç
(consequent) denilir. Öncül kısmı kurallarda hangi öncül olayın gerçekleştiğini, sonuç
ise hangi durum hakkında bir tanımlama yapılacağını belirtmektedir (Aggarwal, 2002).
“EĞER Öncül O HALDE Sonuç” birlikteliği basitçe bir Venn diyagramı ile
gösterilebilir.
Şekil 3.23. Birliktelik kuralının Venn Diyagramı ile gösterilmesi
Tanımda verilen
∩
=
ifadesi ile Şekil 3.23’te verilen küme kesişimi arasında bir
çelişki var gibi görülebilir. Teorik tanımdaki ayrık küme kavramı X ve Y’nin farklı
özelliklere sahip işlemler (değişkenler) olduğunu anlatmaktadır. Dolayısıyla kesişimleri
boş kümedir. Ancak şekilde gösterilen kesişim bölgesi, nesnelerin kesişimini değil de
işlemlerin kesişimini göstermektedir. Yani X ve Y’nin aynı anda (birlikte) gerçekleştiği
kayıtları ifade etmektedir.
⟹
birlikteliği;
( ⇒ ) şeklinde olursa tek nesneli birliktelik olur fakat daha kompleks birliktelikler
de oluşturulabilir.
( , , , , … . ⇒ ) çokludan teke birliktelik;
( ⇒ , , , , … ) tekten çokluya birliktelik;
( , , , , , … ⇒ , , , … ) çokludan çokluya birliktelik kuralları çıkarılabilir.
Çok boyutlu birliktelik kuralları, birden fazla karşılaştırma elemanı ya da özellik
içeren birliktelik kurallarıdır. Örneğin,
a ürününü alan müşterilerin b ürününü de
almaları tek boyutlu bir birliktelik iken müşterilerin hangi gün, hangi mağazadan neler
satın aldığı gibi birden fazla özelliği içeren birliktelikler çok boyutludur ve bu
birliktelikler OLAP küpü kullanılarak keşfedilmektedir (Birant, 2010).
61
Şekil 3.24. OLAP Küpü örneği
3.8.3. Destek, Güven ve Kaldıraç Kavramları (Support, Confidence and Lift)
Verilen bir veri kümesinden yüzlerce kural çıkarılabilir. Küme içerisindeki
nesne sayısı arttıkça kural sayısı da hızlı bir şekilde artmakta ve incelenmesi zor
olmaktadır.
nesne sayısı ve
= 3 −2
kural sayısı olmak üzere
+ 1
(3.25)
şeklinde hesaplanır. Küçük bir örnek ile durumu anlatalım:
Çizelge 3.3. Kural sayısı örneği
#
#
ı ı
5
180
10
57.002
100
5,1537752 × 10
Veritabanı kayıtlarında, nesnelerin gruplandırılması ile elde edilen bağımlılık
ilişkilerinin yüzde yüz geçerli olması beklenemez. Ancak, çıkarsaması yapılan kuralın,
veritabanının önemli bir kısmı tarafından desteklenmesi, yani söz konusu durumun
sıkça görülüyor olması gerekir. Oluşturulan birlikteliklerden hangisinin daha geçerli
olduğunu ortaya çıkarmak için analiz performansı yapılır. Performans kriteri olarak
temelde iki ölçü kullanılır: destek (support) ve güven (confidence).
62
büyük veri seti ve
kümesi işlemleri (transactions) içeren kümeler olsunlar.
ve ,
kümesi içerisindeki küçük nesne kümeleri olsunlar.
arasındaki A örüntüsü için (A : ⟹
ve
birliktelik kuralı için);
Destek, ilgilenilen öncül ve sonuç değişkenlerinin her ikisinin de birlikte meydana
gelme olasılığı olarak ifade edilir. Olasılık değeri, hem
hem de ’yi içeren işlemlerin
sayısının tüm işlemlerin sayısına oranı olarak gösterilir. s(T): T kümesindeki tüm
işlemlerin sayısını göstermek üzere
( )
( ∩ )
=
( )
( )=
ç
ş
ü ş
(3.25)
Güven ise kuralın doğruluğunun bir ölçüsü olup öncül özelliğinin gerçekleşmesinden
sonra sonuç özelliğinin gerçekleşmesi olasılığıdır. Güven değeri bir koşullu olasılık
ölçüsü olup hem
hem de
’yi içeren işlemlerin sayısının yalnızca
‘i içeren
işlemlerin sayısına oranı olarak gösterilir.
ü
( )
( | ) =
( )=
( ∩ )
( )
ç
ç
ş
=
ş
(3.26)
Genellikle oluşturulan kuralda büyük destek oranı istenilir. Güçlü destek ve yüksek
güven oranı olan kurallar güçlü kural (strong rules) olarak kabul edilir. Birliktelik
kuralının esas amacı bu şekilde tanımlanan güçlü ilişkileri tespit etmektir (Chen, 1996).
Ancak kuralın güçlü olabilmesi için hangi destek değeri güçlü ve hangi güven
değeri yüksek kabul edilecektir? Bu nedenle destek ve güven değerleri için bir eşik
değere ihtiyaç vardır. Bu değerler kullanıcı tarafından belirlenen minimum destek
(min.des - minsup) ve minimum güven (min.güv – minconf) değerleridir. O halde,
oluşturulan tüm kurallarda elde edilen destek ve güven değerlerinin beraberce min.des
ve min.güv değerlerinden yüksek olması gerekir. Birliktelik kurallarının destek ve
güven değerleri ne kadar büyük olursa, kurallarında oderece güçlü olduğu söylenmesine
rağmen bu durum her zaman doğru olmayabilir. Çünkü veri tabanından elde edilen bir
kuralda öncülün olması olasılığı, sonucun olması olasılığından daha düşük olmalıdır ki,
öncül sonuca katkı yapmış olsun. Bu durumun ölçüsü ise Kaldıraç (Lift) ile ifade
edilmektedir.
63
ç( )
ı
ü
( )
( )
( | )
( )
=
=
( ∩ )
( )∙ ( )
=
ç
( )=
ş
ç
ş
×
ç
ş
(3.27)
Yani öncül değişkeninin sonuç değişkenini hangi yönde (+→ −) ve hangi oranda
(0 → 1) etkilediğini gösterir (Agrawal, 1993).
Verilen bir veritabanında birliktelik kuralı oluşturmak için kullanıcı tarafından
önceden belirlenmiş olan minimum güven seviyesinden daha yüksek bir destek ve
güven seviyesine sahip kuralların çıkarılması gerekir. Minimum destek seviyesini
sağlayan kümelere geniş nesne kümesi, diğerlerine ise küçük nesne kümesi denir.
Algoritmaların nasıl oluşturulduğuna geçmeden önce birkaç örnekle destek ve güven
seviyelerini açıklayalım.
Yaş (kişi, “20-30”) ⇒ satın alır (kişi, “LCD TV”) [Destek= %2, Güven= %13]
kuralı; yaşları 20-30 arasında olan kişilerin tüm müşterilerin %2’si kadar olduğunu ve
bunların da %13’ünün LCD TV aldığını ifade etmektedir.
Yaş (kişi, “20-30”) ⋀ Cinsiyet (kişi, “erkek”) ⇒ satın alır (kişi, “LCD TV”)
[Destek= %1, Güven= %60]
İlk kural tek boyutluydu. Burada ise iki boyut vardır: yaş ve cinsiyet. Yani yaşları 20-30
arasında değişen ve erkek müşterilerden LCD TV alanların tüm müşterilere oranının %1
olduğunu ve yaşı 20-30 arasında olan erkek müşterilerin %60’ının LCD TV aldığını
ifade eder. Çok boyutlu bir örnek şöyle olabilir:
Yaş (kişi, “20-30”) ⋀ Cinsiyet (kişi, “erkek”) ⋀satın alır (kişi, “LCD TV”) ⇒
satın alır (kişi, “DVD Player”) [Destek= %1, Güven= %65]
Burada ise yaşları 20-30 arasında olan erkek müşterilerden LCD TV alanların %65’inin
aynı zamanda DVD Player da satın aldığı ifade edilmektedir.
3.8.4. Büyük Nesne Kümeleri (Large Itemsets)
Veri madenciliğinin temel çıkış noktası büyük veri kümeleri olmuştur. Hızla
büyüyen veri miktarı analiz ile ilgili yeni yöntemlerin ve algoritmaların gelişmesine
neden olmuş ve madencilik kavramı bugüne gelmiştir. Ticari işletme ve bilgi işlem
64
sektöründe faaliyet gösteren lider firmaların yaklaşık %90’ı çok büyük veri kümelerine
sahip olduklarını ve bunların mutlaka işleme konulması gerektiğini ifade etmektedirler.
Hand ve ark. (2001), veri madenciliğini büyük veri kümesi üzerinden “Veri madenciliği
büyük veri kümelerinin, önceden akla gelmeyen ilişkileri bulmak ve veriyi hem anlaşılır
hem de kullanılabilir hale getirecek biçimde özetlemek için analiz edilmesidir.” ifadesi
ile tanımlamaktadırlar. Büyük veri kümeleri üzerinde algoritma oluşturmak için veri
üzerinden çok kez geçmek gerekir. İlk taramada alt kümelere ait destek değerleri
sayılarak hangi kümenin büyük olduğuna karar verilir. Daha sonraki taramalarda
yalnızca büyük kümeler üzerinde işlem yaparak aday (candidate) kümeler belirlenir.
Aday kümeler için destek değerleri sayılır ve tarama sonunda hangi kümelerin
gerçekten büyük aday kümesi olduğu tespit edilir. Bu işlem yeni aday küme
bulunmayıncaya kadar devam eder. Bu işlem ile ilgili geliştirilen AIS, SETM, Apriori,
AprioriTid gibi algoritmalar vardır. Bunlar arasındaki farklar ileriki bölümlerde
açıklanacaktır. Büyük veritabanlarından birliktelik kuralları elde etmek iki adımdan
oluşan bir süreçtir:
1- En küçük destek değerini sağlayan tüm geniş nesne kümelerini bulma
2- Bulanan geniş nesne kümelerinden minimum destek ve güven koşullarını
sağlayan kurallar oluşturma (Srikant, 1996).
3.8.5. Örüntü ve Kural Çıkarma (Pattern Recognition and Rule Extraction)
Makine öğrenmesi sistemlerinde sürekli tekrar eden veya devam eden kuralları
keşfetmeye örüntü tanıma veya kural çıkarma denilmektedir. Sınıflama en basitinden bir
örüntü tanımadır. Çünkü her girdi değerini bir sınıfa atamaya çalışır. Örüntü tanıma
teknolojileri birçok alanda kullanılmaktadır. Yüz tanıma teknolojisi, konuşma tanıma
teknolojisi, web sitesi içerisinde belli bir metnin taranması, protein zincirlerinde sekans
etiketleme gibi alanlarda örüntülerin ortaya çıkarılması öncelikli konulardandır. Aynı
şekilde, birliktelik kuralı ile ilgili veri analizi yaparken de en önemli olay kural
belirleme veya örüntü tanımadır. Birçok veri analizinde problem başlangıçta bellidir.
Ancak birliktelik kuralı analizinde veri ile ilgili herhangi bir öngörümüz yoktur.
Yalnızca min.des ve min.güv değerleri belirlenerek veriler analiz edilir ve sonucunda
değişkenler için bir örüntü bulmaya çalışılır. Her geçen gün yeni örüntü tanıma
algoritmaları geliştirilmektedir. Günümüzde veriler farklı tarzda derlenmekte veya farklı
sektörlere ait veriler karşımıza çıkmaktadır. Bu nedenle, her algoritmanın yavaş kaldığı
65
veya analizin daha fazla hafıza gerektirdiği durumlarda araştırmacılar daha hızlı örüntü
tanıma algoritmaları üzerinde çalışmaktadırlar (Bayardo, 1999).
3.8.6. Algoritmalar
3.8.6.1. AIS Algoritması
1993 yılında Agrawal tarafından, geniş nesne kümeleri oluşturmak için
geliştirilmiş bir algoritmadır. Veritabanındaki nesnelerin A’dan Z’ye sıralanması kısıtını
taşır. AIS algoritması veritabanını birçok kez tarar ve her taramada tüm işlemleri okur.
İlk tarama esnasında veritabanındaki tüm nesneleri sayarak hangilerinin geniş olduğunu
belirler. Geniş olanları aday nesne olarak işaretler. Bir işlem tarandıktan sonra, bir
önceki taramada geniş oldukları belirlenen nesne kümeleriyle, o işlemin nesneleri
arasındaki nesne kümeleri belirlenir. Belirlenen bu ortak nesne kümeleri işlemde
mevcut olan diğer nesnelerle birleştirilerek yeni aday kümeler oluşturulur. Herhangi bir
I nesne kümesi bir işlemdeki nesnelerle birleşip aday kümelerden birini oluşturabilmesi
için, birleşeceği nesnenin hem geniş olması hem de harf sırası açısından nesne kümesi
içerisindeki tüm nesnelerden sonra geliyor olması gerekir. Bu işlemin gerçekleşmesi
için bir budama tekniği kullanılır. Bu tekniğe göre, aday kümeler içindeki gereksiz
kümeler silinir. Sonra, her aday kümenin desteği hesaplanır. Daha önce belirlenen
minimum destek seviyesine eşit veya büyük olan kümeler geniş nesne kümesi olarak
işaretlenir. İşaretlenen geniş nesne kümeleri aday kümeleri belirlemek için kullanılır
(Agrawal, 1993).
3.8.6.2. SETM Algoritması
AIS algoritmasından farklı olarak bu algoritmada
geniş nesne kümesinin her
bir elemanı iki parametreden oluşur. Bunlar, nesnenin ismi ve nesneyi ayırt etmeye
yarayacak bir özellik kodudur. Algoritma işletilirken bu numara bir TID (Transaction
Identification)-işlem numarası olarak kullanılır.
∈
olmak üzere
: < TID, isim > formatındadır.
SETM algoritması da nesneleri teker teker sayar ve hangilerinin geniş nesne
olduğunu belirler. Sonraki taramada yalnızca işaretlenen kümeleri tarayarak aday
kümeleri belirler. Tarama esnasında TID bilgisini de saklar. Aday nesne kümeleri
isimlerine göre sıralanır ve küçük nesne kümeleri silinir. Eğer isme göre değil de
TID’ye göre sıralanırsa geniş nesne kümeleri TID’ye göre belirlenir ve küçük nesne
66
kümeleri silinir. SETM algoritması TID bilgisini de tuttuğundan yer karmaşıklığını
arttırmaktadır. Ayrıca hem isim hem de TID sıralaması yapılması zaman karmaşıklığını
arttırdığından dezavantaj sayılmaktadır (Srikant, 1995).
3.8.6.3. Apriori Algoritması
Birliktelik kuralları içerisinde en bilinen ve en çok kullanılan bir algoritmadır.
AIS ve SETM algoritmaları birçok kez tarama yapar ve her taramada aday nesne
kümeleri üretilir. Yeni aday nesne kümeleri ise diğer işlemlerde elde edilen kümelerin
birleştirilmesiyle üretilir. Bu durum, aslında küçük nesne kümesi olan birçok aday nesne
kümesinin sanki geniş nesne kümesiymiş gibi üretilmesi sonucunu doğurur. Ancak
apriori algoritması da veritabanını birçok kez tarayıp her bir aday nesne kümesinin
destek seviyesini daha önceden belirlenen min.des seviyesi ile karşılaştırmasına rağmen
bir sonraki taramada yalnızca geniş olarak belirlenen nesne kümelerinden başlar. Fakat
bu işi veritabanındaki işlemleri işin içine sokmadan, yalnızca geniş nesne kümesi olarak
tespit edilmiş nesne kümelerinin alt kümelerini tarayarak elde eder. K adet nesneden
oluşmuş bir kümenin k-1 adet nesneye sahip geniş nesne kümelerinin birleştirilmesi ve
alt kümeleri geniş olmayanların silinmesi esasıyla elde edilir. Birleştirme ve silme
işlemleri sonucunda daha az sayıda aday nesne kümesi oluşacaktır. Agrawal ve Srikant
tarafından 20. VLDB (Very Large Data Bases) Konferansında (1994) sunulan apriori
algoritmasının kodu şu şekildedir:
L1 = {Geniş 1-nesne kümeleri};
k=2; //k, nesne sayısını belirtir
while L k-1 = 0 do
begin
Ck = apriori-gen(L k-1); // Ck; L k-1 kümesinden oluşturulan k sayılı
yeni aday kümesi
for all t∈ D işlemleri do
begin
Ct = altküme(C k,t); // t’deki her nesnenin tüm öncüllerini t’ye ekle,
çakışmaları gider
k=k+1;
end
Lk = min-desteğe sahip tüm Ck adayları için sayma başlat;
end
end
Cevap =
67
Bu algoritma şu şekilde özetlenebilir:
Verilerin ilk taranması sırasında, geniş nesne kümelerinin tespiti için tüm nesneler
sayılır. Bir sonraki tarama, k. tarama iki aşamadan oluşur. Apriori-gen fonksiyonu ile k1. taramada elde edilen, Lk-1 nesne kümeleriyle Ck aday nesne kümeleri oluşturulur.
Veritabanı taranarak Ck’daki adayların desteği sayılır.
Örnek: Aşağıdaki verilere min.des %30 ve min.güv %60 olacak şekilde apriori
algoritmasını uygulayınız.
Çizelge 3.4. Apriori uygulaması
ID
100
200
300
400
500
600
Sepet
Elma, Muz, Dondurma, Simit
Elma, Muz, Simit
Yumurta, simit
Yumurta, Erik
Elma, Muz
Elma, Muz, Yumurta
↓
Birinci tarama
Ürün
Miktar
Elma
4
Muz
4
Dondurma
1
Simit
3
Yumurta
3
Erik
1
Destek
%67
%67
%17
%50
%50
%17
↓
İkinci tarama
Ürün
Miktar
Elma, Muz
4
Elma, Simit
2
Elma, Yumurta
1
Muz, Simit
2
Muz, Yumurta
1
Simit, Yumurta
1
Destek
%67
%33
%17
%33
%17
%17
↓
Üçüncü tarama
Ürün
Elma, Muz, Simit
Miktar
2
Destek
%33
Bu durumda, geniş nesne kümeleri ve destek ile güven değerleri şöyle olur:
Elma 4 kayıt  Muz ve Simit alır  2 kayıt [Destek %33, Güven %50]
Muz  4 kayıt Elma ve Simit alır  2 kayıt [Destek %33, Güven %50]
Simit 3 Kayıt  Elma ve Muz alır  2 kayıt [Destek %33, Güven %67]
68
Elma ve Muz  4 kayıt  Simit alır  2 kayıt [Destek %33, Güven %50]
Elma ve Simit 2 kayıt  Muz alır  2 kayıt [Destek %33, Güven %100]
3. ve 5. Kayıtlar %30 destek ve %60 güven değerlerinin üzerinde bir seviyeye sahip
olduklarından geniş nesne kümeleri olurlar. Bu durumda, Elma-Muz-Simit en geniş
nesne kümesidir.
3.8.6.4. Apriori-TID Algoritması
Tüm algoritmalar destek hesaplamak için tüm veritabanını tararlar ancak, her
aşamada veritabanının tamamının taranmasına gerek yoktur. Buna göre Agrawal,
AprioriTid algoritmasını önermiştir. Bu algoritma apriori-gen fonksiyonunu kullanır. İlk
geçişten sonra veritabanı taranmaz bunun için Ck kullanılır. Ck’nın her elemanı
<TID, Nesne ismi {Xk}> formundadır. Önerilen algoritma şu şekildedir:
C1 = D veritabanı
for
k=2;
Lk-1 = 0;
k=k+1;
do begin
Ck = apriori-gen(Lk-1); // yeni adaylar
Ck =0;
for all işlemler t ∈ Ck-1
do begin // TID numaralı işlemdeki Ck içinde bulunan tüm aday nesne
kümelerini belirle
Ct = {c ∈ Ck | (c-ck) ∈ t.nesne kümeleri ⋀ (c-ck-1) ∈ t.nesne kümeleri}
for all adaylar c ∈Ct do
c=c+1;
If (ct=0) then Ck = Ck + <t.TID, Ct>
end
Lk = { c ∈ Ck | c ≥ min-destek}
end
Cevap=
69
3.8.6.5. Paralel Veri Madenciliğinde Birliktelik (Parallel Data Mining)
Bunların yanı sıra çeşitli algoritmalar geliştirilmiştir. Özellikle daha hızlı
çalışacak ve kullandığı veritabanını yormayacak, hafızada çok miktarda veri kaydı
tutmayacak algoritmalar daha fazla tercih edilmektedir. Apriori-hybrid, OCD (Off-line
Candidate
Determination),
Partitioning
tekniği,
Örnekleme
tekniği,
CARMA
(Continuous Association Rule Mining Algorithm), CCD (Count Distribution), PDM
Parallel Data Mining), CCPD (Common Candidate Partitioned Database), DD (Data
Distribution), IDD (Intelligent Data Distribution), HRA (Hash-based Parallel Mining of
Association Rules) ve PAR (Parallel Association Rule) gibi son yıllarda geliştirilmiş
birçok algoritma vardır (Örs, 2010).
3.8.7. Negatif Birliktelik Kuralı (Negative Association Rule)
Birliktelik kuralı, iki değişken arasındaki güçlü ilişkileri bulmak için
kullanılmaktadır. Yani, değişkenler arasındaki korelasyon güçlü ve pozitif olmalıdır.
Ancak, güçlü olmayan ilişkiler de söz konusu olabilir ve gizli kalmış küçük
korelasyonların büyük veri kümeleri içerisinde önemi olabilir. Bu tür ilişkileri bulmak
için bazı yayınlarda önermeler yapılmıştır. Negatif birliktelikleri görmenin temeli şuna
dayanmaktadır:
“EĞER X, ÖYLEYSE Y” bir güçlü kural ise, yani min.des/min.güv eşik
değerlerini sağlıyorsa X ve Y arasında pozitif bir kuraldan söz edilebilir. Fakat “EĞER
X, ÖYLEYSE –Y” gibi bir kural da karşımıza çıkabilir. Aynı şekilde,
⇒ − ;− ⇒ −
⇒−
gibi kurallar da bizler için fikir verebilecek gizli kalmış kurallar olabilirler. Negatif
birliktelik kuralı genel literatürde “−“ sembolü ile gösterilmektedir. Ancak bu sembol,
küme teorisi ile uyuşmamaktadır ve yanlış algılamaya sebep olabilir. Bu nedenle,
bundan böyle kümenin olumsuzu (veya tümleyeni)
∗
şeklinde gösterilecektir. Ayrıca
dikotom değer alan bir veri kümesi için (-1=0 veya -0=1) olabilirken ikiden fazla
kategorisi olan kümeler için bu notasyon yetersiz kalmaktadır.
Aslında negatif kurallar, pozitif kuralları çıkarırken eşik seviyelerini düşük
tutarak elde edilebilir. Ancak bu durumda kural sayısı patlaması ile karşı karşıya
kalınacaktır. Bu nedenle, başka bir algoritma ile minimum sayıda kural elde edilmelidir.
Market sepeti analizini tekrar ele alalım. Pozitif kurallar, “eğer süt alıyorsa, büyük bir
olasılıkla ekmek te alır” şeklindeydi. Negatif kural olarak düşünüldüğünde ise “eğer süt
70
alıyorsa, çok az bir olasılıkla turşu da alır” şeklinde olacaktır. Eğer iki değişken
bağımsız iseler aralarındaki korelasyon 0 olacaktır ve negatif kural çıkmayacaktır
(Ayad, 2000). Olayı dört gözlü tablo üzerinde görmeye çalışalım:
Çizelge 3.5. Negatif kural için dört gözlü tablo
∗
Toplam
∗
Toplam
Tabloya göre
sıklık değeri pozitif kuralları,
,
ve
sıklık değerleri ise
negatif kuraları göstermektedir. Dört gözlü tablolardaki ilişki ki-kare istatistiği ile
hesaplanabiliyordu. Bu durumda, O(d) gözlenen sepet değeri, E(d) ise beklenen sepet
değeri olmak üzere ki-kare değeri
=∑
(
)
(3.28)
ile hesaplanır. Pozitif kurallar
ile ilişkilidir. Ne kadar büyükse destek ve güven
,
değerleri de o ölçüde büyük olacaktır. Negatif kurallar için ise
veya
‘nin
herhangi birinin yeterince büyük olması bizlere güçlü negatif kurallar verecektir.
Çizelge 3.6. Negatif kural için satış örneği
A marketi
∗
Toplam
ü
ü ∗
220
74
97
45
Toplam
438
A marketinden alışveriş yapan 438 müşterinin süt ve ekmek satın alma durumunu
gösteren tabloya göre; 220 kişi hem süt hem de ekmek almış, 74 ve 97 müşteri iki
üründen birisini almış, 45 müşteri ise ne ekmek ne de süt almıştır. Dört farklı kural için
destek ve güven değerleri hesaplanabilir. Yalnızca iki ürün için durum böyleyken veri
kümesi ve değişken sayısı büyüdükçe ilişkileri görmek zorlaşacaktır. Güçlü algoritmalar
sayesinde veri tabanlarını hızlı bir şekilde taramak daha kolay olacaktır. Ancak büyük
71
veritabanlarını tarayacak algoritmaların yazılması zor ve dikkat gerektirmektedir.
Apriori algoritmasının daha hızlı çalışması için birçok yeni yaklaşımlar geliştirilirken
bir de tüm negatif birliktelikleri tarayacak ve ortaya çıkaracak yaklaşımların
geliştirilmesi için çalışmalar yapılmaktadır. Apriori tarzı algoritmaların temel özelliği
en iyi budama tekniklerinin algoritmaya yerleştirilmesidir. Bu nedenle eşik değerleri
önceden belirlenerek budama gerçekleştirilmektedir. O halde negatif birlikteliklerde
tarafların ilişkili olması için hangi eşik değerlerini sağlaması gerekir?
Tüm durumlar için farklı eşik değerleri tespit etmek gerekecektir. Bu noktadan
hareketle her bir kural için min.des, min.güv ve min.il değerleri tespit edilip bunlara
göre anlamlı kurallar çıkarılabilir. Pozitif yönde birlikteliğe sahip kurallar için
( ⇒ )= ( ∩ )≥
ü
.
( ⇒ )= ( | )≥
(3.29)
. ü
(3.30)
olmalıydı. Bu değerler sık nesne kümelerinin belirlenmesine yeterli olmuyor, ancak
güçlü kural ölçütü olarak yetersiz kalıyorlardı. Bu nedenle, ilginçlik ölçütleri içerisinden
lift değerini kullanmıştık. Bu durumda,
( ∪ )
( ⇒ )=
=
( ). ( )
( | )
( )
≥
.
(3.31)
olacaktır. lift ölçütü için üç durum söz konusu olur:
1.
( ⇒ ) = 1
,
2.
( ⇒ ) > 1
,
( | ) = ( )
( | ) > ( )
3.
( ⇒ ) < 1
ğı
ı
ı .
,
ğı
ı ı .
,
ğı
ı ı .
,
( | ) < ( )
ğ ş ,− ,
ğı
ı ı .
,
( | ) − ( ) ç − ( ) ≤ ( | ) − ( ) < 0
ℎ
,0 <
( | )− ( )
≤ 1
− ( )
ı ı .
.
Bu oran ne kadar büyükse negatif bağımlılık ta o kadar güçlü olacaktır. Negatif
birliktelik kuralına göre sık nesne kümelerinin belirlenmesi için aynı tarz kısıtları
sıralayabiliriz:
a.
( ⟹
∗)
≥
.
b. ü
( ⟹
∗)
≥
. ü
c.
( ⟹
∗)
≥
.
72
Burada
( ⟹
ü
( ⟹
∗)
∗)
= ( )− ( ∩ )
(3.32)
= (− | ) = 1 − ( | )
(3.32)
şeklinde tanımlanabilir.
Negatif birliktelikleri iki durumda düşünebiliriz:
( )
( ) değerleri oldukça büyüktür. Ancak
( ∩ ) yeterince büyük
olmayabilir. Bu durumda eşik seviyelerinin büyük kabul edilmesi ile çok sayıda pozitif
kurallar elde edilmez ve negatif kuralların sayısı çok olacaktır. Örneğin: “Çay ve kahve
satışları çok yüksektir. Ancak her ikisini birden satın alanların sayısı az olabilir. Olasılık
azalacağından her iki ürünü birden satın alanların korelasyonu düşük olacaktır.
( )
( ) den birisi veya her ikisinin değeri oldukça düşük olabilir. Örneğin:
“Marketteki bazı ürünlerin satış miktarı çok sık değildir. Bu durumda oluşacak
birliktelikler çok küçük olacaktır. Çay alan birisinin aynı zamanda limon tuzu alma
olasılığı düşüktür. Aynı durum markalar için de geçerli olabilir. T markasının tuvalet
kağıdının satış oranı yüksek olurken S markasının satışı çok az olabileceğinden çay ile
T marka tuvalet kağıdı yüksek güven değeri verirken, çay ile S marka tuvalet kağıdının
güven değeri eşik seviyesinin altında kalacağından negatif kural şeklinde düşünülebilir.
Bu tür birlikteliklere “Seyrek Birliktelik Kuralı (Rare Association Rule)” denilmektedir.
Buna göre Negatif Birliktelik Kuralı (i) ile Seyrek Birliktelik Kuralı (ii) farklı
olmaktadır; her iki durumu ayrıştırmak ve ayrı ayrı incelemek gerekir.
Apriori algoritması min.güv eşik değerine göre budama yapıyor ve yalnızca sık nesne
kümelerini ortaya çıkarıp tarama yapıyordu. Negatif ve seyrek birliktelikleri ortaya
çıkarabilmek için budama algoritmasını değiştirmek gerekecektir. Bu işlemi, sisteme
yük getirmeden ve çok sayıda tarama yapmadan uygulamak gerekmektedir. Ayrıca
burada iki durum karşımıza çıkmaktadır: hem sık nesne kümelerinde var olan negatif
kuralları hem de sık olmayan nesne kümelerindeki pozitif kuralları ortaya çıkarmak.
73
Veritabanı
Pozitif
kurallar
Sık nesne kümesi
Negatif
birliktelikler
Sık
Seyrek
olmayan
nesne kümesi
birliktelikler
Şekil 3.25. Pozitif ve negatif birlikteliklerin veritabanında gösterilmesi
Özellikle sağlık verilerinde bu durumlar sıklıkla karşımıza çıkmaktadır.
İki alerjen madde ayrı ayrı ekili olurken, birlikte çok seyrek olarak reaksiyon
gösterebilmektedir. Bu tezde üzerinde çalıştığımız veri kümesi de bu tür birlikteliklerin
görülebileceği yapıya sahiptir. Birçok değişken ikili kategoriye sahip olup (0,1)
bazılarının hastalarda görülme oranı azdır. Özellikle alkol ve sigara kullanımı ile
hipotiroid komorbiditesi az olduğundan bunlara bağlı kurallar negatif çıkmaktadır.
Ayrıca satış verilerinde çok küçük güven değerleri bir anlam ifade etmezken sağlık
verilerinde çok küçük olasılıkların bile önemli anlamı olabilir. Negatif veya seyrek
birliktelik kural çıkarımı hala tam olarak keşfedilmemiş bir alandır. Bazı algoritma
önermeleri yapılmış ancak üzerinde çalışılması gereken yerler vardır. Destek, güven
veya ilginçlik ölçütleri üzerinden çeşitli yöntemler önerilmiştir. Tan, et al. (2000)
tarafından
ilginçlik ölçütü budama sürecinde min.il olarak önerilmiştir.
( ∩ )
( , ) =
( ). ( )
=
( ∩ )
.
( ). ( )
Hamano ve Sato (2004) tarafından
( ∪ )
(3.33)
ölçütünün bazı olumsuz yanları belirtilmiş ve
ölçütünü önermişlerdir.
Φ( , ) = ( ∩ ) ( ). ( )
(3.34)
( ). ( ∗). ( ). ( ∗)
korelasyon fonksiyonu olmak üzere
= ( ⟹ ) =
=
( ∩ ) ( ). ( )
( ∩ ).(
( ). ( )
( )
, ğ Φ( , ) ≥ 0
( ))
( ∩ )
( ∩ ) . (
, . .
)
(3.35)
74
Bu ölçütte,
pozitif birlikteliği,
ise seyrek birlikteliği göstermektedir.
Zhang ve Zhang (2002) ise PL (Positive Itemset of Interest) ve NL (Negative
Itemset of Interest) ölçütleri ile aşağıdaki algoritmayı önermişlerdir.
PL: pozitif sık nesne kümesi
NL: negatif sık nesne kümesi
Temk: Veritabanındaki tüm k-nesne kümeleri
Fi: tüm sık nesne kümeleri
Nk:Temk’deki sık olmayan nesne kümeleri veya Nk=Temk-Fk
olmak üzere
75
procedure ilginç_nesne_kümesi_budama
begin
input D, min.des
output PL, NL
let PL=0;
let NL=0;
let F1 = {sık nesne kümesi-1};
let PL=PL ∪F1;
for (k=2; Lk-1≠0 ve Sk-1 ≠0; k++) do
begin // D kümesindeki tüm mümkün olan ilginç pozitif ve negatif
k-nesne kümesini üret
let Temk=Fi (1≤ i < k-1)’den çıkarılan k-nesne kümesi;
for t∈D do
begin // t’de hangi k-nesne kümesinin bulunduğunu kontrol et
let Temk = hem t hem de Temk’de bulunan k-nesne kümesi;
for A⊂Temt do
let A.count =A.count+1;
end
let Ck=her bir k-nesne kümesinin Lk-1’de en azından
bir alt küme içerdiği Temk’de bulunan k-nesne kümesi;
let Fk={c| c∈Ck ∧ (destek(c)=
.
| |
≥ min. des)};
let Lk=Fk;
let Nk=Temk - Fk; //Lk’deki ilginç olmayan k-nesne kümelerini buda
for i∈Lk do begin
if i ilginç değilse then
let Lk=Lk-{i};
let PL= PL ∪ Lk;
let Sk={i| i∈Nk ve i negatif nesne kümesi};
// Sk’deki ilginç olmayan
k-nesne kümelerini buda
end
for i∈Sk do begin
if i ilginç değilse then
let Sk=Sk-{i};
let NL= NL ∪ Sk;
end
end
end
output PLve NL;
end
3.9. Önerilen İlginçlik Ölçütü
Pozitif birliktelik kurallarını bulmak için çok sayıda algoritma önerilmiştir.
Algoritmalar içerisinde budama işlemi için de bir takım eşik değerleri ve ayrıca kuralın
76
gücünü göstermek için bir çok ölçüt önerilmiştir. Ancak negatif kural çıkarımı için
yeterince algoritma ve ölçüt çalışması yoktur. Daha önceki bölümde söz ettiğimiz gibi
iki önemli ve büyük çalışma Tan et al.(2000) ve Hamano et al.(2004) tarafından
yapılmıştır. Bu tez çalışmasında Hamano ve Sato’nun çalışmaları ışığında, önerdikleri
lift değeri
revize edilerek yeni bir ilginçlik ölçütü önerilecektir. Yukarıda da
belirttiğimiz gibi özellikle sağlık verilerinde en küçük ayrıntıları bile kaçırmamak
gerekmektedir. Bu nedenle, negatif birliktelikler içerisinde ilginçlik değeri büyük olan
kuralları tespit etmek için yeni bir ilginçlik ölçütü kullanılacaktır.
ölçütünde negatif
kural içerisinde olması gereken durumlar pozitif birliktelik olarak ortaya çıkmaktadır.
Bu durum aşağıda basit bir örnek ile anlatılacaktır.
Önerdiğimiz ilginçlik ölçütü MINN (Measure of INterestingness for Negative
rules) olacaktır.
( ⟹
∗)
=
|
( ).
( ∗)
ü ( ⟹ ∗ )|
(3.36)
( ∗ ))
( )).(
(
Φ ölçütü yalnızca nesnelerin olasılıkları kullanılarak hesaplanmaktadır. Fakat
MINN ölçütü nesnelere ilişkin destek ve güven değerlerini kullanmaktadır. Bu durum
ölçütü daha da güçlendirmektedir. Çünkü güven değeri koşullu olasılık ile
bulunmaktadır. Φ ölçütünde negatif değerler karşımıza çıkmaktadır. Ancak MINN
ölçütünün negatif olma olasılığı yoktur. Çünkü
0<
( ) < 1 ve 0 < ü ( ⟹
0<
( ).
( ).
(
(
∗
∗
)<1
∗)
< 1 dir.
olacaktır.
)< ü ( ⟹
∗)
olma ihtimali de vardır. Bu nedenle, karekök işlemi içerisinde ifadenin mutlak değeri
alınmıştır. 1 −
( ) > 0 daima pozitif olacağından
∈ (0, ∞) olacaktır.
Burada üst sınır ∞ ile belirtilmesine rağmen destek değerleri maksimum olsa dahi aşırı
büyük değer almaz. Ancak veritabanına göre ölçüt değeri değişeceğinden herhangi bir
üst sınır belirtilmemiştir. Peki neden böyle bir ölçüt formülü seçilmiştir? IS ve Φ
ölçütlerinin alacağı değerler incelendiğinde bazı eksik yanlarının olduğu görülmüş ve
her iki ölçüt revize edilerek bazı matematiksel dönüşümler yarımıyla MINN ölçütü
önerilmiştir.
77
Örnek: 10 adet kayıttan oluşan ikili bir örnek veri kümesi alalım. 1:evet, 0:hayır
şeklinde düzenlenmiş olsun. A,B ve C nesneleri için Φ ve MINN ölçütlerini
karşılaştıralım.
Çizelge 3.7. Örnek veri seti
A
B
C
1
1
1
0
0
1
0
1
1
0
1
0
1
1
0
1
1
0
0
0
0
0
0
0
0
0
1
1
0
1
Tablodan görüleceği gibi ( ) = 0,6; ( ) = 0,5 ve ( ) = 0,3 olur.
Öncelikle A ve –B kuralı için ilginçlik ölçütlerini bulalım.
∗)
Φ( ⟹
∗)
( ∩
=
− ( ). (
∗
∗ ).
∗)
( ). (
( ⟹
=
∗)
|
=
( ). (
)
=
0,3 − 0,6.0,5
0,6.0,4.0,5.0,5
=0
( ).
( ∗ ) − ü ( ⟹ ∗ )|
( )) . (1 −
( ∗ ))
(1 −
|0,6.0,5 − 0,3/0,6| 0,44
=
= 2,23
0,4.0,5
0,2
C nesnesi için negatif durumların oranı daha yüksek olduğundan A ve
∗
kuralları için
lift ölçütlerini araştıralım:
Φ( ⟹
∗)
=
( ∩
∗)
( ). (
Φ değeri negatif olduğundan
− ( ). (
∗
∗ ).
∗)
( ). (
)
=
0,4 − 0,6.0,7
= −0,09
√0,6.0,4.0,7.0,3
ölçütü olarak D değerini hesaplarız ve
= 0,11
bulunur.
( ⟹
∗)
=
|0,6.0,7 − 0,5/0,6|
= 5,35
(1 − 0,6). (1 − 0,7)
Her iki durumda da MINN ölçütleri daha yüksek değerlere sahip olup eşik değeri olarak
kullanıldığı takdirde daha ilginç (güçlü) kuralları verecektir. Uygulama bölümünde tez
veri kümesi üzerinde bazı uygulama sonuçları görülecektir.
78
3.10. Genelleştirilmiş Birliktelik Kuralları (Generalized Rule Extraction)
Smyth ve Goodman (1992), “Genelleştirilmiş Kural Çıkarıma Teorik Bir
Yaklaşım” adlı yayınlarında kural çıkarma için optimal ölçü ile ilgili bir algoritma
geliştirmişlerdir. Algoritma, geniş nesne kümelerinikullanmak yerine aday birliktelik
kuralının ilginçliğini belirlemede kuramsal bir yaklaşımkullanmaktadır.
J-ilginçlik ölçütü:
= ( ). [ ( | ).
( | )
( )
+ 1 − ( | ) . ln
( | )
( )
]
(3.37)
formülü ile bulunmaktadır. Burada;
-
( ),
’in olasılığıdır ve öncülün kapsamasının bir ölçütüdür. Gözlenen x
değerinin güvenidir. Öncül değişkenin sıklık dağılımından hesaplanabilir.
-
( ),
’nin güven değerini ya da önsel olasılığını göstermektedir. y
değişkeninin güven değeridir.
-
( | ),
bilindiğinde y’nin koşullu olasılığıdır. Birliktelik kuralları
terminolojisinde kuralın güven değeri olarak geçmektedir.
GRI algoritmasında minimum güven ve destek değerinin yanı sıra kural sayısının da
kullanıcı tarafından belirlenmesine olanak sağlanmıştır. Algoritma tek öncüle sahip
kural oluşturur ve ilginçlik ölçütü olan J’yi hesaplar ve kural tablosundaki en küçük J
değerine sahip kuraldan büyük ise bu kural tablodaki diğer kurallara eklenir ve
tablodaki en küçük J değerine sahip kural tablodan çıkarılır. Böylece kural sayısı
korunmuş olur.
J istatistiğinin yüksek değere sahip olması ( 1’e yakın) ( ) olasılığının yüksek
olması ile ilişkilidir. Yani, öncülün daha yaygın olduğunu ve veri kümesini daha fazla
kapsadığını yansıtır. J-ölçüsü, hem çok yüksek hem de çok düşük güven değerine sahip
olan kuralları destekler. Eğer p(y|x) çok küçük bir değere sahipse, araştırmacı
birlikteliğin tersini düşünerek negatif birliktelik kuralı oluşturabilir ve bu negatiflik
ilginç olabilir. Örneğin R kuralı;
R: EĞER bira alıyorsa, O HALDE el kremi de alır.
şeklinde tanımlanmış ve güven değeri olarak p(y|x)= %0,01 değerine sahipse, J-ölçüsü
de küçük olacağından R’nin negatif formu düşünülür ve
~R: EĞER bira alıyorsa, O HALDE el kremi almaz.
kuralı için güven değeri %99,99 olur (Larose, 2005).
79
Agrawal ve ark. (1994) ise genelleştirilmiş kural çıkarma işlemini taksonomi
şeklinde açıklamışlardır. Her işlemin bir nesne kümesi olduğu ve nesnelerin
tanımlandığı bir taksonomiye sahip olan işlem veritabanı verilsin. Taksonominin
herhangi bir seviyesindeki nesneler arasında birliktelikler buluruz. Apriori algoritmasını
bir örnek küme üzerinde açıklamaya çalışalım:
L,nesneler kümesi ve T, taksonomi olarak verilsin.
İşlenmiş
Gıda
Unlu
Mamul
Ekmek
İşlenmemiş
Gıda
Dondurma
Domates
Salatalık
Biber
Simit
Şekil 3.26. T-taksonomi örneği
L= {ekmek, simit, dondurma, domates, salatalık, biber} olsun.
Kullanıcı tarafından belirlenmiş%30 destek ve %60 güven seviyesinden daha büyük
değerlere sahipken geniş nesne kümesini bulunuz.
Çizelge 3.8. Taksonomiye uygun olarak nesne tarama
İşlem No(TID)
100
200
300
400
500
600
Sepet
Domates, Salatalık, Dondurma, Simit
Domates, Salatalık, Simit
Ekmek, simit
Ekmek, Biber
Domates, Salatalık
Domates, Salatalık, Ekmek
↓
Birinci tarama (Geniş nesne kümeleri)
Ürün
Miktar
Destek
Domates
4
%67
Salatalık
4
%67
Biber
1
%17
Simit
3
%50
80
Dondurma
Erik
3
1
%50
%17
↓
İkinci tarama (Budanmış geniş nesne kümeleri)
Ürün
Miktar
Destek
Domates, Salatalık
4
%67
Domates, Simit
2
%33
Domates, Ekmek
1
%17
Salatalık, Simit
2
%33
Salatalık, Ekmek
1
%17
Ekmek, Simit
1
%17
↓
Üçüncü tarama (Aday Kümeler)
Ürün
Domates, Salatalık, Simit
Miktar
2
Destek
%33
Bu durumda, destek ve güven değerleri için kurallar şunlardır:
Domates 4 kayıt  Salatalık ve Simit alır  2 kayıt [Destek %33, Güven %50]
Salatalık 4 kayıt Domates ve Simit alır  2 kayıt [Destek %33, Güven %50]
Simit 3 Kayıt  Domates ve Salatalık alır  2 kayıt [Destek %33, Güven %67]
Domates ve Salatalık  4 kayıt  Simit alır  2 kayıt [Destek %33, Güven %50]
Domates ve Simit 2 kayıt  Muz alır  2 kayıt [Destek %33, Güven %100]
3. ve 5. işlemler en geniş nesne kümeleri olurlar. Çünkü,
destek > min.des ve güven > min.güv.
Yani %33 > %30, %67 > %60 ve %100 > %60.
Bu durumda, domates, salatalık ve simit en geniş nesne kümesidir. Güven seviyesi ise
değişmektedir. Her domates ve simit alan salatalık ta almıştır fakat her domates ve
salatalık alan simit almıştır diyemeyiz.
3.11. Birliktelik Kuralı Uygulama Alanları
Birliktelik kuralı algoritmaları ekonomiden sağlığa kadar birçok alanda
kullanılmaktadır. Denetimli veya denetimsiz öğrenme metotları içerisine net olarak
girmediğinden her iki türdeki veri kümelerine uygulanma şansı vardır. Market sepeti
analizi olarak gelişmiş ve bankacılıkta kredilendirme riski belirlenmesi için
kullanılmaya başlanmıştır. Yoğunlukla müşteri temelli veri tabanlarının mevcut olduğu
alanlarda kullanılmakla birlikte çok fazla verinin bulunduğu iletişim sistemlerinde de
bazı ilişkilerin ortaya çıkarılması için, özellikle sesli iletişim sistemlerindeki parazitlerin
ortaya çıkarılmasında tercih edilmektedir (Kotsiantis, 2006).
81
3.12. Veri Madenciliği ve Sağlık Sektörü Uygulamaları
Tıp sektörü verinin yoğun olarak kullanıldığı ve depolandığı alanlardan birisidir.
Bu nedenle veri madenciliğinin hemen hemen her yöntemi bu sektörde kullanılmaya
başlanmıştır. Kümeleme analizleri, destek vektör makineleri, k-means yöntemler, yapay
sinir ağları gibi yöntemleri ile veri indirgeme uygulanmaktadır. Makine öğreniminin ilk
olarak 1999 yılında tıpta kullanılmasıyla birlikte veri madenciliği de sektör içerisine
iyice girdi. Bu teknikler, diagnoz, prognoz, tedavi yöntemleri, post-op durumların
tahmin edilmesi gibi birçok konuda bilgi keşfini sağlamaktadır (Bath, 2004). Tıbbi
veriler, tipine bağlı olarak heterojenlikleri ile karakterize edilirler. Bu tür veriler gürültü
terimleri içerirler, eksik gözlemler daha yoğunluklu olarak mevcuttur ve hatalar
içerirler. Bu nedenle analiz aşamasında daha titiz davranılması gerekmektedir. Çünkü
doğrudan insan sağlığını ilgilendiren hayati öneme sahip verilerdir. Örneğin, kanser
epidemiyolojisi önemli bir alandır ve görüntüleme sonuçları ve patolojik raporlar ile çok
büyük veri kümeleri oluşmaktadır (Wasan, 2006). Sağlık sektörünün verilerinin bir
handikapı vardır; o da verinin madencilik yapmak için yeterince büyük olmamasıdır.
Yalnızca hastane kayıt sistemleri veya gen bilgileri gibi alanlarda çok sayıda veri
kayıtları bulunmaktadır. Ancak, hastalıklara veya kullanılan tedavi yöntemlerine ait
kayıt bilgileri de gün geçtikçe artmaktadır. Bu nedenle hastaların teşhis ve tedavilerine
ilişkin kayıtlar, veri madenciliği için yeterince büyük kabul edilmektedir. Veri
madenciliği, biyoinformatik veya mekansal analiz yöntemlerinin sağlık alanında
kullanılması için veri elde etmek zor olmaktadır. Bunun bazı sebepleri vardır: maliyet,
etik kurallar, kayıt sistemleri, verinin paylaşılmasında kişi ya da kurumların isteksiz
davranması gibi. Ülkemiz açısından sağlık alanında veri madenciliği yöntemlerinin
kullanılması yakın zamanda başlamıştır. Bu gecikme, kayıt sistemlerinin yeterince
gelişmemesi ve veriye ulaşmada sıkıntının olması nedeniyle gerçekleşmiştir (Ordonez,
2000), (Smith, 2009), (Srinivas, 2012), (Stolba, 2005), (Theodoraki, 2010).
Birliktelik kuralı (ARM), ekonomi ve finans alanında yaygın olarak
kullanılmasının yanı sıra sağlık alanında da yoğun olarak kullanılmaya başlanmıştır.
Hastane sistemlerinde organizasyon ve maliyet azaltma konularından hastalık
teşhislerinin tespit edilmesi ve gen bilgilerinin ortaya çıkarılmasına kadar geniş bir
alanda kullanım alanı bulmuştur. Sağlık uygulamaları ve tedaviler büyük oranda maliyet
gerektirirler. İlaç tüketimi de ayrı bir sağlık ve maliyet konusudur. Bu nedenle hastane
bilgi sistemlerinde verimliliği arttırmak ve maliyeti düşürmek ana hedeflerden birisidir
82
(Bertsimas, 2008). Ancak bu hedefler gerçekleştirilirken hasta konforunun maksimum
oranda düşünülmesi gerekmektedir. Her iki sorunda optimum çözümleri bulmak üzere
veri madenciliği yöntemlerinin kullanılmasına geçilmiştir (Yıldırım ve ark., 2008).
Hasta kayıt sistemlerinde otomasyona geçilmesi ve verilerin klasik istatistik yöntemleri
yerine madencilik yöntemleriyle analiz edilmesi ile enfeksiyon kontrolünde ve hastane
epidemiyolojisinde daha verimli bilgilere ulaşılmıştır (Brossette, 1998), (Obenshain,
2004), (Suner, 2010). Tiroid Bezi verileri kullanılarak k-en yakın komşu yöntemiyle
sınıflamalar yapılmıştır (Albayrak, 2002). Aynı şekilde gırtlak kanseri hastaların
bilgilerine dayanarak K-ortalamalar yöntemi ile hastalığın tekrar nüks etmesi ve
hastaların hayatta kalma oranları ile ilgili bilgiler elde edilmiş ve ameliyat öncesi
evreler incelenerek ameliyat sonrası başarılar tahmin edilmiştir (Dinçer, 2007). Kafa
travması geçiren hastalardan alınan bilgisayarlı tomografi görüntüleri ile birliktelik
kuralına dayanan Boolean Analyzer (BA) yöntemi ile ilginç kurallar oluşturulmaya
çalışılmıştır (Imberman et al, 2002). Günümüzde tıbbi görüntüleme yöntemleri aşırı
oranda kullanılmaktadır. Hizmet sunucuları açısından çok büyük depolama alanları
oluşturan bu görüntülerde çok fazla bilgi mevcuttur. Bu bilgilerin analiz edilmesi
amacıtla görüntülemede birliktelik kullanılacağı düşünülmüş ve bu konuda çalışmalar
yapılmıştır(Antonie, 2001). Gen ifadeleri birer kayıt ve proteinlerin her birinin bir nesne
olarak düşünüldüğü genetik çalışmada birliktelikler bulunarak maya verisi için
proteinler arasındaki ilişkiler ortaya çıkarılmıştır (Creighton, 2003). Genetik verilerdeki
hızlı gelişme nedeniyle araştırmacılar sürekli yeni ve daha hızlı yöntemler arayışlarına
girmişlerdir. Farklı dokulara ait genlerdeki DNA sekansları veya RNA replikasyonları
arasındaki ilişkiler ortaya çıkarılmaya çalışılmıştır (Anandhavalli et al, 2010).
Kwasnicka ve Switalski (2005), yaptıkları çalışmada genetik birliktelik kuralı
geliştirmişler ve gen mutasyonlarındaki ilişkileri incelemişlerdir. Geliştirilen Sınırlı
Birliktelik Kuralı (Constrained Association Rules) yöntemi ile hastalara ait bilgilerden
yola çıkılarak sağlıklı arterlerin tespit edilmesi gerçekleştirilmiştir (Ordonez, 2006). Çek
Cumhuriyeti’nde STULONG adlı bir araştırmada alkol tüketimi, sigara kullanımı,
beden kitle indeksi, tansiyon, kolesterol değerleri gibi değişkenler kullanılarak
birliktelik kuralı yardımıyla ateroskleroz hastaları için risk faktörleri belirlenmeye
çalışılmıştır (Trémeaux, 2006). Negatif kural çıkarma teknikleri yardımıyla kalp
hastaları üzerinde yapılan çalışmada hastalara ait verilerden gereksiz olanları belirlenip
kurallardan çıkarılarak hastalık teşhisi için pozitif olanlar belirlenmiştir (Gupta et al.,
2005). Doğan ve Türkoğlu (2008), karar destek sistemlerini birliktelik kuralı ile
83
birleştirerek lipit parametrelerini (total kolesterol, LDL, HDL, VHDL, trigliserid) analiz
etmişler ve hastalara hiperlipidemi teşhisi konulup konulamayacağını ortaya
koymuşlardır. Agrawal ve Srikant tarafından geliştirilen apriori algoritmasının değişik
veri kümeleri üzerinde uygulanması ve algoritma üzerinde bir takım değişikliklerin
yapılması ile farklı teknikler her geçen gün geliştirilmektedir. Birçok çalışmada ise bu
teknikler arasındaki hız farklılıkları çalışılmış ve hangi veri kümesinde hangi tekniğin
daha verimli ve hızlı olduğu ortaya konulmaya çalışılmıştır. Altı farklı kanser türü verisi
için apriori, predictive apriori ve tertius teknikleri ile çalışma yapılmış ve apriori
temelli algoritmaların tertius algoritmasına göre daha hızlı olduğu görülmüştür. Ayrıca
her bir kanser türü için hastalıktan korunmaya yönelik kurallar geliştirilmiştir (Nahar et
al., 2009). Geliştirilmiş apriori algoritması (improved apriori) ile göğüs kanseri verileri
analiz edilmiş ve tümörün yeniden nüksetmesi durumu için kurallar geliştirilmiştir (Hu,
2010). Genç insanlardaki negatif lenf noduna sahip tümörlere ait 70 farklı gen içeren
van’t Veer veri seti bulanık (fuzzy) yönteminin birliktelik kuralı ile birleştirilerek analiz
edilmesi ile göğüs ve kolon kanserine ilişki genler ile ilgili kurallar çıkarılmıştır
(Mahmoodian et al., 2011). ABD’de yapılan bir çalışmada kanser çeşitlerine ait
mortalitenin sosyo-ekonomik eşitsizliği, birliktelik kuralı ve mekansal analiz
bağlamında beraberce incelenmiş ve ülkedeki kanser mortalitesine ait kuralların
mekansal bilgileri ortaya konulmuştur (Vinnakota, 2006).
4. ARAŞTIRMA SONUÇLARI VE TARTIŞMA
4.1. Kanser ve meme kanseri
Kanser, hücrelerde DNA'nın hasarı sonucu hücrelerin kontrolsüz veya anormal
bir şekilde büyümesi ve çoğalmasıdır. Günde vücudumuzda (DNA'da) yaklaşık
10.000 mutasyon olmasına rağmen immün sistemimiz her milisaniye vücudumuzu tarar
ve kanserli hücreleri yok eder.
Sağlıklı vücut hücreleri bölünebilme yeteneğine sahiptirler. Ölen hücrelerin
yenilenmesi ve yaralanan dokuların onarılması amacıyla bu yeteneklerini kullanırlar.
Fakat bu yetenekleri de sınırlıdır. Sonsuz bölünemezler. Her hücrenin hayatı boyunca
belli bir bölünebilme sayısı vardır. Sağlıklı bir hücre ne zaman ve nerede
bölünebileceğini bilme yeteneğine sahiptir.
Buna karşın kanser hücreleri, bu bilinci kaybeder, kontrolsüz bölünmeye başlar
ve çoğalırlar. Kanser hücreleri toplanarak urları (tümörleri) oluştururlar, tümörler
84
normal dokuları sıkıştırabilirler, içine sızabilirler ya da tahrip edebilirler. Eğer kanser
hücreleri oluştukları tümörden ayrılırsa, kan ya da lenf dolaşımı aracılığı ile vücudun
diğer bölgelerine gidebilirler. Gittikleri yerlerde tümör kolonileri oluşturur ve
büyümeye devam ederler. Kanserin bu şekilde vücudun diğer bölgelerine yayılması
olayına
metastaz
adı
verilir.
Meme
kanseri, meme hücrelerinde
başlayan kanser türüdür. Akciğer kanserinden sonra, dünyada görülme sıklığı en yüksek
olan kanser türüdür. Her 8 kadından birinin hayatının belirli bir zamanında meme
kanserine yakalanacağı bildirilmektedir. Erkeklerde de görülmekle beraber, kadın
vakaları erkek vakalarından 135 kat fazladır. 1970'lerden bu yana meme kanserinin
görülme sıklığında artış yaşanmaktadır ve bu artışa modern, Batılı yaşam tarzı sebep
olarak gösterilmektedir. Kuzey Amerika ve Avrupa gibi endüstrileşmiş ülkelerde
görülme sıklığı, dünyanın diğer bölgelerinde görülme sıklığından daha fazladır.
Meme kanseri, yayılmadan önce, erken tespit edilirse, hasta %96 yaşam şansına
sahiptir. Her yıl 44000'de bir kadın meme kanserinden ölmektedir. Yaş 35’ten 65’e
ilerlerken meme kanserinde 6 kat hızlı artış olmaktadır. Meme kanserine yakalanmış
hastaların yaklaşık %66’sında bilinen herhangi bir risk faktörü bulunmamıştır. Ancak,
yaş, hormonal faktörler, adet düzensizlikleri, çocuk sahibi olamama veya ileri yaşlarda
çocuk sahibi olma, doğum kontrol haplarının kullanımı, aile öyküsünde meme kanseri
vakası olması gibi durumların hastalık riskini belli oranlarda arttırdığı tespit edilmiştir.
Bunların yanı sıra daha bir çok risk faktörü olabilecek nedenler sayılabilir: alkol, sigara,
aşırı vitamin kullanımı, radyasyon alımı, genetik (özellikle BRCA1 ve BRCA2 genleri)
faktörler, geçirilen farklı hastalıklar ve obezite gibi. Tüm bu faktörlere karşın “fullterm” gebelik yaşının küçük olması, 35 yaş öncesi yapay menopoz, laktasyon
(emzirme), fiziksel aktivite, uygun vitamin alımı ve diyet yapmanın riski azaltan
faktörler olduğu belirtilmektedir. Meme kanserine karşı en iyi koruyucu yöntem erken
teşhistir. Meme kanserinin birçok tipi vardır. En sık rastlanan duktal karsinoma,
memenin süt kanallarında başlar. Meme kanseri memenin dışına yayıldığında koltuk
altındaki lenfatik nodüller en sık görülen yayılım yerleridir. Kanser hücreleri memenin
diğer Lenf Nodlarına, Kemiğe, Karaciğer ve Akciğere yayılabilir. Meme kanserli
hastalar öncelikle tümör boyutu olmak üzere bölgesel lenf nodu ve metastaz yerleşimine
göre evreler halinde gruplandırılır. Son yıllarda evreleme tanımları oldukça detaylı hale
getirilmiştir.
Evre 1: Tümör 20 mm. ve daha küçüktür. Bu durumda kanser lenf bezlerine
sıçramamıştır. Tedavide meme koruyucu yöntemle lenf bezlerinin alınmasından sonra
85
radyasyon tedavisi uygulanır. Desteklemek için kemoterapi ve/veya hormonoterapi
eklenir. Bir diğer uygulama da mastektomi yönetmidir. Bu yöntemde kanserli göğüs
alınarak koltuk altı lenf bezleri çıkarılır.
Evre 2-A: Tümörün 20 – 50 mm. arasında olup, lenf bezlerine sıçramamış
halidir.
Evre 2-B: Tümörün 2-A evresindeki gibi bir boyut aralığında olup (50 mm. den
büyük olabilir), koltuk altı lenf bezlerine sıçramamış halidir.
Evre 2: Evre 1 ile aynı tedavi yöntemi uygulanmakla birlikte, eğer tümör aşırı
büyümüş ya da lenf bezlerine sıçramışsa kemoterapi, hormonoterapi ve radyasyon
tedavisi tamamlayıcı olarak önerilir.
Evre 3-A: Tümör koltuk altı lenf bezlerine ve göğüs dışı dokulara sıçramış
durumdadır ve bu halde mastektomi yöntemiyle tedavi yoluna gidilir. Cerrahi
müdahaleden sonra kemoterapi ve hormon tedavisi uygulanır.
Evre 3-B: Bu aşamada tümörün boyutu dikkate alınmaz; tümör göğüs duvarına
bağlıdır ve lenf bezlerine sıçramıştır. "Neoadjuvan" adı verilen tümörün boyunun
küçültülmesi
amaçlı
kemoterapi
uygulanmasının
ardından
tümörün
boyunun
küçülmesinden sonra lampektomi veya mastektomi yapılır.
Evre 4: Bu aşamada kanser göğüs dışındaki vücut bölümlerine yayılmıştır. Bu
evre tedavisinde hastanın yaşam süresini artırmak ve yaşam kalitesini yüksek düzeyde
tutmak hedeflenir. Kemoterapi ve hormonoterapi yapılır. Hasta şikayetlerine bağlı
olarak mastektomi de uygulanabilir (Orlando, 2005).
4.2. Verinin Hazırlanması
4.2.1. Analizler İçin Paket Programlar
Bir önceki bölümde tanımlanan değişkenlerin analizi için SPSS Clementine 12.0
paket programı, SPSS 21.0 paket programı ve Excel Office programları kullanılacaktır.
Apriori, CART, karar ağaçları ve regresyon için Clementine veri madenciliği programı
kullanılacağından yalnızca bu program ile ilgili bilgiler verilecektir.
4.2.2. SPSS Clementine ile Veri Madenciliği
Teknolojinin gelişmesiyle birlikte veri madenciliği uygulamaları için birçok
ürün geliştirilmiştir. 1997 yılından itibaren günümüze kadar Intelligent Miner,
Relational Data Miner, SPSS Clementine, ASIC, DarwinTM, SAS Enterprise Miner,
86
STATISTICA Data Miner gibi birçok veri madenciliği ürünü kullanılmıştır. Bunların
yanı sıra daha birçok programlama tabanlı derleyiciler vardır. Ancak, programlama
yapmak, kod yazmak temel algoritmalar için artık gereksiz zaman kaybı olmaktadır.
Algoritmalar ile ilgili geliştirilen yeni yöntemler kullanılacaksa bu durumda R veya
SQL gibi bazı derleyicileri kullanmak daha yararlı olacaktır. Bu çalışmada tercih edilen
SPSS Clementine programı, özellikle son zamanlarda tercih edilen, programlamaya
gerek olmaksızın tahmine yönelik modelleri hızlı ve kolay birşekilde oluşturabilen bir
veri madenciliği ürünüdür. Ayrıca gelişmiş analitik uygulamalar ile desteklenen bir
görsel arabirim kullanarak verilerdeki kalıpları ve eğilimleri keşfetmeye çalışır.
Bu
bölümde SPSS Clementine ile veri madenciliği bilgi keşfi süreci ele alınacaktır. Bu
süreç;

Verilerin toplanması;

Verilerdeki aykırılıkların ve tutarsızlıkların temizlenmesi;

Birçok veri kaynağındaki verilerin birleştirilmesi;

Analizde kullanılacak olan verilerin seçilmesi;

Verinin, veri madenciliği tekniğinde kullanılabilecek hale getirilmesi;

Veri madenciliği modelleme tekniklerinin uygulanması;

Bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntülerin
tanımlanması;

Bilgilerin kullanıcıya sunumu aşamalarını içermektedir.
Veri Madenciliği projesinde kullanılacak olan veri setinin modellemeye
hazırlanması, modelleme sonrasında yeniden veri üzerinde çeşitli düzenlemelerini içerir
ve veri hazırlama adımı birden fazla tekrarlanabilir. CLEMENTINE programında
verininmodellemeye hazırlanması amacı ile çok sayıda metot kullanılmaktadır. Veriye
erişim aşamasında CLEMENTINE açık bir çözümdür. ODBC uyumlu olan bütün veri
tabanı
verilerine
kolayca
bağlanılabilir
ve
verilerin
formatı
değiştirilmeden
kullanılabilir. SPSS ve SAS verileri ile serbest ve sabit ASCII formatındaki veriler
kolayca alınabilir. CLEMENTINE programına entegre olarak kullanılan Text Mining
çözümü ile yapısal olmayan yazı tipindeki veriler ile web kayıt verileri kolayca
kullanılabilir. Veri üzerinde temizlik yapma, verinin düzenlenmesi amacı ile çok sayıda
işlemci bulunmaktadır. Variable File ve Fixed File işlemcileri ile geçersiz karakterler
temizlenir. Kayıtlar ve alanlar üzerinde yapılan işlemler için çok sayıda işlemci
87
bulunmaktadır. Kayıt seçimi ile ilgili olarak “sample”, “merge”, “sorte", “aggregate",
“derive, vb. işlemciler kullanılabilir.
4.2.2.1. Modelleme
CLEMENTINE zengin bir içerik sunmaktadır. Clementine içerisinde yer alan
modelleme yöntemleri 3 ana grup altında toplanmaktadır:
I. Prediktif Modeller: Neural Networks, iki farklı rule induction tekniği- C5.0
ve C&Rtree, Regresyon, Lojistik Regresyon ve Sequence Detection olmak üzere 6 ayrı
teknik içermektedir. Prediktif modellerde bir dizi input değeri baz alınarak bir “sonuç"
değerinin tahmin edilmesi amaçlı modeller söz konusudur.
II. Clustering Amaçlı Modeller: benzer nitelik gösteren segmentlerin
belirlenmesi amaçlıdır. Kohonen Ağlar K-Means, Two StepCluster; olmak üzere üç ayrı
clustering yöntemi bulunmaktadır.
III. Association Teknikleri: genelleştirilmiş prediktif yöntemler olarak ta
tanımlanmakta olup, belirli bir sonucu bir dizi kural ile ilişkilendirmeye çalışırlar.
Clementine içerisinde Apriori ve GRI olmak üzere iki ayrı ilişkisel kural belirleme
yöntemi vardır. Daha çok prediktif modelleme öncesinde, nadiren de Clustering
uygulamalarında kullanılan bir veri indirgeme yöntemi PCA (Principal Component
Analysis) Factor algoritması mevcuttur. Clementine External Module Interface (CEMI)
ile PMML- genere edilmiş ve Clementine içerisinde olmayan herhangi bir algoritma
Clementine programına entegre olarak kullanılabilir.
Kullanıcının esas çalışma alanı, Stream Canvas (Akım Tuali) olup, bu alan
görsel programlama tekniklerini kullanarak veri madenciliği yapmamıza olanak sağlar.
Aşağıda, Clementine’ın ara yüzü gösterilmiştir:
88
Şekil 4.1. CLEMENTINE programı açılış arayüzü
Nodlar veri üzerinde yapılacak işlemleri niteler. Her palet, kendisiyle ilişkili birkaç nod
içerir. Örneğin “Sources”paleti, verileri modelimize eklememize yarayan nodları içerir.
Nodlar, Stream Canvas’a yerleştirildikten sonra birbirine bağlanarak akımlar (streams)
oluşturulur. Akımlar, nodlardan veri akışını simgeler ve her akım bir çıktı (output) veya
modelle sonlanır.
Clementine penceresinin sağ üst köşesinde üç tip Manager vardır: Streams,
Outputs ve Models. Akımları açmak, saklamak, adlarını değiştirmek ve silmek için
Streams tabı kullanılır. Clementine programının çıktıları (grafik ve tablolar)
“Outputs”tabında saklanır. “Models”tabı, Clementine'da oluşturulan modelleri saklamak
için kullanılır. Modeller direkt olarak “Browse”seçeneğiyle görüntülenebilir ya da
“Stream Canvas” ta bulunan akımlara eklenebilir. Sol alt köşede, veri madenciliği
çalışmalarımızı organize edebileceğimiz Projects penceresi bulunur. “CRISP-DM” tabı,
akımları (streams), çıktıları (outputs) ve dip notları (annotations) CRISP-DM fazlarına
uygun olarak düzenlememizi sağlar. “Classes”tabı, oluşturduğumuz nesnelerin
kategorilerine uygun olarak düzenlenmesini sağlar.
89
Şekil 4.2. Akım tuali üzerinde kaynak veri kümesi ve bağlantı nodları
Şekil 4.3. Veri tipi belirleme
4.2.2.2. Clementine ve Association Rules
Clementine, iki adet birliktelik kuralı algoritması içerir: Apriori ve GRI.
Algoritmalar öncelikle, çok basit kurallar oluştururlar. Sonra, basit kurallar irdelenerek
daha ilginçve karışık kurallar kaydedilir. Bu algoritmalar diğer kurallara bağımlı
olmayan ve herhangi bir çıktı ya da bağımlı alanıyla sınırlı olmayan kurallar üretir. Bu
90
algoritmalar bir süper markete bir müşterinin bir seferde yaptığı alışverişteki ekmek,
şarap ve peynir gibi ürünlerden bir kaçını aynı anda alması kurallarını keşfederek bir ya
da birden fazla alanın değerlerinin beraberce ortaya çıkmasını açıklar. Aynı şekilde
negatif ilişkilerde ortaya çıkarılır.
Şekil 4.4. Birliktelik kuralları oluşturma
4.2.2.3. Apriori Kural Keşfi
Apriori algoritması sadece sembolik verilerle çalışmasına rağmen aynı veri
setinde GRI’a göre daha verimli ve hızlıdır. Kural çıkarımındaki hesap İşlemlerini
hızlandırmak için gelişmiş bir indekslemesi ve bütün verinin içinden geçişi azaltan
özellikleri vardır. Apriori algoritmasının default ayarları 10%, 80% ve %5 olan
minimum rule support, minimum rule confidence, ve maximum rule preconditions
vardır. GRI algoritması Apriori algoritmasına göre daha geniş aralıkta veriler kullanır
ve herhangi bir kuralın ne derece enteresan olduğuna karar verirken farklı bir ölçüt
kullanır. GRI sayısal alanları kural içerisinde input-antecedents- olarak kullanabilirken
sadece sembolik alanları sonuç (Type işlemcisinde Out veya Both) olarak kullanır.
Kanvasa Apriori işlemcisi koy
Apriori işlemcisini edit et
91
Expert tab’ına tıkla
Expert seçeneğini tıkla
Expert Mode seçildiğinde Evaluation Measure listesi aktif hale gelir. Aynı
şekilde Rule Confidence seçildiyse Evaluation measure lower bound spin control
aktif hale gelir. Eğer kurallar sadece güven (confidence) veya doğru tahminlerden
seçilmiş ise algoritma yalnızca doğru kuralları bulacaktır. Bu totoloji gibi anlaşılsa dahi
doğru kuralların her zaman en enteresan ve kullanışlı olan kurallar olduğu doğru
değildir. Boş bir kuralın güven’i basitçe sonuç’ un frekansıdır ve prior confidence
olarak adlandırılır. Bir veya birden çok öncül’ü olan bir kuralın güven’i posterior
confidence olarak adlandırılır ve oranına artırma ölçütü (lift measure) denir
4.3. Teze İlişkin Veriler
Tez çalışmasının bu bölümünde tezin analizinde kullanılacak veriler ile ilgili
bilgiler verilecektir. Çalışmamız retrospektif olup, veriler Meram Tıp Fakültesi Tıbbi
Onkoloji Anabilim Dalı’nda tedavi gören 1371 adet meme kanseri hastasına aittir.
Hastalar, 2000 ile 2012 yılları arasında kanser tanısı ile hastaneye başvurmuş, değerler
dosyalara kaydedilmiş ve daha sonra dijital ortama alınarak tablo haline getirilmiştir.
Hastalara ait toplam 76 değişken vardır. Ancak bu değişkenlerden bazıları analiz
dışında bırakılacaktır. Çünkü hasta adı-soyadı veya dosya numarası gibi değişkenlerin
kural çıkarma işlemlerinde etkisi olmayacaktır. Değişkenlerin tanımları ve eksik
gözlemler ile ilgili bilgiler aşağıda açıklanacaktır.
92
Çizelge 4.1. Veri kümesinde kullanılan değişkenlerin listesi
Sıra No
1
2
3
4
5
6
7
8
9
10
11
12
Değişken
AD-SOYAD
Dosya no
boy
kilo
BKİ
kan Grubu
il
telefon
cinsiyet
doğum tarihi
tanı anında yaşı
menopoz durumu
13
oral kontraseptif
14
HRT
15
komorbit hastalık
16
17
18
19
24
25
26
27
28
DM
HT
tiroid hastalığı
hipertiroidihipotiroidi
Alkol
sigara
Sekonder
Kanser
öyküsü
ailede kanser varsa
tipi
Aile kanser oykusu
İAT
İDT
çocuksayısı
emzirme
29
30
tanı tarİhi
biyopsi tipi
20
21
22
23
31
32
operasyon tarihi
Sağ-Sol
33
multifokal tutulum
Açıklama
Değer
--Sayısal
Sayısal
Eksik Gözlem
Beden kitle indeksi
İkamet il/ilçe
Tedavi öncesi ve
sonrası
menopoz
durumu
Doğum Kontrol Hapı
kullanma
Hormon Replasman
Tedavisi
Birlikte
görülen
hastalık
Şeker hastalığı
Yüksek tansiyon
Guatr hastalığı
İkinci tip kanser
hastalığı durumu
İlk adet görme yaşı
İlk doğum yaşı
Çocuk
durumu
emzirme
Tümör hangi tarafta
Memede çok sayıda
tümör durumu
+/- A, B, AB, 0
--E, K
-Sayısal
PRE, POST, ERKEK
434
424
436
701
7
1
4
27
EVET, HAYIR, ERKEK
1167
EVET, HAYIR, ERKEK
1169
VAR, YOK, KOAH,
KAH, HİPERLİPİDEMİ,
BEYİN
TM,
PULMONER EMBOLİ,
PACEMAKER,…
VAR, YOK
VAR, YOK
VAR, YOK
VAR, YOK
65
VAR, YOK
VAR, YOK
VAR, YOK
125
125
24
ANNE,
BABA,
KARDEŞ, AKRABA
VAR, YOK
Sayısal
Sayısal
Sayısal
VAR, YOK, E
197
-İNSİZYONEL,
EKSİZYONEL,
TRUCUT
-SAĞ,
BİLATERAL
VAR, YOK
23
254
66
67
122
128
203
1123
1150
383
1080
İİAB,
SOL,
597
16
1010
93
Sıra No
34
Değişken
LVI DURUMU
35
36
37
38
grade
ER yüzdesi
PR yüzdesi
cerb2 yüzdesi
39
TRIPLE
40
fish
41
TM çapı evre olarak
42
43
44
45
Tm size
pozitif lenf nodu
negatif lenf nodu
tanı anında MET
DURUMU
Evre
KT-HT
başlama
tarihi
AdjuvantNeoadjuvant
46
47
48
49
herceptin
50
zolodex kullanımı
51
52
53
HT
RT
mikrokalsifikasyon
54
kemik
metastaz
durumu
patolojik
mikrokalsifikasyon
55
Açıklama
Lenf
sistemine
sıçrama
Evre
Östrojen Reseptörü
Progesteron reseptörü
Epidermal büyüme
faktörü reseptörü
ER, PR ve CERB2
reseptörlerinin
her
üçünün de olmaması
Flourescent In Situ
Hibridization: Meme
kanseri teşhisi için
güçlü bir yöntem
Tümör çapı evresi
Değer
VAR, YOK
Eksik Gözlem
626
1, 2, 3
POZİTİF, NEGATİF
POZİTİF, NEGATİF
POZİTİF, NEGATİF
607
153
168
204
POZİTİF, NEGATİF
1172
BAKILMADI,
NEGATİF
582
T1, T2, T3, T4, OPERE
OLMADI
Sayısal
Sayısal
Sayısal
VAR, YOK
--
Metastaz evresi
KemoterapiHormonterapi
Ameliyat
sonrası
veya öncesi adjuvan
tedavisi
Herceptin
ilacı
kullanma durumu
Zolodex
ilacı
kullanma durumu
Hormon tedavi
Radyoterapi
Tümör
çevresi
kireçlenme
Kemikte metastaz
M0, M1
--
47
51
ADJUVAN,
NEOADJUVAN
22
EVET, HAYIR
35
EVET, HAYIR
37
VAR, YOK
VAR, YOK, PALYATİF
VAR, YOK
38
59
833
VAR, YOK
114
Patolojik kireçlenme
bulgusu
VAR, YOK
920
Tümör çapı
253
188
214
61
4.4. Bulgular
Veri seti klasik apriori uygulamaları ile aynı tarzda olmadığından çıkan
sonuçların diğer yöntemler ile karşılaştırılması gerekmektedir. Market sepet analizinde
ssatırlar müşterilere ait kayıtları sütunlar ise alışveriş esnasında aldıkları ürün
sıralamasını göstermektedir. Daha sonra sütunlara ürünleri değişken olarak tanımlayıp
“aldı-almadı” şeklinde ikili veri kümeleri de oluşturulmuştur. Bizim çalışmamızdaki
veri kümesi ikini forma benzemektedir. Çünkü satırlar her bir hastaya ait kayıtlar,
sütunlar ise ölçülen değerler veya alınan bilgilerden oluşan değişkenlerdir. Ancak
94
burada değişkenlere ait kategoriler yalnızca ikili değil iki, üç, dört veya daha fazla
kategoriye sahip olmaktadır. Bu durumda apriori algoritması için kural çıkarmak daha
zorlaşmakta ve işlem uzamaktadır. Sağlık verilerinde küçük olasılıkların da önemli
olması, negatif kuralların da çıkarılmasını gerektirmektedir. Clementine programı
yardımıyla apriori ve GRI algoritma sonuçları karşılaştırılarak verilecektir. Ayrıca, daha
önce önermiş olduğumuz minimum ilginçlik ölçütüne göre çıkarılmış negatif kurallarda
da örnekler verilecek ve negatif birlikteliklerin güçlü kurallar çıkarıp çıkaramayacağı
test edilmiş olacaktır.
Verilerin tanımlayıcı ölçüleri ortaya konuldu. Buna göre, 15 hastanın (%1,1)
erkek olduğu, en yüksek oranda kan grubunun ise (%51,1) 0+ olduğu görüldü. Çok
düşük oranlarda (yaklaşık %3) hormon replasman tedavisi aldıkları ve oral kontraseptif
kullandıkları anlaşıldı. Hastaların yaklaşık yarısının komorbit hastalığı olduğu ve dörtte
bir oarnında ailelerinde kanser öyküsü olduğu görüldü. %10 oranında metastaz ve
bunlarında %20 kadarında kemik metastazı görüldü. Hastaların boy ve kilo değerleri
sırasıyla 158±5,46 cm ve 75±11,9 kg olmuştur. Beden kütle indeksi ise 15,43 ile 52,89
arasında çok geniş bir skala göstermektedir. Bu da hastaların çok zayıftan obeze kadar
her grupta olabildiklerini göstermektedir (Şekil 4.7 ve 4.8). Ortalama çocuk sayıları 2,2
ve lenf nodu sayıları çok değişken olmakla birlikte ortalama 3,52 pozitif; 13,52 ile
negatif lenf nodu sayısı olduğu görülmektedir (Şekil 4.5 ve 4.9). Tümör çapı evreleri
sayısı veri kümemiz için en önemli değişken olarak karşımıza çıkmaktadır. Çünkü
apriori algoritması uygulamasında sonuç değişkeni tümör evresi olacaktır. Evre
frekanslarına ait bilgiler Şekil 4.6’da gösterilmiştir. Hastaların büyük çoğunluğunun T2
evresine ait olduğu görülmektedir.
95
Şekil 4.5. Tümör çaplarna göre pozitif lenf nodu sayıları
Şekil 4.6. Tümör çapı sayıları
96
Şekil 4.7. Tümör evrelerine göre beden kütle indeksi
Şekil 4.8. Boy-kilo saçılım grafiği
97
Şekil 4.9. Pozitif-negatif lenf nodları saçılım grafiği
Yapılan lojistik regresyon uygulamasında metastaz, lenfovasküler invazyon ve
mikrokalsifikasyon değişkenleri tümör çapı evrelerine ait parametre tahmininde anlamlı
sonuçlar çıkarmıştır (p<0,05). Buna karşın, ailede kanser öyküsü ve çeşitli komorbit
hastalıklara ait değişkenler eksik gözlem sayılarının çok olması nedeniyle modele
anlamlı katkı yapamamıştır. Regresyon uygulaması ile veri ve değişken sayısı arttığında
sonuç elde etmesi zor olmakta ve zaman almaktadır. Çünkü çok büyük boyutlarda
matrisler oluşmakta ve terslerinin alınması paket programları çok yormaktadır. WEKA
programı yardımıyla elde edilen regresyon modelleri aşağıdadır.
= 0.0973062 − tiroidhastalığı ∗ 0.116498 + "
∗ 0.0827949 +
" ∗ 0.087399
= 0.606683 − "
" ∗ 0.144963– ∗ 0.063813 +
∗ 0.185193
= 0.451203 − Menapozdurumu ∗ 0.039143 + ailedekanserkimde
∗ 0.0135488 − multifokaltutulum ∗ 0.152805
98
= 0.552971 + "
∗ 0.245458 − "
= 0.000677247 + " ∗ 0.066708– " ∗ 0.0704731
∗ 0.00396467 + ∗ 0.00526586– ∗ 0.00708301
Kurulan modellerde katsayıların anlamlılığı ile ilgili sorunlar ortaya çıkmıştır.
Ayrıca tümör çapı evresi kategorik sıralı bir değişken olduğundan tahmin sonuçları
sayısal bir değer çıkmaktadır. Bu nedenle, birliktelik kurallarının uygulanması hem
daha az zaman almakta hem de programları daha az yormaktadır. Her geçen gün süreyi
kısaltıcı ve programlara daha az yük getirecek algoritmaların sayısı artmaktadır. Ancak
birliktelik kural çıkarımı, herhangi bir varsayım gerektirmediği gibi daha yoğun olarak
ticari işletmelere yönelik ve kar amaçlı olduğundan veri kümesi üzerinde uygulama
yapılırken dikkatli olunması gerekmektedir. Özellikle sağlık verisi gibi müşteri temeline
dayanmayan verilerde karşılaştırmalı ve kontrollü uygulanmalıdır. 42 değişken ve 1371
hastaya ait 1371x42 boyutlarında bir matris için apriori algoritması işletildiğinde
yaklaşık 59 bin pozitif kural çıkmaktadır. Bunun nedeni değişkenlerin kategori sayısının
ikiden fazla olması ve eşik değerlerin düşük tutulmasıdır. Program, min.des değerini
%10 ve min.güv değerini %80 olarak belirlemektedir. Ancak, bu değerler sağlık verileri
için yüksektir. Gözden kaçabilecek kuralların ortaya çıkarılabilmesi için min.des değeri
%10, min.güv değeri %55 olarak belirlenmiştir. Eğer eşik düzeyleri daha küçük
tutulursa kural sayısı daha da artacaktır. Bunun yanı sıra negatif kurallar da
belirlenecektir.
Apriori kullanılarak elde edilen sonuçlar çizelgelerde verilmiştir. Çok sayıda
kural olduğundan yalnızca güven ve lift değerleri büyük olan birkaç kural ile en zayıf
kurallara ait örnekler Çizelge 4.2 - 4.4’de gösterilmiştir. Çizelge 4.2’de öncül olarak
“HT, tiroid hastalığı, LVI, cinsiyet, kan grubu ve DM” seçilmiş, destek değeri %10 ve
güven değeri %55 olarak belirlenmiştir. En güçlü kural:
“HT = VAR ∩ LVI = VAR ∩ cinsiyet = K iken TM çapı evresi:T’” şeklindedir.
Çizelge 4.3’de yine tümör çapı evresi sonucuna karşılık “cocuk sayısı, multifokal
tutulum ve LVI” %10 destek ve %50 güven değeri ile öncül olarak belirlenmiştir.
Çizelge 4.4’de ise “çocuk sayısı, multifokal tutulum ve LVI” öncülleri için
“mikrokalsifikasyon” sonuç olarak belirlenip kurallar elde edilmiştir. Çizelge 4.5‘de ise
GRI ile elde edilen kurallar gösterilmiştir. Görüldüğü gibi her iki çizelgedeki kurallar
99
farklı çıkmıştır. Bunun nedeni, apriori algoritması ile GRI algoritmasında farklı
ölçütlerin kullanılmasıdır. Ölçüt dediğimiz işlemler olasılık hesaplarından oluşmaktadır.
Farklı olasılıkların ölçüte dahil edilmesi farklı kuralların çıkmasına neden olmaktadır.
GRI algoritması sonuçlarında çok farklı destek ve güven değerleri karşımıza
çıkmaktadır. T1 evresi için lift değeri yüksek olmasına ve güven değerinin % 100
olmasına rağmen destek çok küçük çıkmıştır. Aynı şekilde diğer evreler için de benzer
durumlar söz konusudur. Bu şekilde kuralların çıkarılması düşük olasılıklardan
kaynaklanmaktadır.
Çizelge 4.2. apriori sonuçları
Sonuç
TM cap evre
= T2
TM cap evre
= T2
TM cap evre
= T2
TM cap evre
= T2
TM cap evre
= T2
TM cap evre
= T2
……
TM cap evre
= T2
TM cap evre
= T2
TM cap evre
= T2
TM cap evre
= T2
TM cap evre
= T2
Öncüller
HT = VAR ve LVI = VAR ve
cinsiyet = K
HT = VAR ve LVI = VAR
LVI = YOK ve tiroid hastalığı =
YOK ve cinsiyet = K
LVI = YOK ve tiroid hastalığı =
YOK
LVI = VAR ve Kan Grubu = ? ve
tiroid hastalığı = YOK
LVI = VAR ve Kan Grubu = ? ve
tiroid hastalığı = YOK ve cinsiyet
=K
…….
LVI = ? ve Kan Grubu = ? ve HT =
YOK ve tiroid hastalığı = YOK ve
cinsiyet = K
Kan Grubu = A(+)
Kan Grubu = A(+) ve cinsiyet = K
LVI = YOK ve DM = YOK ve
cinsiyet = K
LVI = YOK ve DM = YOK
Destek %
Güven%
Lift
10.714
63.265
1.105
10.787
62.837
1.098
10.714
62.585
1.093
10.932
62.0
1.083
14.723
61.881
1.081
14.723
61.881
1.081
………..
………
…………..
16.909
56.034
0.979
19.096
55.725
0.973
18.877
55.598
0.971
11.443
55.414
0.968
11.661
55.000
0.961
100
Çizelge 4.3. apriori sonuçları
Sonuç
TM cap
evre = T2
TM cap
evre = T2
TM cap
evre = T2
TM cap
evre = T2
TM cap
evre = T2
………
TM cap
evre = T2
TM cap
evre = T2
TM cap
evre = T2
TM cap
evre = T2
TM cap
evre = T2
Öncül
multifokal tutulum = YOK ve LVI
= VAR
LVI = VAR
LVI = VAR ve multifokal tutulum
=?
multifokal tutulum = YOK
cocuk sayisi = ? ve LVI = VAR
…………………
LVI = ? ve multifokal tutulum = ?
LVI = ?
cocuk sayisi = ? ve LVI = ?
cocuk sayisi = ? ve multifokal
tutulum = ?
cocuk sayisi = ? ve LVI = ? ve
multifokal tutulum = ?
Destek %
Güven %
Lift
11.078
63.157
1.103
40.160
61.524
1.075
25.218
61.271
1.070
20.116
61.231
1.070
13.119
61.111
1.068
……………
…………
…………..
40.160
54.083
0.9452
45.626
53.833
0.940
14.941
53.658
0.937
23.906
53.353
0.932
12.973
52.808
0.922
Çizelge 4.4. apriori sonuçları
Sonuç
mikro
kalsifikayon = ?
mikro
kalsifikayon = ?
mikro
kalsifikayon = ?
mikro
kalsifikayon = ?
mikro
kalsifikayon = ?
………..
mikro
kalsifikayon = ?
mikro
kalsifikayon = ?
Öncül
LVI = ?
LVI = ? ve multifokal tutulum
=?
cocuk sayisi = ? ve LVI = ?
cocuk sayisi = ? ve LVI = ?
ve multifokal tutulum = ?
cocuk sayisi = 4
………….
cocuk sayisi = ? ve LVI =
VAR
LVI = YOK
Destek %
Güven %
Lift
45.626
68.210
1.123
40.160
67.332
1.108
14.941
65.853
1.084
12.973
64.044
1.054
11.807
61.728
1.016
…………….
…………..
…………….
13.119
52.222
0.860
14.139
51.030
0.840
101
Çizelge 4.5. GRI sonuçları
Sonuç
Kural
Menopoz = POST ve Oral
Contraceptif = Hayır ve
Multifokalite = Hayır ve
metastaz = Evet ve
mikrokalsifikasyon = Evet
Menopoz = POST ve Komorbit
hastalık = Evet ve
Aile kanser öyküsü = Hayır ve
Multifokalite = Hayır ve LVI =
Positif ve metastaz= Evet ve
mikrokalsifikasyon = Evet
Aile kanser öyküsü = Hayır ve
Multifokalite = Evet ve LVI =
Positif ve
mikrokalsifikasyon = ?Boş
TM size stage = T4
TM size stage = T1
TM size stage = T3
Destek%
Güven%
Lift
2.480
50.000
5.765
0.360
100.000
6.098
0.360
100.000
5.765
Yukarıda verilen tablolardaki ikinci bölümler lift değerinin 1’den küçük olan kurallarını
göstermektedir. Bu tür kurallar negatif kurallar olarak düşünülebilir. Ancak bunların
dışında lift değeri yüksek fakat pozitif olmayan kurallar da olabilir. Bunun için Zhang et
al. tarafından önerilen algoritma kullanılabilir. Ancak bu algoritmanın bizim
önerdiğimiz MINN ölçütü kullanılarak yapılması bulunacak kuralları daha güçlü
yapacaktır. Bu durumu gösteren birkaç örnek vererek MINN ölçütü için sonuçlar
bulacağız.
Pozitif kurallar içerisinde komorbit hastalık varken metastaz durumunun “yok” olması
kuralı
vardı.
O
∗
⟹
halde,
=
:
⟹
:
kuralını
düşünelim.
( ⟹
∗)
=
|0,435 ∙ 0,099 − 0,108| 0,252
=
= 0,497
0,565 ∙ 0,901
0,509
olarak bulunur. İlginçlik ölçütü olarak çok küçük bir değerdir. Bunun nedeni komorbit
hastalık varken metastaz olma durumu olasılığının düşük bir değer (%4) olmasından
kaynaklanmaktadır. Böyle bir kuralın algoritma sonucu çıkma olasılığı çok düşüktür.
Pozitif kural olarak çıkmayan ancak önemli olabileceğini düşündüğümüz başka bir
örnek düşünelim. Burada öncül olarak tek değişken değil de üç değişken alacağız.
⟹
∗
=(
:
∧
∧
∶
Bu kurala göre MINN ölçütünü hesaplamaya çalışalım:
⟹
:
:
)
102
( ⟹
∗)
=
|0,169 ∙ 0,189 ∙ 0,094 − 0,8| 0,797
=
= 1,623
(1 − 0,003) ∙ (1 − 0,507)
0.491
şeklinde hesaplanır. Bulunan değer ilginçlik ölçütü olarak uygundur. Faat 1,623 değeri
tek başına bir anlam ifade etmez. Tüm istenilen kurallar için ölçütler hesaplanır ve
içlerinden büyük olan değerler güçlü olması muhtemel kurallar olarak belirlenir. Bu
kural için destek değeri % 1 ve güven değeri ise %80 olduğundan minimum güven eşik
değerini fazlasıyla sağlamaktadır, ancak destek eşiğini sağlamamıştır. 1,623 değerinin
tüm çıkarılan kurallar içerisinde en büyüğü olduğunu varsayalım. Bu durumda, destek
ve güven değerleri ile birlikte düşünerek oluşan kuralın ilginç (güçlü) olduğu
düşünülebilir. Yani, menopoz durumu “pre” olduğunda kemik metastazının ve
mikrokalsifikasyonun olma durumu yüksek olasılıklı olmaktadır. GRI algoritması ile
aynı tarzda bir kural yapısı oluşturmuştur. Yüksek güven ve lift değeri kuralın ilginç
olabileceğini gösterir. Karar kullanıcıya aittir. Clementine ile yapılan pozitif kural
çıkarma analizinde sonuç olarak T2 evresi çıkmıştı. Bu nedenle, zayıf ta olsalar önemli
olabileceği düşüncesiyle MINN ölçütünü diğer evreler için de uygulayalım.
⟹
∗
=(
:
∧
ℎ
∧
:
ı :
⟹
∧
:
: 1)
Gibi bir kuralı düşünelim. GRI algortiması ile buna benzer bir kuralın ilginçlik ölçütü
yaklaşık 6 bulunmuştu. Ancak destek değeri çok küçüktü. MINN ölçütü hesaplamak için
öncelikle bazı değerleri belirtelim:
630
= 0,45
1371
) = 0,10
(
(
)=
(
(
) = 0,43
) = 0,16
( 1) = 0,16
ü ( ⟹
∗)
= 0,0007
olarak hesaplanırsa
( ⟹
∗)
=
|0,45.0,43.0,10.0,16 − 0,0007| √0,0023
=
(1 − 0,003). (1 − 0,16)
0,837
=
0,048
= 0,057
0,837
değeri bulunur. Oluşturulan kuralın hem güven hem de ilginçlik değerleri çok düşüktür.
Başlangıçta belirlenen min.il eşik değerini büyük bir olasılıkla sağlamayacaktır. Ancak,
kuralda hesaba alınan özelliklerin bulunduğu hastalarda T1 evresi gelişme olasılığınin
103
küçük te olsa (onbinde 7) olabileceğini görmekteyiz. Kuralın gücü binde 57 çıkmıştır.
Bir çok hastalığın prevalansının onbinler veya yüzbinler ile ifade edildiği sağlık
sektöründe binde 57 gücü dikkate değer olabilir. MINN ölçütü dikotom veri
kümelerinde daha kolay hesaplanmasına rağmen çok kategorili değişkenlerin olduğu
veri tabanlarında daha zor hesaplanmaktadır. Çünkü güven değerini hesaplamak daha
zor olmaktadır. Aynı şekilde yüksek oranlı destek ve güven değerlerini bir araya
getirmek zor olmaktadır. Bu nedenle, kategorisi çok olan hatta sıralı kategoriye sahip
olan
değişkenlerin
geliştirilmelidir.
bulunduğu
veri
tabanlarında
daha
verimli
algoritmalar
104
5. SONUÇLAR VE ÖNERİLER
5.1. Sonuçlar
Veri madenciliği günümüz analiz tekniklerinin önemli bir bölümünü
oluşturmaktadır. Disiplinler arası bir branş olması nedeniyle hem bilgisayar bilimleri
hem de istatistik biliminden çok sayıda araştırmacıyı kendine çekmektedir. VM
teknikleri üzerinde yapılan araştırmaların sayısı milyonlara yaklaşmakta; ancak çok
geniş uygulama alanları bulması nedeniyle bu sayı her geçen gün hızla artmaktadır. Veri
madenciliğinin ticari yönü olması nedeniyle işletme ve finans bilimleri ile de yakın ilgili
hale
gelmiştir.
Bu
nedenle
finansal
alanlarda
uygulamaların
geliştirilmesi
yaygınlaşmaktadır. Ayrıca VM’nin kendisi başlı başına bir ticari olgu haline gelmiştir.
İlgili yazılımlar her geçen gün gelişmekte; gerek ticari gerekse açık kaynak kodlu
uygulama yazılımları geliştirilmektedir. VM yöntemlerinin en önemlilerinden birisi
birliktelik kuralıdır. Birliktelik kuralının ortaya çıkış nedeni de ticaridir. Market sepeti
analizi şeklinde ortaya çıkmış ancak daha sonraları birçok alanda uygulama şansı elde
edilmiştir. Birliktelik kuralı ile ilgili çok çeşitli algoritmalar yazılmıştır. Her yani
algoritma bir öncekinden daha hızlı ve daha verimli olmaktadır. Çünkü VM büyük veri
kümeleri ile uğraşmaktadır. Bu nedenle işlemcilerin yükünü azaltacak ve daha kısa
sürede
işlemi
sonlandıracak
algoritmalara
ihtiyaç
duyulmaktadır.
Birliktelik
algoritmaları içerisinde apriori temelli algoritmalar en verimlilerindendir. Veri
kümelerinin yapısı uygulama alanlarına göre değişmekte olduğundan her algoritma her
veri kümesi için uygun olmamaktadır. Pozitif birlikteliklerin yanı sıra negatif
birlikteliklerin de araştırılması gerektiği düşüncesi gelişmiş ve son yıllarda özellikle bu
konuda ilerlemeler olmaktadır. Birliktelik kuralı oluşturma yöntemi diğer VM
yöntemleri içerisinde ayrı bir disiplin haline gelmeye başlamıştır. Pozitif, negatif,
seyrek, işleme dayalı (transactional) ve bulanık (fuzzy) birliktelik kuralları çıkarma
şeklinde çok geniş bir alan olmuştur. Bu nedenle, daha üzerinde çalışılması gereken çok
fazla konu bulunmaktadır. Bu konuda yapılan yayınlardan görüldüğü kadarıyla gelecek
çalışma olarak sunulan yüzlerce konu bulunmaktadır.
Klasik istatistiksel yöntemler az sayıda değişken ile çalışmakta ve çok sayıda
varsayım gerektirmektedir. Ancak VM yöntemleri bu tür varsayımlara gerek
duymamaktadır. Ayrıca çok sayıda değişken ile ve çok büyük sayıda kayıt ile
çalışabilmektedir. Klasik analizlerden bir farkı da VM ile yapılan analizlerde bir
105
hipotezinizin olması gerekmemektedir. Çünkü VM yaparken hipotez kurup veriyi
hipoteze göre analize sokmuyorsunuz. Başlangıçta büyük bir veriniz var ve bundan “ne
çıkarabilirim?” diye soruyorsunuz. Bu nedenle VM daha fazla tercih edilen bir analiz
yöntemi haline gelmiştir. Ancak VM uzun ve zorlu bir süreçtir. Özellikle veri
kümelerinin çok büyük olması verinin hazırlanması aşamasını zorlaştırmakta ve zaman
almaktadır. Ayrıca veri kümesine göre uygun yöntem ve modelleme seçimi de zaman
almaktadır. Eğer yüksek ücretler ödeyip kaliteli bir paket program kullanıyorsanız
analizleri yapmanız vakit almaz. Ancak açık kaynak kodlu programları kullanmak
durumundaysanız ya kod yazıp sonuçları kendiniz elde edersiniz ya da kulanızı dostu
olmayan bir ortamda uzun uğraşlardan sonra sonuçlarınıza ulaşabilirsiniz. VM’nin en
önemli uğraşılarından birisi de sonuçların raporlanmasıdır. Çünkü kullanıcılar için en
önemli şey analizlerden elde edilecek sonuçlardır. Sonuçların görselleştirilmesi için
çeşitli grafik ve tablolama yöntemleri geliştirilmektedir. Kuralların, modellerin ve
sonuçların
görselleştirilmesi
ile
grafikleme
alanında
çok
önemli
gelişmeler
kaydedilmiştir.
VM yöntemleri sağlık alanında yoğun olarak kullanılmaya başlanmıştır. Bunun
en büyük nedeni, hasta ve hastane bilgi sistemlerinin otomasyona geçmesi ve daha fazla
kayıt tutulmasıdır. Bu sayede büyük veri kümeleri oluşmakta ve hastalık tedavileri veya
hastane yönetim sistemlerinde maliyet düşürme gibi önemli ve öncelikli kavramlar ön
plana çıkmaktadır. Buna rağmen birliktelik kuralı uygulamaları henüz başlangıç
aşamasındadır. Özellikle gen dizilimleri ve sekanslama, kanser verileri ve hastane
yönetim sistemlerine ait veriler bu yöntem için uygundur. Zaten son yıllardaki
uygulamalar bu alanlarda yapılmıştır.
Bu tez çalışmasında meme kanseri hastalarına ait 1371 kişinin verilerini apriori
algoritması ile analiz ettik. Veriler 12 yıl boyunca toplanmış olup daha sonra titizlikle
dosyalardan Excel ortamına alınmıştır. Hastaların toplamda 72 değişkene sahip
olmasına karşın bazı sözel bilgileri kümden çıkararak yaklaşık 40 değişken ile veri
kümesi analiz edilerek gizli kalmış birliktelikler ortaya çıkarılmaya çalışıldı. Tümör
çapı evreleri ve metastaz sonuçları ile bunlara etki eden diğer bilgilere ait kurallar
çıkarıldı. Apriori’nin haricinde GRI ile de kurallar çıkarıldı. Ve karşılaştırmalar yapıldı.
Bu çalışma, bugüne kadar kanser verilerinde yapılan birliktelik uygulamaları içerisinde
en büyük hasta sayısına sahip çalışma olmaktadır. Apriori ile bulunan kurallar lojistik
regresyon yöntemi ile de karşılaştırıldı. Birbirleri ile paralel sonuçlar ürettikleri
anlaşıldı. Negatif kurallar henüz ülkemizde yaygın olmadığından bu konuda literatürde
106
bir çalışmaya rastlanmadı. Bu nedenle tezde negatif kuralların çıkarılmasına da yer
verildi. Ayrıca, negatif birliktelik kuralları için bir ilginçlik ölçütü (MINN) önerildi.
Veri kümesinden seçilen örnek değişkenler ile MINN ve lift ölçütlerine ait sonuçlar
karşılaştırıldı. MINN ölçütünün negatif kuralları belirlemede üzerinde çalıştığımız veri
tabanı için lift ölçütünden daha iyi olduğu anlaşıldı. Simüle veri kümesi üzerinde
dedaha iyi sonuçların alındığı görüldü. Ancak yine de veri tabanının özelliğine göre
(değişken tipi, sektör, gözlem sayısı vs.) değişebileceğinden kullanıcıların bu durumu
göz önüne almaları gerekmektedir.
5.2. Öneriler
Çıkarılan kurallardan görüldüğü kadarıyla eksik gözlem analizinin çok önemli
olduğunu söyleyebiliriz. Eksik gözlemlerin fazla olduğu değişkenler için uygun
kuralların çıkarılamadığı görülmüştür. Bu nedenle, büyük veri kümesine sahip olan
araştırmacılara birliktelik kuralı analizini kullanmalarını öneriyoruz. Veriler uygun bir
şekilde hazırlanıp, eksik gözlemler ile ilgili sorunlar giderildiği takdirde veri
madenciliği yöntemleri, özellikle de birliktelik analizi kural çıkarmada en uygun
yöntem olabilmektedir. Özellikle sağlık verileri insan ile direk ilgili olduğundan apriori
kullanılarak analiz edilmesi uygun olacaktır. Apriori ve GRI algoritmaları genellikle
farklı sonuçlar çıkarmaktadır. Bu nedenle GRI algoritması sonuçlarının da dikkate
alınması önemlidir. Birliktelik kuralı analizi çok sayıda kural çıkarmaktadır. Negatif
fakat önemli olabileceği düşünülen kurallar da düşünüldüğünde yöntemin faydalı
olduğunu ifade etmekteyiz. Kuralların değerlendirilmesi konu uzmanları tarafından
yapılacağından küçük kurallar bile önemli sonuçlar doğurabilir. Aynı anda çok sayıda
değişkeni hesaba katması nedeniyle birliktelik analizi sağlık alanındaki veri kümeleri
için uygun bir yöntemdir.
107
KAYNAKLAR
Aggarwal, C., Procopiuc, C. and Yu, P., 2002, “Finding Localized Associations in
Market Basket Data”, IEEE Transactions on Knowledge and Data Engineering, Vol.
14, p. 51-62
Agrawal, R. and Srikant, R., 1994, “Fast Algorithms for Mining Association Rules”,
Proceedings of the 20th VLDB Conference, Chile, p. 1-13
Agrawal, R., Imielinski, T. and Swami, A., 1993, “Mining Association Rules between
Sets of Items in Large Databases”, SIGMOD Report of Association for Computing
Machinery, USA, p. 207-216
Albayrak, S., 2002, “Tiroit Bezi Verilerinin Bayes ve En Yakın K-Komşu gibi Eğiticili
Yöntemlerle Sınıflanması”, İstatistik Araştırma Dergisi, Cilt 1, Sayı 1, s. 131-137
Alpar, C.R., (2011), “Çok Değişkenli İstatistiksel Yöntemler”, Detay Yayıncılık,
Ankara, s.71-92
Alpaydın, E., Bilişim 2000 Veri Madenciliği Eğitim Semineri, “Zeki Veri Madenciliği”
Sunuş konuşması, 2000
Amandhavalli, M., Ghose, M.k. and Gauthman, K., 2010, “Association Rule Mining in
Genomics”, Int’l Journal Of Computer Theory and Engineering, Vol. 2, p. 269-273
Anonim1 http://www.deu.edu.tr/userweb/k.yaralioglu/dosyalar/ver_mad.doc [Ziyaret
Tarihi: 22/04/2013]
Anonim2 http://www.isletme.istanbul.edu.tr/surekli_yayinlar/dergiler/nisan2000/1.htm
[Ziyaret Tarihi: 20/06/2013]
Anonim3 http://www.sertacogut.com/blog/wp-content/uploads/2009/03/sertac_ogut__veri_madenciligi_kavrami_ve_gelisim_sureci.pdf [Ziyaret Tarihi: 20/06/2013]
Anonim4 http://www.tuik.gov.tr/PreHaberBultenleri.do?id=8572
12/02/2013]
[Ziyaret
Tarihi:
Anonim5 https://tr.wikipedia.org/wiki/Kanser [Ziyaret Tarihi: 14/01/2014]
Anonymous1 http://archives.datapages.com [Ziyaret Tarihi: 05/07/2013]
Anonymous10
http://technet.microsoft.com/tr-tr/library/ms175595(SQL.100).aspx,
“Microsoft Data Mining Algorithms” [Ziyaret Tarihi: 12/03/2013]
Anonymous11 http://www.eecs.wsu.edu [Ziyaret Tarihi: 05/07/2013]
Anonymous12 http://www.jiad.org [Ziyaret Tarihi: 05/07/2013]
Anonymous13 http://www.mypivots.com [Ziyaret Tarihi: 05/07/2013]
108
Anonymous14
http://epp.eurostat.ec.europa.eu/cache/
lmhu_m_esms.htm [Ziyaret Tarihi: 05/07/2013]
ITY_SDDS/
EN/
Anonymous2
http://citeseerx.ist.psu.edu/
viewdoc/download?doi=10.1.1.58.5784
&rep=rep1&type=pdf [Ziyaret Tarihi: 18/03/2013]
Anonymous3 http://commons.wikimedia.org [Ziyaret Tarihi: 05/07/2013]
Anonymous4 http://compbio.pbworks.com [Ziyaret Tarihi: 05/07/2013]
Anonymous5 http://dali.feld.cvut.cz [Ziyaret Tarihi: 05/07/2013]
Anonymous6 http://motherboard.vice.com [Ziyaret Tarihi: 05/07/2013]
Anonymous8 http://sailing.cs.cmu.edu [Ziyaret Tarihi: 05/07/2013]
Anonymous9 http://support.sas.com [Ziyaret Tarihi: 05/07/2013]
Antonie, M. L., Zaine, O. and Coman, A., 2001, “Application of data Mining
Techniques for Medical Image Classification”, Proceedings of the 2nd Int’l Workshop
on Multimedia Data Mining, USA, p. 94-101
Atılgan, D., 2009, “Bilgi yönetimi kavramı ve gelişimi” . Türk Kütüphaneciliği. Cilt
23, Sayı 1, s. 201-212
Atılgan, E., 2011, “Karayollarında meydana gelen trafik kazalarının karar ağaçları ve
birliktelik kuralı ile analiz edilmesi”, Yüksek Lisans Tezi (Yayımlanmamış)
Ayad, A. M., 2000, “A New Algorithm for Incremental Mining of Constrained
Association Rules”, MS Thesis, Alexandria University (unpublished)
Babadağ, K. K., 2006, “Veri Madenciliği Yaklaşımı ve Veri Kalitesinin Artması için
Kullanılması”, 15. İstatistik Araştırma Sempozyumu Bildiriler Kitabı, s. 85-87
Bath, A. P., 2004, “Data Mining in Health and Medical Information”, Annual Review of
Information and Technology, Vol. 38, p. 331-369
Bayardo, R. and Agrawal, R., 1999, “Mining the Most Interesting Rules”, Proceedings
of SIGMOD Int’l Conference on Knwledge Discovery and Data Mining, p. 145-154
Benoit, G., 2002, “Data Mining”, Annual Review of Information and Technology, Vol.
36, p. 265-310
Berardi, M., Appice, A., Loglisci, C. and Leo, P., 2006, “Supporting Visual
Exploration of Discovered Association Rules through Multi-Dimensional Scaling”,
Lecture Notes in Computer Sciences, Vol. 4203, p. 369-378
Bertsimas, D. et al, 2008, “Algrithmic Prediction of Health Care Costs”, Operation
Research, Vol. 56, p. 1382-1392
109
Biçen, P. ve Fırat, Ü. O., 2003, “Veri Madenciliği Tekniklerini Kullanarak Banka
Müşterileri Bölümlendirmesi ve Kredi Skorlama Modeli”, İstatistik Araştırma Dergisi,
Cilt 2, sayı 2, s. 135-150
Birant, D. ve ark., 2010, “İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları
Analizi”, http://ab.org.tr/ab10/bildiri/112.pdf [Ziyaret Tarihi: 07/03/2012]
Bramer, M., 2007, “Principles of Data Mining”, Springer-Verlag Publ., London
Brossette, S. et al , 1998, “Association Rules and Data Mining in Hospital Infection
Control and Public Health Surveillance”, Journal of American Medical Informatics
Association, Vol. 5, p. 373-381
Bruzzese, D. and Davino. C., 2008, “Visual Mining of Association Rules”, Visual data
Mining, Vol. 4404, p. 103-122
Cespivova, H., Rauch, J., Svatek. V., Kejkula M. and Tomeckova, M., 2004,
In Knowledge Discovery and Ontologies (KDO) at ECML/PKDD
Chen, M.S., Han. J. and Yu P.S., 1996, “Data Mining: An Overwiev from Database
Perspective”, IEEE Transactions on Knowledge and Data Engineering, Vol. 8, p. 866883
Creighton, C. and Hanash, S., 2002, “Mining Gene Expression Databases for
Association Rules”, Bioinformatics, Vol. 19, p. 79-86
Çınar, H. ve Arslan, G., 2008, “Veri Madenciliği ve CRISP-DM Yaklaşımı”, 17.
İstatistik Araştırma Sempozyumu Bildiriler Kitabı, s. 304-314
Çıngı, H., 2007, “Veri Madenciliğine Giriş”, Ders notları, s. 1-35,
http://yunus.hacettepe.edu.tr/~hcingi/ist376a/6Bolum.doc [Ziyaret tarihi: 08/04/2013]
Dinçer, E. ve Duru, N., 2007, “Gırtlak Kanseri Ameliyat Verilerinin K-means
Yöntemiyle Analizi”, INISTA (International Symposium on Inovations in Intelligent
Systems and Applications) Sempozyumu, Türkiye
Doğan, Ş. ve Türkoğlu, İ., 2008, “Diagnosing Hyperlipidemia using Association Rules”,
Mathematical and Computational Applications, Vol. 13, p. 193-202
Edelstein, H. A., 1999, “Introduction to Data Mining and Knowledge Technology”, Two
Crows Corporation, USA, p. 1-36
Emel, G., Taşkın, Ç., 2002, “Genetik Algoritmalar ve Uygulama Alanları”, Uludağ
Üniversitesi İİBF Dergisi, Cilt XXI, Sayı 1, s. 129-152
Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P., 1996, From Data Mining to
Knowledge Discovery: An Overview. In Advances in Knowledge Discovery and Data
Mining, AI Magazine, Vol. 17, p. 37-54
110
Flank,
A.,
2004,
“Multirelational
Association
Rule
Mining”,
http://pdf.aminer.org/000/303/250/many_sorted_observational_calculi_for_multi_relati
onal_data_mining.pdf [Ziyaret Tarihi: 08/04/2013]
Friedman, J., 2012, “Veri madenciliği ve İstatistik: Aradaki bağlantı nedir?” n’den N’ye
GEZİNTİ İstatistik Dergisi, Kasım-Aralık 2012, Sayı 9, s.24-33
Gupta, A., Kumar, N. and Bhatnagar. V., 2005, “Analysis of Medical Data using Dta
Mining and Formal Concept Analysis”, World Academy of Sciences, Engineering and
Technology, Vol. 11, p. 61-64
Güllüoğlu, S. S., 2011, “Tıp ve Sağlık Hizmetlerinde Veri Madenciliği Çalışmaları:
Kanser Teşhisine Yönelik Bir Ön Çalışma”, Online Academic Journal of Information
Technology, Online Academic Journal of Information Technology, Vol. 2, Num. 5, 1-7
Güvenen, O., 2011, “ İstatistik Bilimi, Etik, Dünya Dinamikleri, Bilgi Tahrifatı ve Karar
Sistemlerine Etkileri”, TÜİK İstatistik Araştırma Dergisi, Sayı 2, s. 1-12
Hahsler, M, Grün, B. and Hornik, K., 2005, “A Computational Environment for Mining
Association Rules and Frequent Item Sets”, Journal of Statistical Software, Vol. 14, p.
1-25
Han, J. and Kamber, M., 2006, “Data Mining: Concepts and Techniques”, Morgan
Kaufmann Publishers, Chapter 5-6
Hashler, M., Hornik, K. and Reutterer, T., 2005, “Implications of Probabilistic Data
Modeling for Mining Associations Rules”, Proceedings of the 29th Annual Conference
of Data Analysis and Knowledge, Germany, Springer-Verlag Pub., p.1-9
Hoaglin, D. C., Mosteller, F. ve Tukey, J. W.,(1983), “Understanding Robust and
Exploratory Data Analysis”, Wiley, New York, USA
Hu, R., 2010, “Medical Data Mining based on Asociation Rules”, Computer and
Information Science, vol. 3, p. 104-108
Huber, P. J., 1981, Robust Statistics. New York: John Wiley and Sons
Imberman S.P., Domanski, B. and Thompson H.W., 2002, “Using
Dependency/Association Rules to Find Indications for Computed Tomographing a Head
Trauma Dataset”, Artificial Intelligence in Medicine, Vol, 26, p. 55-68
Jabbar, M.A., Chandra, P. and Deekshatulu, B.L., 2011, “Cluster Based Association
Rule Mining for Heart Attack Prediction”, Journal of Theoritical and Applied
Information Technology, Vol. 32, p. 196-201
Karaağaoğlu, E., 2012, “Veri Mdenciliği ve Yeni Nesil Yöntemleri”, n’den N’ye
Gezinti İstatistik Dergisi, Sayı 9, s. 34-38
111
Kaya, E., Bulun, M. ve Arslan, A., 2010, “Tıpta Veri Ambarları Oluşturma ve Veri
Madenciliği Uygulamaları”, http://ab.org.tr/ab03/tammetin/96.doc [Ziyaret Tarihi:
12/09/2012]
Kotsiantis, S. and Kanellopoulos, D., 2006, “Association Rules Mining: A Recent
Overwiev”, GESTS Int’l Transactions on Computer Science and Engineering, Vol. 32,
p. 71-82
Küçüksille, E. U., 2010, “Veri Madenciliği ve Uygulama Programları”, Veri Tabanı
Yönetim Sistemleri Ders Notları,
“ab.org.tr/ab06/ozet/61.html” [Ziyaret Tarihi:
08/04/2013]
Kwasnicka, H. and Switalski, K., 2005, “Discovery of Association Rules from Medical
Data- Classical Evolutionary Approaches”, Proceedings of 21st Autumn Meeting of
Polish Information Processing Society, p. 163-177
Larose, D. T., 2005, “Discovering Knowledge in Data- An Introduction to Data
Mining”, John Wiley & Sons Inc., p. 30-36, USA
Mahmoodian, H., Abdulrahim, R., Rosli, R. and Saripan, I., 2011, “Using Fuzzy
Association Rule Mining in Cancer Classification”, Australas Phys. Eng. Science Med.,
Vol. 34, p. 41-54
Mehta, M., Agrawal, R., Rissanen, J., 1996, “SLIQ: A Fast Scalable classifier for data
mining”, Lecture Notes in Computer Science, Vol. 1057, p. 18-32
Michie, D., Spiegelhalter, D. J. and Taylor, C.C., 1994, “Machine Learning, Neural and
Statistical
Classification”,
Ch.
10,
http://www1.maths.leeds.ac.uk/~charles/statlog/whole.pdf [Ziyaret Tarihi: 08/04/2013]
Mitchell, M., 1999, “An Introduction to Genetic Algorithm”, The MIT Press, England,
ISBN 0−262−13316−4 (HB), 0−262−63185−7 (PB)
Nahar, J., Tickle, K., Shawkat, A. and Chen, Y.P., 2009, “Significant cancer Prevention
Factor Extarction: An Association Rule Discovery Approach”, J Med Syst, Vol. 35, p.
353-367
Obenshain, M.K., 2004, “Application of Data Mining techniques to Healthcare Data”,
Infection Control and Hospital Epidemiology, Vol. 25, No. 8, p. 690-695
Olmuş, H. ve Erbaş, S. O., 2003, “Bayes Ağlarda Koşullu Bağımsızlıkların İncelenmesi
üzerine bir Çalışma”, TÜİK İstatistik Araştırma Dergisi, Cilt 2, Sayı 1, s. 89-103
Ordonez , C., Santana, C. and Braal, L., 2000, “Discovering Interesting Association
Rules in Medical Data”, Proceedings ACM SIGMOD Workshop on Research Issues on
Data Mining and Knowledge Discovery, p. 1-8
Ordonez, C., 2006, “Comparing Association Rules and Decision Trees for Disease
Prediction”, Proceedings of Healthcare Information and Knowledge Management,
USA, p. 17-24
112
Orlando, E.S., Zurrida, S. (2005), “Breast Cancer: A Practical Guide”, Elsevier Limited
Publications, Oxford, United Kingdom, p. 13-95
Örs, E. T., Bozer, R. ve Koçak, B., 2010, “Paralel Veri Madenciliği”,
http://byildiz.etu.edu.tr/bil533/sunumlar/pvmaden_1.ppt [Ziyaret Tarihi: 12/09/2012]
Özçakır, F. C. ve Çamurcu, A. Y., 2007, “Birliktelik Kuralı Yöntemi için bir Veri
Madenciliği Yazılımı Tasarımı ve Uygulaması”, İstanbul Ticaret Üniversitesi Fen
Bilimleri Dergisi, Sayı 12, s. 21-37
Özekes, S., 2003, “Veri Madenciliği Modelleri ve Uygulama Alanları”, İstanbul Ticaret
Üniversitesi Dergisi, Cilt 2, sayı 3, s. 65-82
Rahman, R. and Hasan, F.R., 2011, “Using and Comparing Different Decision Tree
Classification Techniques for Mining, Hospital Surveillance Data”, Expert Systems with
Applications, Vol. 38, p. 11421-11436
Ramaswamy, S., Mahajan, S. and Silberschatz, A., 1998, “On the Discovery of
Interesting Patterns in Association Rules”, Proceedings of the 24th Very Large Data
Bases Conference, USA, Morgan Kaufmann Publishers Inc., p. 368-379
Rosset, S., Perlich, C., Swirszcz, G., Melville, P. and Liu, Y., 2010, “Medical Data
Mining: Insights from Winning Two Competitions”, Data Mining & Knowledge
Discovery, Vol. 20, p. 439-468
Sarawagi, S., Thomas, S., and Agrawal, R., 2000, “Integrating Association Rule Mining
with relational Database Systems: Alternatives and Implications”, Data Mining and
Knowledge Discovery, Vol. 4, p. 89-125
Sever, H. ve Oğuz, B., 2003, “Veri Tabanlarında Bilgi Keşfine Formel Bir Yaklaşım:
Kısım II-Eşleştirme sorgularının Biçimsel Kavram Analizi ile Modellenmesi”, Bilgi
Dünyası, Sayı 4, s. 15-44
Silahtaroğlu, G., 2008, “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”, Papatya
Yayıncılık, İstanbul, s. 83-98
Simovici, D.A., 2004, “Data Mining of Medical data: Opportunities and Challenges in
Mining Association Rules”, http://www.cs.umb.edu/~dsim/papersps/dmmd.pdf [Ziyaret
Tarihi: 23/10/2012]
Smith, M.R., Wang, X. and Rangayyan, R.M., 2009, “Evaluation of the Sensitivity of a
Medical Data-mining Application to the Number of Elements in small Databases”,
Biomedical Signal Processing and Control, Vol. 4, p. 262-268
Smyth, P., Goodman, R., 1992, “An information theoretic approach to rule induction
from databases”, IEEE Trans. On Knowledge and Data Engg., Vol. 4(4), p.652-669
Srikant, R. and Agrawal, R., 1995,”Mining Generalized Association Rules”,
Proceedings of the 21st VLDB Conference, Switzerland
113
Srikant, R. and Agrawal, R., 1996, “Mining Quantiative Association Rules in Large
Relational Tables”, SIGMOD Report on Management of Data, Vol. 25, p. 1-12
Srinivas, K., Rao, G.R. and Govardhan, A., 2012, “Mining Association Rules from
Large Datasets towards Disease Prediction”, Proceedings of Int’l Conf. On Information
and Computer Networks, Vol. 27, p. 22-26
Stolba, N. and Tjoa, M., 2005, “The relevance of Data Warehousing and Data Mining in
the Field of Evidence-based Medicine to Support Healthcare Decision Making”, World
Academiy of Science, Engineering and Technology, Vol. 11, p. 192-197
Suner, A. ve Çelikoğlu, C. C., 2010, “Toplum Tabanlı Bir Çalışmada Çoklu Uygunluk
Analizi ve Kümeleme Analizi ile Sağlık Kurumu Seçimi”, Dokuz Eylül Üniversitesi
İİBF Dergisi, Cilt 25, Sayı 2, s. 43-55
Tekerek , A., 2011, “Veri Madenciliği Süreçleri ve Açık Kaynak Kodlu Veri
Madenciliği Araçları”, XIII. Akademik Bilişim Konferansı Bildirileri, Malatya, s. 161169
Thakur, M., Olafsson, S., Lee, J.S. and Hurburgh, C., 2010, “Data Mining for
Recognizing Patterns in Foodborne Disease Outbreaks”, Vol. 97, p. 213-227
Theodoraki, E.M., Katsarakagis, S., Koukouvinos, C. and Parpoula, C., 2010,
“Innovative Data Mining Approaches for Outcome Prediction of Trauma Patients”,
Journal of Biomedical Science and Engineering, Vol. 3, p. 791-798
Trémeaux., J. and Liu. Y., 2006, http://naku.dochrew.com/dea-ecd/Tremeaux-Liu2006.pdf [Ziyaret Tarihi: 15/08/2012]
Tseng. F.S., Kuo, Y.H. and Huang, Y.M., 2010, “Toward Boosting Distributed
Association Rule Mining by Data De-Clustering”, Informations Sciences, Vol. 180, p.
4263-4289
Tukey, J. W. (1977), Exploratory Data Analysis, Addison-Wesley, Reading, USA.
Usgurlu, B., Özcan, Ö. ve Demirörs, O., 2010, “A Clustering Based Functional
Similarity Measurement Approach”, IEEE, Conference Proceedings of 36th
EUROMICRO Conference on Software Engineering and Advanced Applications,
p.371-375
Vinnakota, S. and Lam, N.S., 2006, “Socioeconomic Inequality of Cancer Mortality in
the United States: a Spatial Data Mining Approach”, Int’l J Health Geography, Vol. 5,
No. 9, [PMC 1397822 Free Article]
Wasan, S.K., Bhatnagar, V. and Kaur, H., 2006, “The Impact of Data Mining
Techniques on Medical Diagnostics”, Data Science Journal, Vol. 5, p. 119
Yıldırım, P., Uludağ, M. ve Görür, A., 2008, “Hastane Bilgi Sistemlerinde Veri
Madenciliği”, Akademik Bilişim- Onsekiz Mart Üniversitesi Çanakkale, s. 429-434
114
Zhang, C., Zhang, S., 2002, “Association Rule Mining: Models and Algorithms”,
Springer-Verlag Publ., Ch. 3, p. 41-82, Berlin
115
EKLER
EK-1 Uygun bir başlık buraya yazılmalıdır.
EK-2 Uygun bir başlık buraya yazılmalıdır.
116
6. ÖZGEÇMİŞ
KİŞİSEL BİLGİLER
Adı Soyadı
Uyruğu
Doğum Yeri ve Tarihi
Telefon
Faks
e-mail
:
:
:
:
:
:
Adnan KARAİBRAHİMOĞLU
TC
Adana, 30.08.1970
+90 535 394 39 80
[email protected]
EĞİTİM
Derece
Lise
:
Üniversite
:
Yüksek Lisans :
Doktora
:
Adı, İlçe, İl
Adana Erkek Lisesi, Seyhan, Adana
ODTÜ, Çankaya, Ankara
Çukurova Üniversitesi, Sarıçam, Adana
Selçuk Üniversitesi, Selçuklu, Konya
Bitirme Yılı
1987
1992
2007
2014
İŞ DENEYİMLERİ
Yıl
1996-2004
2004-2013
2013- --
Kurum
MEB
TÜİK
Necmettin Erbakan Üniversitesi
Görevi
Öğretmen
Takım Sorumlusu
Uzman
UZMANLIK ALANI
Matematik, İstatistik, Biyoistatistik
YABANCI DİLLER
İngilizce, Almanca, Arapça, Farsça
BELİRTMEK İSTEĞİNİZ DİĞER ÖZELLİKLER
SPSS, Modeller, MS Office
YAYINLAR
1. Karaibrahimoğlu A. ve Erol H., Türkiye ve Adana Enflasyon Değerlerinin
Karşılaştırılması (2008), Ç.Ü. Fen Bilimleri Dergisi, 17(5), 1-6 (Yüksek Lisans
Tezinden yapılmıştır)
2. Talaş, E., Çelik, A.K., Çakmak, F., Kocacan, A, Karaibrahimoğlu, A.,
“Relative Efficiency Measurement of Enterprises Operating in the Oltu Stone
Industry Using Data Envelopment Analysis”, International Journal of Business
and Management; 2013, 8-6
117
3. Karaibrahimoğlu, A., Genç, A, “APRIORI Algoritması ile Meme Kanseri
Verisinde Kural Çıkarma”, Selçuk Tıp Dergisi, 2014, 30-2 (Doktora Tezinden
yapılmıştır)
4. Oltulu R, Karaibrahimoğlu A, “Intraoperative Corneal Thickness Monitoring
During Corneal Collagen Cross-Linking With Isotonic Riboflavin”, 2014, The
Journal of Cornea and external Diseases (In press)
5. Y. Asar, A. Karaibrahimoğlu and A. Genç, Modified Ridge Regression
Parameters: A Comparative Monte Carlo Study, Hacettepe Journal of
Mathematics and Statistics, Vol. 43, 2014 (In Press)
6. İnan İ, Gündeslioğlu Ö, Karaibrahimoğlu A, “CLEFT LIP NOSE
CORRECTION COMBINING OPEN RHINOPLASTY WITH THE DIBBEL
TECHNIQUE”, Journal Of Cranofacial Surgery, 2014 (In Press)

tc selçuk üniversitesi fen bilimleri enstitüsü veri madenciliğinden

Related documents

Products

Support

tc selçuk üniversitesi fen bilimleri enstitüsü veri madenciliğinden

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib