veri tabanlarında bilgi keşfi veri madenciliği

advertisement
/. U. işletme Fakültesi Dergisi, C:29, S: I'/Nisan 2000, s: 1-22
VERİ TABANLARINDA BİLGİ KEŞFİ
ve
VERİ MADENCİLİĞİ
Prof. D r . Haldun A K P I N A R
İ.Ü. İşletme Fakültesi
E l h<[email protected]ıı.tr
www.isletme.istanbul.edu.tr/akpinar
1. Giriş
Günümüz modern insanının her alışverişinde, her bankacılık işleminde, her
telefon edişinde kaydedilen, uzaktan algılayıcılardan, uydulardan toplanan,
devlet ve işletme yönetiminde yapılan işlemler sonucunda saklanan .veriler
her an inanılmaz boyutlarda artmaktadır. Sadece uydu ve diğer uzay
araçlarından elde edilen görüntülerin saatte 50 gigabyte düzeyinde olması,
bu artışın boyutlarını daha açık bir şekilde göstermektedir.
1995 yılında birincisi düzenlenen Knowledge Discovery in Databases
konferansı
bildiri kitabı sunuşunda, enformasyon
teknolojilerinin
oluşturduğu veri dağları aşağıdaki cümleler ile vurgulanmaktadır,[22]
"Dünyadaki enformasyon miktarının her 20 ayda bir ikiye
katlandığı tahmin edilmektedir. Bu ham veri seli ile ne
yapmamız gerekmektedir ? İnsan gözleri bunun ancak çok
küçük bir kısmını görebilecektir. Bilgisayarlar bilgelik pınarı
olmayı vaat etmekte, ancak veri sellerine neden olmaktadır. "
Dünyadaki en büyük işletme veri tabanlarının belirlenmesi amacı ile Winter
Corporation tarafından yapılan bir araştırmada, Sears, Roebuck and Co.'nun
sadece karar destek amaçlı kullanılan veri tabanının 1998 yılında 4630
gigabyte'di eriştiği görülmektedir. [29]
2
Veri tabanı sistemlerinin artan kullanımı ve hacimlerindeki bu olağanüstü
artış, organizasyonları elde toplanan bu verilerden nasıl faydalanılabileceği
problemi ile karşı karşıya bırakmıştır. Geleneksel sorgu (Query) veya
raporlama araçlarının veri yığınları karşısında yetersiz kalması, Veri
Tabanlarında Bilgi Keşfi-VTBK (Knowledge Discovery in Databases) adı
altında, sürekli ve yeni arayışlara neden olmaktadır. Şekil 1 de görülen
VTBK. süreci içerisinde, modelin kurulması ve değerlendirilmesi
aşamalarından meydana gelen Veri Madenciliği (Data Mining) en önemli
kesimi oluşturmaktadır. Bu önem, bir çok araştırmacı tarafından VTBK ile
veri madenciliği terimlerinin eş anlamlı olarak da kullanılmasına neden
olmaktadır.
Şekil 1 de görüldüğü gibi çeşitli veri kaynaklarından verilerin toplanması ile
başlayan VTBK süreci, toplanan verilerin analiz için uygun hale getirilmesi
aşaması ile devam etmektedir. Ancak veri ambarına (Data Warehouse) sahip
olan kuruluşlarda, gerekli verilerin Data Mart olarak isimlendirilen İşleve
özel veri tabanlarına aktarılması ile doğrudan veri madenciliği işlemlerine
başlanabilmesi de mümkündür.
Konunun önde gelen uzmanlarından Piatetsky-Shapiro veri madenciliğini,
verilerden daha önceden bilinmeyen, zımnî, muhtemelen faydalı
enformasyonun monoton olmayan bir süreçte çıkartılması işlemi olarak
tanımlamaktadır. Bu süreç kümeleme (Clustering), veri özetleme {Data
Summarization), sınıflama kurallarının (Ciassifıcation Rules) Öğrenilmesi,
bağımlılık ağlarının (Dependency Networks) bulunması, değişikliklerin
analizi (Anaîysing Changes) ve anomali tespiti (Detecting Anonıaly) gibi
farklı bir çok teknik yaklaşımı kapsam aktadır. [6]
Gartner Group tarafından yapılan bir diğer tanımda ise veri madenciliği,
istatistik ve matematik tekniklerle birlikte örüntü
tanıma (Pattern
Recognition) teknolojilerini kullanarak, depolama ortamlarında saklanmış
bulunan veri yığınlarının elenmesi ile anlamlı yeni korelasyon, örüntü ve
eğilimlerin keşfedilmesi sürecidir. [19]
1
Aimanca'da Muster veya Ftâchenmuster, Fransızca'da Image, Figüre, Mosaigue
kelimelerinin kullanıldığı örüntü kelimesi, belirli, ancak bilinmeyen bir sınıfta yer
alan nesne veya olayları tanımlamaktadır. Bir görüntünün daha sonra bilgisayar
tarafından algılanabilmesi için, bu görüntü sınıfına ait olan görüntü örnekleri
(Örneğin A karakterinin değişik yazılışları), ses örnekleri örüntü olarak
isimlendirilmektedir.
4
Örüntü tanıma/ve sınıflama problemleri üzerinde yoğunlaşan yapay zeka ve
istatistik disiplin] er hıdek i gelişmeler veri madenciliğinin temellerini
oluşturmaktadır. Ayrıca veri madenciliği, yapay zeka çalışmalarının uzantısı
olan makina öğrenimi (Machine Learning) ve uzman sistemlerin (Expert
Systems) yanı sıra, veri tabanları, optimizasyon, görse 11 eştirme
(Visualization), yüksek performanslı paralel işlemciler (Massively Parallel
Processing - MPP- ve Symmetric Multiprocessing
-SMP-) gibi çeşitli
disiplin ve teknolojilerdeki gelişmelerden de etkilenmektedir.
META Group.tarafından yapılan bir araştırmanın sonuçlarına göre A.B.D'de
veri madenciliği pazar hacminin 1999 yılında 300 Milyon, 2000 yılında ise
800 Milyon Amerikan Dolan'na erişeceği tahmin edilmektedir.
Veri madenciliği astronomi, biyoloji, finans, pazarlama, sigorta, tıp ve bir
çok başka dalda uygulanmaktadır. Son 20 yıldır Amerika Birleşik
Devletleri'nde çeşitli veri madenciliği algoritmalarının gizli dinlemeden,
vergi kaçakçılıklarının ortaya çıkartılmasına kadar çeşitli uygulamalarda
kullanıldığı bilinmektedir. [6]
Bununla birlikte günümüzde veri madenciliği teknikleri özellikle
işletmelerde çeşitli alanlarda başarı ile kullanılmaktadır. Bu uygulamaların
başlıcaları ilgili alanlara göre aşağıda özetlenmiştir. [9]
Pazarlama
•
»
•
•
•
•
•
•
Müşterilerin satın alma örüntülerinin belirlenmesi,
Müşterilerin demografik özellikleri arasındaki bağlantıların bulunması,
Posta kampanyalarında cevap verme oranının artırılması,
Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması,
Pazar sepeti analizi (Market Basket Analysis)
Müşteri ilişkileri yönetimi (Customer Relationship Management)
Müşteri değerlendirme (Customer Vaiue Analysis)
Satış tahmini (Sales Forecasting).
Bankacılık
«
•
•
•
Farklı fınansal göstergeler arasında gizli korelasyonların bulunması,
Kredi kartı dolandırıcılıklarının tespiti,
Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi,
Kredi taleplerinin değerlendirilmesi.
5
Sigortacılık
• Yeni poliçe talep edecek müşterilerin tahmin edilmesi,
o Sigorta dolandırıcılıklarının tespiti,
• Riskli müşteri örüntülerinîn belirlenmesi.
2. V e r i Madenciliği Modelleri
Verİ madenciliğinde kullanılan modeller, tahmin edici (Predictive) ve
tanımlayıcı (Descriptive) olmak üzere iki ana başlık altında incelenmektedir.
Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir
model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları
bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi
amaçlanmaktadır. Örneğin bir banka önceki dönemlerde vermiş olduğu
kredilere ilişkin gerekli tüm verilere sahip olabilir. Bu verilerde bağımsız
değişkenler kredi alan müşterinin özellikleri, bağımlı değişken değeri ise
kredinin geri ödenip ödenmediğidir. Bu verilere uygun olarak kurulan model,
daha sonraki kredi taleplerinde müşteri özelliklerine göre verilecek olan
kredinin geri ödenip ödenmeyeceğinin tahmininde kullanılmaktadır.
Tanımlayıcı modellerde ise karar vermeye rehberlik etmede kullanılabilecek
mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır. X/Y aralığında
geliri ve iki veya daha fazla arabası olan çocuklu aileler ile, çocuğu olmayan
ve geliri X/Y aralığından düşük olan ailelerin satın alma örüntülerinin
birbirlerine benzerlik gösterdiğinin belirlenmesi tanımlayıcı modellere bir
örnektir.
Veri madenciliği modellerini gördükleri işlevlere göre,
•
•
•
Sınıflama (Classificatiori) ve Regresyon (Regression),
Kümeleme (Clustering),
Birliktelik Kuralları (Association Rules) ve Ardışık
Örüntüler (Sequentiai Patterns),
Zamanlı
olmak üzere üç ana başlık altında incelemek mümkündür. Sınıflama ve
regresyon modelleri tahmin edici, kümeleme, birliktelik kuralları ve ardışık
zamanlı Örüntü modelleri tanımlayıcı modellerdir.
6
2.1. Sıneflama ve Regresyon Modelleri
Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan
ve veri madenciliği teknikleri içerisinde en yaygın kullanıma sahip olaa
sınıflama ve regresyon modelleri arasındaki temel fark, tahmin edilen
bağımlı değişkenin kategorik veya süreklilik gösteren bir değere sahip
olmasıdır. Ancak çok terimli lojistik regresyon (multinomial logistic
regression) gibi kategorik değerlerin de tahmin edilmesine olanak sağlayan
tekniklerle, her iki model giderek birbirine yaklaşmakta ve bunun bir sonucu
olarak aynı tekniklerden yararlanılması mümkün olmaktadır. Sınıflama ve
regresyon modellerinde kullanılan başlıca teknikler,
•
•
•
•
•
•
•
Karar Ağaçları (Decision Trees),
Yapay Sinir Ağları (Artifıcial Neural Networks),
Genetik Algoritmalar (Genetic Algorithms),
K-En Yakın Komşu (K-Nearest Neighbor),
Bellek Temelli Nedenleme (Memory Based Reasoning),
Naive-Bayes,
Lojistik Regresyondur (Logistic Regression).
2.2. Kümeleme Modelleri
Kümeleme modellerinde amaç, şekil 2 de görüldüğü gibi küme üyelerinin
birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan
kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere
bölünmesidir. Başlangıç aşamasında
veri tabanındaki kayıtların hangi
kümelere
ayrılacağı
veya
kümelemenin
hangi
değişken
özelliklerine
göre
yapılacağı
bilinmemekte, konunun uzmanı olan
bir kişi tarafından kümelerin neler
olacağı tahmin edilmektedir.
Şekil 2 : Kümeleme
7
2.3. Birliktelik Kuralları ye Ardışık Zamanlı Örüntüler
Bİr alışveriş sırasında veya birbirini izleyen alışverişlerde müşterinin hangi
mal veya hizmetleri satın almaya eğilimli olduğunun belirlenmesi, müşteriye
daha fazla ürünün satılmasını sağlama yollarından biridir. Satın alma
eğilimlerinin tanımlanmasını sağlayan birliktelik kuralları ve ardışık zamanlı
örüntüler, pazarlama amaçlı olarak pazar sepeti analizi (Market Basket
Analysis) adı altında veri madenciliğinde yaygın olarak kullanılmaktadır.
Bununla birlikte bu teknikler, tıp, flnans ve farklı olayların birbirleri ile
ilişkili olduğunun belirlenmesi sonucunda değerli bilgi kazanımımn söz
konusu olduğu ortamlarda da Önem taşımaktadır.
Birliktelik kuralları aşağıda sunulan örneklerde görüldüğü gibi eş zamanlı
olarak gerçekleşen ilişkilerin tanımlanmasında kullanılır.
Müşteriler bira satın aldığında, % 75 ihtimalle patates cipsi de
alırlar,
•
Düşük yağlı peynir ve yağsız yoğurt
ihtimalle diet süt de satın alırlar.
alan müşteriler,
%85
Ardışık zamanlı örüntüler ise aşağıda sunulan örneklerde görüldüğü gibi
birbirleri ile ilişkisi olan ancak birbirini izleyen dönemlerde gerçekleşen
ilişkilerin tanımlanmasında kullanılır.
•
X ameliyatı yapıldığında,
enfeksiyonu oluşacaktır,
15 gün içinde % 45 ihtimalle Y
•
İMKB endeksi düşerken A hisse senedinin değeri % 15 'den daha
fazla artacak olursa, üç iş günü içerisinde B hisse senedinin
değeri % 60 ihtimalle artacaktır,
•
Çekiç satın alan bir müşteri, ilk üç ay içerisinde % 15, bu
dönemi izleyen üç ay içerisinde % 10 ihtimalle çivi satın
alacaktır.
8
3. V e r i T a b a n l a r ı n d a Bilgi Keşfi Süreci
Ne kadar etkin olursa olsun hiç bir veri madenciliği algoritmasının üzerinde
inceleme yapılan işin ve verilerin özelliklerinin bilinmemesi durumunda
fayda sağlaması mümkün değildir. Bu nedenle aşağıda tanımlanan tüm
aşamalardan önce, iş ve veri Özelliklerinin öğrenilmesi / anlaşılması
başarının ilk şartı olacaktır.
Şekil 1 de ayrıntılı olarak görüldüğü gibi,
•
•
•
•
•
Problemin Tanımlanması,
Verilerin Hazırlanması,
Modelin Kurulması ve Değerlendirilmesi,
Modelin Kullanılması,
Modelin îzlemx.âsi
veri tabanlarında bilgi keşfi sürecinde izlenmesi gereken temel aşamalardır.
3.1. Problemin Tanımlanması
Veri madenciliği çalışmalarında başarılı olmanın ilk şartı, uygulamanın
hangi işletme amacı için yapılacağının açık bir şekilde tanımlanmasıdır.
İlgili işletme amacı işletme problemi üzerine odaklanmış ve açık bir dille
ifade edilmiş olmalı, elde edilecek sonuçların başarı düzeylerinin nasıl
ölçüleceği tanımlanmalıdır. Ayrıca yanlış tahminlerde katlanılacak olan
maliyetlere ve doğru tahminlerde kazanılacak faydalara ilişkin tahminlere de
bu aşamada yer verilmelidir.
3.2. Verilerin Hazırlanması
Modelin kurulması aşamasında ortaya çıkacak sorunlar, bu aşamaya sık sık
geri dönülmesine ve verilerin yeniden düzenlenmesine neden olacaktır. Bu
durum verilerin hazırlanması ve modelin kurulması aşamaları için, bir
analistin veri keşfi sürecinin toplamı içerisinde enerji ve zamanının % 50 - %
85'ini harcamasına neden olmaktadır.
Verilerin hazırlanması aşaması kendi içerisinde toplama, değer biçme,
birleştirme ve temizleme, seçme ve dönüştürme adımlarından meydana
gelmektedir.
9
3.2.1. Toplama (Collection) : Tanımlanan problem için gerekli olduğu
düşünülen verilerin ve bu verilerin toplanacağı veri kaynaklarının
belirlenmesi adımıdır. Verilerin toplanmasında kuruluşun kendi veri
kaynaklarının dışında, nüfus sayımı, hava durumu, merkez bankası kara
listesi gibi veri tabanlarından veya veri pazarlayan kuruluşların veri
tabanlarından faydalanılabilir.
3.2.2. Değer Biçme (Assessment) : Veri madenciliğinde kullanılacak
verilerin farklı kaynaklardan toplanması, doğal olarak yeri uyumsuzluklarına
neden olacaktır.
Bu uyumsuzlukların başlıcaları farktı zamanlara ait
olmaları, kodlama farklılıkları (örneğin bir veri tabanında cinsiyet özelliğinin
e/k, diğer bir veri tabanında 0/1 olarak kodlanması), farklı ölçü birimleridir.
Ayrıca verilerin nasıl, nerede ve hangi koşullar altında toplandığı da önem
taşımaktadır.
Bu nedenlerle, iyi sonuç alınacak modeller ancak iyi verilerin üzerine
kurulabileceği için, toplanan verilerin ne ölçüde uyumlu oldukları bu adımda
incelenerek değerlendirilmelidir.
3.2.3. Birleştirme ve Temizleme (Consolidation and Cleaning) : Bu adımda
farklı kaynaklardan toplanan verilerde bulunan ve bir Önceki adımda
belirlenen sorunlar mümkün olduğu ölçüde giderilerek veriler tek bir veri
tabanında toplanır. Ancak basit yöntemlerle ve baştan savma olarak
yapılacak sorun giderme işlemlerinin, ileriki aşamalarda daha büyük
sorunların kaynağı olacağı unutulmamalıdır.
3.2.4. Seçim (Selection) : Bu adımda kurulacak modele bağlı olarak veri
seçimi yapılır, örneğin talimin edici bir model için, bu adım bağımlı ve
bağımsız değişkenlerin ve modelin eğitiminde kullanılacak veri kümesinin
seçilmesi anlamını taşımaktadır.
Sıra numarası, kimlik numarası gibi anlamlı olmayan ve diğer değişkenlerin
modeldeki ağırlığının azalmasına da neden olabilecek değişkenlerin modele
girmemesi gerekmektedir. Bazı veri madenciliği algoritmaları konu ile ilgisi
olmayan bu tip değişkenleri otomatik olarak elese de, pratikte bu- işlemin
kullanılan yazılıma bırakılmaması daha akılcı olacaktır.
Verilerin göreselleştirilmesine olanak sağlayan grafik araçlar ve bunların
sunduğu ilişkiler, bağımsız değişkenlerin seçilmesinde önemli yararlar
sağlayabilir.
lö
Genellikle yanlış veri girişinden veya bir kereye özgü bir olayın
gerçekleşmesinden kaynaklanan verilerin (Outiier),^ önemli bir uyarıcı
enformasyon içerip içermediği kontrol edildikten sonra veri kümesinden
atılması tercih edilir.
Modelde kullanılan veri tabanının çok büyük olması durumunda tesadüfıliği
bozmayacak şekilde örnekleme yapılması uygun olabilir. Günümüzde
hesaplama olanakları ne kadar gelişmiş olursa olsun, çok büyük veri
tabanları üzerinde çok sayıda modelin denenmesi zaman kısıtı nedeni ile
mümkün olamamaktadır. Bu nedenle tüm veri tabanını kullanarak bir kaç
model denemek yerine, tesadüfi olarak örneklenmiş bir veri tabanı parçası
üzerinde bir çok modelin denenmesi ve bunlar arasından en güvenilir ve
güçlü modelin seçilmesi daha uygun olacaktır.
3.2.5. Dönüştürme (Transformation) : Kredi riskinin tahmini için
geliştirilen bîr modelde, borç/gelir gibi önceden hesaplanmış bir oran yerine,
ayrı ayrı borç ve gelir verilerinin kullanılması tercih edilebilir. Ayrıca
modelde kullanılan algoritma, verilerin gösteriminde Önemli rol
oynayacaktır. Örneğin bir uygulamada bir yapay sinir ağı algoritmasının
kullanılması durumunda kategorik değişken değerlerinin evet/hayır olması;
bir karar ağacı algoritmasının kullanılması durumunda ise örneğin gelir
değişken değerlerinin yüksek/orta/düşük olarak gruplanmış olması modelin
etkinliğini artıracaktır.
3.3. Modelin Kurulması ve Değerlendirilmesi
Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok
sayıda modelin kurularak denenmesi ile mümkündür. Bu nedenle veri
hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele
varılıncaya kadar yinelenen bir süreçtir.
Model kuruluş süreci denetimli (Supervised) ve denetimsiz (Unsupervised)
öğrenimin kullanıldığı modellere göre farklılık göstermektedir.
Örnekten öğrenme olarak da isimlendirilen denetimli öğrenimde, bir denetçi
tarafından ilgili sınıflar önceden belirlenen bir kritere göre ayrılarak, her
sınıf için çeşitli örnekler verilir. Sistemin amacı verilen örneklerden.hareket
ederek her bir sınıfa ilişkin özelliklerin bulunması ve bu özelliklerin kural
cümleleri ile ifade edilmesidir.
11
Öğrenme süreci tamamlandığında, tanımlanan kural cümleleri verilen yeni
örneklere uygulanır ve yeni örneklerin hangi sınıfa ait olduğu kurulan model
tarafından belirlenir.
Denetimsiz öğrenmede, kümeleme analizinde olduğu gibi ilgili örneklerin
gözlenmesi ve bu örneklerin özellikleri arasındaki benzerliklerden hareket
ederek sınıfların tanımlanması amaçlanmaktadır.
Adı
A
B
C
D
£
F
G
H
Borç
Yüksek
Düşük
Düşük
Yüksek
Düşük
Yüksek
Yüksek
Düşük
Gelir
Yüksek
Yüksek
Yüksek
Düşük
Düşük
Düşük
Yüksek
DUşUk
Evli?
Evet
Evet
Hayır
Hayır
Evet
Hayır
Evet
Evet
Uisk
iyi
İyi
Kötü
Kötü
Kötü
İyi
iyi
Kötü
Öğrenim
Kümesi
Adı Jîorç Gelir Evli ? Kİsk
A Yüksek Yüksek Hayır •>
İt Düştik Düşük Hayır •>
C Yüksek Düşük Evet 1
>*
İrsi
iiiSIHiİİili
Sınıflama
Kuralları
Şekil 3 : Denetimli Öğrenme
Denetimli öğrenimde seçilen algoritmaya uygun olarak ilgili veriler
hazırlandıktan sonra, ilk aşamada verinin bir kısmı modelin öğrenimi, diğer
kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Modelin öğrenimi
öğrenim kümesi kullanılarak gerçekleştirildikten sonra, test kümesi ile
modelin doğruluk derecesi (Accuracy) belirlenir.
Bir modelin doğruluğunun test edilmesinde kullanılan en basit yöntem basit
geçerlilik (Simple Validation) testidir. Bu yöntemde tipik olarak verilerin %
5 ile % 33 arasındaki bir kısmı test verileri olarak ayrılır ve kalan kısım
üzerinde modelin öğrenimi gerçekleştirildikten sonra, bu veriler üzerinde test
işlemi yapılır. Bir sınıflama modelinde yanlış olarak sınıflanan olay sayısının,
tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay
sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı hesaplanır.
(Doğruluk Oranı = 1 - Hata Oranı)
12
Sınırlı miktarda veriye sahip olunulması durumunda, kullanılabilecek diğer
bir yöntem çapraz geçerlilik (Cross Vaîidation) testidir. Bu yöntemde veri
kümesi tesadüfi olarak iki eşit parçaya ayrılır. İlk aşamada a parçası üzerinde
model eğitimi ve b parçası üzerinde test işlemi; ikinci aşamada ise b parçası
üzerinde model eğitimi ve a parçası üzerinde test işlemi yapılarak elde edilen
hata oranlarının ortalaması kullanılır.
Bir kaç bin veya daha az satırdan meydana gelen küçük veri tabanlarında,
verilerin n gruba ayrıldığı n katlı çapraz geçerlilik (N-Fold Cross Vaîidation)
testi tercih edilebilir. Verilerin örneğin 10 gruba ayrıldığı bu yöntemde, ilk
aşamada birinci grup test, diğer gruplar öğrenim için kullanılır. Bu süreç her
defasında bir grubun test, diğer grupların öğrenim amaçlı kullanılması ile
sürdürülür. Sonuçta elde edilen on hata oranının ortalaması, kurulan modelin
tahmini hata oranı olacaktır.
Bootstrapping küçük veri kümeleri İçin modelin hata düzeyinin tahmininde
kullanılan bir başka tekniktir. Çapraz geçerlilikte olduğu gibi model bütün
veri kümesi üzerine kurulur. Daha sonra en az 200, bazen binin üzerinde
olmak üzere çok fazla sayıda öğrenim kümesi tekrarlı örneklemelerle veri
kümesinden oluşturularak hata oranı hesaplanır.
Model kuruluşu çalışmalarının sonucuna bağlı olarak, aynı teknikle farklı
parametrelerin kullanıldığı veya başka algoritma ve araçların denendiği
değişik modeller kurulabilir. Model kuruluş çalışmalarına başlamazdan önce,
imkansız olmasa da hangi tekniğin en uygun olduğuna karar verebilmek
güçtür. Bu nedenle farklı modeller kurarak, doğruluk derecelerine göre en
uygun modeli bulmak üzere sayısız deneme yapılmasında yarar
bulunmaktadır.
Özellikle sınıflama problemleri için kurulan modellerin doğruluk
derecelerinin değerlendirilmesinde basit ancak faydalı bir araç olan risk
matrisi kullanılmaktadır. Aşağıda bir örneği görülen bu matriste sütunlarda
fıiü, satırlarda ise tahmini sınıflama değerleri yer almaktadır. Örneğin fitlen
B sınıfına ait olması gereken 46 elemanın, kurulan model tarafından 2'sinin
A, 38'inin B, 6'smın ise C olarak sınıflandırıldığı matrisde kolayca
görülebilmektedir.
13
Tahmini
A Sıntfi
B Sınıfı
C Sınıfı
A Sınıfı
45
10
4
Fiili
R Sınıfı
2
38
6
C Sınıfı
3
2
40
Önemli diğer bir değerlendirme kriteri modelin anlaşılabilirliğidir. Bazı
uygulamalarda doğruluk oranlarındaki küçük artışlar çok önemli olsa da, bir
çok işletme uygulamasında ilgili kararın niçin verildiğinin yorumlanabilmesi
çok daha büyük önem taşıyabilir. Çok ender olarak yorumlanamayacak
kadar karmaşıkiaşsalar da, genel olarak karar ağacı ve kural temelli sistemler
model tahmininin altında yatan nedenleri çok iyi ortaya koyabilmektedir.
Kaldıraç (Lifi) oranı ve grafiği, bir modelin sağladığı faydanın
değerlendirilmesinde kullanılan önemli bir yardımcıdır. Örneğin kredi
kartını muhtemelen iade edecek müşterilerin belirlenmesi amacını taşıyan bir
uygulamada, kullanılan modelin belirlediği 100 kişinin 35'i gerçekten bir
süre sonra kredi kartını iade ediyorsa ve tesadüfi olarak seçilen 100
müşterinin aynı zaman diliminde sadece 5'i kredi kartım iade ediyorsa
kaldıraç oranı 7 olarak bulunacaktır.
Kurulan modelin değerinin belirlenmesinde kullanılan diğer bir ölçü, model
tarafından önerilen uygulamadan elde edilecek kazancın bu uygulamanın
gerçekleştirilmesi çin katlanılacak maliyete bölünmesi ile edilecek olan
yatırımın geri dönüş (Return On Investment) oranıdır.
Kurulan modelin doğruluk derecesi ne denli yüksek olursa olsun, gerçek
dünyayı tam anlamı ile modellediğini garanti edebilmek mümkün değildir.
Yapılan testler sonucunda geçerli bir modelin doğru olmamasındaki başlıca
nedenler, model kuruluşunda kabul edilen varsayımlar ve modelde kullanılan
verilerin doğru olmamasıdır. Örneğin modelin kurulması sırasında
varsayılan enflasyon oranının zaman içerisinde değişmesi, bireyin satın alma
davranışını belirgin olarak etkileyecektir.
3.4. Modelin Kullanılması
Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği
gibi, bir başka uygulamanın alt parçası olarak kullanılabilir, Kurulan
modeller risk analizi, kredi değerlendirme, dolandırıcılık tespiti gibi işletme
uygulamalarında doğrudan kullanılabileceği gibi, promosyon planlaması
14
simülasyonuna entegre edilebilir veya tahmin edilen envanter düzeyleri
yeniden sipariş noktasının altına düştüğünde, otomatik olarak sipariş
verilmesini sağlayacak bir uygulamanın içine gömülebilir.
3.5. Modelin İzlenmesi
Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri
verilerde ortaya çıkan değişiklikler, kurulan modellerin sürekli olarak
izlenmesini ve gerekiyorsa yeniden düzenlenmesini gerektirecektir. Tahmin
edilen ve gözlenen değişkenler arasındaki farklılığı gösteren grafikler model
sonuçlarının izlenmesinde kullanılan yararlı bir yöntemdir.
4. K a r a r A ğ a ç l a n
Tahmin edici ve tanımlayıcı özelliklere sahip olan karar ağaçları, veri
madenciliğinde
• Kuruluşlarının ucuz olması,
• Yorumlanmalarının kolay olması,
• Veri tabanı sistemleri ile kolayca entegre edilebilmeleri,
• Güvenilirliklerinin daha iyi olması
nedenleri ile sınıflama modelleri içerisinde en yaygın kullanıma sahiptir.
Karar ağacı temelli analizlerin yaygın olarak kullanıldığı sahalar, [13]
• Belirli bir sınıfın muhtemel üyesi olacak elemanların belirlenmesi
(Segmentation),
• Çeşitli vakaların yüksek, orta, düşük risk grupları gibi çeşitli
kategorilere ayrılması (Stratifıcation),
• Gelecekteki olayların tahmin edilebilmesi İçin kurallar oluşturulması,
• Parametrik modellerin kurulmasında kullanılmak üzere çok
miktardaki değişken ve veri kümesinden faydalı olacakların seçilmesi,
• Sadece belirli alt gruplara özgü olan ilişkilerin tanımlanması,
• Kategorilerin birleştirilmesi
dönüştürülmesidir.
ve
sürekli
değişkenlerin
kesikliye
15
Karar ağacı temelli tipik uygulamalar ise, [13]
Hangi demografik grupların mektupla yapılan
uygulamalarında yüksek cevaplama oranına sahip
belirlenmesi (Direct Mail),
pazarlama
olduğunun
•
Bireylerin kredi geçmişlerini kullanarak kredi kararlarının verilmesi
(Credit Scoring),
•
Geçmişte İşletmeye en faydalı olan bireylerin
kullanarak işe alma süreçlerinin belirlenmesi,
•
Tıbbî gözlem verilerinden yararlanarak en etkin kararların verilmesi,
•
Hangi değişkenlerin satışları etkilediğinin belirlenmesi,
•
Üretim verilerini inceleyerek ürün hatalarına yol açan değişkenlerin
belirlenmesidir.
özelliklerini
Gerçek dünyanın sosyal ve ekonomik olaylarını daha güvenilir bir şekilde
gösterebilmek için standart istatistik tekniklerin dışında yeni analiz
tekniklerinin geliştirilmesi iie ilgilenen Morgan ve Sonquİst tarafından
University of Michigan'da 1970*li yılların başlarında kullanıma alınan
Automatic Interaction Detector ~ AID karar ağacı temelli ilk algoritma ve
yazılımdır. A I D tekniği en kuvvetli ve en iyi tahmini gerçekleştirebilmek
için bağımlı ve bağımsız değişkenler arasındaki mümkün bütün ilişkilerin
incelenmesine dayanmaktadır. Şekil 4 de görüldüğü gibi en kuvvetli ilişkiye
sahip bağımsız değişken bulunduğunda, veri kümesi bu bağımsız değişken
değerlerine göre ikiye ayrılmakta ve süreç mümkün bölünmeler
tamamlanıncaya kadar devam etmektedir. Karar ağacı tekniğinin sağladığı
kuruluş ve yorumlama kolaylıkları, A I D yazılımının başlangıçta istatistikçi
ve veri analistlert tarafından büyük çoşku ile karşılanmasına neden olmuştur.
tolu
Adı
A
B
C
D
E
Burç
Yüksek
Düşük
Düşük
Yüksek
Düşük
Gelir
Yüksek
Yüksek
Yüksek
Düşük
Düşük
Evli ?
Evet
Evet
Hayır
Hayır
Evet
Kisk
İyi
iyi
Kötü
Kötü
Kötü
Şekil 4 : Verilerden Karar Ağacına
|J|
600.
16
Ancak AID'in bağımlı, ve bağımsız değişkenler arasındaki ilişkilerin
tanımlanmasında aşırı saldırgan davrandığı ve bunun sonucunda anlamlı ve
anlamsız ilişkileri ayırt edemediği yönünde Einhorn başta olmak üzere bir
çok araştırmacı tarafından yayınlar yapılmıştır.
İlk temelleri A I D yöntemi ile atılan karar ağacı modelleri çeşitli algoritmalar
ile sürdürülmüştür. Geliştirilen bu algoritmalar içerisinde CHAID (ChiSquared Automatic Interaction Detector; G. V. Kass; 1980), C & R T
(Classification and Regression Trees; Breiman, Friedman, Olshen ve Stone;
1984), ID3 (Çhtinlan; 1986), Exhaustive CHAID (Biggs, de Ville ve Suen;
1991), C4.5 (Quinlan; 1993), MARS (Muitivariate Adaptive Regression
Splines; Friedman), QUEST (Quick, Unbiased, Effıcient Statistical Tree;
Loh ve Shih, 1997), C5.0 (Quinlan), SLIQ (Supervised Learning in Quest;
Mehta, Agarwal ve Rissanen), SPRINT (Scalable Parattelizable Indııction
ofDecision Trees; Shafer, Agrawal ve Mehta) başlıcalarıdır.
4.1. C H A I D ve Bir Örnek Uygulama
1980 yılında G.V. Kass tarafından geliştirilen CHAID algoritmasında,
bağımlı değişkeni en fazla etkileyen bağımsız değişken, bağımlı değişkenin
sürekli olması durumunda F testi, kategorik olması durumunda K i Kare testi
kullanılarak belirlenir. Kategorik (Nominal / Ordino!) ve sürekli değişkenler
üzerinde çalışabilmesi, ağaçta her düğümü ikiden fazla alt gruba
ayırabilmesi gibi nedenlerle günümüzde de tercih edilen bir algoritmadır.
Örnek uygulamada 323 kişiye ilişkin veriler toplanmış ve zaman içerisinde
bu kişilerin geri ödemelerini düzenli veya düzensiz yapmalarına bağlı olarak,
kredi değerlemeleri İyi ve kötü şeklinde sınıflandırılmıştır. [13] Amaç,
belirtilen bu bağımlı değişkeni etkileyen bağımsız değişkenlerin belirlenmesi
ve bu çerçevede kredilerini düzenli olarak geri ödeyen müşteri örüntülerinin
ortaya çıkarılmasıdır. Veri kümesinde yer alan bağımsız değişkenler
aşağıdaki tabloda görülmektedir.
Özellik (Bağım sız Değişken)
Yaş
Mağaza Kredi Kartı Var mı ?
Ücretini Aldığı Zarflan Dilimi
Iş Sınıfı
Özellik Değerleri
Genç, Orta Yaşlı, Yaşlı
Evet, Hayır
Haftalık, Aylık
Yönetici, Meslek Sahibi,
Tecrübesiz İşçi
Tecrübeli
İşçi,
17
Örnek uygulama SPSS Anstver Tree 2.0 yazılımı .ile hazırlanmıştır.
Yazılımın çalıştırılması sonucunda elde edilen karar ağacının ilk iki aşaması
şekil 5'de görülmektedir.
2
Kredi Değerleme
Kdiu ram
100
İyi (100,00)
47.99 323
155
Tolal
ödeme AylıkBH adalı k
P-value=0.Q000; Chl-square=179.6B65; OM
Aylık Ücreti!
n
143
22
13.33
tolal (51.08) 1fi5"
Cal
%
KrltU flfi.67
KÖl!J lî.82
25
İyi
B4.1B 133
Total"(«.a2) i 50
tfi
Yaş Kategorisi
P-value=0.0000. Chi-square=30.1113; df=1
Genç {"2S),Ûrta Yaşlı (=25.«35)
Caı
%
n
Kd!(l 90.51 143
9.49
15
M
lolal (48.92) 158
Y a ; Kategorisi
P-value=0.0000; chi-square= 58.7 255; d£=1
,
1
.
Genç (<3S)
Orta Yaşlı (>25,-35):YaîH (=35)
_l_
1
Yaslı (s35)
Cal
Köiu
%
ÜM
100.00
Tolal (2-1/)
Şekil S : CHAID Algoritması
n
ü
7
1
Cat.
%
n
Kfllû 43.93
tVİ
51.02 2S
Tolal (15.17) «a
M
hm
ıj.92
i
İyi
99.00 100
TÖtaT (5S.J5) fütr
Uygulanan Bir Karar Ağacı
CHAID algoritmasına göre yapılan hesaplama sonucunda aylık ücretli olarak
çalışan / genç olmayan ve haftalık ücretli olarak çalışan / yaşlı kişilerin kredi
geri ödemelerinde iyi olarak değerlendirilebileceği açıkça görülmektedir.
4.2. C & R T ve Bir Örnek Uygulama
1984 yılında Breiman, Friedman, Olshen ve Stone tarafından geliştirilen
C&RT algoritmasında, her aşamada ilgili grubun, kendinden daha homojen
olan iki alt gruba (Binary Tree) ayrılması sağlanmaktadır. Ayırım işlemi
kategorik bağımlı değişkenler için gini, twoing, sürekli değişkenler için en
küçük kareler sapması (Least-Squared Deviation) indeks hesaplamalarına
göre yapılmaktadır. Bu hesaplamalarda kar, maliyet değerleri ve değişken
kategorileri arasındaki önceliklerin tanımlanabilmesi gibi sağlanan çeşitli
esneklikler, C&RT algoritmasının günümüzde de yoğun olarak tercih
edilmesine neden olmaktadır.
2
AnsvverTree 2.0 SPSS Inc. tescilli markasıdır. Yazılımın deneme sürümünü
sağlayan SPSS Türkiye distribütörü UYTES'e teşekkür ederim.
18
Örnek uygulamada 925 kredi kartı başvurusuna ilişkin veriler aşağıda
sunulan tablodaki özelliklere uygun olarak toplanmış, uzman kişiler
tarafından yapılan değerlendirmeler sonucunda ise 925 kredi kartı
başvurusunun 725'i kabul edilmiştir. Örnek çalışmanın amacı, kredi kartı
değerlendirmesine ilişkin olarak banka uzmanlarının karar örüntülerinin
belirlenmesidir. (Tabloda nominal, ordinal ve sürekli tipteki değişkenler
sırası ile N, O, ve S harfleri ile gösterilmiştir.)
Tipi
Özellik (Bağımsız Değişken)
Medeni Durumu
N
Önceki İşi
N
Şimdiki İşi
N
Kredi Kartı Promosyonuna Cevap Verdi mi ?
Çalıştığı Yere Ortak mı ?
Mağaza Kredi Kartı Var mı ?
Başka Bankadan Kredi Kartı Var mı ?
Tasarruf Hesabı Var m ı ?
Şimdiki İşinde Çalışma Süresi (Ay)
Kaç Yıldır Banka Müşterisi ?
N
N
N
N
N
S
S
Özellik Değerleri
Bekar,
Evli,
Dul,
Boşanmış
Yönetici, Memur, Esnaf,
Öğrenci, Emekli, İşçi,
İşsiz...
Yönetici, Memur, Esnaf,
Öğrenci, Emekli, İşçi,
İşsiz...
Evet, Hayır
Evet, Hayır
Evet, Hayır
Evet, Hayır
Evet, Hayır
Her bir düğümün her aşamada ikiye ayrıldığı C&RT algoritmasında, ilk
aşamada en kuvvetli ayırım kriteri olarak müşterinin tasarruf hesabı gini
indeksi kullanılarak bulunmuştur.
p(j | t), t. düğümde j sınıfının nispi frekansı olmak üzere, t. düğümün gini
indeks değeri,
j
eşitliği ile hesaplanmaktadır. Bir düğümde kategoriler
söz konusu olduğunda, bağımlı değişken için kategori
gini indeks değeri 1 - ( l / k ) işlemi sonucunda elde
değere erişecektir. Bir düğümdeki bütün vakaların aynı
durumunda gini indeks değeri 0 olacaktır.
arasında eşit dağılım
sayısı k olmak üzere
edilecek maksimum
kategoriye ait olması
19
Gini kriter fonksiyonu <D(s,t); P l S O İ , p sağ alt düğüme gönderilen vakaların
oranı olmak üzere,
<E>(st) = g ( t ) - p g ( t ) - p g ( t )
R
!
L
L
R
R
eşitliği ile hesaplanmaktadır. Bu eşitlikte <D(s,t) değerini maksimize edecek s
değerinin seçilmesi amaçlanmakta, t düğümünde bütün vakaların katılımıyla
hesaplanan bu değer, C&RT ağacında improvernent kavramı ile ifade
edilmektedir.
C&RT algoritması sonucunda kurulan modelin, sınıflara ayırmadaki
doğruluk derecesi aşağıda sunulan matriste görülmektedir. Bu matrise göre
fiilen kabul edilen 725 kredi kartı başvurusundan 699'u, fiilen kabul
edilmeyen 200 başvurunun 128*i doğru olarak sınıflandırılmıştır. Bu
durumda kurulan modelin doğruluk derecesi % 89.4 (=1 - 0,106) olacaktır.
Tahmini
Evet
Hayır
Toplam
Evet
699
26
725
Risk Tahmini
Risk Tahmininin
Standart Hatası
Fiili
Haytr
12
128
200
Toplam
771
154
925
0.10594
0.0101194
Aşağıda sunulan kazançlar matrisinde Kredi Kartı Alsın mı ? isimli bağımlı
değişkenin Hayır sınıfı ile ilgili sonuçları yer almaktadır.
Düğüm No
30
18
29
21
3
27
Düğüm : n
91
19
23
16
5
19
Düğüm : %
9.84
2.05
2.49
1.73
0.54
2.05
Cevap : n
84
15
16
10
3
8
Cevap : %
42
7.5
8
5
1.5
4
Kazanç %
92.3077
78.9474
69.5652
62.5
60
42.1053
indeks %
426.923
365.132 321.739 289.063
277.5
194.737
20
30 nolu düğümde Başvuru Sahibinin Mağaza Kredi Kartı Var mı ? isimli
bağımsız değişken değerinin Hayır olarak belirtildiği sınıf yer almaktadır.
Bu düğümde 84 cevap Hayır, 7 cevap Evet olmak üzere toplam 91 vaka
bulunmaktadır. Düğüm:n değeri 91/925; cevap:% değeri 84/200; kazanç %
değeri 84/91;
indeks % değeri 92.3/21.62 işlemleri sonucunda elde
edilmektedir, indeks % değeri bu düğümün genel toplam içerisinde 4.26 kat
daha fazla anlamlı olduğunu göstermektedir.
Örneğe ilişkin karar kuralı ise,
if (tasarruf hesabı var mı ? ~ ??? or tasarruf hesabı var mı ? = diğer banka)
and (önceki kredi kartı promosyonuna - ??? or önceki kredi kartı
promosyonuna = hayır) and başka kredi kartı var mı ? = hayır and (mağaza
kredi kartı var mı ? = hayır or mağaza kredi kartı var mı ? = ???)
then
node"=30
prediction='Hayır'
probability=0.923
olacaktır. Bu cümlede belirtilen şartların gerçekleşmesi durumunda % 92.3
olasılıkla kredi kartı başvurusunun red edileceği görülmektedir.
21
FAYDALANILAN KAYNAKLAR
1.
ACKNOSOFT, întroduction to Data Mining and Case Based Reasoning.
.. www.acknosoft.com/pTechnology.html. (09/06/1999)
2.
AZMY, Ashraf. (18/05/1998). Superquery;Data Mining for Everyone.
www.azmy.com/wpi.htm. (09/06/1999)
3.
BRAND, Estelle. DBMS Data Mining Solutions Supplement.
www.dbsmag.com. (02/07/1999)
4.
BUSINESS OBJECTS. Introducing BusinessMiner. 1997
5.
BUSINESS OBJECTS. Queıy Tools and Your Data Warehouse. 1998
6.
DILLY,
Ruth.
(32/1995).
Data
Mining:
An Introduction
www-pcc.qub.ac.ıık/tec/courses/dal:aminin^/slLi notes/dm book 1 .html.
(10/06/1999)
7.
FAYYAD, Usa ma. Mining Databases: Towards Algorithms for Knowledge
Discovery. Bulletin of the IEEEComputer Society Technical Committee on
Data Engineering, vol. 21, no. 1, 03/1998
8.
SALFORD SYSTEMS. An Overview of the CART Methodology.
www.salford.com/whitepaper.htm. (31/08/1999)
9.
SAS Institute Inc. 77ıe Data Mining Challenge: Turning Raw Data Into
Business Gold. www.sas. com/software/data mining/. (16/08/1999)
10. SAS Institute Inc. Using Data Mining Techniaues for FraudDetection. 1999
11. SAS Institute Inc. Finding the Soîution to Data Mining. 1998
12. SAS Institute Inc. Data Mining and the Case for Sampling, 1998
13. SPSS Inc. AnswerTree 2.0 User's Guide, 1998, ISBN 1-56827-254-5
14. SPSS Inc. Neıtral Networks in Royal SunAlliance Life and Pensions.
www.spss.com/.../elem tinancial.htm. (13/08/1999)
15. SPSS Inc. How to Evaluate Dala Mining Software.
www.uytes.com.tr/spss/datamining/dminel.htm. (10/08/1999)
* Internet'den alman kaynak referanslarında,
Yazar Soyadı, Yazar Adı. (Biliniyorsa Çalışmanın Tarihi). Çalışmanın Adı. Adresi. (Erişim
Tarihi)
şeklindeki APA (American Psychologİcal Association) İçin önerilen stil
kullanılmıştır.
22
16. SPSS Inc. Better Segmentation Using SPSS CHAID.
www.spss.com/.../chaidl .htm. (13/08/1999)
17. SPSS Inc. How SPSS Delivers Business Intelligence.
www.spss.com/software/spss/asf.htm. (13/08/1999)
18. SPSS Inc. Data Mining, www.spss.com/.../dataWa.html. (13/08/1999)
19. SPSS Inc. More on What Data Mining is - and isn 't,
www.spss.com/datamine/what2.htm. (10/08/1999)
20. SPSS Inc. Data Mining andStatistics: Gain a Competitive Advantage.
www.spss.com/.../gain.html. (13/08/1999)
21. SPSS Inc. Extend Your Data Mining Capabilities with Advanced Analysis.
wwvv.spss.com/..,/botext.html. (13/08/1999)
22. SPSS Inc. Data Mining: An întroduction.
www.spss.com/.../elem healthcarel.htm. (13/08/1999)
23. SPSS Inc. AnswerTree Aigorİthm Summary. www.spss.com/.../alt>o sum.htm.
(13/08/1999)
24. THEARLING, Kurt. An întroduction to Data Mining.
www3.shore.net/~-kht/text/dmwhite/dmwhite.htm. (07/06/1999)
25. THEARLING, Kurt. Visualizing Data Mining Models.
www3. shore. net/~kht/text/dmwiz/modelwiz. htm. (07/06/1999)
26. THEARLING, Kurt. (09/1995). An Overview of Data Mining at
Dun&Bradstreet. www3.shore.net/-kht/text/dmwhite/dmwhite.htm. (07/06/1999
27. THEARLING, Kurt. An întroduction to Data Mining.
www3.shore.net/~kht/text/dmwhite/dmwhite.htm. (07/06/1999)
28. TWO CROWS Corp. întroduction to Data Mining and Knowledge Discovery.
1998
29. WINTER Corp. VLDB Survey Program.
[esl.vvintei-corp.com/VLDB/I998 VLDB Winners/table7.html. (13/09/1999)
Download