/. U. işletme Fakültesi Dergisi, C:29, S: I'/Nisan 2000, s: 1-22 VERİ TABANLARINDA BİLGİ KEŞFİ ve VERİ MADENCİLİĞİ Prof. D r . Haldun A K P I N A R İ.Ü. İşletme Fakültesi E l h<[email protected]ıı.tr www.isletme.istanbul.edu.tr/akpinar 1. Giriş Günümüz modern insanının her alışverişinde, her bankacılık işleminde, her telefon edişinde kaydedilen, uzaktan algılayıcılardan, uydulardan toplanan, devlet ve işletme yönetiminde yapılan işlemler sonucunda saklanan .veriler her an inanılmaz boyutlarda artmaktadır. Sadece uydu ve diğer uzay araçlarından elde edilen görüntülerin saatte 50 gigabyte düzeyinde olması, bu artışın boyutlarını daha açık bir şekilde göstermektedir. 1995 yılında birincisi düzenlenen Knowledge Discovery in Databases konferansı bildiri kitabı sunuşunda, enformasyon teknolojilerinin oluşturduğu veri dağları aşağıdaki cümleler ile vurgulanmaktadır,[22] "Dünyadaki enformasyon miktarının her 20 ayda bir ikiye katlandığı tahmin edilmektedir. Bu ham veri seli ile ne yapmamız gerekmektedir ? İnsan gözleri bunun ancak çok küçük bir kısmını görebilecektir. Bilgisayarlar bilgelik pınarı olmayı vaat etmekte, ancak veri sellerine neden olmaktadır. " Dünyadaki en büyük işletme veri tabanlarının belirlenmesi amacı ile Winter Corporation tarafından yapılan bir araştırmada, Sears, Roebuck and Co.'nun sadece karar destek amaçlı kullanılan veri tabanının 1998 yılında 4630 gigabyte'di eriştiği görülmektedir. [29] 2 Veri tabanı sistemlerinin artan kullanımı ve hacimlerindeki bu olağanüstü artış, organizasyonları elde toplanan bu verilerden nasıl faydalanılabileceği problemi ile karşı karşıya bırakmıştır. Geleneksel sorgu (Query) veya raporlama araçlarının veri yığınları karşısında yetersiz kalması, Veri Tabanlarında Bilgi Keşfi-VTBK (Knowledge Discovery in Databases) adı altında, sürekli ve yeni arayışlara neden olmaktadır. Şekil 1 de görülen VTBK. süreci içerisinde, modelin kurulması ve değerlendirilmesi aşamalarından meydana gelen Veri Madenciliği (Data Mining) en önemli kesimi oluşturmaktadır. Bu önem, bir çok araştırmacı tarafından VTBK ile veri madenciliği terimlerinin eş anlamlı olarak da kullanılmasına neden olmaktadır. Şekil 1 de görüldüğü gibi çeşitli veri kaynaklarından verilerin toplanması ile başlayan VTBK süreci, toplanan verilerin analiz için uygun hale getirilmesi aşaması ile devam etmektedir. Ancak veri ambarına (Data Warehouse) sahip olan kuruluşlarda, gerekli verilerin Data Mart olarak isimlendirilen İşleve özel veri tabanlarına aktarılması ile doğrudan veri madenciliği işlemlerine başlanabilmesi de mümkündür. Konunun önde gelen uzmanlarından Piatetsky-Shapiro veri madenciliğini, verilerden daha önceden bilinmeyen, zımnî, muhtemelen faydalı enformasyonun monoton olmayan bir süreçte çıkartılması işlemi olarak tanımlamaktadır. Bu süreç kümeleme (Clustering), veri özetleme {Data Summarization), sınıflama kurallarının (Ciassifıcation Rules) Öğrenilmesi, bağımlılık ağlarının (Dependency Networks) bulunması, değişikliklerin analizi (Anaîysing Changes) ve anomali tespiti (Detecting Anonıaly) gibi farklı bir çok teknik yaklaşımı kapsam aktadır. [6] Gartner Group tarafından yapılan bir diğer tanımda ise veri madenciliği, istatistik ve matematik tekniklerle birlikte örüntü tanıma (Pattern Recognition) teknolojilerini kullanarak, depolama ortamlarında saklanmış bulunan veri yığınlarının elenmesi ile anlamlı yeni korelasyon, örüntü ve eğilimlerin keşfedilmesi sürecidir. [19] 1 Aimanca'da Muster veya Ftâchenmuster, Fransızca'da Image, Figüre, Mosaigue kelimelerinin kullanıldığı örüntü kelimesi, belirli, ancak bilinmeyen bir sınıfta yer alan nesne veya olayları tanımlamaktadır. Bir görüntünün daha sonra bilgisayar tarafından algılanabilmesi için, bu görüntü sınıfına ait olan görüntü örnekleri (Örneğin A karakterinin değişik yazılışları), ses örnekleri örüntü olarak isimlendirilmektedir. 4 Örüntü tanıma/ve sınıflama problemleri üzerinde yoğunlaşan yapay zeka ve istatistik disiplin] er hıdek i gelişmeler veri madenciliğinin temellerini oluşturmaktadır. Ayrıca veri madenciliği, yapay zeka çalışmalarının uzantısı olan makina öğrenimi (Machine Learning) ve uzman sistemlerin (Expert Systems) yanı sıra, veri tabanları, optimizasyon, görse 11 eştirme (Visualization), yüksek performanslı paralel işlemciler (Massively Parallel Processing - MPP- ve Symmetric Multiprocessing -SMP-) gibi çeşitli disiplin ve teknolojilerdeki gelişmelerden de etkilenmektedir. META Group.tarafından yapılan bir araştırmanın sonuçlarına göre A.B.D'de veri madenciliği pazar hacminin 1999 yılında 300 Milyon, 2000 yılında ise 800 Milyon Amerikan Dolan'na erişeceği tahmin edilmektedir. Veri madenciliği astronomi, biyoloji, finans, pazarlama, sigorta, tıp ve bir çok başka dalda uygulanmaktadır. Son 20 yıldır Amerika Birleşik Devletleri'nde çeşitli veri madenciliği algoritmalarının gizli dinlemeden, vergi kaçakçılıklarının ortaya çıkartılmasına kadar çeşitli uygulamalarda kullanıldığı bilinmektedir. [6] Bununla birlikte günümüzde veri madenciliği teknikleri özellikle işletmelerde çeşitli alanlarda başarı ile kullanılmaktadır. Bu uygulamaların başlıcaları ilgili alanlara göre aşağıda özetlenmiştir. [9] Pazarlama • » • • • • • • Müşterilerin satın alma örüntülerinin belirlenmesi, Müşterilerin demografik özellikleri arasındaki bağlantıların bulunması, Posta kampanyalarında cevap verme oranının artırılması, Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması, Pazar sepeti analizi (Market Basket Analysis) Müşteri ilişkileri yönetimi (Customer Relationship Management) Müşteri değerlendirme (Customer Vaiue Analysis) Satış tahmini (Sales Forecasting). Bankacılık « • • • Farklı fınansal göstergeler arasında gizli korelasyonların bulunması, Kredi kartı dolandırıcılıklarının tespiti, Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi, Kredi taleplerinin değerlendirilmesi. 5 Sigortacılık • Yeni poliçe talep edecek müşterilerin tahmin edilmesi, o Sigorta dolandırıcılıklarının tespiti, • Riskli müşteri örüntülerinîn belirlenmesi. 2. V e r i Madenciliği Modelleri Verİ madenciliğinde kullanılan modeller, tahmin edici (Predictive) ve tanımlayıcı (Descriptive) olmak üzere iki ana başlık altında incelenmektedir. Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır. Örneğin bir banka önceki dönemlerde vermiş olduğu kredilere ilişkin gerekli tüm verilere sahip olabilir. Bu verilerde bağımsız değişkenler kredi alan müşterinin özellikleri, bağımlı değişken değeri ise kredinin geri ödenip ödenmediğidir. Bu verilere uygun olarak kurulan model, daha sonraki kredi taleplerinde müşteri özelliklerine göre verilecek olan kredinin geri ödenip ödenmeyeceğinin tahmininde kullanılmaktadır. Tanımlayıcı modellerde ise karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır. X/Y aralığında geliri ve iki veya daha fazla arabası olan çocuklu aileler ile, çocuğu olmayan ve geliri X/Y aralığından düşük olan ailelerin satın alma örüntülerinin birbirlerine benzerlik gösterdiğinin belirlenmesi tanımlayıcı modellere bir örnektir. Veri madenciliği modellerini gördükleri işlevlere göre, • • • Sınıflama (Classificatiori) ve Regresyon (Regression), Kümeleme (Clustering), Birliktelik Kuralları (Association Rules) ve Ardışık Örüntüler (Sequentiai Patterns), Zamanlı olmak üzere üç ana başlık altında incelemek mümkündür. Sınıflama ve regresyon modelleri tahmin edici, kümeleme, birliktelik kuralları ve ardışık zamanlı Örüntü modelleri tanımlayıcı modellerdir. 6 2.1. Sıneflama ve Regresyon Modelleri Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri madenciliği teknikleri içerisinde en yaygın kullanıma sahip olaa sınıflama ve regresyon modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin kategorik veya süreklilik gösteren bir değere sahip olmasıdır. Ancak çok terimli lojistik regresyon (multinomial logistic regression) gibi kategorik değerlerin de tahmin edilmesine olanak sağlayan tekniklerle, her iki model giderek birbirine yaklaşmakta ve bunun bir sonucu olarak aynı tekniklerden yararlanılması mümkün olmaktadır. Sınıflama ve regresyon modellerinde kullanılan başlıca teknikler, • • • • • • • Karar Ağaçları (Decision Trees), Yapay Sinir Ağları (Artifıcial Neural Networks), Genetik Algoritmalar (Genetic Algorithms), K-En Yakın Komşu (K-Nearest Neighbor), Bellek Temelli Nedenleme (Memory Based Reasoning), Naive-Bayes, Lojistik Regresyondur (Logistic Regression). 2.2. Kümeleme Modelleri Kümeleme modellerinde amaç, şekil 2 de görüldüğü gibi küme üyelerinin birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere bölünmesidir. Başlangıç aşamasında veri tabanındaki kayıtların hangi kümelere ayrılacağı veya kümelemenin hangi değişken özelliklerine göre yapılacağı bilinmemekte, konunun uzmanı olan bir kişi tarafından kümelerin neler olacağı tahmin edilmektedir. Şekil 2 : Kümeleme 7 2.3. Birliktelik Kuralları ye Ardışık Zamanlı Örüntüler Bİr alışveriş sırasında veya birbirini izleyen alışverişlerde müşterinin hangi mal veya hizmetleri satın almaya eğilimli olduğunun belirlenmesi, müşteriye daha fazla ürünün satılmasını sağlama yollarından biridir. Satın alma eğilimlerinin tanımlanmasını sağlayan birliktelik kuralları ve ardışık zamanlı örüntüler, pazarlama amaçlı olarak pazar sepeti analizi (Market Basket Analysis) adı altında veri madenciliğinde yaygın olarak kullanılmaktadır. Bununla birlikte bu teknikler, tıp, flnans ve farklı olayların birbirleri ile ilişkili olduğunun belirlenmesi sonucunda değerli bilgi kazanımımn söz konusu olduğu ortamlarda da Önem taşımaktadır. Birliktelik kuralları aşağıda sunulan örneklerde görüldüğü gibi eş zamanlı olarak gerçekleşen ilişkilerin tanımlanmasında kullanılır. Müşteriler bira satın aldığında, % 75 ihtimalle patates cipsi de alırlar, • Düşük yağlı peynir ve yağsız yoğurt ihtimalle diet süt de satın alırlar. alan müşteriler, %85 Ardışık zamanlı örüntüler ise aşağıda sunulan örneklerde görüldüğü gibi birbirleri ile ilişkisi olan ancak birbirini izleyen dönemlerde gerçekleşen ilişkilerin tanımlanmasında kullanılır. • X ameliyatı yapıldığında, enfeksiyonu oluşacaktır, 15 gün içinde % 45 ihtimalle Y • İMKB endeksi düşerken A hisse senedinin değeri % 15 'den daha fazla artacak olursa, üç iş günü içerisinde B hisse senedinin değeri % 60 ihtimalle artacaktır, • Çekiç satın alan bir müşteri, ilk üç ay içerisinde % 15, bu dönemi izleyen üç ay içerisinde % 10 ihtimalle çivi satın alacaktır. 8 3. V e r i T a b a n l a r ı n d a Bilgi Keşfi Süreci Ne kadar etkin olursa olsun hiç bir veri madenciliği algoritmasının üzerinde inceleme yapılan işin ve verilerin özelliklerinin bilinmemesi durumunda fayda sağlaması mümkün değildir. Bu nedenle aşağıda tanımlanan tüm aşamalardan önce, iş ve veri Özelliklerinin öğrenilmesi / anlaşılması başarının ilk şartı olacaktır. Şekil 1 de ayrıntılı olarak görüldüğü gibi, • • • • • Problemin Tanımlanması, Verilerin Hazırlanması, Modelin Kurulması ve Değerlendirilmesi, Modelin Kullanılması, Modelin îzlemx.âsi veri tabanlarında bilgi keşfi sürecinde izlenmesi gereken temel aşamalardır. 3.1. Problemin Tanımlanması Veri madenciliği çalışmalarında başarılı olmanın ilk şartı, uygulamanın hangi işletme amacı için yapılacağının açık bir şekilde tanımlanmasıdır. İlgili işletme amacı işletme problemi üzerine odaklanmış ve açık bir dille ifade edilmiş olmalı, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği tanımlanmalıdır. Ayrıca yanlış tahminlerde katlanılacak olan maliyetlere ve doğru tahminlerde kazanılacak faydalara ilişkin tahminlere de bu aşamada yer verilmelidir. 3.2. Verilerin Hazırlanması Modelin kurulması aşamasında ortaya çıkacak sorunlar, bu aşamaya sık sık geri dönülmesine ve verilerin yeniden düzenlenmesine neden olacaktır. Bu durum verilerin hazırlanması ve modelin kurulması aşamaları için, bir analistin veri keşfi sürecinin toplamı içerisinde enerji ve zamanının % 50 - % 85'ini harcamasına neden olmaktadır. Verilerin hazırlanması aşaması kendi içerisinde toplama, değer biçme, birleştirme ve temizleme, seçme ve dönüştürme adımlarından meydana gelmektedir. 9 3.2.1. Toplama (Collection) : Tanımlanan problem için gerekli olduğu düşünülen verilerin ve bu verilerin toplanacağı veri kaynaklarının belirlenmesi adımıdır. Verilerin toplanmasında kuruluşun kendi veri kaynaklarının dışında, nüfus sayımı, hava durumu, merkez bankası kara listesi gibi veri tabanlarından veya veri pazarlayan kuruluşların veri tabanlarından faydalanılabilir. 3.2.2. Değer Biçme (Assessment) : Veri madenciliğinde kullanılacak verilerin farklı kaynaklardan toplanması, doğal olarak yeri uyumsuzluklarına neden olacaktır. Bu uyumsuzlukların başlıcaları farktı zamanlara ait olmaları, kodlama farklılıkları (örneğin bir veri tabanında cinsiyet özelliğinin e/k, diğer bir veri tabanında 0/1 olarak kodlanması), farklı ölçü birimleridir. Ayrıca verilerin nasıl, nerede ve hangi koşullar altında toplandığı da önem taşımaktadır. Bu nedenlerle, iyi sonuç alınacak modeller ancak iyi verilerin üzerine kurulabileceği için, toplanan verilerin ne ölçüde uyumlu oldukları bu adımda incelenerek değerlendirilmelidir. 3.2.3. Birleştirme ve Temizleme (Consolidation and Cleaning) : Bu adımda farklı kaynaklardan toplanan verilerde bulunan ve bir Önceki adımda belirlenen sorunlar mümkün olduğu ölçüde giderilerek veriler tek bir veri tabanında toplanır. Ancak basit yöntemlerle ve baştan savma olarak yapılacak sorun giderme işlemlerinin, ileriki aşamalarda daha büyük sorunların kaynağı olacağı unutulmamalıdır. 3.2.4. Seçim (Selection) : Bu adımda kurulacak modele bağlı olarak veri seçimi yapılır, örneğin talimin edici bir model için, bu adım bağımlı ve bağımsız değişkenlerin ve modelin eğitiminde kullanılacak veri kümesinin seçilmesi anlamını taşımaktadır. Sıra numarası, kimlik numarası gibi anlamlı olmayan ve diğer değişkenlerin modeldeki ağırlığının azalmasına da neden olabilecek değişkenlerin modele girmemesi gerekmektedir. Bazı veri madenciliği algoritmaları konu ile ilgisi olmayan bu tip değişkenleri otomatik olarak elese de, pratikte bu- işlemin kullanılan yazılıma bırakılmaması daha akılcı olacaktır. Verilerin göreselleştirilmesine olanak sağlayan grafik araçlar ve bunların sunduğu ilişkiler, bağımsız değişkenlerin seçilmesinde önemli yararlar sağlayabilir. lö Genellikle yanlış veri girişinden veya bir kereye özgü bir olayın gerçekleşmesinden kaynaklanan verilerin (Outiier),^ önemli bir uyarıcı enformasyon içerip içermediği kontrol edildikten sonra veri kümesinden atılması tercih edilir. Modelde kullanılan veri tabanının çok büyük olması durumunda tesadüfıliği bozmayacak şekilde örnekleme yapılması uygun olabilir. Günümüzde hesaplama olanakları ne kadar gelişmiş olursa olsun, çok büyük veri tabanları üzerinde çok sayıda modelin denenmesi zaman kısıtı nedeni ile mümkün olamamaktadır. Bu nedenle tüm veri tabanını kullanarak bir kaç model denemek yerine, tesadüfi olarak örneklenmiş bir veri tabanı parçası üzerinde bir çok modelin denenmesi ve bunlar arasından en güvenilir ve güçlü modelin seçilmesi daha uygun olacaktır. 3.2.5. Dönüştürme (Transformation) : Kredi riskinin tahmini için geliştirilen bîr modelde, borç/gelir gibi önceden hesaplanmış bir oran yerine, ayrı ayrı borç ve gelir verilerinin kullanılması tercih edilebilir. Ayrıca modelde kullanılan algoritma, verilerin gösteriminde Önemli rol oynayacaktır. Örneğin bir uygulamada bir yapay sinir ağı algoritmasının kullanılması durumunda kategorik değişken değerlerinin evet/hayır olması; bir karar ağacı algoritmasının kullanılması durumunda ise örneğin gelir değişken değerlerinin yüksek/orta/düşük olarak gruplanmış olması modelin etkinliğini artıracaktır. 3.3. Modelin Kurulması ve Değerlendirilmesi Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok sayıda modelin kurularak denenmesi ile mümkündür. Bu nedenle veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele varılıncaya kadar yinelenen bir süreçtir. Model kuruluş süreci denetimli (Supervised) ve denetimsiz (Unsupervised) öğrenimin kullanıldığı modellere göre farklılık göstermektedir. Örnekten öğrenme olarak da isimlendirilen denetimli öğrenimde, bir denetçi tarafından ilgili sınıflar önceden belirlenen bir kritere göre ayrılarak, her sınıf için çeşitli örnekler verilir. Sistemin amacı verilen örneklerden.hareket ederek her bir sınıfa ilişkin özelliklerin bulunması ve bu özelliklerin kural cümleleri ile ifade edilmesidir. 11 Öğrenme süreci tamamlandığında, tanımlanan kural cümleleri verilen yeni örneklere uygulanır ve yeni örneklerin hangi sınıfa ait olduğu kurulan model tarafından belirlenir. Denetimsiz öğrenmede, kümeleme analizinde olduğu gibi ilgili örneklerin gözlenmesi ve bu örneklerin özellikleri arasındaki benzerliklerden hareket ederek sınıfların tanımlanması amaçlanmaktadır. Adı A B C D £ F G H Borç Yüksek Düşük Düşük Yüksek Düşük Yüksek Yüksek Düşük Gelir Yüksek Yüksek Yüksek Düşük Düşük Düşük Yüksek DUşUk Evli? Evet Evet Hayır Hayır Evet Hayır Evet Evet Uisk iyi İyi Kötü Kötü Kötü İyi iyi Kötü Öğrenim Kümesi Adı Jîorç Gelir Evli ? Kİsk A Yüksek Yüksek Hayır •> İt Düştik Düşük Hayır •> C Yüksek Düşük Evet 1 >* İrsi iiiSIHiİİili Sınıflama Kuralları Şekil 3 : Denetimli Öğrenme Denetimli öğrenimde seçilen algoritmaya uygun olarak ilgili veriler hazırlandıktan sonra, ilk aşamada verinin bir kısmı modelin öğrenimi, diğer kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Modelin öğrenimi öğrenim kümesi kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi (Accuracy) belirlenir. Bir modelin doğruluğunun test edilmesinde kullanılan en basit yöntem basit geçerlilik (Simple Validation) testidir. Bu yöntemde tipik olarak verilerin % 5 ile % 33 arasındaki bir kısmı test verileri olarak ayrılır ve kalan kısım üzerinde modelin öğrenimi gerçekleştirildikten sonra, bu veriler üzerinde test işlemi yapılır. Bir sınıflama modelinde yanlış olarak sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı hesaplanır. (Doğruluk Oranı = 1 - Hata Oranı) 12 Sınırlı miktarda veriye sahip olunulması durumunda, kullanılabilecek diğer bir yöntem çapraz geçerlilik (Cross Vaîidation) testidir. Bu yöntemde veri kümesi tesadüfi olarak iki eşit parçaya ayrılır. İlk aşamada a parçası üzerinde model eğitimi ve b parçası üzerinde test işlemi; ikinci aşamada ise b parçası üzerinde model eğitimi ve a parçası üzerinde test işlemi yapılarak elde edilen hata oranlarının ortalaması kullanılır. Bir kaç bin veya daha az satırdan meydana gelen küçük veri tabanlarında, verilerin n gruba ayrıldığı n katlı çapraz geçerlilik (N-Fold Cross Vaîidation) testi tercih edilebilir. Verilerin örneğin 10 gruba ayrıldığı bu yöntemde, ilk aşamada birinci grup test, diğer gruplar öğrenim için kullanılır. Bu süreç her defasında bir grubun test, diğer grupların öğrenim amaçlı kullanılması ile sürdürülür. Sonuçta elde edilen on hata oranının ortalaması, kurulan modelin tahmini hata oranı olacaktır. Bootstrapping küçük veri kümeleri İçin modelin hata düzeyinin tahmininde kullanılan bir başka tekniktir. Çapraz geçerlilikte olduğu gibi model bütün veri kümesi üzerine kurulur. Daha sonra en az 200, bazen binin üzerinde olmak üzere çok fazla sayıda öğrenim kümesi tekrarlı örneklemelerle veri kümesinden oluşturularak hata oranı hesaplanır. Model kuruluşu çalışmalarının sonucuna bağlı olarak, aynı teknikle farklı parametrelerin kullanıldığı veya başka algoritma ve araçların denendiği değişik modeller kurulabilir. Model kuruluş çalışmalarına başlamazdan önce, imkansız olmasa da hangi tekniğin en uygun olduğuna karar verebilmek güçtür. Bu nedenle farklı modeller kurarak, doğruluk derecelerine göre en uygun modeli bulmak üzere sayısız deneme yapılmasında yarar bulunmaktadır. Özellikle sınıflama problemleri için kurulan modellerin doğruluk derecelerinin değerlendirilmesinde basit ancak faydalı bir araç olan risk matrisi kullanılmaktadır. Aşağıda bir örneği görülen bu matriste sütunlarda fıiü, satırlarda ise tahmini sınıflama değerleri yer almaktadır. Örneğin fitlen B sınıfına ait olması gereken 46 elemanın, kurulan model tarafından 2'sinin A, 38'inin B, 6'smın ise C olarak sınıflandırıldığı matrisde kolayca görülebilmektedir. 13 Tahmini A Sıntfi B Sınıfı C Sınıfı A Sınıfı 45 10 4 Fiili R Sınıfı 2 38 6 C Sınıfı 3 2 40 Önemli diğer bir değerlendirme kriteri modelin anlaşılabilirliğidir. Bazı uygulamalarda doğruluk oranlarındaki küçük artışlar çok önemli olsa da, bir çok işletme uygulamasında ilgili kararın niçin verildiğinin yorumlanabilmesi çok daha büyük önem taşıyabilir. Çok ender olarak yorumlanamayacak kadar karmaşıkiaşsalar da, genel olarak karar ağacı ve kural temelli sistemler model tahmininin altında yatan nedenleri çok iyi ortaya koyabilmektedir. Kaldıraç (Lifi) oranı ve grafiği, bir modelin sağladığı faydanın değerlendirilmesinde kullanılan önemli bir yardımcıdır. Örneğin kredi kartını muhtemelen iade edecek müşterilerin belirlenmesi amacını taşıyan bir uygulamada, kullanılan modelin belirlediği 100 kişinin 35'i gerçekten bir süre sonra kredi kartını iade ediyorsa ve tesadüfi olarak seçilen 100 müşterinin aynı zaman diliminde sadece 5'i kredi kartım iade ediyorsa kaldıraç oranı 7 olarak bulunacaktır. Kurulan modelin değerinin belirlenmesinde kullanılan diğer bir ölçü, model tarafından önerilen uygulamadan elde edilecek kazancın bu uygulamanın gerçekleştirilmesi çin katlanılacak maliyete bölünmesi ile edilecek olan yatırımın geri dönüş (Return On Investment) oranıdır. Kurulan modelin doğruluk derecesi ne denli yüksek olursa olsun, gerçek dünyayı tam anlamı ile modellediğini garanti edebilmek mümkün değildir. Yapılan testler sonucunda geçerli bir modelin doğru olmamasındaki başlıca nedenler, model kuruluşunda kabul edilen varsayımlar ve modelde kullanılan verilerin doğru olmamasıdır. Örneğin modelin kurulması sırasında varsayılan enflasyon oranının zaman içerisinde değişmesi, bireyin satın alma davranışını belirgin olarak etkileyecektir. 3.4. Modelin Kullanılması Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği gibi, bir başka uygulamanın alt parçası olarak kullanılabilir, Kurulan modeller risk analizi, kredi değerlendirme, dolandırıcılık tespiti gibi işletme uygulamalarında doğrudan kullanılabileceği gibi, promosyon planlaması 14 simülasyonuna entegre edilebilir veya tahmin edilen envanter düzeyleri yeniden sipariş noktasının altına düştüğünde, otomatik olarak sipariş verilmesini sağlayacak bir uygulamanın içine gömülebilir. 3.5. Modelin İzlenmesi Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde ortaya çıkan değişiklikler, kurulan modellerin sürekli olarak izlenmesini ve gerekiyorsa yeniden düzenlenmesini gerektirecektir. Tahmin edilen ve gözlenen değişkenler arasındaki farklılığı gösteren grafikler model sonuçlarının izlenmesinde kullanılan yararlı bir yöntemdir. 4. K a r a r A ğ a ç l a n Tahmin edici ve tanımlayıcı özelliklere sahip olan karar ağaçları, veri madenciliğinde • Kuruluşlarının ucuz olması, • Yorumlanmalarının kolay olması, • Veri tabanı sistemleri ile kolayca entegre edilebilmeleri, • Güvenilirliklerinin daha iyi olması nedenleri ile sınıflama modelleri içerisinde en yaygın kullanıma sahiptir. Karar ağacı temelli analizlerin yaygın olarak kullanıldığı sahalar, [13] • Belirli bir sınıfın muhtemel üyesi olacak elemanların belirlenmesi (Segmentation), • Çeşitli vakaların yüksek, orta, düşük risk grupları gibi çeşitli kategorilere ayrılması (Stratifıcation), • Gelecekteki olayların tahmin edilebilmesi İçin kurallar oluşturulması, • Parametrik modellerin kurulmasında kullanılmak üzere çok miktardaki değişken ve veri kümesinden faydalı olacakların seçilmesi, • Sadece belirli alt gruplara özgü olan ilişkilerin tanımlanması, • Kategorilerin birleştirilmesi dönüştürülmesidir. ve sürekli değişkenlerin kesikliye 15 Karar ağacı temelli tipik uygulamalar ise, [13] Hangi demografik grupların mektupla yapılan uygulamalarında yüksek cevaplama oranına sahip belirlenmesi (Direct Mail), pazarlama olduğunun • Bireylerin kredi geçmişlerini kullanarak kredi kararlarının verilmesi (Credit Scoring), • Geçmişte İşletmeye en faydalı olan bireylerin kullanarak işe alma süreçlerinin belirlenmesi, • Tıbbî gözlem verilerinden yararlanarak en etkin kararların verilmesi, • Hangi değişkenlerin satışları etkilediğinin belirlenmesi, • Üretim verilerini inceleyerek ürün hatalarına yol açan değişkenlerin belirlenmesidir. özelliklerini Gerçek dünyanın sosyal ve ekonomik olaylarını daha güvenilir bir şekilde gösterebilmek için standart istatistik tekniklerin dışında yeni analiz tekniklerinin geliştirilmesi iie ilgilenen Morgan ve Sonquİst tarafından University of Michigan'da 1970*li yılların başlarında kullanıma alınan Automatic Interaction Detector ~ AID karar ağacı temelli ilk algoritma ve yazılımdır. A I D tekniği en kuvvetli ve en iyi tahmini gerçekleştirebilmek için bağımlı ve bağımsız değişkenler arasındaki mümkün bütün ilişkilerin incelenmesine dayanmaktadır. Şekil 4 de görüldüğü gibi en kuvvetli ilişkiye sahip bağımsız değişken bulunduğunda, veri kümesi bu bağımsız değişken değerlerine göre ikiye ayrılmakta ve süreç mümkün bölünmeler tamamlanıncaya kadar devam etmektedir. Karar ağacı tekniğinin sağladığı kuruluş ve yorumlama kolaylıkları, A I D yazılımının başlangıçta istatistikçi ve veri analistlert tarafından büyük çoşku ile karşılanmasına neden olmuştur. tolu Adı A B C D E Burç Yüksek Düşük Düşük Yüksek Düşük Gelir Yüksek Yüksek Yüksek Düşük Düşük Evli ? Evet Evet Hayır Hayır Evet Kisk İyi iyi Kötü Kötü Kötü Şekil 4 : Verilerden Karar Ağacına |J| 600. 16 Ancak AID'in bağımlı, ve bağımsız değişkenler arasındaki ilişkilerin tanımlanmasında aşırı saldırgan davrandığı ve bunun sonucunda anlamlı ve anlamsız ilişkileri ayırt edemediği yönünde Einhorn başta olmak üzere bir çok araştırmacı tarafından yayınlar yapılmıştır. İlk temelleri A I D yöntemi ile atılan karar ağacı modelleri çeşitli algoritmalar ile sürdürülmüştür. Geliştirilen bu algoritmalar içerisinde CHAID (ChiSquared Automatic Interaction Detector; G. V. Kass; 1980), C & R T (Classification and Regression Trees; Breiman, Friedman, Olshen ve Stone; 1984), ID3 (Çhtinlan; 1986), Exhaustive CHAID (Biggs, de Ville ve Suen; 1991), C4.5 (Quinlan; 1993), MARS (Muitivariate Adaptive Regression Splines; Friedman), QUEST (Quick, Unbiased, Effıcient Statistical Tree; Loh ve Shih, 1997), C5.0 (Quinlan), SLIQ (Supervised Learning in Quest; Mehta, Agarwal ve Rissanen), SPRINT (Scalable Parattelizable Indııction ofDecision Trees; Shafer, Agrawal ve Mehta) başlıcalarıdır. 4.1. C H A I D ve Bir Örnek Uygulama 1980 yılında G.V. Kass tarafından geliştirilen CHAID algoritmasında, bağımlı değişkeni en fazla etkileyen bağımsız değişken, bağımlı değişkenin sürekli olması durumunda F testi, kategorik olması durumunda K i Kare testi kullanılarak belirlenir. Kategorik (Nominal / Ordino!) ve sürekli değişkenler üzerinde çalışabilmesi, ağaçta her düğümü ikiden fazla alt gruba ayırabilmesi gibi nedenlerle günümüzde de tercih edilen bir algoritmadır. Örnek uygulamada 323 kişiye ilişkin veriler toplanmış ve zaman içerisinde bu kişilerin geri ödemelerini düzenli veya düzensiz yapmalarına bağlı olarak, kredi değerlemeleri İyi ve kötü şeklinde sınıflandırılmıştır. [13] Amaç, belirtilen bu bağımlı değişkeni etkileyen bağımsız değişkenlerin belirlenmesi ve bu çerçevede kredilerini düzenli olarak geri ödeyen müşteri örüntülerinin ortaya çıkarılmasıdır. Veri kümesinde yer alan bağımsız değişkenler aşağıdaki tabloda görülmektedir. Özellik (Bağım sız Değişken) Yaş Mağaza Kredi Kartı Var mı ? Ücretini Aldığı Zarflan Dilimi Iş Sınıfı Özellik Değerleri Genç, Orta Yaşlı, Yaşlı Evet, Hayır Haftalık, Aylık Yönetici, Meslek Sahibi, Tecrübesiz İşçi Tecrübeli İşçi, 17 Örnek uygulama SPSS Anstver Tree 2.0 yazılımı .ile hazırlanmıştır. Yazılımın çalıştırılması sonucunda elde edilen karar ağacının ilk iki aşaması şekil 5'de görülmektedir. 2 Kredi Değerleme Kdiu ram 100 İyi (100,00) 47.99 323 155 Tolal ödeme AylıkBH adalı k P-value=0.Q000; Chl-square=179.6B65; OM Aylık Ücreti! n 143 22 13.33 tolal (51.08) 1fi5" Cal % KrltU flfi.67 KÖl!J lî.82 25 İyi B4.1B 133 Total"(«.a2) i 50 tfi Yaş Kategorisi P-value=0.0000. Chi-square=30.1113; df=1 Genç {"2S),Ûrta Yaşlı (=25.«35) Caı % n Kd!(l 90.51 143 9.49 15 M lolal (48.92) 158 Y a ; Kategorisi P-value=0.0000; chi-square= 58.7 255; d£=1 , 1 . Genç (<3S) Orta Yaşlı (>25,-35):YaîH (=35) _l_ 1 Yaslı (s35) Cal Köiu % ÜM 100.00 Tolal (2-1/) Şekil S : CHAID Algoritması n ü 7 1 Cat. % n Kfllû 43.93 tVİ 51.02 2S Tolal (15.17) «a M hm ıj.92 i İyi 99.00 100 TÖtaT (5S.J5) fütr Uygulanan Bir Karar Ağacı CHAID algoritmasına göre yapılan hesaplama sonucunda aylık ücretli olarak çalışan / genç olmayan ve haftalık ücretli olarak çalışan / yaşlı kişilerin kredi geri ödemelerinde iyi olarak değerlendirilebileceği açıkça görülmektedir. 4.2. C & R T ve Bir Örnek Uygulama 1984 yılında Breiman, Friedman, Olshen ve Stone tarafından geliştirilen C&RT algoritmasında, her aşamada ilgili grubun, kendinden daha homojen olan iki alt gruba (Binary Tree) ayrılması sağlanmaktadır. Ayırım işlemi kategorik bağımlı değişkenler için gini, twoing, sürekli değişkenler için en küçük kareler sapması (Least-Squared Deviation) indeks hesaplamalarına göre yapılmaktadır. Bu hesaplamalarda kar, maliyet değerleri ve değişken kategorileri arasındaki önceliklerin tanımlanabilmesi gibi sağlanan çeşitli esneklikler, C&RT algoritmasının günümüzde de yoğun olarak tercih edilmesine neden olmaktadır. 2 AnsvverTree 2.0 SPSS Inc. tescilli markasıdır. Yazılımın deneme sürümünü sağlayan SPSS Türkiye distribütörü UYTES'e teşekkür ederim. 18 Örnek uygulamada 925 kredi kartı başvurusuna ilişkin veriler aşağıda sunulan tablodaki özelliklere uygun olarak toplanmış, uzman kişiler tarafından yapılan değerlendirmeler sonucunda ise 925 kredi kartı başvurusunun 725'i kabul edilmiştir. Örnek çalışmanın amacı, kredi kartı değerlendirmesine ilişkin olarak banka uzmanlarının karar örüntülerinin belirlenmesidir. (Tabloda nominal, ordinal ve sürekli tipteki değişkenler sırası ile N, O, ve S harfleri ile gösterilmiştir.) Tipi Özellik (Bağımsız Değişken) Medeni Durumu N Önceki İşi N Şimdiki İşi N Kredi Kartı Promosyonuna Cevap Verdi mi ? Çalıştığı Yere Ortak mı ? Mağaza Kredi Kartı Var mı ? Başka Bankadan Kredi Kartı Var mı ? Tasarruf Hesabı Var m ı ? Şimdiki İşinde Çalışma Süresi (Ay) Kaç Yıldır Banka Müşterisi ? N N N N N S S Özellik Değerleri Bekar, Evli, Dul, Boşanmış Yönetici, Memur, Esnaf, Öğrenci, Emekli, İşçi, İşsiz... Yönetici, Memur, Esnaf, Öğrenci, Emekli, İşçi, İşsiz... Evet, Hayır Evet, Hayır Evet, Hayır Evet, Hayır Evet, Hayır Her bir düğümün her aşamada ikiye ayrıldığı C&RT algoritmasında, ilk aşamada en kuvvetli ayırım kriteri olarak müşterinin tasarruf hesabı gini indeksi kullanılarak bulunmuştur. p(j | t), t. düğümde j sınıfının nispi frekansı olmak üzere, t. düğümün gini indeks değeri, j eşitliği ile hesaplanmaktadır. Bir düğümde kategoriler söz konusu olduğunda, bağımlı değişken için kategori gini indeks değeri 1 - ( l / k ) işlemi sonucunda elde değere erişecektir. Bir düğümdeki bütün vakaların aynı durumunda gini indeks değeri 0 olacaktır. arasında eşit dağılım sayısı k olmak üzere edilecek maksimum kategoriye ait olması 19 Gini kriter fonksiyonu <D(s,t); P l S O İ , p sağ alt düğüme gönderilen vakaların oranı olmak üzere, <E>(st) = g ( t ) - p g ( t ) - p g ( t ) R ! L L R R eşitliği ile hesaplanmaktadır. Bu eşitlikte <D(s,t) değerini maksimize edecek s değerinin seçilmesi amaçlanmakta, t düğümünde bütün vakaların katılımıyla hesaplanan bu değer, C&RT ağacında improvernent kavramı ile ifade edilmektedir. C&RT algoritması sonucunda kurulan modelin, sınıflara ayırmadaki doğruluk derecesi aşağıda sunulan matriste görülmektedir. Bu matrise göre fiilen kabul edilen 725 kredi kartı başvurusundan 699'u, fiilen kabul edilmeyen 200 başvurunun 128*i doğru olarak sınıflandırılmıştır. Bu durumda kurulan modelin doğruluk derecesi % 89.4 (=1 - 0,106) olacaktır. Tahmini Evet Hayır Toplam Evet 699 26 725 Risk Tahmini Risk Tahmininin Standart Hatası Fiili Haytr 12 128 200 Toplam 771 154 925 0.10594 0.0101194 Aşağıda sunulan kazançlar matrisinde Kredi Kartı Alsın mı ? isimli bağımlı değişkenin Hayır sınıfı ile ilgili sonuçları yer almaktadır. Düğüm No 30 18 29 21 3 27 Düğüm : n 91 19 23 16 5 19 Düğüm : % 9.84 2.05 2.49 1.73 0.54 2.05 Cevap : n 84 15 16 10 3 8 Cevap : % 42 7.5 8 5 1.5 4 Kazanç % 92.3077 78.9474 69.5652 62.5 60 42.1053 indeks % 426.923 365.132 321.739 289.063 277.5 194.737 20 30 nolu düğümde Başvuru Sahibinin Mağaza Kredi Kartı Var mı ? isimli bağımsız değişken değerinin Hayır olarak belirtildiği sınıf yer almaktadır. Bu düğümde 84 cevap Hayır, 7 cevap Evet olmak üzere toplam 91 vaka bulunmaktadır. Düğüm:n değeri 91/925; cevap:% değeri 84/200; kazanç % değeri 84/91; indeks % değeri 92.3/21.62 işlemleri sonucunda elde edilmektedir, indeks % değeri bu düğümün genel toplam içerisinde 4.26 kat daha fazla anlamlı olduğunu göstermektedir. Örneğe ilişkin karar kuralı ise, if (tasarruf hesabı var mı ? ~ ??? or tasarruf hesabı var mı ? = diğer banka) and (önceki kredi kartı promosyonuna - ??? or önceki kredi kartı promosyonuna = hayır) and başka kredi kartı var mı ? = hayır and (mağaza kredi kartı var mı ? = hayır or mağaza kredi kartı var mı ? = ???) then node"=30 prediction='Hayır' probability=0.923 olacaktır. Bu cümlede belirtilen şartların gerçekleşmesi durumunda % 92.3 olasılıkla kredi kartı başvurusunun red edileceği görülmektedir. 21 FAYDALANILAN KAYNAKLAR 1. ACKNOSOFT, întroduction to Data Mining and Case Based Reasoning. .. www.acknosoft.com/pTechnology.html. (09/06/1999) 2. AZMY, Ashraf. (18/05/1998). Superquery;Data Mining for Everyone. www.azmy.com/wpi.htm. (09/06/1999) 3. BRAND, Estelle. DBMS Data Mining Solutions Supplement. www.dbsmag.com. (02/07/1999) 4. BUSINESS OBJECTS. Introducing BusinessMiner. 1997 5. BUSINESS OBJECTS. Queıy Tools and Your Data Warehouse. 1998 6. DILLY, Ruth. (32/1995). Data Mining: An Introduction www-pcc.qub.ac.ıık/tec/courses/dal:aminin^/slLi notes/dm book 1 .html. (10/06/1999) 7. FAYYAD, Usa ma. Mining Databases: Towards Algorithms for Knowledge Discovery. Bulletin of the IEEEComputer Society Technical Committee on Data Engineering, vol. 21, no. 1, 03/1998 8. SALFORD SYSTEMS. An Overview of the CART Methodology. www.salford.com/whitepaper.htm. (31/08/1999) 9. SAS Institute Inc. 77ıe Data Mining Challenge: Turning Raw Data Into Business Gold. www.sas. com/software/data mining/. (16/08/1999) 10. SAS Institute Inc. Using Data Mining Techniaues for FraudDetection. 1999 11. SAS Institute Inc. Finding the Soîution to Data Mining. 1998 12. SAS Institute Inc. Data Mining and the Case for Sampling, 1998 13. SPSS Inc. AnswerTree 2.0 User's Guide, 1998, ISBN 1-56827-254-5 14. SPSS Inc. Neıtral Networks in Royal SunAlliance Life and Pensions. www.spss.com/.../elem tinancial.htm. (13/08/1999) 15. SPSS Inc. How to Evaluate Dala Mining Software. www.uytes.com.tr/spss/datamining/dminel.htm. (10/08/1999) * Internet'den alman kaynak referanslarında, Yazar Soyadı, Yazar Adı. (Biliniyorsa Çalışmanın Tarihi). Çalışmanın Adı. Adresi. (Erişim Tarihi) şeklindeki APA (American Psychologİcal Association) İçin önerilen stil kullanılmıştır. 22 16. SPSS Inc. Better Segmentation Using SPSS CHAID. www.spss.com/.../chaidl .htm. (13/08/1999) 17. SPSS Inc. How SPSS Delivers Business Intelligence. www.spss.com/software/spss/asf.htm. (13/08/1999) 18. SPSS Inc. Data Mining, www.spss.com/.../dataWa.html. (13/08/1999) 19. SPSS Inc. More on What Data Mining is - and isn 't, www.spss.com/datamine/what2.htm. (10/08/1999) 20. SPSS Inc. Data Mining andStatistics: Gain a Competitive Advantage. www.spss.com/.../gain.html. (13/08/1999) 21. SPSS Inc. Extend Your Data Mining Capabilities with Advanced Analysis. wwvv.spss.com/..,/botext.html. (13/08/1999) 22. SPSS Inc. Data Mining: An întroduction. www.spss.com/.../elem healthcarel.htm. (13/08/1999) 23. SPSS Inc. AnswerTree Aigorİthm Summary. www.spss.com/.../alt>o sum.htm. (13/08/1999) 24. THEARLING, Kurt. An întroduction to Data Mining. www3.shore.net/~-kht/text/dmwhite/dmwhite.htm. (07/06/1999) 25. THEARLING, Kurt. Visualizing Data Mining Models. www3. shore. net/~kht/text/dmwiz/modelwiz. htm. (07/06/1999) 26. THEARLING, Kurt. (09/1995). An Overview of Data Mining at Dun&Bradstreet. www3.shore.net/-kht/text/dmwhite/dmwhite.htm. (07/06/1999 27. THEARLING, Kurt. An întroduction to Data Mining. www3.shore.net/~kht/text/dmwhite/dmwhite.htm. (07/06/1999) 28. TWO CROWS Corp. întroduction to Data Mining and Knowledge Discovery. 1998 29. WINTER Corp. VLDB Survey Program. [esl.vvintei-corp.com/VLDB/I998 VLDB Winners/table7.html. (13/09/1999)