MESLEK YÜKSEKOKULU ÖĞRENCİLERİNİN BAŞARI DURUMLARINI ETKİLEYEN FAKTÖRLERİN VERİ MADENCİLİĞİ KÜMELEME TEKNİKLERİ KULLANILARAK ANALİZİ: AĞRI MESLEK YÜKSEKOKULU ÖRNEĞİ Gaffari ÇELİK Yüksek Lisans Tezi Bilgisayar Mühendisliği Ana Bilim Dalı Yrd. Doç. Dr. Tolga AYDIN 2013 Her hakkı saklıdır ATATÜRK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ YÜKSEK LİSANS TEZİ MESLEK YÜKSEKOKULU ÖĞRENCİLERİNİN BAŞARI DURUMLARINI ETKİLEYEN FAKTÖRLERİN VERİ MADENCİLİĞİ KÜMELEME TEKNİKLERİ KULLANILARAK ANALİZİ: AĞRI MESLEK YÜKSEKOKULU ÖRNEĞİ Gaffari ÇELİK BİLGİSAYAR MÜHENDİSLİĞİ ANA BİLİM DALI ERZURUM 2013 Her Haklı Saklıdır T.C. ATATÜRK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TEZ ONAY FORMU MESLEK YÜKSEKOKULU ÖĞRENCİLERİNİN BAŞARI DURUMLARINI ETKİLEYEN FAKTÖRLERİN VERİ MADENCİLİĞİ KÜMELEME TEKNİKLERİ KULLANILARAK ANALİZİ: AĞRI MESLEK YÜKSEKOKULU ÖRNEĞİ Yrd. Doç. Dr. Tolga AYDIN danışmanlığında, Gaffari ÇELİK tarafından hazırlanan bu çalışma 09/09/2013 tarihinde aşağıdaki jüri tarafından Bilgisayar Mühendisliği Anabilim Dalı’nda Yüksek Lisans tezi olarak oybirliği/oy çokluğu (…/…) ile kabul edilmiştir. Başkan : Yrd. Doç. Dr. Tolga AYDIN İmza : Üye : Yrd. Doç. Dr. Deniz DAL İmza : Üye : Yrd.Doç. Dr. İ. Yücel ÖZBEK İmza : Yukarıdaki sonucu onaylıyorum Prof. Dr. İhsan EFEOĞLU Enstitü Müdürü Not: Bu tezde kullanılan özgün ve başka kaynaklardan yapılan bildirişlerin, çizelge, şekil ve fotoğrafların kaynak olarak kullanımı, 5846 sayılı Fikir ve Sanat Eserleri Kanunundaki hükümlere tabidir. ÖZET Yüksek Lisans Tezi MESLEK YÜKSEKOKULU ÖĞRENCİLERİNİN BAŞARI DURUMLARINI ETKİLEYEN FAKTÖRLERİN VERİ MADENCİLİĞİ KÜMELEME TEKNİKLERİ KULLANILARAK ANALİZİ: AĞRI MESLEK YÜKSEKOKULU ÖRNEĞİ Gaffari ÇELİK Atatürk Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı Danışman: Yrd. Doç. Dr. Tolga AYDIN Veri madenciliği, veri ambarlarında biriken ham veriyi kullanarak önceden bilinmeyen faydalı bilgilerin çeşitli yöntemlerle elde edilmesini sağlayan bir bilim dalıdır. Veri madenciliği çok hızlı bir şekilde gelişmekte ve kullanım alanı yaygınlaşmaktadır. Eğitim alanı da söz konusu kullanım alanlarından birisidir. Bu çalışmada veri madenciliği ve süreçleri incelenmiş, Ağrı İbrahim Çeçen Üniversitesi Meslek Yüksekokulunda eğitim gören öğrencilere ilişkin veriler toplanarak, bu verilere WEKA programı yardımı ile veri madenciliği yöntemlerinden kümeleme algoritmaları uygulanmıştır. Algoritma çalışma sonuçları incelenerek öğrenci başarılarını etkileyen faktörler tespit edilmiş ve eldeki veriye en uygun kümeleme algoritmaları belirtilmiştir. 2013, 89 Sayfa Anahtar Kelimeler: Veri Madenciliği, Veri Madenciliği Süreci, Kümeleme Algoritmaları, K-Means, DBScan, OPTICS, Meslek Yüksekokulu i ABSTRACT MS Thesis ANALYSIS OF THE FACTORS AFFECTING THE SUCCESS OF VOCATIONAL HIGH SCHOOL STUDENTS BY USING THE CLUSTERİNG TECHNIQUES OF DATA MINING: AĞRI VOCATIONAL HIGH SCHOOL CASE Gaffari ÇELİK Atatürk University Graduate Schoool of Natural and Applied Sciences Department of Computer Engineering Supervisor: Asst. Prof. Dr. Tolga AYDIN Data mining is a field that aims to obtain previously-unknown, useful knowledge from raw data at data warehouses by applying several methods. Data mining is developing very rapidly, and its area of usage is becoming widespread. Educational area is one of those areas mentioned. In this study, data mining and its processes were investigated. Data regarding the students enrolled in the Vocational High School of Ağrı İbrahim Çeçen University was collected, and the clustering algorithms of data mining were applied to this data by using WEKA software. The analysis of algorithmic study results helped us to identify the factors affecting the success of the students, and also helped us to state the clustering algorithms that best suit to the obtained data. 2013, 89 Pages Keywords: Data Mining, Data Mining Process, Clustering Algorithms, K-Means, DBScan, OPTICS, Vocational High School ii TEŞEKKÜR Bu tezin hazırlanmasında desteklerini benden esirgemeyen danışman hocam Sayın Yrd. Doç. Dr. Tolga AYDIN’a teşekkürü bir borç bilirim. Yüksek lisans eğitimimde emeği geçen hocalarım Sayın Doç. Dr. A. Samet HAŞILOĞLU’ na ve Sayın Yrd. Doç. Dr. Deniz DAL’ a teşekkürlerimi sunarım. Yardımlarından dolayı Ağrı İbrahim Çeçen Üniversitesi Rektörü Sayın Prof. Dr. İrfan ASLAN’a ve Ağrı Meslek Yüksekokulu Müdürü Sayın Yrd. Doç. Dr. Aydın ZOR’a; yardımlarını esirgemeyen mesai arkadaşım Sayın Öğr. Gör. M. Mehdi KARAKOÇ’a teşekkürlerimi sunarım. Ayrıca çalışmam süresince bana destek olan, maddi ve manevi olarak yanımda olan çok değerli eşim ve çocuğuma sonsuz teşekkürlerimi sunarım. Gaffari ÇELİK Eylül, 2013 iii İÇİNDEKİLER ÖZET.................................................................................................................................. i ABSTRACT ...................................................................................................................... ii TEŞEKKÜR .....................................................................................................................iii SİMGELER ve KISALTMALAR DİZİNİ ..................................................................... vii ŞEKİLLER DİZİNİ.......................................................................................................... ix ÇİZELGELER DİZİNİ .................................................................................................... xi 1. GİRİŞ ....................................................................................................................... 1 2. KAYNAK ÖZETLERİ .......................................................................................... 3 2.1. Veri Madenciliği Süreci ........................................................................................ 7 2.1.1. Problemin tanımlanması ..................................................................................... 8 2.1.2. Verilerin hazırlanması ........................................................................................ 8 2.1.2.a. Veri toplama .................................................................................................... 9 2.1.2.b. Değer biçme .................................................................................................... 9 2.1.2.c. Veri birleştirme .............................................................................................. 10 2.1.2.d. Veri temizleme .............................................................................................. 10 2.1.2.e. Veri seçimi ..................................................................................................... 11 2.1.2.f. Veri dönüştürme ............................................................................................ 11 2.1.3. Modelleme ........................................................................................................ 13 2.1.3.a. Modelleme tekniğinin seçilmesi .................................................................... 14 2.1.3.b. Test tasarımı .................................................................................................. 14 2.1.3.c. Modelin oluşturulması ................................................................................... 14 2.1.3.d. Modelin değerlendirilmesi ............................................................................ 14 2.1.4. Modelin kullanılması ........................................................................................ 15 2.1.5. Modelin izlenmesi ............................................................................................ 15 2.2. Veri Madenciliği Modelleri ................................................................................. 15 2.2.1. Tahmin edici modeller...................................................................................... 15 2.2.1.a. Sınıflandırma modeli ..................................................................................... 16 2.2.1.b. Regresyon ...................................................................................................... 20 iv 2.2.2. Tanımlayıcı modeller ....................................................................................... 21 2.2.2.a. Kümeleme analizi .......................................................................................... 21 2.2.2.b. Birliktelik kuralları ........................................................................................ 22 2.3. Veri Madenciliği Kümeleme Algoritmaları ........................................................ 23 2.3.1. Uzaklık ölçüleri ................................................................................................ 26 2.3.2. Bölümlemeli yöntemler .................................................................................... 31 2.3.2.a. K-Means algoritması ..................................................................................... 31 2.3.2.b. EM (Expectation Maximization) algoritması ................................................ 34 2.3.2.c. K-Medoids algoritması .................................................................................. 35 2.3.2.d. Clara algoritması ........................................................................................... 36 2.3.2.e. Clarans algoritması ........................................................................................ 37 2.3.3. Hiyerarşik yöntemler ........................................................................................ 38 2.3.3.a. En yakın komşu algoritması .......................................................................... 38 2.3.3.b. En uzak komşu algoritması ........................................................................... 39 2.3.4. Yoğunluk tabanlı yöntemler ............................................................................. 40 2.3.4.a. DBSCAN algoritması .................................................................................... 40 2.3.4.b. OPTICS algoritması ...................................................................................... 43 2.3.4.c. DENCLUE algoritması.................................................................................. 43 2.3.5. Izgara tabanlı yöntemler ................................................................................... 44 2.3.5.a. Sting algoritması ............................................................................................ 44 2.3.5.b. Dalga kümeleme metodu ............................................................................... 45 2.3.5.c. CLIQUE algoritması...................................................................................... 46 3. MATERYAL ve YÖNTEM ................................................................................. 48 3.1. Materyal............................................................................................................... 48 3.1.1. Problemin tanımlanması ................................................................................... 48 3.1.2. Verinin hazırlanması ........................................................................................ 48 3.1.3. Verinin temizlenmesi ....................................................................................... 51 3.1.4. Veri birleştirme ve dönüştürme ........................................................................ 53 3.2. Yöntem ................................................................................................................ 61 4. ARAŞTIRMA BULGULARI ve TARTIŞMA ................................................... 68 5. SONUÇ ................................................................................................................. 81 vÖZGEÇMİŞ .................................................................................................................... 90 vi SİMGELER ve KISALTMALAR DİZİNİ Dağıtım Hücrelerin nitel dağılımlarındaki dağılım tipi (normal, üstel gibi) Enb Hücre içerisindeki nitelik en büyük değeri Enk Hücre içerisindeki nitelik en küçük değeri m Hücredeki tüm değerlerin toplamı Max Bir verinin alabileceği en yüksek değer Min Bir verinin alabileceği en düşük değer MinNs Minimum nesne sayısı NoktaSys Veri setinde bulunan nokta sayısı ort Veri tabanındaki ilgili alanın ortalaması s Hücrede bulunan sayısal değerlerin standart sapması Verinin normalize edilmiş hali Verinin orijinal hali Veri tabanındaki ilgili alanın standart sapması Küme yarıçapı Kısaltmalar ARFF Attribute Related Format CLARA Clustering Large Applications CLARANS Clustering Large Applications Based Upon Randomized Search CLIQUE Clustering High-Dimensional Space DBSCAN Density-Based Spatial Clustering of Applications with Noise DENCLUE Density-based Clustering EM Expectation Maximization KPSS Kamu Personeli Seçme Sınavı MSSQLServer-2008 Microsoft SQL Server 2008 OPTICS Ordering Points To Identify the Clustering Structure PAM Partitioning Around Medoids vii SQL Structured Query Language STING Statistical Information Grid T-SQL Transact SQL VTBK Veri Tabanlarında Bilgi Keşfi WEKA Waikato Environment for Knowledge Analysis viii ŞEKİLLER DİZİNİ Şekil 2.1. Veri madenciliğinde bilgi keşfi ....................................................................... 4 Şekil 2.2. VTBK süreci aşamaları ................................................................................... 7 Şekil 2.3. Bir kredi kartı kampanyasında yeni bir örneğin sınıflandırılması .................. 18 Şekil 2.4. Kümeleme ...................................................................................................... 23 Şekil 2.5. İki nokta arasındaki uzaklık ........................................................................... 27 Şekil 2.6. K-Means algoritmasına örnek ....................................................................... 33 Şekil 2.7. K-Medoids algoritması ile kümeleme .......................................................... 35 Şekil 2.8. En yakın komşu algoritmasında iki kümenin birbirine olan uzaklığı ............ 39 Şekil 2.9. En uzak komşu algoritmasında iki kümenin birbirine olan uzaklığı ............. 40 Şekil 3.1. Öğrenci bilgilerinin Delphi programı ile MSSQLSERVER-2008 veri tabanına aktarılmasını sağlayan programın ara yüzü .................................... 49 Şekil 3.2. MSSQLSERVER-2008 ara yüzü, oluşturulan veri tabanı (MYOOgrenci) ve oluşturulan tablolar ................................................................................... 51 Şekil 3.3. WEKA kullanıcı arayüzü ................................................................................ 62 Şekil 3.4. Verinin Excel2Arf Converter programı yardımı ile ARFF formatına dönüştürülmesi .............................................................................................. 63 Şekil 3.5. ARFF formatına dönüştürülmüş veri .............................................................. 64 Şekil 3.6. Explorer modülünün kullanıcı arayüzü ......................................................... 65 Şekil 3.7. Niteliklere göre istatistiki bilgiler ................................................................... 67 Şekil 4.1. K-Means algoritmasının WEKA çıktısı ......................................................... 69 Şekil 4.2. Lise türüne göre kayıtların kümelere dağılımı................................................ 71 Şekil 4.3. Doğum yerine göre kayıtların kümelere dağılımı ........................................... 72 Şekil 4.4. Aylık gelire göre kayıtların kümelere dağılımı .............................................. 72 Şekil 4.5. Kaldığı yere göre kayıtların kümelere dağılımı .............................................. 73 Şekil 4.6. Kardeş sayısına göre kayıtların kümelere dağılımı ........................................ 73 Şekil 4.7. Yaşa göre kayıtların kümelere dağılımı.......................................................... 74 Şekil 4.8. Babanın mesleğine göre kayıtların kümelere dağılımı ................................... 75 Şekil 4.9. Cinsiyete göre kayıtların kümelere dağılımı................................................... 75 Şekil 4.10. Sağlık sorununa göre kayıtların kümelere dağılımı ...................................... 76 ix Şekil 4.11. Annenin çalışma durumuna göre kayıtların kümelere dağılımı ................... 77 Şekil 4.12. Annenin hayatta olma durumuna göre kayıtların kümelere dağılımı ........... 78 Şekil 4.13. Babanın hayatta olma durumuna göre kayıtların kümelere dağılımı............ 78 Şekil 4.14. DBScan algoritmasının WEKA çıktısı ......................................................... 79 Şekil 4.15. OPTICS algoritmasının WEKA çıktısı......................................................... 80 x ÇİZELGELER DİZİNİ Çizelge 2.1. Onur ve yüksek onur öğrencileri listesi ...................................................... 17 Çizelge 2.2. Farklı kümeleme tekniklerinin karşılaştırılması ......................................... 25 Çizelge 2.3. Üç özelliğe ait gözlenen değerler ............................................................... 28 Çizelge 2.4. Öklid uzaklığına göre benzerlik matrisi ..................................................... 29 Çizelge 2.5. Manhattan uzaklığına göre benzerlik matrisi ............................................. 30 Çizelge 2.6. Minkowski uzaklığına göre benzerlik matrisi ............................................ 31 Çizelge 3.1. Veri dönüşüm aşamasında bazı niteliklerin aldığı değerler ........................ 61 Çizelge 4.1. K-Means algoritmasının sonucu ve özeti ................................................... 70 xi 1 1. GİRİŞ Teknolojinin yoğun olarak kullanıldığı günümüzde bilgilerin elektronik ortamlarda tutulmasıyla birlikte veri ambarlarında çok büyük miktarda veri birikimi meydana gelmiş, gün geçtikte veri birikimi inanılmaz boyutlara ulaşmıştır. Veri ambarlarında yığın halinde depolanan veri, veri madenciliği teknikleri ile anlamlı, kullanılabilir bilgiler haline getirilerek bu bilgi doğrultusunda tahminler yapılması veya çeşitli kararlar alınması sağlanabilir. Veri madenciliği ile yapılan uygulamaların olumlu sonuçlar üretmesi iş dünyasında ve akademik çevrede yoğun bir ilgi görmüş, bu sebeple veri madenciliği ile ilgili çeşitli algoritmalar üretilmiş, bulunan algoritmalarla ilgili yazılımlar yazılmış, konuya yönelik en iyi sonucu veren algoritmalar araştırılmış ve yeni teknikler geliştirilmiştir. Uygulamaya yönelik en iyi sonucu veren algoritmalar araştırılırken akademisyen ve araştırmacılar tarafından algoritmaların avantajları ve dezavantajları karşılaştırılmış ve hangisinin daha iyi olduğu kararlaştırılmıştır. Veri madenciliği teknikleri ile elde edilen sonuçların önceden bilinmemesi bu tekniklerin diğer yöntemlerden farklılığını ortaya koyar (Silahtaroğlu 2008). Veri madenciliği bankacılık, sağlık, sigortacılık, tıp, eğitim, pazarlama ve satış alanında, hedef pazarların tespitinde, müşteri ilişkilerinin yönetiminde, risk analizi ve dolandırıcılık saptamada, web analizi gibi birçok alanda uygulanmaktadır. Eğitim alanında, öğrencilerden alınan veriler analiz edilerek öğrencilerin başarılarını etkileyen faktörler bulunabilir, eğitim kalitesi artırılabilir. Aynı zamanda öğrencinin mezun olduğu lisans programı ile KPSS (Kamu Personel Seçme Sınavı)’deki başarı durumunun analizi, bölümlere göre başarının tespit edilmesi, üniversite giriş puanları ile okul başarısı arasında bir ilişkinin olup olmadığı, mezun olduğu lise türü ile okul başarısı arasında bir ilişkinin olup olmadığı gibi soruların cevabı bulunabilir. 2 Bu tez çalışmasında ilk önce veri madenciliği ile ilgili gerekli literatür taraması yapılıp temel kavramlar açıklanmış, uygulamada kullanılan bilgisayar yazılımları ve verinin toplanması, düzenlenmesi süreci anlatılmıştır. Daha sonra, hazırlanan veri setine WEKA yazılımı kullanılarak kümeleme algoritmalarından K-Means, DBScan ve OPTICS algoritmaları uygulanarak elde edilen sonuçlar verilmiştir. Son olarak Meslek Yüksekokulunda eğitim gören öğrencilerin başarılarını etkileyen faktörler ve veri setimize hangi kümeleme algoritmalarının uygun olduğu belirtilmiştir. 3 2. KAYNAK ÖZETLERİ Veri madenciliği önceden bilinmeyen, geçerli ve uygulanabilir bilgilerin çok büyük veri ambarlarından sağlanması ve bu bilgilerin işletme kararları alınırken kullanılmasıdır (Silahtaroğlu 2008). Larose (2006)’a göre veri madenciliği, yeni yöntemlerle veriler arasında gizli ilişkileri ortaya koyan bir bilim dalıdır. Başka bir tanıma göre veri madenciliği, veri tabanları içerisinde kritik kararlar almak, uygulanabilir ve anlamlı bilgilerin çıkarılmasına verilen addır. Varılması istenen bilgilerin, daha önceden bilinmeyen ancak potansiyel olarak kullanışlı, anlamlı ve kritik bilgiler olması gerekir (Argüden ve Erşahin 2008). Çok büyük veri ambarlarının incelendiği, veriler arasındaki ilişkileri, eğilimleri ve ilginç örüntüleri keşfetmede kullanılan bir süreçtir (Akın 2008). Bu süreç Şekil 2.1’de gösterilmiştir. Veri ambarları, daha sonradan kullanılmak üzere verilerin sorgulanabildiği ve analiz edildiği depolardır (Şentürk 2006). Veri ambarları elde edilen verinin, eksikleri giderildikten sonra işletme uygulamasına yönelik olarak dönüştürülmesi, özetlenmesi ve bir veri tabanına aktarılmasını içerir (Gürsoy 2009). 4 Şekil 2.1. Veri madenciliğinde bilgi keşfi (Baykasoğlu 2005) Veri madenciliği istatistiksel yöntemler serisi olarak görülse de, istatistikten birkaç yönden farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin bulunmasıdır (Baykasoğlu 2005). Veri madenciliğinin amaçları müşteri analizi örneği için aşağıdaki başlıklar altında verilebilir (Çoban 2006): Öngörü: Ürünlerin satışları ile ilgili tahminlerde bulunmak. Tanıma: Bir müşteriyi aldığı ürünlerden tanımak. 5 Sınıflandırma: Birçok parametrenin kullanılarak ürünleri ve müşterileri sınıflandırmak. En iyileme: Belirli kısıtlamalar çerçevesinde zaman, yer, para veya ham madde gibi sınırlı kaynakların kullanımı ile üretimi, satış miktarını veya kazancı artırmak. Veri madenciliği bankacılık, sağlık, sigortacılık, pazarlama ve satış alanında, hedef pazarların tespitinde, müşteri ilişkilerinin yönetiminde, risk analizi ve dolandırıcılık saptamada, web analizi gibi birçok alanda uygulanmaktadır. Bu uygulama alanların bazıları şöyle verilebilir: Pazarlama: Bu alan incelendiğinde en önemli uygulamaların, farklı müşteri gruplarını tanımlamak ve bu müşteri gruplarının davranışlarını tahmin etmeye yönelik olarak yapıldığı görülmektedir (Fayyad et al. 1996). Ayrıca, müşterilerin satın alma özelliklerinin belirlenmesi, mevcut müşterileri kaybetmeden yeni müşteriler kazanmada, müşteri ilişkileri yönetiminde ve satış tahmininde bulunmasında, pazar sepeti analizinde, kampanya ürünleri belirlenmesinde kullanılabilir (Dinçer 2006). Banka ve Sigortacılık: Bu alanlarda, kredi kartı dolandırıcılıklarının tespitinde, kredi kartı harcamalarına göre müşteri gruplarının belirlenmesinde, kredi taleplerinin değerlendirilmesinde, yeni poliçe talep edecek müşterilerin tahmin edilmesinde, sigorta dolandırıcılıklarının tespitinde, riskli müşterilerin özelliklerinin belirlenmesinde kullanılabilir (Baykal 2006). Eğitim: Öğrenci verileri analiz edilerek öğrencilerin başarılarını etkileyen faktörler, üniversite giriş puanları ile okul başarısı arasında bir ilişkinin olup olmadığı gibi uygulamalarda kullanılarak eğitim kalitesi arttırılabilir (Akgöbek ve Çakır 2009). Biyoloji, Tıp ve Genetik: Bitki türleri ıslah edilmesinde, gen haritasının analizinde ve genetik hastalıkların tespitinde, kanserli hücrelerin tespitinde, yeni virüs türlerinin keşfi ve sınıflandırılmasında, fizyolojik parametrelerin analizi ve değerlendirilmesinde kullanılmaktadır. 6 Kimya: Yeni kimyasal moleküllerin keşfi ve sınıflandırılmasında, yeni ilaç türlerinin keşfinde kullanılmaktadır. Yüzey Analizi ve Coğrafi Bilgi Sistemleri: Bölgelerin coğrafi özelliklerine göre sınıflandırılmasında, kentlerde yerleşim yerleri belirlenmesinde, kentlerde suç oranı, zenginlik-yoksulluk, köken belirleme, kentlere yerleştirilecek posta kutusu belirlemede, otomatik para makinaları ve otobüs durakları gibi hizmetlerin konumlarının tespitinde kullanılmaktadır. Görüntü Tanıma ve Robot Görüş Sistemleri: Çeşitli algılayıcılar aracılığı ile tespit edilen görüntülerden yola çıkarak yol tanıma, yüz tanıma, parmak izi tanıma gibi tekniklerde kullanılmaktadır. Uzay Bilimleri ve Teknolojisi: Gezegen yüzey şekillerinin ve gezegen yerleşimlerinin belirlenmesinde, yeni galaksiler keşfi ve yıldızların konumlarına göre gruplandırılmasında kullanılmaktadır. Meteoroloji ve Atmosfer Bilimleri: Bölgesel iklim, yağış haritaları oluşturulmasında, hava tahminleri, ozon tabası deliklerinin tespitinde ve çeşitli okyanus hareketlerinin belirlenmesinde kullanılmaktadır. Sosyal Bilimler ve Davranış Bilimleri: Kamuoyu yoklamaları incelenmesinde, seçim tahminlerinin yapılmasında kullanılmaktadır. Metin Madenciliği: Çok büyük ve anlamsız metin yığınları arasından anlamlı ilişkiler belirlemede kullanılmaktadır (Dinçer 2006). Veri madenciliğinde kullanılan verinin eksik veri içermesi ve verinin konu ile uyumsuzluğu durumunda sorunlar meydana gelmektedir (Akgöbek ve Çakır 2009). Aynı zamanda verinin sınırlı bilgi içermesi, gürültü ve eksik değerlere sahip olması, 7 verinin boyutu, verideki güncellemeler ve konu dışı değerler veri madenciliği için problem teşkil eder (Vahaplar ve İnceoğlu 2001). 2.1. Veri Madenciliği Süreci Veri madenciliği daha çok, veri tabanlarında bilgi keşfi (VTBK) şeklinde daha geniş kapsamda incelenmektedir. Veri madenciliği sürecinde, özellikle veri ambarlarında tutulan çok çeşitli veriler kullanılarak, keşfedilmemiş, anlamlı ve yararlı bilgiler keşfedilir ve bu bilgiler karar verme işlemlerinde kullanılır (Dondurmacı 2011). VTBK, veri ambarlarındaki veriye erişerek analiz edilmesi ve sonuçlar üretilmesi üzerine odaklanmıştır. VTBK süreci, veri ambarı oluşturulması ve bu verilere dayanarak veri madenciliği işlemlerinin yerine getirilmesi aşamalarından oluşur (Mitra ve Acharya 2003). Bu süreç Şekil 2.2’de ki gibi gösterilmiştir. Şekil 2.2. VTBK süreci aşamaları (Fayyad et al. 1996) Veri madenciliği süreci genellikle tekrar eden adımlardan oluşur. Gerek görülmesi durumunda önceki adımlara dönülüp elde edilen bilgiler ışığı altında dinamik bir akış sağlanabilir (Babadağ 2006). 8 Şekil 2.2’ye göre VTBK keşfi aşamaları şöyle açıklanabilir (Sever ve Oğuz 2002): Veri Seçimi (Data Selection): Bu adımda birkaç veri kümesi birleştirilerek, uygun örneklem kümesi oluşturulur. Veri Temizleme ve Önişleme (Data Cleaning & Preprocessing): Seçilen örneklemde, hatalı bilginin çıkarıldığı, eksik nitelik değerleri yerine yeni değerlerin konulduğu adımdır. Bu adım keşfedilecek bilginin kalitesini artırır. Veri İndirgeme (Data Reduction): Uygulama için seçilen örneklemden ilgisiz niteliklerin atıldığı ve tekrarlı verinin ayıklandığı adımdır. Veri Madenciliği (Data Mining): Belirli bir veri madenciliği tekniğinin (sınıflama gibi) işletilme adımıdır. Değerlendirme (Evaluation): Keşfedilen bilginin geçerliliğinin, yenilik durumunun, faydalı olup olmadığının değerlendirilmesi aşamasıdır. Veri madenciliği süreci daha detaylı bir biçimde ise şöyle tanımlanabilir: 2.1.1. Problemin tanımlanması İlk adım veri madenciliği çalışmasının hangi amaç için yapılacağının ortaya konulmasıdır. Cevabı aranan problemin net bir şekilde ifade edilerek sonuçlarının değerlendirme şartlarının tanımlanmasını yapmaktır (Argüden ve Erşahin 2008). Aynı zamanda bulunacak sonuçların başarı düzeylerinin nasıl ölçüleceği belirtilmelidir. Ayrıca yanlış tahmin sonucunda katlanılacak olan maliyetlere ve doğru tahminler sonucunda kazanılacak faydalara ilişkin tahminler de bu adımda değinilmelidir (Akpınar 2000). 2.1.2. Verilerin hazırlanması Verilerin hazırlanması aşamasında veri tabanlarındaki verilerde hatalı değerlerin onarılmasını ya da düzeltilmesini içeren ön hazırlık işlemleri yapılır (Han ve Kamber 9 2006). Veri madenciliği öncesinde verinin hazırlanması süreci olarak da kabul edilen bu adımda özellikle veri tabanındaki hatalı değerleri ve veriler arasındaki tutarsızlıkları kaldırma amaçlanmaktadır (Dondurmacı 2011). Veri hazırlama aşamasında aşağıdaki durumlara dikkat edilmelidir (Özmen 2003): Gereksiz veri alanları varsa silinmelidir. Hatalı ölçülen ve/veya hatalı girilmiş veri varsa çıkarılmalıdır. Eksik verilerin, sonucu etkileyip etkilemeyeceği kontrol edilmelidir. Birbirine eşdeğer veri alanları ayıklanmalıdır. Verilerin hazırlanması aşaması; toplama, değer biçme, birleştirme ve temizleme, seçme ve dönüştürme adımlarından meydana gelmektedir (Akpınar 2000). 2.1.2.a. Veri toplama Belirtilen uygulama için gerekli verilerin ve veri kaynaklarının belirlenmesi aşamasıdır. Verilerin toplanmasında kuruluşun kendi veri kaynaklarının dışında diğer veri tabanlarından da faydalanılabilir (Akpınar 2000). 2.1.2.b. Değer biçme Tanımlanan problem için kullanılacak verinin farklı kaynaklardan toplanması, veri uyumsuzluklarına neden olabilir. Bu uyumsuzluklar, farklı veri tabanlarındaki kodlama farklılıkları (örneğin bir veri tabanında cinsiyet özelliğinin E/K, diğer bir veri tabanında 0/1 olarak girilmesi), verinin farklı zamanlara ait olması ve farklı ölçü birimlerinin kullanılmasından kaynaklanabilir. Toplanan verilerden iyi sonuç alabilmek için, toplanan verilerin ne ölçüde değerlendirilmelidir (Akpınar 2000). uyumlu oldukları bu aşamada incelenerek 10 2.1.2.c. Veri birleştirme Veri madenciliğinde sıklıkla farklı veri tabanlarındaki verilerin tek bir veri tabanında (genellikle bir veri ambarında) birleştirilmesi gerekebilir. Fakat böyle bir durumda alan isimlerinin ve/veya türlerinin farklılığından kaynaklı hatalar meydana gelebilmektedir. Bu hatalara şema birleştirme hataları (schema integration errors) denir. Örneğin, bir veri tabanında müşteri numarası için “müşteri_no” tanımlanmışken, diğer veri tabanında “müşteri_numarasi” şeklinde tanımlanmış olabilir. Böyle hatalardan kaçınmak için verilerin tutulduğu tablolara ait bilgileri içeren bir meta veriye ihtiyaç duyulmaktadır. Veri birleştirmede önemli bir konu da indirgemedir. Birleştirme işleminden sonra, elde edilen veri kümesinde fazlalıklara sebep olabilecek, aynı anlam veya işleve sahip ya da aralarındaki korelasyonun yüksek olduğu alanlardan biri çıkarılabilir (Oğuzlar 2003). 2.1.2.d. Veri temizleme Veri temizleme, eksik verilerin tamamlanması, hatalı ve aykırı değerlerin teşhis edilmesi amacıyla gürültünün düzeltilmesi, verilerdeki tutarsızlıkların giderilmesi gibi işlemlerin yapıldığı aşamadır (Oğuzlar 2003). Bu aşamada gürültülü ve tutarsız veriler çıkarılarak verinin kalitesi arttırılır ve yanlış girişten veya istisnalardan kaynaklanan veriler, değerlendirmeden alıkonulabilir. Verileri temizlemek sadece veriyi çıkarmak değildir. Bazı durumlarda eksik veriyi tamamlamak için modellemeler de yapılmalıdır (Argüden ve Erşahin 2008). Roiger et al. (2003)’a göre herhangi bir değişkene ilişkin eksik değerlerin doldurulması için farklı metotlar vardır. Bunlar (Oğuzlar 2003): Eksik veri içeren kayıtlar çıkarılabilir. Değişkenin ortalaması, eksik değerlerin yerine kullanılabilir. Eksik veri içeren değişkenler, var olan verilere göre en uygun değer ile doldurulabilir. 11 2.1.2.e. Veri seçimi Veri seçim aşamasında kurulacak modele bağlı olarak veri seçimi yapılır. Örneğin tahmin edici bir model için, bu adım bağımlı ve bağımsız değişkenlerin ve modelin eğitiminde kullanılacak veri kümesinin seçilmesi anlamına gelmektedir. Sıra numarası, kimlik numarası gibi anlamlı olmayan ve diğer değişkenlerin modeldeki ağırlığının azalmasına da neden olabilecek değişkenlerin modele girmemesi gerekir. Bazı veri madenciliği algoritmaları konu ile ilgisi olmayan bu tip değişkenleri otomatik olarak elese de, pratikte bu işlemin kullanılan yazılıma bırakılmaması daha yararlı olacaktır. Verilerin görselleştirilmesine olanak sağlayan grafik araçlar ve bunların sunduğu ilişkiler, bağımsız değişkenlerin seçilmesinde önemli faydalar sağlayabilir. Genellikle yanlış veri girişinden veya bir kereye mahsus bir olayın gerçekleşmesinden kaynaklanan verilerin, önemli bir uyarıcı enformasyon içerip içermediği kontrol edildikten sonra veri kümesinden çıkarılması tercih edilir. Modelde kullanılan veri tabanının çok büyük olması durumunda tesadüfleri bozmayacak şekilde örnekleme yapılması uygun olabilir (Akpınar 2000). 2.1.2.f. Veri dönüştürme Veri dönüştürme işlemi, verilerin seçilen veri madenciliği modeli için uygun formlara dönüştürülmesi aşamasıdır (Zaïane 1999). Bu aşamada, toplanan veriler, işlenmek için uygun formlara dönüştürülür (Han and Kamber 2006). Veri madenciliği çalışmasında kullanılacak model, teknik ve algoritmalar bazı veri türleriyle çalıştığı halde bazı veri türleri ile çalışmayabilir. Bazı algoritmalar sayısal değerlerle çalışırken bazıları 0 ve 1’lerden oluşan değerlerle, bazıları ise kategorik değerlerle çalışabilir. Bu durumda toplanan veriler çalışılacak algoritmaya göre uygun formata dönüştürülmelidir (Silahtaroğlu 2008). Örneğin bir uygulamada yapay sinir ağı algoritması kullanılıyorsa kategorik değişken değerlerinin evet/hayır olması; karar ağacı algoritması kullanılıyorsa değişken değerlerinin yüksek/orta/düşük gibi gruplanmış olması modelin verimliliğini artıracaktır (Akpınar 2000). 12 Veri dönüştürme aşamasında normalizasyon tekniği kullanılır. Eldeki verilerin 0-1 aralığına indirilmesi işlemine normalizasyon denir (Han and Kamber 2006). Verilerin normalize edilmesi, birden fazla nesneye ait veriyi orta bir yol bularak, bir tabloda saklanabilir hale geliştirilmesi işlemidir (Gözüdeli 2012). Normalleştirme; yapay sinir ağları, kümeleme ve sınıflandırma gibi uzaklık ölçümleri içeren algoritmalar için özellikle yararlıdır. Normalizasyon işlemi için çeşitli yöntemler vardır; min-max normalizasyonu, sıfır-ortalama normalizasyonu ve ondalık normalizasyonu bu yöntemlerden bazılarıdır (Han and Kamber 2006). Min-max normalizasyon yöntemi, verileri doğrusal olarak normalize eder. Min bir verinin alabileceği en düşük değer iken, max verinin alabileceği en yüksek değeri ifade eder. Bir veriyi 0–1 aralığına indirgemek için min-max yöntemi aşağıdaki formülü kullanır. Burada verinin normalize edilmiş halini, ise orijinal halini göstermektedir. Örneğin en yüksek değer 89, en düşük değerin 18 olduğu yaş verileri normalize edildiğinde 37 değeri; olacaktır. Eğer normalizasyon aralığı 0-1’den farklı bir aralık ise, bu durumda formül: ( ) 13 37 değerini 1-5 aralığında yukarıdaki formüle göre normalize edecek olursak, yeni değer: ( ) Sıfır-ortalama yönteminde ise ortalama ve standart sapma değeri kullanılır. Burada ort veri tabanındaki ilgili alanın ortalamasını, ise o alanın standart sapmasını ifade etmektedir. Yukarıdaki 37 yaş örneği için ort=48.96 ve kabul edilirse, 37 sayısının normalize edilmiş değeri: olacaktır. Normalizasyon dışında verilerin boyutunun indirgenmesi de gerekebilir. Boyutun indirgenmesi değişken sayısının azaltılmasıdır. Gereksiz yere tutulan bir değişkenin değerlendirmeden çıkarılması indirgeme işlemine örnek olarak verilebilecek olsa da indirgeme işlemi daha çok birden fazla değişkenin birleştirilerek tek bir değişken ile ifade edilmesi şeklindedir (Silahtaroğlu 2008). 2.1.3. Modelleme Modelleme aşamasında verilerden bilgi çekmek için ileri çözümleme yöntemleri kullanıldığından veri madenciliği sürecinin en önemli aşamasıdır. Bu aşama uygun modelleme tekniğinin seçimi, model geliştirme ve tahmin işlemlerini içermektedir. Veri madenciliği uygulamaya göre farklı yöntemler içerebilir. Bazı yöntemler, her veri tipi için uygun olmayabilir ve özel tanımlamalar gerektirebilir. Bu nedenle veri tipi 14 dönüşümü gerekli olduğunda veri hazırlama aşamasına geri dönülür (Albayrak ve Yılmaz 2009). 2.1.3.a. Modelleme tekniğinin seçilmesi Modellemenin birinci aşaması, kullanılacak olan modelleme tekniğinin seçilmesidir (Chapman et al. 2000). Modelleme teknikleri tahmin edici (Predictive) ve tanımlayıcı (Descriptive) modeller olarak iki başlık altında incelenmektedir. Sınıflama ve regresyon modelleri tahmin edici; birliktelik kuralları ve kümeleme modelleri ise tanımlayıcı modellerdir. Modelleme teknikleri “Veri Madenciliği Modelleri” bölümünde daha detaylı bir şekilde değinilmiştir. 2.1.3.b. Test tasarımı Modelin yapılandırılmasından önce, kalite ve geçerliliğini test etmek amacıyla bir yordam veya mekanizmanın oluşturulması gerekmektedir (Chapman et al. 2000). Modelde yanlış olarak sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı bulunur (Argüden ve Erşahin 2008). 2.1.3.c. Modelin oluşturulması Hazırlanan veri seti üzerinde bir veya daha fazla model üretmek üzere modelleme aracının çalıştırılması aşamasına model oluşturma denir (Chapman et al. 2000). 2.1.3.d. Modelin değerlendirilmesi Modelin değerlendirilmesi; başarı kriterlerine, edinilmiş tecrübelere ve test sonuçlarına göre modelin değerlendirilmesi aşamasıdır. Amaç, tüm projenin değerlendirilmesinden çok modelin teknik yönden değerlendirilmesidir (Argüden ve Erşahin 2008). 15 2.1.4. Modelin kullanılması Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği gibi, bir başka uygulamanın parçası olarak da kullanılabilir. Kurulan modeller; risk analizi, kredi değerlendirme, dolandırıcılık tespiti gibi işletme uygulamalarında doğrudan kullanılabilir. Aynı zamanda promosyon planlaması simülasyonuna gömülebilir veya tahmin edilen envanter düzeyleri yeniden sipariş noktasının altına düştüğünde, otomatik olarak sipariş verilmesini sağlayacak bir uygulamanın içine entegre edilebilir (Akpınar 2000). 2.1.5. Modelin izlenmesi Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde meydana gelecek değişiklikler, kurulan modellerin sürekli olarak izlenmesini ve yeniden düzenlenmesini gerektirebilir. Tahmin edilen ve gözlenen değişkenler arasındaki farklılığı gösteren grafikler, model sonuçlarının izlenmesinde kullanılan yararlı bir yöntemdir (Akpınar 2000). 2.2. Veri Madenciliği Modelleri Veri madenciliğinde kullanılan modeller, tahmin edici (Predictive) ve tanımlayıcı (Descriptive) modeller olarak iki başlık altında incelenmektedir. Sınıflama ve regresyon modelleri tahmin edici; birliktelik kuralları ve kümeleme modelleri ise tanımlayıcı modellerdir. 2.2.1. Tahmin edici modeller Tahmin modellerinde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve oluşan modellerin yardımıyla bilinmeyen bir değerin önceden tahmin edilmesi amaçlanır. Ya da değişkenler arasında etkileşim olup olmadığı; varsa nasıl ve 16 hangi seviyede bir etkileşim olduğu belirlenmeye çalışılır (Babadağ 2006). Örneğin bir bankanın önceki dönemlerde vermiş olduğu kredilere ilişkin verilerden kurulan model, daha sonraki kredi taleplerinde müşteri özelliklerine göre verilecek olan kredinin geri ödenip ödenmeyeceğinin tahmininde kullanılabilmektedir (Özekes 2003). 2.2.1.a. Sınıflandırma modeli Sınıflandırma modeli, temel olarak, veri tabanındaki gizli örüntülerin ortaya çıkarılması yani verinin ortak özelliklerine göre ayrıştırılması için kullanılan modeldir (Tapkan, Özbakır ve Baykasoğlu 2011). Sınıflanma modeli iki aşamadan oluşur. İlk aşamada gözlemlenmiş verilerden sınıflandırma algoritması kullanılarak sınıflandırma kuralları oluşturulur. İkinci aşamada ise bu kurallar kullanılarak veriler sınıflandırılır (Kaya vd 2001). Böylece bütün kayıtlar birer sınıfa atanmış olur. Bu modeldeki uygulama alanlarına örnek olarak potansiyel müşteriler için düzenlenen kampanyalara dönüşler, mevcut müşterilerin belirli bir hizmeti almaktan vazgeçme olasılıkları, kredi başvurularının risk seviyeleri, çeşitli belirtilere göre hastalık ihtimallerin tespiti vb. uygulamalar verilebilir (Argüden ve Erşahin 2008). Örnek olarak Çizelge 2.1’de her bir öğrencinin onur, yüksek onur veya ödülsüz (N/A) durumları verilmiştir. Bu tabloda öğrencilerin hangi kriterler dahilinde onur ve yüksek onur ödüllerini aldıkları da gizlidir. İşte sınıflandırma algoritmaları, bu gizli kalmış kuralları ortaya çıkararak, veri tabanında kaydı bulunmayan, ancak verileri sonradan girilen bir öğrencinin onur veya yüksek onur öğrencisi olup olmadığına karar verir (Silahtaroğlu 2008). 17 Çizelge 2.1. Onur ve yüksek onur öğrencileri listesi (Silahtaroğlu 2008) Öğrenci Adı 1. 2. 3. Spor Disiplin Ödül Durumu Yıl Ort. Yıl Ort. Yıl Ort. Durumu Aysel … 2.5 3.5 2.8 *** ***** Onur Sevim … 2.8 3.9 2.9 **** ***** Yüksek Onur . . . Ayhan … 3.2 2.4 3.0 ** ***** Onur Can … 4.0 3.5 2.6 ** **** N/A Sınıflandırma modellerinde kullanılan başlıca teknikler: Karar Ağaçları Yapay Sinir Ağları İstatistiğe Dayalı Algoritmalar Mesafeye Dayalı Algoritmalar 18 Karar ağaçları Karar ağaçları ile sınıflandırma temel olarak bir karar ağacının oluşturulması, veri tabanındaki her kaydın bu ağaca uygulanması ve çıkan sonuca göre kaydın sınıflandırılması adımlarından oluşur. Diğer yöntemlerle karşılaştırıldığında karar ağaçlarının oluşturulması ve anlaşılması daha kolaydır. Karar ağacı oluşturulurken kullanılan algoritmaya göre ağacın şekli değişmekte ve değişik ağaç yapıları farklı sınıflandırma sonuçları verebilmektedir. Karar ağaçlarına bağlı olarak geliştirilen birçok algoritma vardır ve bu algoritmalar kök, düğüm ve dallanma kriteri seçimlerinde izledikleri yol açısından farklılık gösterirler (Tapkan, Özbakır ve Baykasoğlu 2011). Örneğin, bir veri seti incelenerek müşterilerin kredi durumunu tahmin edecek bir karar ağacı modeli oluşturulabilir. Bu modele ait bir sınıflama kuralı aşağıda verilmiştir: IF yas = "41...50" AND gelir = yüksek THEN kredidurumu = mükemmel Bu kural kullanılarak yaşı 41 ile 50 arasında olan ve gelir düzeyi yüksek bir kişinin kredi geri ödemesinde problem yaratmayacağı sonucu elde edilebilir. Oluşturulan bu modelin doğruluğu, test verileri aracılığı ile onaylandıktan sonra model, sınıfı belli olmayan yeni bir veriye uygulanabilir ve yeni verinin sınıfı belirlenebilir (Özekes 2003). Şekil 2.3. Bir kredi kartı kampanyasında yeni bir örneğin sınıflandırılması (Çankırı vd 2011) 19 Bir kredi kartı kampanyasına hangi özellikteki müşterilerin yanıt verip vermeyeceğini karar ağacı modeli kullanarak bulmaya çalışan yukarıdaki örneği incelediğimizde yüksek geliri olan X adındaki bayanın kampanyaya yanıt vermediği görülebilir. Bu durumda aşağıdaki sınıflama kuralı verilebilir (Çankırı vd 2011): IF Gelir=Yüksek AND Cinsiyet=Bayan THEN Kampanya=Yanıtlamaz En yaygın kullanılan karar ağaçları algoritmaları şunlardır: ID3 C4.5 ve C5 CART SLIQ SPRINT Yapay sinir ağları Yapay sinir ağları ile sınıflandırmanın işleyiş yapısı, çıktı katmanına ulaşabilmek için ağırlıkların hesaplanmasına dayanır. Eğitim veri kümesi üzerinde hesaplanan ağırlıklar, test veri kümesi üzerinde kullanılarak öğrenmenin ne kadar gerçekleştiği belirlenir. Elde edilen ağırlıkların etkinliği doğrulanamazsa ağırlıklar üzerinde düzeltme ve yeniden hesaplama işlemleri yapılır. Öğrenme süreci bittiğinde ağırlıklar yardımıyla yeni bir verinin hangi sınıfa ait olduğu belirlenebilir. Yapay sinir ağlarında öğrenme süreci uzun sürse de oldukça duyarlı sınıflandırmalar yapılabilmektedir (Tapkan vd 2011). İstatistiğe dayalı algoritmalar İstatistiğe dayalı algoritmalar, verilerin daha önceden belirtilen sınıflara göre ayrılması, gelecekte varılacak sonuçların tahmin edilmesidir. Regresyon, lojistik regresyon, zaman 20 serileri analizi ve Bayes yaklaşımı gibi istatiksel yöntemler kullanılarak bu sınıflandırma işlemi gerçekleştirilebilir (Silahtaroğlu 2008). Mesafeye dayalı algoritmalar Verilerin birbirlerine olan uzaklıkları ve benzerliklerine dayalı bu tür algoritmaların en yaygın kullanılanı k-en yakın komşu algoritmasıdır. Bu algoritmanın amacı, sınıfları belli olan bir örnek kümedeki gözlem değerlerini kullanarak yeni gözlemlerin hangi sınıfa ait olduğunu tespit etmektir. Örnek kümedeki gözlemlerin her birinin, sonradan belirlenen bir gözlem değerine olan uzaklıklarının hesaplanması ve en küçük uzaklığa sahip k sayıda gözlemin seçilmesi esasına dayanan algoritmalardır (Tapkan vd 2011). 2.2.1.b. Regresyon Süreklilik gösteren değerleri tahmin etmek için kullanılan modeldir. Amaç girdiler ile çıktıyı ilişkilendirecek modeli oluşturup, en iyi tahmine ulaşmaktır. Sonuç değeri, “bağımlı değişken”; girdiler ise “bağımsız değişken” olarak tanımlanır. Sonucun alacağı değer genellikle bir güvenlik aralığı içinde belirtilir. Girdiler, çözülecek probleme göre bir veya birden fazla olabilir. Örnek olarak; bir inşaat firması konut satışlarının, faaliyet gösterdiği bölgede elde edilen toplam gelir ile ilişkili olduğunu düşünüyorsa, sadece bölgesel gelire dayalı bir model oluşturarak, bölgesel gelirdeki değişime göre satacağı ev sayısını tahmin edebilir. Finansal tahminler, zaman serisi tahminleri, biyomedikal ve ilaç reaksiyonları, konut fiyatı değerlendirmeleri, müşterinin yaşam çevrimi boyunca yarattığı değer, atmosferdeki CO2 oranı tahmini gibi alanlarda uygulanabilir (Argüden ve Erşahin 2008). 21 2.2.2. Tanımlayıcı modeller Tanımlayıcı modellerde amaç, karar vermeye yardımcı olacak mevcut veri setindeki örüntüleri bulmaktır (Kavurkacı vd 2011). Tanımlayıcı modellerin amacı belirli bir hedefi tahmin etmek değil veri setinde yer alan veriler arasındaki ilişkileri, bağlantıları ve davranışları bulmaktır. Var olan verileri yorumlayarak davranış biçimleri ile ilgili tespitler yapmayı ve bu davranış biçimini gösteren alt veri setlerinin özelliklerini tanımlamayı amaçlar (Argüden ve Erşahin 2008). Geliri [X-Z] aralığında ve iki veya daha fazla arabası olan çocuklu aileler ile çocuğu olmayan ve geliri [X-Y] aralığından düşük olan ailelerin satın alma eğilimlerinin birbirlerine benzerlik gösterdiğinin belirlenmesi örnek verilebilir (Akpınar 2000). Aynı zamanda 25 yaş altı bekâr kişiler ile 25 yaş üstü evli kişiler üzerinde yapılan ve ödeme performanslarını gösteren bir analiz, tanımlayıcı modellere örnek olarak verilebilir (Çankırı vd 2011). 2.2.2.a. Kümeleme analizi Kendi içinde benzer özellik taşıyan; fakat diğer gruplardakine benzemeyen nesneler içeren her gruba küme adı verilir. Kümeleme, veri nesnelerinin gruplara ayrılması işlemidir. Kümeleme analizi, veri setinin içinde bulunan anlamlı veya kullanışlı grupları bulma sürecidir. (Işık ve Çamurcu 2008). Büyük miktardaki veri niceliklerinin analizindeki ortak ihtiyaç; nesneler gruplandırılırken nesnelerin özelliklerinin küme içindeki benzerliğin yüksek, diğer kümelerle olan benzerliğinin ise düşük olmasıdır (Giannotti and Pedreschi 2008). İnsanoğlu için beş ya da altı niteliğe sahip bir nesneler topluluğunu, niteliklerdeki benzerliklere bakarak gruplamak mümkünken bu sayının çok daha fazla olması durumunda gruplamak olanaksız hale gelmektedir. Bu noktada tanımlayıcı bir veri madenciliği yöntemi olan kümeleme yöntemiyle veri çeşitli tekniklerle önceden sayısı bilinmeyen kümelere ayrılabilmektedir (Bozkır vd 2009). 22 Kümeleme algoritmaları ile sınıflandırma algoritmaları arasındaki en önemli fark, kümelemenin önceden tanımlanmış girdilere dayanmamasıdır. Sınıflandırma algoritmalarında tanımlı girdiler ve bunların geçmişte aldıkları değerler temel modeli oluştururken, kümeleme algoritmalarında önceden tanımlanmış girdiler ve örnekler yoktur. Veriler kendi içlerindeki benzer özelliklere göre gruplanırlar. Benzerliği tanımlayacak değerler ve özellikler modeli kuran tarafından öngörülür (Argüden ve Erşahin 2008). 2.2.2.b. Birliktelik kuralları Birliktelik kuralları olayların birlikte gerçekleşme durumlarını inceleyen bir yöntemdir. Bu yöntem ile müşterilerin satın alma eğilimleri belirlenebilir. Teorik olarak, kullanıcı tarafından belirlenen en küçük destek ve en küçük güven seviyelerinin üstünde destek ve güven seviyesine sahip kuralların belirlenmesidir (Tapkan vd 2011). Bir müşterinin yaptığı tüm alışverişlerdeki ürünler arasındaki ilişkiler bulunarak satın alma alışkanlıkları tespit edilebilir. Market yöneticileri bu bilgiler doğrultusunda etkin satış stratejileri geliştirebilir(Kavurkacı vd 2011). Birliktelik kuralları, eş zamanlı olarak gerçekleşen ilişkilerin tanımlanmasında kullanılır. Örnek olarak: Müşteriler bira satın aldığında, %75 olasılıkla patates cipsi de alırlar, Düşük yağlı peynir ve yağsız yoğurt alan müşteriler, %85 olasılıkla diyet süt de satın alırlar. Aynı zamanda birbirleri ile ilişkisi olan ancak birbirini izleyen dönemlerde gerçekleşen ilişkilerin tanımlanmasında da kullanılır. Örnek olarak: X ameliyatı yapıldığında, 15 gün içinde %45 olasılıkla Y enfeksiyonu oluşacaktır, 23 İMKB endeksi düşerken A hisse senedinin değeri %15’den daha fazla artacak olursa, üç iş günü içerisinde B hisse senedinin değeri %60 olasılıkla artacaktır, Çekiç satın alan bir müşteri, ilk üç ay içerisinde %15, bu dönemi izleyen üç ay içerisinde %10 olasılıkla çivi satın alacaktır (Çankırı vd 2011). Yaygın olarak kullanılan birliktelik kuralları algoritmaları şunlardır: AIS SETM Apriori AprioriTid Apriori-Hybrid OCD 2.3. Veri Madenciliği Kümeleme Algoritmaları Kümeleme analizi, Şekil 2.4’de görüldüğü gibi bir veri setindeki verileri benzer özelliklerine göre kümelere bölme işlemidir. Küme elemanlarının kendi kümesindeki elemanlarla benzerliğinin fazla, diğer kümedeki elemanlarla benzerliğinin az olması amaçlanır. Şekil 2.4. Kümeleme (Akpınar 2000) 24 Kümeleme analizi, veri tabanlarındaki verileri gruplayarak, benzer özelliklere sahip nesnelerin bir araya gelmesini sağlayan bir veri madenciliği yöntemidir (Yılmaz ve Patır 2011). Kümeleme analizi için algoritmalar iki başlık altında toplanmıştır. Bunlardan ilki, hiyerarşik kümeleme teknikleri, diğeri ise hiyerarşik olmayan kümeleme teknikleridir. Her iki teknikte de amaç kümeler arasındaki farklılıkları ve kümeler içi benzerlikleri en yüksek seviyeye çıkarmaktır. Yani, küme içi homojenlik arttırılırken kümeler arası homojenlik ise azaltılmaktadır. Hangi tekniğin kullanılacağı küme sayısına bağlı olmakla birlikte her iki tekniğin beraber kullanılması çok daha yararlıdır. Böylece hem sonuçları hem de iki teknikten hangisinin daha uygun sonuçlar verdiğini karşılaştırmak mümkün olacaktır (Akın 2008). tekniklerinin karşılaştırılması verilmiştir. . Çizelge 2.2’de farklı kümeleme 25 Çizelge 2.2. Farklı kümeleme tekniklerinin karşılaştırılması (Kuo et al. 2002) Kümeleme Yöntemi Yapay Sinir Avantajları Dezavantajları Ağları - Büyük hacimli veriler (Örn: Kohonen Ağları) Hiyerarşik Yöntemler - Eğitim parametrelerinin üzerinde çalışabilme ayarlanmasının zor olması - Küme sayısını - belirleyebilmesi farklı sonuçlar vermesi - Küme sayısını - Büyük hacimli veriler belirleyebilmesi üzerinde çalışma zorluğu Farklı parametrelerin (Örn: Ward’ın Minimum Varyans Yöntemi) Hiyerarşik Olmayan - Başlangıç noktası ve küme - Başlangıç noktasının ve sayısı verildiğinde daha iyi küme Yöntemler (Örn: K- sonuçlar alınabilmekte sayısının rastgele olarak seçilmesi. Means Yöntemi) - Büyük hacimli veriler üzerinde çalışabilmekte Kümeleme analizinin kullanıldığı alanlar şu şekilde sıralanabilir: Pazarlama: Kümeleme analizi, müşterilerin satın alma özelliklerine göre kümelere ayrılmasını sağlar. Biyoloji: Bitki ve hayvan gruplarından benzer özellik gösteren genlerin kategorize edilmesinde kullanılmaktadır. 26 Coğrafya: Konumsal verilerden yararlanarak bölgeler arasındaki benzerliklere göre, buralara götürülecek mal ve hizmetler için ideal yerler belirlemede kullanılır. İnternet: Web üzerindeki belgelerin gruplandırılmasında kullanılmaktadır. Şehir Planlaması: Konumlarına, özelliklerine göre binaların gruplandırılmasında kullanılmaktadır. Deprem Araştırmaları: Sürekli fay hatları belirlenerek deprem merkezlerinin gruplara ayrılmasında kullanılmaktadır. Önceden elde edilmiş kümeler üzerinde sınıflama yapma ve kategorize etme gibi işlemler yapan diğer algoritmalar için bir ön işlem adımını sağlar (Erdoğan 2004). Kümeleme işleminde izlenecek adımlar şunlardır (Durmuş ve İplikçi 2007): Örneklerin sunulması Örneklerin uzaklık ölçümlerinin veri tabanına uygun olarak tanımlanması Kümeleme veya gruplama Veri ayıklama (gerekli olduğu durumlarda yapılmaktadır) 2.3.1. Uzaklık ölçüleri Kümeleme algoritmalarında kullanılan uzaklık ölçülerinden en yaygın kullanılan üç tanesi aşağıda verilmiştir (Özkan 2013): Öklid Uzaklığı: Uygulamalarda en çok kullanılan uzaklık ölçüsüdür. Bu uzaklık Şekil 2.5’de görüldüğü gibi Pisagor teoreminin bir uygulamasıdır. 27 Şekil 2.5. İki nokta arasındaki uzaklık (Özkan 2013) A ve B noktaları arasındaki Öklid uzaklığı şu şekilde bulunur: ) d (A,B)=√( P boyutlu d( ( ) için Öklid uzaklığı: ve ( )=√∑ ) şeklinde bulunur. Manhattan Uzaklığı: Bu uzaklık ölçüsü, noktalar (nesneler) arasındaki mutlak uzaklık toplamı alınarak hesaplanır. P boyutlu d( )= ∑ için Manhattan uzaklığı: ve ( ) 28 Minkowski Uzaklığı: Minkowski uzaklığı şu şekilde bulunur. d( )= [∑ ( ) ] : veri kümesindeki özellik sayısı Örnek: Ö1, Ö2 ve Ö3 gibi üç özellikten oluşan aşağıdaki gözlemler göz önüne alarak bu gözlem noktalarının her birinin birbirine olan uzaklığını Öklid, Manhattan, Minkowski uzaklık yöntemleri ile hesaplayalım. Çizelge 2.3. Üç özelliğe ait gözlenen değerler Öklid Uzaklığı: oluşmaktadır. Gözlem Ö1 Ö2 Ö3 1 2 3 1 2 4 1 3 3 5 7 3 4 4 8 2 5 3 9 5 Örneğimiz 5 gözlemden, her bir gözlemimiz 3 özellikten numaralı gözlem noktaları arasındaki uzaklık şu şekilde ve bulunur: d( )= √( ) ( ) ( ) Üçüncü gözlem ile birinci gözlem arasındaki uzaklığı hesaplamak istersek: d( )= √( ) ( ) ( ) 29 =√( ) ( ) ( ) =5.39 Benzer şekilde her bir gözlem değeri arasındaki Öklid uzaklıkları hesaplanarak aşağıdaki matris oluşturulur. Çizelge 2.4. Öklid uzaklığına göre benzerlik matrisi Gözlem 1 1 0 2 3.46 0 3 5.39 4.08 0 4 5.48 7.07 1.73 0 5 7.28 8.31 3.46 3.32 2 Manhattan Uzaklığı: Üç özellikli ve 3 4 5 0 noktaları için Manhattan uzaklık bağıntısı şu şekildedir: d( | )=| | | | | Bu bağıntı yardımı ile ikinci gözlem ile birinci gözlem arasındaki Manhattan uzaklığı: d( )= =|4-2|+|1-3|+|3-1|=6 olarak bulunur. Benzer biçimde diğer tüm gözlemlerin birbirine göre olan uzaklığı, Manhattan uzaklık yöntemi ile hesaplanırsa aşağıdaki matris oluşturulur: 30 Çizelge 2.5. Manhattan uzaklığına göre benzerlik matrisi Gözlem 1 1 0 2 6 0 3 9 7 0 4 8 8 3 0 5 11 11 6 5 Minkowski Uzaklığı: Üç özellikli 2 ve 3 4 5 0 noktaları için Minkowski uzaklık bağıntısı şu şekildedir: d( ] )=[ Bu bağıntıdan yararlanarak m=3 varsayımı altında ikinci ve birinci gözlem noktaları arasındaki Minkowski uzaklığı aşağıdaki gibidir: d( =[ )= [ ] ] =2.88 Benzer biçimde diğer tüm gözlemlerin birbirine göre olan uzaklığı Minkowski uzaklık yöntemi ile hesaplanırsa aşağıdaki matris oluşturulur: 31 Çizelge 2.6. Minkowski uzaklığına göre benzerlik matrisi Gözlem 1 1 0 2 2.88 0 3 4.63 6.01 0 4 5.12 7.01 1.44 0 5 6.55 8.05 2.88 3.07 2 3 4 5 0 2.3.2. Bölümlemeli yöntemler Bölümlemeli kümeleme teknikleri, n adet nesneden oluşan veri setini başlangıçta belirlenen k (k<n) sayıda kümeye ayırırlar. Bu işlem sonucunda elde edilen kümelerde, küme içi benzerlik en yüksek, kümeler arası benzerlik en düşük olmalıdır (Han ve Kamber 2006). K-Means, K-Medoids, Clara (Clustering Large Applications) ve Clarans (Clustering Large Applications Based Upon Randomized Search) algoritmaları bölünmeli kümeleme algoritmalarına örnek olarak verilebilir. 2.3.2.a. K-Means algoritması K-Means algoritması, n adet nesneden oluşan bir veri setini, giriş parametresi olarak verilen k sayıda kümeye böler. Küme benzerliği, kümenin ağırlık merkezi olarak belirlenen bir nesne ile kümedeki diğer nesneler arasındaki uzaklıkların ortalama değeri hesaplanarak ölçülmektedir (Han and Kamber 2006). K-Means algoritmasında küme sayısı başlangıçta k parametresi ile verilir. Veri setinde bulunan her bir nesne, kendisi ile küme ortalaması arasındaki uzaklığa göre kendisine en yakın kümeye atanır. Daha sonra her bir küme için yeni küme ortalamaları hesaplanır. Kriter fonksiyonu küme elemanları sabitleninceye kadar devam eder (Han ve Kamber 2006). 32 K-Means algoritmasının işlem adımları aşağıdaki gibidir (Demiralay ve Çamurcu 2005): 1. Küme merkezleri belirlenir. Bunun için nesneler arasından küme sayısı olan k adet rastgele nokta seçilir 2. Veri setindeki nesnelerin seçilen merkez noktalara olan uzaklığı bulunur. Bulunan sonuçlara göre tüm nesneler k adet kümeden kendilerine en yakın olan kümeye atanır. 3. Oluşan kümelerin yeni merkez noktaları o kümedeki tüm nesnelerin ortalama değeri ile değiştirilir. 4. Merkez noktalar değişmeyene kadar 2. ve 3. adımlar tekrar edilir. Şekil 2.6’da K-Means algoritmasına bir örnek verilmiştir. 33 Örnek veri kümesi 1. Yukarıda verilen örnek veri kümesi için iki adet hedef kümesi tanımlanır. 2. Verilen nesnelerin belirtilen merkezlere olan uzaklığı (öklid uzaklığı) hesaplanır. 3. Oluşan kümeleri ayırmak için aşağıdaki gibi bir hat çizilir. 4. Daha önceden kümelendirilen örneklerin merkezleri yeniden bulunur. Şekil 2.6. K-Means algoritmasına örnek (Şeker 2008) 34 K-Means algoritmasının zayıf yönleri: K-Means algoritmasının en büyük eksikliği k değerinin kullanıcı tarafından girilmesidir. Bundan dolayı daha başarılı bir kümeleme oluşturmak için farklı k değerleri denenmesi gerekmektedir (Demiralay ve Çamurcu 2005). K-Means algoritması, sadece sayısal değerlerde kullanılabilir. Bu durumda kategorik (metinsel) değer içeren verilerin kümelenmesinde farklı bir algoritmanın kullanılması veya kategorik alanların sayısal karşılıklarına dönüştürülmesi gerekmektedir (Dinçer 2006). 2.3.2.b. EM (Expectation Maximization) algoritması EM algoritmasının genel amacı; araştırmalarda ortaya çıkan kayıp veri problemleri gibi durumlarda en çok olabilirlik tahminini en iyi şekilde elde etmektir. EM algoritması, verilen örneklerdeki (fonksiyon çok karmaşık ise) olasılık dağılımının en çok olabilirlik tahmininin direkt hesaplanamadığı durumlarda kullanılmaktadır. Genel olarak EM algoritması aşağıdaki gibidir: Tahmin edilmiş değerleri kayıp verilerin yerine koyar. Bu kayıp verileri kullanarak parametre tahmini yapar. Algoritma uygun parametre buluncaya kadar aynı işlemler devam eder. EM algoritması iki adımdan oluşur; bunlar, E-adımı (beklenen adımı) ve M-adımı (en büyükleme) dır. E-adımı (Beklenen adımı): Gözlenemeyen verinin veya kayıp verinin yerinin doldurulması adımıdır. 35 M-adımı (En büyükleme adımı): Tahmin edilen kayıp veri değerini kabul ederek oluşan veri modeli üzerinden, bilinen en çok olabilirlik tahmini hesaplanarak M-adımı sonucunda ortaya çıkan tahminler ile EM algoritmasının çıktısının oluşturulması adımıdır(Yazıcı 2005). 2.3.2.c. K-Medoids algoritması K-Means yöntemi, kümenin ortalaması tanımlandığı durumlarda kullanılabilir ve dışarıda kalan nesnelere karşı duyarlıdır. Çok büyük değere sahip bir nesne, ait olacağı kümenin ortalamasını yani bir sonraki adımdaki merkez noktasını büyük oranda etkileyerek değiştirmektedir. Bu durum kümenin hassasiyetini bozabilir. Bu sorunu gidermek için kümedeki nesnelerin ortalamasını almak yerine, kümede ortaya en yakın noktada konumlanmış olan nesne anlamındaki medoid kullanılır. Bu işlem K-Medoids algoritması ile gerçekleştirilir (Albayrak 2008). K-Medoids algoritmasında kümeyi temsil edecek nokta, kümedeki verilerin ortalaması ile belirlenmemektedir. Kümenin en merkezinde bulunan eleman küme merkezi olarak alınmaktadır. Bu şekilde verilerin küme merkezinin kenarlara doğru kayması engellenir. Giriş değeri olarak K-Medoids algoritmasına k küme sayının verilmesi, haliyle kullanıcının sürekli denetleme yaparak iyi bir tahminde bulunması gerekmektedir (Erdoğan 2004). Şekil 2.7’de K-Medoids algoritması ile kümeleme işlemi görülmektedir. Şekil 2.7. K-Medoids algoritması ile kümeleme (Çalışkan 2008) 36 K-Medoids algoritmasının adımları aşağıdaki gibidir (Han ve Kamber 2006): Adım 1: k adet nesne seç (medoid) Adım 2: Tekrarla Adım 3: Nesneleri onlara en yakın medoidlere ata Adım 4: Medoid olmayan rasgele bir nesne seç Adım 5: Bu nesne bir medoidmiş gibi alıp toplam performans hesapla Adım 6: Eğer daha iyi sonuç elde ediliyorsa diğeri yerine yeni medoid olarak bu nesneyi ata (yer değiştirilir) Adım 7: Değişiklik olmayana dek dön. K-Medoids algoritmaları içerisinde ilk olarak ortaya atılanlardan bir tanesi PAM (Partitioning Around Medoids) algoritmasıdır. PAM, ilk olarak seçtiği k adet sayıyı küme merkezi olarak kabul eder. PAM algoritması küçük veri tabanlarında çok iyi sonuç verirken büyük veri tabanların iyi sonuç vermemektedir. Büyük veri tabanları için CLARA ve CLARANS algoritmaları geliştirilmiştir (Dinçer 2006). 2.3.2.d. Clara algoritması CLARA algoritmasında, tüm veri seti işlem sürecine alınmaz. Bunun yerine içerisinden küçük bir kısmı seçilerek tüm veriyi temsil ediyormuş gibi kabul ederek işlem yapılır. Daha sonra seçilen bu örnekleme PAM algoritması uygulanır. Örnek ne kadar rastgele seçilirse, orijinal veri kümesini temsil etme gücü o kadar yüksek olur. Bu şekilde CLARA algoritması ile veri tabanında birçok farklı örneklem elde edilir ve her örneklem üzerinde PAM algoritması uygulanır. En iyi sonucu veren örneklemden elde edilen sonuç çıktı olarak kabul edilebilir (Han and Kamber 2006). CLARA algoritması aşağıdaki gibidir (Ng and Han 1994): Adım 1: 5 defa aşağıdaki adımları tekrarla. 37 Adım 2: Elimizdeki veri setinden tesadüfi olarak 40+2k(k seçilen medoid demek)’lık bir örnek çekilir ve çekilen bu örneğin k medoidini belirlemek için PAM algoritması uygulanır. Adım 3: Veri setinde bulunan her bir nesne için o nesneye en çok benzeyen medoidler belirlenir. Adım 4: Önceki adımda bulunan kümelerin ortalamaları hesaplanır. Bu değer mevcut minimum değerden daha küçük ise minimum değer olarak atanır ve Adım 2’de elde edilen k medoidleri en iyi medoid kümesi olarak kabul edilir. Adım 5: Bir sonraki iterasyona başlamak için Adım 1’e geri dönülür. 2.3.2.e. Clarans algoritması Bu algoritma, CLARA ile PAM algoritmalarının birleşiminden oluşur. CLARA algoritması kümeleme yaparken araştırma süresince sabit bir örneklem kullanmaktadır. Ancak CLARANS algoritması, araştırmanın her aşamasında tesadüfî bir örneklem oluşturur. Böylece orijinal veri setinin örneklem seçimi tarafsızca yapılmış olur. Bundan dolayı algoritmada kümeleme sürecini, k-medoidlerinin meydana getireceği bir grafiğin araştırılması olarak tanımlamak mümkündür. Ayrıca grafikteki her bir düğüm potansiyel bir çözüm olarak görülür. Elde edilen her bir küme mevcut kümelerin komşusu olarak tanımlanır. Bulunan her bir komşu belli bir maliyet oluşturmaktadır. CLARANS, maliyeti minimize eden komşunun düğümünü (k medoid kümesini) seçer. Algoritmanın devamlılığı için yapılan yenileme sonucunda elde edilen medoid kümesi, bir sonraki yenileme işlemi için örnek küme oluşturur (Doğan vd 2010). CLARANS algoritması aşağıdaki gibidir (Özdamar 2002): Adım 1: Rastgele k adet aday medoid seçilir. Adım 2: Rastgele seçilen noktalardan bir tanesinin seçilmemiş bir nokta ile değiştirilme durumu irdelenir. Adım 3: Eğer yeni durum daha iyi yani düşük maliyetli ise 2. adım yeni durum göz önüne alınarak tekrar edilir. 38 Adım 4: Yeni durum önceki durumdan daha kötü ise (maliyet yüksek ise) 2. adım var olan durumla tekrar edilir. Adım 5: En son elde edilen durum ile daha önceki durum karşılaştırılır. Adım 6: Adımda en iyi durum kararı alınmamışsa 1.adıma tekrar dönülür. 2.3.3. Hiyerarşik yöntemler 2.3.3.a. En yakın komşu algoritması En yakın komşu algoritmasında, başlangıçta tüm nesne değerleri birer küme olarak değerlendirilir. Adım adım bu kümeler birleştirilerek yeni kümeler oluşturulur. Bu yöntemde öncelikle nesneler arasındaki uzaklıkların belirlenmesi gereklidir. Bunun için de Öklid uzaklık bağlantısı kullanılır. Öklid uzaklık: d (xi,xj)=√∑ ( ) Tek bir nesneden oluşan kümeler arasındaki uzaklıklar, Öklid uzaklık formülü ile hesaplanabilir; ancak birden fazla nesne değerine sahip olan iki küme arasındaki uzaklığın belirlenmesi gerektiğinde farklı bir yol izlenir. Şekil 2.8’de belirtildiği gibi iki kümenin içerdiği nesneler arasında birbirine en yakın noktalar arasındaki mesafe, iki kümenin birbirine olan uzaklığı olarak kabul edilir (Özkan 2013). 39 Şekil 2.8. En yakın komşu algoritmasında iki kümenin birbirine olan uzaklığı (Özkan 2013) 2.3.3.b. En uzak komşu algoritması En uzak komşu algoritmasında, Şekil 2.9’da belirtildiği gibi iki kümenin birbirine en uzak olan elemanları arasındaki mesafe, kümeler arasındaki uzaklık olarak tayin edilir (Özkan 2013). 40 Şekil 2.9. En uzak komşu algoritmasında iki kümenin birbirine olan uzaklığı (Özkan 2013) 2.3.4. Yoğunluk tabanlı yöntemler 2.3.4.a. DBSCAN algoritması DBSCAN(Density-Based Spatial Clustering of Applications with Noise) algoritması Martin Ester ve arkadaşları tarafından geliştirilmiş bir algoritmadır. Algoritma değişik biçimlerdeki veri tabanlarının kümelenmesi amacıyla geliştirilmiştir. Algoritmada kullanılan bazı terimler aşağıda verilmiştir (Ester et al. 1996): Eps ( ): Kümelerde, iki nokta arasındaki en büyük mesafeyi belirtir. N (p) şeklinde gösterilir. N (p) = {q D | dist (p,q) ≤ } 41 MinNs: Kümelerde bulunması gereken minimum nokta sayısıdır. Directly density-reachable (Yoğunluğa doğrudan erişebilirlik): Aşağıdaki verilen denklemlerle koşullar sağlandığında herhangi bir p noktası başka bir q noktası sayesinde yoğunluğa doğrudan erişilebilir. Denklemler: 1. p N (q) 2. |N (q)|≥MinNs Density-reachable (Yoğunluğa erişebilirlik) : p1, p2,…pn şeklinde noktalar zinciri varsa p1=q, pn=p ise pi+1, pi vasıtasıyla yoğunluğa doğrudan ulaşılabilir. Bu şekilde ve MinNs koşullarını taşıdığı sürece q noktası üzerinde yoğunluğa erişilebilir. Density-connected (Yoğunluk Bağlantısallığı): Bir p noktası ile bir q noktasının, her ikisi için de yoğunluğa erişilebilirlik sağlayan bir nokta aracılığı ile birbirine bağlanmasına denir. Cluster(Küme): ve MinNs koşullarını taşıyan bir K kümesi, D noktalardan oluşan bir veri tabanın alt kümesidir. Noise(Gürültü): K1K2…Kn, D veri tabanındaki MinNs ve (i=1,2…n) sağlayan kümeler olsun. Bu durumda gürültü D veri tabanında Ki kümesine ait olmayan nokta veya noktalardır. DBSCAN, tüm veri setinde her nesneyi çekirdek nesne (bir kümede belirli olan bir nesne), sınır nesnesi (bir kümenin sınırındaki nesneler) ya da yayılma nesnesi (herhangi bir kümenin dışındaki belirli nesneler ) olarak inceler. Bu ilk adımdan sonra, birbirine yakın çekirdek nesneler bir kümede bir araya getirilir. Bu metotta, yoğunluk eşiği iki 42 parametre vasıtasıyla ifade edilir; her nesne etrafında bir maksimum yarıçapı ve minimum sayıdaki nesneyi içeren MinNs parametreleridir. Bir p noktasının yarıçaplı komşuluğu ( N p ) olarak gösterilen MinNs nesnelerini içerirse bu p nesnesi çekirdek nesne olarak tanımlanır. Çekirdek nesne koşulu kullanıldığında, girdi veri seti taranır ve her nesnenin konumu belirlenir. Bir küme hem çekirdek nesnelerle hem de bir çekirdek nesneye ulaşılabilir olan nesnelerle bulunur. Yani çekirdek nesne koşulunu sağlayan ancak bir çekirdek nesnenin komşuluğunda bulunan nesnelerle belirlenir. ‘‘ulaşılabilir’’ kavramı ulaşılabilirlik uzaklığı cinsinden ifade edilir. Bir veri seti için çekirdek ve sınır nesneleri kümesi verildiğinde, kümeler bir çekirdek noktasından başlayan tüm nesnelere dayanarak oluşturulur. Tek noktayla oluşturulan küme ulaşılabilir bir uzaklıkta bulunan diğer nesneler eklenerek genişletilir. İşlem yeni eklenen öğelerle tüm ulaşılabilir nesneler dâhil edilerek tekrarlanır. Kümenin büyümesi, kümenin tüm sınır noktaları ziyaret edildiğinde ve başka ulaşılabilir öğeler kalmadığında durur (Ester et al. 1996). Algoritma şu şekilde çalışmaktadır (Çelebi 2011): Adım 1: Seçilmemiş noktalardan rastgele bir nokta seçilir. Adım 2: Noktanın uzaklığı içerisindeki komşuları bulunur. Adım 3: Eğer komşu sayısı MinNs sayısına eşit ya da büyük ise bir küme oluşturulur; MinNs sayısından küçük ise bu nokta gürültü olarak işaretlenir. Fakat ileriki işlemlerde gürültü olarak işaretlenen bu nokta başka bir noktanın oluşturabileceği kümeye dahil edilebilir. Adım 4: Bir nokta bir kümeye dahil edildiğinde tüm komşuları da bu kümeye dahil edilir. Tabi ki bu eklenenler için de geçerlidir. Bu işlem eklenecek nokta kalmayana kadar devam ettirilir ve böylece kümelerin tamamı oluşturulmuş olur. Adım 5: Seçilmemiş bir nokta seçilir ve döngü tekrarlanır. Adım 6: Eğer herhangi bir kümeye atanmamış veri söz konusu ise bu nesneler gürültü olarak nitelendirilir. 43 2.3.4.b. OPTICS algoritması DBSCAN ve diğer kümeleme algoritmalarında giriş parametrelerini kullanıcıdan istemesi büyük bir sorundur. Bu parametrelerin değeri küme sayısı ve niteliği gibi hususları son derece etkileyecektir. Biraz farklı değerler çok farklı kümelerin oluşmasına neden olabilir. Bu tür olumsuzlukların üstesinden gelmek için OPTICS (Ordering Points To Identify the Clustering Structure) algoritması geliştirilmiştir (Han and Kamber 2006). OPTICS algoritması iki ayrı parametreden yararlanır (Ankerst et al. 1999). Bunlar iç mesafe (core-distance) ve ulaşılabilirlik mesafesi (reachability-distance) parametreleridir. İç mesafe; p noktası, veri tabanının bir elemanı ve , mesafe değeri olarak alınırsa p noktasının etrafında bulunan başka noktalarla olan minimum mesafesidir. Ulaşılabilirlik mesafesi ise p noktasını diğer noktalar üzerindeki yoğunluğa eriştirecek en küçük mesafe değeridir. OPTICS algoritması veri tabanındaki bütün noktalar için ulaşılabilirlik ve iç mesafe değerlerini tutar ve veri tabanını da bir sıralamaya ve düzene sokar. Bu bilgiler yardımıyla veri tabanındaki sıralamayı ve düzeni oluştururken kullanılan değerinden daha küçük tüm değerleri için değişik yoğunluğa dayalı kümeleme işlemi yapar (Han and Kamber 2006). 2.3.4.c. DENCLUE algoritması DENCLUE (Density-based Clustering) algoritması, Alexander Hinneburg ve Daniel A. Keim tarafından KDD’98 konferansında sunulmuştur (Hinneburg and Keim 1998). Bu algoritmada veri tabanında bulunan nesneleri kümelemek için yoğunluk dağılım fonksiyonlarından faydalanılır. DENCLUE algoritmasının DDBSCAN algoritmasına göre 45 kat daha hızlı olduğu deneysel olarak ispatlanmıştır. DENCLUE algoritması üç aşamadan oluşur: 44 1. Her bir veri nesnesinin kendi çevresi kapsamında etki fonksiyonu bulunur. Bu fonksiyon parabolik, kare dalga fonksiyonu veya Gauss fonksiyonu olabilir. Daha sonra bu fonksiyon veri tabanındaki bütün nesnelere uygulanır. 2. Hesaplanan etki fonksiyonların toplamı veri tabanının genel yoğunluğunu verir. 3. Matematiksel olarak yoğunluk çekicileri (density-attractors) yardımı ile kümeler tespit edilir. 2.3.5. Izgara tabanlı yöntemler 2.3.5.a. Sting algoritması Sting (Statistical Information Grid) algoritması, uzayı/alanı dikdörtgen hücrelere bölen ve hiyerarşik bir yapı oluşturan tekniktir. Bu hiyerarşik yapının köküne birinci seviye denilirse, alt seviyedekiler/çocuklar ikinci seviye, diğerleri üçüncü, dördüncü şeklinde sıralanacaktır. Herhangi bir i düzeyindeki bir hücre (i+1). seviyedeki çocukların birleşimine karşılık gelir. Her hücre yapraklar hariç toplamda 4 çocuğa sahiptir. Birinci seviyedeki kök hücre bütün alanı temsil eder. Yaprak düzey hücrelerin boyutu nesnelerin yoğunluğuna bağlıdır. Genel kural olarak, bu boyut birkaç düzineden, birkaç bin noktaya ulaşabilir. Her hücre içerisinde aşağıdaki parametreler tutulur: NoktaSys : Bulunan nokta sayısı m: Hücredeki tüm değerlerin toplamı s: Hücrede bulunan sayısal değerlerin standart sapması enk: Hücre içerisindeki nitelik en küçük değer enb: Hücre içerisindeki nitelik en büyük değeri dağıtım: Hücrelerin nitel dağılımlarındaki dağılım tipi (normal, üstel gibi). Veriler veri tabanına kaydedilirken, en alt seviyede hücrelerdeki NoktaSys, m, s, enk ve enb parametreleri doğrudan hesaplanır. Dağılım şekli eğer önceden biliniyorsa kullanıcı 45 tarafından girilir veya ki-kare testi gibi testler yardımıyla belirlenir. Üst seviyedeki hücrelerin parametreleri ise alt seviyedeki hücrelerden yararlanarak elde edilir. Eğer alt seviyedeki hücreler dağılım konusunda birbiriyle uyuşmuyorsa ve eşik seviyesi aşılamazsa üst seviyedeki hücrelerin dağılım tipi “hiçbiri” olur. İstatiksel bilgiler yukarıdan aşağıya gridlere bağlı kalmak şartıyla ilk önce, hiyerarşik yapıda içerisinde sorgulama başlatmak üzere bir seviye belirlenir. Bu katman genelde az sayıda hücre içerir. Katmandaki bütün hücreler için, bu hücrenin verilen sorguyu karşılayıp karşılamadığını belirlemek için güven aralığı hesaplanır. Belirlenen güven aralığı çerçevesinde uygun olan ve olmayan hücreler belirlenir. İlgisiz uygun olmayan hücreler ileriki adımlarda kullanılmamak üzere dışarıda tutulur. Bu işlem en alt seviyeye ulaşılana dek sürdürülür. Bu işlem sonunda çoğu kez sorguya cevap verecek yeteri kadar hücre elde edilir. Yeteri kadar hücre elde edilmediğinde işlem tekrar edilir (Wang et al. 1997). 2.3.5.b. Dalga kümeleme metodu Dalga kümeleme metodu, büyük miktarda veri içeren veri tabanlarının kümelenmesi için kullanılabileceği gibi değişik şekil ve biçimlerde kümeleme arz eden veri grupları için de kullanılabilir. Bu kümeleme yönteminin en büyük avantajlarından biri kullanıcının küme sayısını girmemesidir. Algoritmanın adımları şu şekilde verilebilir: Adım 1: Özellik uzayının sayısallaştırılması ve birimlere nesnelerin atanması Adım 2: Özellik uzayına dalga dönüşüm işleminin uygulanması Adım 3: Dönüştürülmüş özellik uzayının alt bantlarındaki birbirine bağlı kümelerin bulunması Adım 4: Birimlerin isimlendirilmesi Adım 5: Kontrol tablosunun yaratılması Adım 6: Nesnelerin Kümelere atanması 46 Bu yöntem denetimsiz kümeleme sağlar. Kümeleri belirlemek için şapka şeklinde filtreler kullanılır ve eşzamanlı olarak zayıf bilgileri kendi sınırları içerisinde bastırır. Böylece, orijinal özellik uzayındaki yoğun bölgeler, yakın noktalar için çekici gibi hareket ederken, uzaktaki noktalar için engelleyici görevi görürler. Bunun anlamı; ana veri grubu içindeki kümeler belirgin bir şekilde ortaya çıkarken bu kümenin etrafı temiz ve berrak bir hal alır. Yani kümeler hem belirginleşir hem de uç veriler bertaraf edilmiş olur (Silahtaroğlu 2008). 2.3.5.c. CLIQUE algoritması CLIQUE (Clustering High-Dimensional Space) algoritması, Agrawal, Gehrke, Gunopulos ve Raghavan tarafından SIGMOD’98 konferansında sunulmuştur (Agrawal et al. 1998). Çok boyutlu veri tabanlarında iyi sonuçlar vermektedir. CLIQUE algoritması aşağıdaki gibi özetlenebilir (Han and Kamber 2006): 1. Çok boyutlu veri içeren büyük veri tabanlarında, genellikle veriler düzenli dağılmamaktadır. CLIQUE algoritması veri uzayındaki seyrek ve kalabalık alanları tanımlayarak veri kümesinin genel dağılım desenlerini keşfeder. 2. Veri uzayında bulunan toplam veri noktalarının bir kısmı giriş modeli parametresini aşarsa o hücre yoğun olarak kabul edilmektedir. CLIQUE algoritması kümeye bağlı yoğun birimlerinin maksimum bir kümesi olarak tanımlanır. CLIQUE algoritması, çok boyutlu veri uzayının alt uzaylarında çalışır ve bu sayede daha iyi kümeleme gerçekleştirir. Aynı zamanda, veri uzayının dağınık ve birbirinden bağımsız veriler tarafından doldurulduğu kabul edilir. Algoritma birbirine yakın noktalardan oluşan bölgeleri (yoğun olan bölgeleri) diğer bölgelerden ayırır ve bu bölgelere “birim” ismi verilir (Silahtaroğlu 2008). Algoritma çok boyutlu kümelemeyi gerçekleştirmek için genel olarak üç adımda tanımlanır (Agrawal et al. 1998): 47 Adım 1: Kümeleri içinde bulunduran alt uzayların tanımlanması Adım 2: Kümelerin tanımlanması Adım 3: Kümeler için minimum tanımının genelleştirilmesi 48 3. MATERYAL ve YÖNTEM 3.1. Materyal 3.1.1. Problemin tanımlanması Teknolojinin gelişmesi ile birlikte nitelikli ara eleman ihtiyacı da artmıştır. Eğitimli ve kaliteli ara eleman yetiştirmek için meslek yüksekokullarına da büyük görev düşmektedir. Bu tez çalışmasındaki amaç, meslek yüksekokullarında eğitim-öğretim gören öğrencilerin başarılarını etkileyen faktörleri, veri madenciliği kümeleme teknikleri ile analiz etmektir. 3.1.2. Verinin hazırlanması Bu çalışmada kullanılan veriler, Ağrı İbrahim Çeçen Üniversitesi Meslek Yüksekokulu’nda 2011-2012 eğitim öğretim dönemi ve öncesine ait olup üniversitenin Bilgi İşlem Daire Başkanlığından Microsoft Excel formatında alınmıştır. Veri madenciliğinin en önemli unsurlarından biri olan ve güvenilirliğini arttıran veri kalitesini yükseltmek için Excel formatında alınan veriler çeşitli işlemlerden geçirilmek üzere Microsoft SQL Server 2008 (MSSQLServer-2008) veri tabanına aktarılmıştır. MSSQLServer-2008 veri tabanının seçilmesinin nedeni, veriler üzerinde temizleme, birleştirme, dönüştürme işlemlerinin kolay bir şekilde yapılabilmesidir. Üniversiteden alınan bilgiler dışında, öğrencilerin başarısını etkileyebilecek diğer faktörler Nisan 2012’de Meslek Yüksekokulu Müdürlüğünün izni ile öğrencilere sunulan bir form üzerinden alınmıştır. Öğrencilere doldurtulan bilgi formu EK 1’de verilmiştir. Öğrencilerden alınan bilgiler Delphi programlama dili yardımı ile MSSQLServer-2008 veri tabanına aktarılmıştır. Yazılan programın ara yüzü Şekil 3.1’de verilmiştir. 49 Şekil 3.1. Öğrenci bilgilerinin Delphi programı ile MSSQLSERVER-2008 veri tabanına aktarılmasını sağlayan programın ara yüzü Aşağıda bu çalışmaya ait MSSQLSERVER-2008’de oluşturulan veri tabanı (MYOOgrenci), MYOOgrenci veri tabanında oluşturulan tablolar ve bu tablolara eklenen niteliklerin açıklamaları verilmiştir. Şekil 3.2’de MSSQLSERVER-2008 ara yüzü, oluşturulan veri tabanı (MYOOgrenci) ve oluşturulan tablolar görülmektedir. MYOOgrenci : MSSQLSERVER-2008’de oluşturulan veri tabanı ismi. OgrenciTanim: Öğrenciye ait öğrenci numarası (ogrno), okuduğu bölüm (bolum), okuduğu program ismi (program), öğrencinin cinsiyeti (cinsiyeti), mezun olduğu lise (lise), mezun olduğu lise türü (liseturu), mezun olduğu lise diploma ortalaması (lisdiplomaort), engel durumu var mı yok mu (engeldurumu), öğrencinin meslek yüksekokulundaki not ortalaması (sonagno), MYO’dan mezun olmuş mu olmamış mı (durumu), MYO mezuniyet tarihi (mezuntarihi), MYO’ya yerleşme puanı (yerlesmepuan), doğum yeri (dogumyeri) ve MYO’ya kayıt tarihi (kayittarihi) 50 bilgilerinin tutulduğu tablodur. Bu tabloda 1801 kayıt bulunmaktadır ve MYO’nun aktif, mezun olmuş ve okuldan kaydını silen öğrencileri bilgilerinden oluşmaktadır. Dersler: Öğrencinin MYO’da aldığı dersleri ve bu derslere ait bilgileri içermektedir. Öğrencinin numarası (ogrencino), dersin dönemi (donem), dersin kodu (derskoduadi), dersin kredisi (kredisi), öğrencinin bu dersten aldığı not (alinannot), aldığı notun harf notu karşılığı (harfnotu) bilgileri bu tabloda tutulmaktadır. Tabloda 37682 kayıt bulunmaktadır. OgrenciBilgileri: Öğrenci numarası (ogrencino), bölümü (bolumu), sınıfı (sınıf), mezun olduğu lise (mznlise), yaşı (yasi), kronik bir sağlık sorunu olup olmadığı (sagliksorunu), kiminle kaldığı (kaldigiyer), ailesinin aylık geliri (aylikgelir), kardeş sayısı (kardessayisi), babasının mesleği (babameslegi), annesinin çalışıp çalışmadığı (annecalismadurumu), anne ve babasının beraber olup olmadığı (annebababerabermi), annesinin hayatta olup olmadığı (anneyasiyormu), babasının hayatta olup olmadığı (babayasiyormu) bilgilerinin tutulduğu tablodur. Bu tabloda MYO’daki aktif öğrenci sayısı olan 627 kayıt bulunmaktadır. 51 Şekil 3.2. MSSQLSERVER-2008 ara yüzü, oluşturulan veri tabanı (MYOOgrenci) ve oluşturulan tablolar 3.1.3. Verinin temizlenmesi Veri temizleme, veri madenciliğinin en önemli adımlarından biridir. Çünkü kaliteli veri kaliteli sonuçlar doğurur. Eksik veya temizlenmemiş veri yanlış sonuçlar doğurabilir. Veri temizleme aşamasında yapılması gereken işlemler aşağıda verilmiştir (Dener vd 2009): Bir niteliğe ait verilerin büyük bir çoğunluğu eksikse yani null değer içeriyorsa bu nitelik tablodan çıkarılmalıdır. Bir niteliğe ait veriler yüksek oranlarda kayıp değer içeriyorsa, kayıp değer problemini çözmek için kayıp değeri bir değerle kodlama yöntemi kullanılır. Bu yönteme göre, kayıp değerli alana “u” gibi bir sabit bir değer atanır (u, İngilizcede bilinmeyen anlamına gelen unknown kelimesinin baş harfi olduğu için seçilmiştir). 52 Sayısal (nümerik) veri alanlarındaki kayıp değer sorununu çözmek için aşağıdaki yöntemler kullanılmalıdır (Dener vd 2009): Kayıp değerli alanlara, o nitelikle ilgili tüm kayıtların ortalaması alınarak kayıp değerli alanlara atanır. Bu yöntem, basit olmakla birlikte verinin dağılımı üzerinde büyük bir etkiye sahiptir. Bu nedenle, verinin dağılımını minimum düzeyde etkileyecek durumlarda kullanılmalıdır. Var olan değerler kullanılarak verinin dağılımı elde edilir ve kayıp değerli alanlara bu dağılıma uygun olarak değer atanır. Bu yöntem, verinin dağılımını çok fazla değiştirmez. Ancak kurulan modelde değer atanan alan çok önemli ise veri madenciliği sonuçları etkilenir. Bu yöntemler göz önünde bulundurularak uygulamada kullanılacak veriler üzerinde, kayıp değer problemini çözmek için Structured Query Language (SQL) komutları ve Transact SQL (T-SQL) komutları kullanılmıştır. T-SQL, SQL komutlarının kullanımının yanı sıra programlamada kullanılan akış kontrollerini, döngüleri, mantıksal karşılaştırma ve değişken kullanımına olanak sağlayan veri tabanı programlama dilidir (Özseven 2010). Öğrenci başarısını ölçmede öğrencinin son not ortalaması (son agnosu) önemli olduğu için sonagno alanı null ve 0 değer içeren kayıtlar OgrenciTanim tablosundan silinmiştir. Söz konusu kayıp değerlere sahip kayıtlar, aşağıdaki SQL komutları ile silinmiştir: Delete from OgrenciTanim where (sonagno=0) or (sonagno is null) OgrenciTanim tablosunda veri temizleme sonucunda 1801 kayıttan 446 kayıt silinmiş 1355 kayıt kalmıştır. 53 3.1.4. Veri birleştirme ve dönüştürme Veri Birleştirme aşamasında öğrencilerin tüm özelliklerini tek tabloda (OgrenciGenelBilgileri) göstermek için T-SQL kodları yardımı ile OgrenciTanim ve OgrenciBilgileri tabloları öğrenci numarasına alanına göre ilişkilendirilerek OgrenciGenelBilgileri ismi ile yeni oluşturulan tabloya eklenmiştir. T-SQL sorgusu aşağıdaki gibidir: BEGIN Declare @ogrencino int,@bolumu nvarchar (60),@cinsiyeti nvarchar (10), @sonagno float,@yerlesmepuan float,@dogumyeri nvarchar (50), @liseturu nvarchar (100),@yasi nvarchar (10), @sagliksorunu nvarchar (2) , @kaldigiyer nvarchar (20) , @aylikgelir nvarchar (15) ,@kardessayisi nvarchar (10) , @babameslegi nvarchar (15) ,@annecalismadurumu nvarchar (2) , @anneyasiyormu nvarchar (2) ,@babayasiyormu nvarchar (2) DECLARE ConvertOgrenciTanim CURSOR FAST_FORWARD FOR SELECT tanim.ogrno, case when bilgi.bolumu is not null then bilgi.bolumu else tanim.program end as bolumu, tanim.cinsiyeti,tanim.sonagno,tanim.yerlesmepuan, case when tanim.dogumyeri='AĞRI' or tanim.dogumyeri='MERKEZ' then 'AĞRI' else 'DİĞER' end dogumyeri, case when bilgi.mznlise is not null then case when Bilgi.mznlise=1 then 'Meslek Lisesi' else 'Diğer' end else tanim.liseturu end liseturu, case when bilgi.yasi=1 Then '15-20' when bilgi.yasi=2 Then '21-30' when bilgi.yasi=3 Then '31-35' when bilgi.yasi=4 Then '35+' end as yas, case when bilgi.sagliksorunu=1 Then 'E' when bilgi.sagliksorunu=2 Then 'H' end as saglikdurum, case when bilgi.kaldigiyer=1 Then 'Ailemle' when bilgi.kaldigiyer=2 Then 'Yurtta' when bilgi.kaldigiyer=3 Then 'Kirada' end as kaldigiyer, case when bilgi.aylikgelir=1 Then '0-750' when bilgi.aylikgelir=2 Then '751-1500' when bilgi.aylikgelir=3 Then '1501-3000' when bilgi.aylikgelir=4 Then '3000+' 54 end as aylikgeliri, case when bilgi.kardessayisi=1 Then '0-3' when bilgi.kardessayisi=2 Then '4-6' when bilgi.kardessayisi=3 Then '7+' end as kardessayis, case when bilgi.babameslegi=1 Then 'Esnaf' when bilgi.babameslegi=2 Then 'Memur' when bilgi.babameslegi=3 Then 'Özel Sektör' when bilgi.babameslegi=4 Then 'Çalışmıyor' end as babameslek, case when bilgi.annecalismadurumu=1 Then 'E' when bilgi.annecalismadurumu=2 Then 'H' end as annecalismadurum, case when bilgi.anneyasiyormu=1 Then 'E' when bilgi.anneyasiyormu=2 Then 'H' end as anneyasiyormu, case when bilgi.babayasiyormu=1 Then 'E' when bilgi.babayasiyormu=2 Then 'H' end as babayasiyormu FROM OgrenciTanim as tanim inner join OgrenciBilgileri as Bilgi ON tanim.ogrno=Bilgi.ogrencino OPEN ConvertOgrenciTanim FETCH NEXT FROM ConvertOgrenciTanim INTO @ogrencino,@bolumu,@cinsiyeti,@sonagno,@yerlesmepuan,@dogumyeri, @liseturu,@yasi,@sagliksorunu,@kaldigiyer,@aylikgelir,@kardessayisi, @babameslegi,@annecalismadurumu,@anneyasiyormu,@babayasiyormu WHILE (@@FETCH_STATUS =0) BEGIN INSERT INTO OgrenciGenelBilgileri (ogrencino,bolumu,cinsiyeti,sonagno, yerlesmepuan,dogumyeri,liseturu,yasi,sagliksorunu,kaldigiyer, aylikgelir,kardessayisi,babameslegi,annecalismadurumu, anneyasiyormu,babayasiyormu) VALUES (@ogrencino,@bolumu,@cinsiyeti,@sonagno,@yerlesmepuan,@dogumyeri,@lise turu,@yasi,@sagliksorunu,@kaldigiyer,@aylikgelir,@kardessayisi, @babameslegi,@annecalismadurumu,@anneyasiyormu,@babayasiyormu) FETCH NEXT FROM ConvertOgrenciTanim INTO @ogrencino,@bolumu,@cinsiyeti,@sonagno,@yerlesmepuan, @dogumyeri,@liseturu,@yasi,@sagliksorunu,@kaldigiyer, @aylikgelir,@kardessayisi,@babameslegi,@annecalismadurumu, @anneyasiyormu,@babayasiyormu END CLOSE ConvertOgrenciTanim DEALLOCATE ConvertOgrenciTanim RETURN END OgrenciGenelBilgileri tablosuna ait bazı veriler Ek 2’de gösterilmiştir. Öğrenci numarasına göre OgrenciTanim tablosunda olup OgrenciBilgileri tablosunda olmayan kayıtlar OgrenciGenelBilgileri tablosuna eklenmemiştir. Sadece öğrenci numarası ortak 55 olan kayıtlar tabloya eklenmiştir. Bu işlem sonunda 581 kayıttan oluşan ve uygulamada asıl olarak kullanılacak veri kümesi oluşturulmuştur. OgrenciGenelBilgileri tablosundaki öğrenci verilerine ait istatistikleri gösteren SQL sorguları aşağıdaki çizelgede verilmiştir. Tablodaki toplam kayıt sayısını bulan SQL sorgusu ve sonucu Cinsiyet istatistiklerini gösteren SQL sorgusu ve sonucu Doğum yeri istatistiklerini gösteren T-SQL sorgusu ve sonucu 56 Mezun olunan Lise türü istatistiklerini gösteren SQL sorgusu ve sonucu Yaş dağılımı istatistiklerini gösteren SQL sorgusu ve sonucu Kronik sağlık durumu istatistiklerini gösteren SQL sorgusu ve sonucu 57 Öğrencinin eğitimöğretim süresince kaldığı yer istatistiklerini gösteren SQL sorgusu ve sonucu Aylık gelir durumu istatistiklerini gösteren SQL sorgusu ve sonucu Kardeş sayısı istatistiklerini gösteren SQL sorgusu ve sonucu 58 Baba mesleği istatistiklerini gösteren SQL sorgusu ve sonucu Annenin çalışıpçalışmama istatistiklerini gösteren SQL sorgusu ve sonucu Annenin hayatta olup olmama istatistiğini gösteren SQL sorgusu ve sonucu 59 Babanın hayatta olup olmama istatistiğini gösteren SQL sorgusu ve sonucu Veri birleştirme aşamasından sonraki adım veri dönüştürme işlemidir. Uygulamada kullanılan veri üzerinde, veri dönüştürme aşamasında aşağıdaki işlemler uygulanmıştır: 1. Son agno (sonagno) ve üniversiteye yerleşme puanları (yerlesmepuan) Excel programından MSSQLServer-2008 ortamına aktarıldığında otomatik olarak 1000 ile çarpılmıştır. Bu problemi düzeltmek için bu puanları güncelleyen aşağıdaki SQL sorgusu işletilmiştir: update OgrenciGenelBilgileri set sonagno= (sonagno/1000) update OgrenciGenelBilgileri set yerlesmepuan= (yerlesmepuan/1000) 3. Cinsiyeti “ERKEK” olan kayıtlar ‘E’, “KADIN” olan kayıtlar ise ‘B’ olarak değiştirilmiştir. Bu işlem için aşağıdaki T-SQL sorgusu kullanılmıştır: UPDATE OgrenciGenelBilgileri SET cinsiyeti=CASE WHEN cinsiyeti='ERKEK' THEN 'E' WHEN cinsiyeti='KADIN' THEN 'B' END 60 4. Doğum yeri “AĞRI” olan kayıtlar ‘A’, doğum yeri “AĞRI” dan farklı olan kayıtlar ‘D’ olarak değiştirilmiştir. Bu işlem için aşağıdaki T-SQL sorgusu kullanılmıştır: UPDATE OgrenciGenelBilgileri SET dogumyeri=CASE WHEN dogumyeri='AĞRI' THEN 'A' ELSE 'D' END 5. Mezun olduğu lise “Meslek Lisesi” olan kayıtlar ‘M’, diğerleri ‘D’ olarak değiştirilmiştir. Bu işlem için aşağıdaki T-SQL sorgusu kullanılmıştır: UPDATE OgrenciGenelBilgileri SET liseturu=CASE WHEN liseturu='Meslek Lisesi' THEN 'M' WHEN liseturu='Diğer' THEN 'D' END 6. Kaldığı yer “Ailemle” olan kayıtlar ‘A’, “Yurtta” olan kayıtlar ’Y’, “Kirada” olan kayıtlar ‘K’ olarak değiştirilmiştir. Bu işlem için aşağıdaki T-SQL sorgusu kullanılmıştır: UPDATE OgrenciGenelBilgileri SET kaldigiyer=CASE WHEN kaldigiyer='Ailemle' THEN 'A' WHEN kaldigiyer='Yurtta' THEN 'Y' WHEN kaldigiyer='Kirada' THEN 'K' END 7. Baba mesleği “Esnaf” olan kayıtlar ‘E’, “Memur” olan kayıtlar ‘M’, “Özel Sektör” olan kayıtlar ‘O’, “Çalışmıyor” olan kayıtlar ‘C’ olarak değiştirilmiştir. Bu işlem için aşağıdaki T-SQL sorgusu kullanılmıştır: 61 UPDATE OgrenciGenelBilgileri SET babameslegi=CASE WHEN WHEN WHEN WHEN END Bazı verilerin, dönüşüm babameslegi='Esnaf' babameslegi='Memur' babameslegi='Özel Sektör' babameslegi='Çalışmıyor' işleminden sonraki hali EK THEN THEN THEN THEN 3’de 'E' 'M' 'O' 'C' gösterilmiştir. Çizelge 3.1’de değişen niteliklerin veri dönüşüm aşamasında aldığı değerler verilmiştir. Çizelge 3.1. Veri dönüşüm aşamasında bazı niteliklerin aldığı değerler Nitelikler Veri Dönüşümünden Önce Veri Dönüşümünden Sonra Cinsiyeti (ERKEK, KADIN) Cinsiyeti (E, B) Dogumyeri (AĞRI, DİĞER) Dogumyeri (A, D) Liseturu (Meslek Lisesi, Diğer) Liseturu (M, D) Kaldigiyer (Ailemle, Yurtta, Kirada) Kaldigiyer (A, Y, K) Babameslegi (Esnaf, Memur, Özel Babameslegi (E, M, O, C) Sektör, Çalışmıyor) 3.2. Yöntem Verilerin analizi için, Waikato Üniversitesi tarafından 1996’da ilk resmi sürümü yayınlanmış olan bir makine öğrenme (machine learning) ve veri madenciliği (data mining) programı olan WEKA (Waikato Environment for Knowledge Analysis) paket 62 programı kullanılmıştır. WEKA, veri analizi ve tahminleyici modelleme için geliştirilmiş, görsel algoritma ve araçlar sunan, akademik araştırmalar için, eğitim ve endüstriyel uygulama alanlarında kullanılan bir yazılımdır. WEKA yazılımının temel avantajları; geniş veri önişleme ve modelleme tekniklerine sahip olması, grafiksel kullanıcı ara yüzü sayesinde kullanımının kolay olması ve programlama dili olarak Java’yı kullanmasından ötürü platformdan bağımsız ve taşınabilir olmasıdır (Tapkan vd 2011). WEKA programı çalıştırıldığında Şekil 3.3’deki kullanıcı ara yüzü ekrana gelir. Şekil 3.3. WEKA kullanıcı arayüzü WEKA programı ARFF (Attribute Related File Format) formatını desteklemektedir. Bu tezde kullanılan veriler Excel2Arf Converter programı ile ARFF formatına dönüştürülmüştür. Verinin Excel2Arf Converter programı yardımı ile ARFF formatına dönüştürülmesi Şekil 3.4’de ve ARFF formatına dönüştürülmüş veri Şekil 3.5’de verilmiştir. 63 Şekil 3.4. Verinin Excel2Arf Converter programı yardımı ile ARFF formatına dönüştürülmesi 64 Şekil 3.5. ARFF formatına dönüştürülmüş veri WEKA dört temel modülden oluşmaktadır. Bunlar (İşler ve Narin 2012): Explorer: Mevcut veri üzerinde yapılabilecek uygulamaları içeren genel bir grafiksel kullanıcı ara yüzünü içeren modüldür. 65 Experimenter: Bir veya daha çok veri kümesi üzerinde bir veya daha çok algoritmanın uygulanabilmesine ve sonuçlarının gözlemlenebilmesine olanak sağlayan modüldür. Knowledge Flow: Matlab içindeki Simulink veya National Instruments firmasına ait olan LabVIEW programı gibi sürükle bırak özelliğine sahip olan “Explorer” penceresi gibi çalışmaktadır. Kullanıcı tercihine bağlı olarak “Explorer” ya da Knowledge Flow” modüllerini kullanabilir. Simple CLI: Bu modül komut ekranı aracılığıyla işlem yapmayı sağlar. Uygulamada Explorer modülü kullanılmıştır. Explorer modülünün kullanıcı ara yüzü Şekil 3.6’da gösterilmiştir. Explorer kullanıcı ara yüzü önişlem (preprocess), sınıflama (classify), kümeleme (cluster), ilişkilendirme (associate), öznitelik seçimi (select attributes) ve görselleştirme (visualize) sekmelerinden oluşur. Şekil 3.6. Explorer modülünün kullanıcı arayüzü 66 Ekran ilk açıldığında Preprocess paneli hariç diğerleri henüz veri yüklenmediğinden pasif durumdadır. ARFF formatına dönüştürülmüş veri yüklendikten sonra diğer paneller (Classify, Cluster, Associate, Select Attribute, Visualize) aktif hale gelir. Preprocess panelinde çalışılacak verinin yüklenmesini, çeşitli filtreleme işlemleri ile verilerdeki eksikliklerin düzeltilmesini, kullanılacak değişkenlerin seçilmesini, kaldırılmasını ve niteliklere ait istatistiki bilgilerin gösterilmesini sağlayan seçenekler bulunmaktadır. Uygulamada kullanılacak veriyi yüklemek için, “Open file”, “Open URL”, “Open DB” ve “Generate” seçimleri bulunmaktadır. Veriler diskten yüklenecekse “Open file”, herhangi bir internet sayfasından yüklenecekse “Open URL” seçeneği, ağdaki bir veri tabanı sunucusundan yüklenecekse “Open DB” seçeneği, eğer veriler elle girilecekse “Generate” seçeneği seçilmelidir. Yüklenen verinin kayıp değerleri ve gereksiz verileri kullanılacak algoritmaya uygun olarak yapılandırmak için Preprocess sekmesinden “Filter” seçeneği, hangi tür filtreleme yapılacağı ise “Choose” düğmesinden seçilir. Kayıp veriler için “ReplaceMissingValues”; gereksiz verileri kaldırmak için “PrincipalComponents”; alanları sayısallaştırmak için “NumericToBinary” seçenekleri seçilir. Veri, WEKA programına yüklendiğinde niteliklere ait istatistiki bilgiler Şekil 3.7’de gösterilmiştir. 67 Şekil 3.7. Niteliklere göre istatistiki bilgiler 68 4. ARAŞTIRMA BULGULARI ve TARTIŞMA WEKA programının “Classifier” sekmesi, veri kümesi üzerinde sınıflandırma algoritmalarının uygulandığı sekmedir. “Cluster” sekmesinde, veri kümesi üzerinde uygulanacak WEKA kümeleme algoritmaları bulunur. “Associate” sekmesinde, uygulanacak WEKA birliktelik kuralları algoritmaları bulunur. Visualize sekmesi, farklı nitelikler arasındaki ilişkileri grafiksel olarak görüntülemek için kullanılır. Hazırlanan veri, WEKA programına yüklendikten sonra “Cluster” panelinden veriye uygulanacak kümeleme algoritması “Choose” butonu tıklanarak seçilir. Seçilen algoritma tıklanarak algoritma ile ilgili ayarlamalar yapıldıktan sonra sonuçlar için “Start” butonuna tıklanır. Seçilen algoritma ile ilgili sonuçlar “Cluster output” penceresinde görüntülenir. Çalışmada hazırlanan veri kümesinden sonagno niteliği seçilerek K-Means algoritması uygulandığında elde edilen sonuçlar Şekil 4.1’de ve kayıtların kümelere dağılımı SQL kodları yardımı ile Çizelge 4.1’de verilmiştir. 69 Şekil 4.1. K-Means algoritmasının WEKA çıktısı 70 Çizelge 4.1. K-Means algoritmasının sonucu ve özeti Kümeler ve Verilerin Kümelere Dağılımı Küme No Not Ortalamalası(sonagno) 0 1 2 2.3346 3.1591 1.3688 ÖZELLİKLER Özelliklerin Aldığı Değerler K.Sayısı % K.Sayısı % K.Sayısı % M (Meslek Lisesi) 164 51,2500 88 27,5000 68 21,2500 D (Diğer Lise) 136 52,1073 91 34,8659 34 13,0268 A (Ağrı) 108 53,2020 62 30,5419 33 16,2562 D (Diğer) 192 50,7937 117 30,9524 69 18,2540 0-750 TL 135 47,0383 100 34,8432 52 18,1185 751-1500 TL 106 52,4752 61 30,1980 35 17,3267 1501-3000 TL 50 61,7284 17 20,9877 14 17,2840 3000+ TL 9 81,8182 1 9,0909 1 9,0909 A (Ailemle) 159 60,2273 72 27,2727 33 12,5000 Y (Yurtta) 56 42,1053 56 42,1053 21 15,7895 K (Kirada) 85 51,8293 51 31,0976 28 17,0732 0-3 57 55,3398 23 22,3301 23 22,3301 4-6 126 47,7273 85 32,1970 53 20,0758 7+ 117 54,6729 71 33,1776 26 12,1495 15-20 94 44,9761 59 28,2297 56 26,7943 21-30 177 54,7988 105 32,5077 41 12,6935 31-35 6 35,2941 9 52,9412 2 11,7647 35+ 23 71,8750 6 18,7500 3 9,3750 M (Memur) 87 58,0000 33 22,0000 30 20,0000 E (Esnaf) 55 48,2456 32 28,0702 27 23,6842 C (Çalışmıyor) 133 46,3415 98 34,1463 56 19,5122 O (Özel Sektör) 25 50,0000 16 32,0000 9 18,0000 E (Erkek) 205 50,7426 125 30,9406 74 18,3168 B (Bayan) 95 53,6723 54 30,5085 28 15,8192 E (Evet) 32 48,4848 17 25,7576 17 25,7576 H (Hayır) 268 52,0388 162 31,4563 85 16,5049 Annenin Çalışma E (Evet) 16 59,2593 4 14,8148 7 25,9259 Durumu H (Hayır) 284 51,2635 175 31,5884 95 17,1480 E (Evet) 286 51,3465 171 30,7002 100 17,9533 H (Hayır) 14 58,3333 8 33,3333 2 8,3333 E (Evet) 255 50,7968 155 30,8765 92 18,3267 H (Hayır) 45 56,9620 24 30,3797 10 12,6582 Lise Türü Doğum Yeri Aylık Gelir Kaldığı Yer Kardeş Sayısı Yaşı Baba Mesleği Cinsiyeti Sağlık Sorunu Anne Yaşıyor mu? Baba Yaşıyor mu? 71 Çizelge 4.1 incelendiğinde not ortalamasına göre en başarılı kümenin 1. küme (not ortalaması = 3.1591), en başarısız kümenin ise 2. küme (not ortalaması = 1.3688) olduğunu söyleyebiliriz. Çizelge 4.1’e istinaden, lise türüne göre kayıtların kümelere dağılımı Şekil 4.2’de verilmiştir. Lise türüne göre kayıtların kümelere dağılımı 60,0000 50,0000 %52,1073 %51,2500 %34,8659 40,0000 M (Meslek Lisesi) %27,5000 30,0000 D (Diğer Lise) %21,2500 %13,0268 20,0000 10,0000 0,0000 0(2.336) 1(3.1591) 2(1.3688) Şekil 4.2. Lise türüne göre kayıtların kümelere dağılımı Şekil 4.2 incelendiğinde meslek lisesinden mezun olan öğrencilerin 2. kümede yoğunlaşma oranının diğer liselerden mezun olan öğrencilerden daha yüksek olduğu görülmektedir. Aynı zamanda meslek lisesinden farklı bir liseden mezun olan öğrencilerin 1. küme ve 0. kümede yoğunlaşma oranının meslek lisesinden mezun olan öğrencilerden daha yüksek olduğu görülmektedir. Buna göre, meslek lisesinden mezun olan öğrencilerin, diğer liselerden mezun olan öğrencilere göre başarı düzeyinin daha düşük olduğunu söyleyebiliriz. Çizelge 4.1’e istinaden, doğum yerine göre kayıtların kümelere dağılımı Şekil 4.3’de verilmiştir. 72 Doğum yerine göre kayıtların kümelere dağılımı 60,0000 %53,2020%50,7937 50,0000 40,0000 %30,5419 A (Ağrı) %30,9524 30,0000 D (Diğer) %16,2562 %18,2540 20,0000 10,0000 0,0000 0(2.336) 1(3.1591) 2(1.3688) Şekil 4.3. Doğum yerine göre kayıtların kümelere dağılımı Doğum yerine göre öğrencilerin kümelere dağılımı incelendiğinde, kayıtların kümelere dengeli bir şekilde dağıldığını söyleyebiliriz. Çizelge 4.1’e istinaden, aylık gelire göre kayıtların kümelere dağılımı Şekil 4.4’de verilmiştir. Aylık gelire göre kayıtların kümelere dağılımı 100,0000 %81,8182 80,0000 %61,7284 %52,4752 60,0000 %47,0383 %34,8432 40,0000 %30,1980 %20,9877 %17,3267 %18,1185 %17,2840 20,0000 %9,0909 %9,0909 0,0000 0(2.336) 1(3.1591) 0-750 TL 751-1500 TL 1501-3000 TL 3000+ TL 2(1.3688) Şekil 4.4. Aylık gelire göre kayıtların kümelere dağılımı Şekil 4.4 incelendiğinde aylık geliri 0-750 TL arasında olan öğrencilerin 1. kümede yoğunlaşma oranının daha yüksek olduğu görülmektedir. Bu da düşük gelirli aile yapısına sahip öğrencilerin başarı oranının daha yüksek olduğunu gösterir. 73 Çizelge 4.1’e istinaden, kaldığı yere göre kayıtların kümelere dağılımı Şekil 4.5’de verilmiştir. Kaldığı yere göre kayıtların kümelere dağılımı 70,0000 60,0000 %60,2273 %51,8293 50,0000 %42,1053 40,0000 %42,1053 A (Ailemle) Y (Yurtta) %27,2727 %31,0976 30,0000 %15,7895%17,0732 %12,5000 20,0000 K (Kirada) 10,0000 0,0000 2(1.3688) 1(3.1591) 0(2.336) Şekil 4.5. Kaldığı yere göre kayıtların kümelere dağılımı Şekil 4.5’e göre yurtta kalan öğrencilerin 1. kümede yoğunlaşma oranının daha yüksek olduğu görülmektedir. Bu durumda yurtta kalan öğrencilerin daha başarılı olduğunu söyleyebiliriz. Çizelge 4.1’e istinaden, kardeş sayısına göre kayıtların kümelere dağılımı Şekil 4.6’da verilmiştir. Kardeş sayısına göre kayıtların kümelere dağılımı 60,0000 50,0000 %55,3398 %54,6729 %47,7273 40,0000 %32,1970 30,0000 %33,1776 %22,3301 20,0000 0-3 %22,3301 %20,0758 %12,1495 10,0000 0,0000 0(2.336) 1(3.1591) 2(1.3688) Şekil 4.6. Kardeş sayısına göre kayıtların kümelere dağılımı 4-6 7+ 74 Şekil 4.6’ya göre kardeş sayısı 7 ve daha fazla olan öğrencilerin 1. kümede yoğunlaşması, kalabalık aile yapısına sahip öğrencilerin başarı oranının daha yüksek olduğunu gösterir. Çizelge 4.1’e istinaden, yaşa göre kayıtların kümelere dağılımı Şekil 4.7’de verilmiştir. Yaşa göre kayıtların kümelere dağılımı %71,8750 80,0000 70,0000 60,0000 50,0000 40,0000 %54,7988 %35,2941 30,0000 20,0000 10,0000 0,0000 %52,9412 15-20 %44,9761 0(2.336) 21-30 %32,5077 %26,7943 %28,2297 %18,7500 %12,6935 %11,7647 %9,3750 1(3.1591) 31-35 35+ 2(1.3688) Şekil 4.7. Yaşa göre kayıtların kümelere dağılımı Şekil 4.7 incelendiğinde yaşı 21-30 ile 31-35 arasında olan öğrencilerin en başarılı(1.küme) kümede yoğunlaşma oranının diğer yaş gruplarına göre daha yüksek, aynı zamanda bu yaş grubundaki öğrencilerin en başarısız(0.küme) kümede yoğunlaşma oranının daha düşük olduğu görülmektedir. Bu durumda yaşı 21 ile 35 arasında olan öğrencilerin daha başarılı olduğu söylenebilir. Çizelge 4.1’e istinaden, baba mesleğine göre kayıtların kümelere dağılım Şekil 4.8’de verilmiştir. 75 Babanın mesleğine göre kayıtların kümelere dağılımı 60,0000 50,0000 40,0000 %58,0000 %48,2456 %50,0000 %46,3415 %34,1463 %28,0702%32,0000 %23,6842 %22,0000 %20,0000 %19,5122 %18,0000 30,0000 20,0000 M (Memur) E (Esnaf) C (Çalışmıyor) O (Özel Sektör) 10,0000 0,0000 1(3.1591) 0(2.336) 2(1.3688) Şekil 4.8. Babanın mesleğine göre kayıtların kümelere dağılımı Şekil 4.8 incelendiğinde 1. kümede babası çalışmayan veya özel sektörde çalışan öğrencilerin yoğunlaşma oranının daha yüksek olması, bu profildeki öğrencilerin başarı oranının daha yüksek olduğunu göstermektedir. Çizelge 4.1’e istinaden, cinsiyete göre kayıtların kümelere dağılımı Şekil 4.9’da verilmiştir. Cinsiyete göre kayıtların kümelere dağılımı 60,0000 %50,7426 %53,6723 50,0000 40,0000 E (Erkek) %30,9406 %30,5085 30,0000 %18,3168 %15,8192 20,0000 10,0000 0,0000 0(2.336) 1(3.1591) Şekil 4.9. Cinsiyete göre kayıtların kümelere dağılımı 2(1.3688) B (Bayan) 76 Şekil 4.9’a göre cinsiyete göre kayıtların dengeli bir şekilde kümelere dağıldığı görülmektedir. Çizelge 4.1’e istinaden, sağlık sorununa göre kayıtların kümelere dağılımı Şekil 4.10’da verilmiştir. Sağlık sorununa göre kayıtların kümelere dağılımı 60,0000 %52,0388 %48,4848 50,0000 40,0000 %31,4563 %25,7576 30,0000 E (Evet) %25,7576 H (Hayır) %16,5049 20,0000 10,0000 0,0000 0.(2.336) 1(3.1591) 2(1.3688) Şekil 4.10. Sağlık sorununa göre kayıtların kümelere dağılımı Şekil 4.10 incelendiğinde sağlık sorunu olmayan öğrencilerin en başarılı kümede(1.küme) yoğunlaşma oranının daha yüksek olması ve en başarısız kümede(2.küme) yoğunlaşma oranının daha düşük olması sağlık sorunu olmayan öğrencilerin başarı oranının daha yüksek olduğunu gösterir. Çizelge 4.1’e istinaden, annenin çalışma durumuna göre kayıtların kümelere dağılımı Şekil 4.11’de verilmiştir. 77 Annenin çalışma durumuna göre kayıtların kümelere dağılımı %59,2593 60,0000 %51,2635 50,0000 40,0000 %31,5884 30,0000 %14,8148 20,0000 %25,9259 %17,1480 E (Evet) H (Hayır) 10,0000 0,0000 0.(2.336) 1(3.1591) 2(1.3688) Şekil 4.11. Annenin çalışma durumuna göre kayıtların kümelere dağılımı Annenin çalışma durumuna göre kayıtların kümelere dağılımını incelediğimizde, annesi çalışmayan öğrencilerin 1. kümede yoğunlaşma oranının daha yüksek, 2 kümede ise daha düşük olduğu görülmektedir. Bu durumda annesi çalışmayan öğrencinin başarı oranının daha yüksek olduğunu söyleyebiliriz. Çizelge 4.1’e istinaden, annenin hayatta olma durumuna göre kayıtların kümelere dağılımı Şekil 4.12 ve babanın hayatta olma durumuna göre kayıtların kümelere dağılımı ise Şekil 4.13’de verilmiştir. 78 Annenin hayatta olma durumuna göre kayıtların kümelere dağılımı 60,0000 %58,3333 %51,3465 50,0000 %33,3333 %30,7002 40,0000 30,0000 E (Evet) %17,9533 20,0000 H (Hayır) %8,3333 10,0000 0,0000 0.(2.336) 1(3.1591) 2(1.3688) Şekil 4.12. Annenin hayatta olma durumuna göre kayıtların kümelere dağılımı Babanın hayatta olma durumuna göre kayıtların kümelere dağılımı 60,0000 %56,9620 %50,7968 50,0000 40,0000 E (Evet) %30,8765%30,3797 30,0000 %18,3267 %12,6582 20,0000 H (Hayır) 10,0000 0,0000 0.(2.336) 1(3.1591) 2(1.3688) Şekil 4.13. Babanın hayatta olma durumuna göre kayıtların kümelere dağılımı Şekil 4.12 ve Şekil 4.13 incelendiğinde anne veya babanın hayatta olma durumuna göre kayıtların kümelere dengeli bir şekilde dağıldığını söyleyebiliriz. Çalışmada hazırlanan veri kümesi DBScan algoritmasına uygulandığında Şekil 4.14’deki sonuç elde edilmiştir: 79 Şekil 4.14. DBScan algoritmasının WEKA çıktısı DBScan algoritmasında ve MinNs değerleri değiştirilerek çeşitli sonuçlar elde edilmiş sonuçlardan biri Şekil 4.14’de verilmiştir. Sonuçlara bakıldığında verinin 3 kümeye ayrıldığı; %74,6987’sini 0. kümeye, %0,6884’nü 1. ve 2. kümelere dağıtıldığı, %23,9242’sinin ise kümeler dışında kaldığı görülmüştür. Veriler DBScan algoritması incelendiğinde, algoritmanın eldeki veriye uygun olmadığı görülmüştür. 80 Çalışmada hazırlanan veri kümesi OPTICS algoritmasına uygulandığında Şekil 4.15’deki sonuç elde edilmiştir. Şekil 4.15. OPTICS algoritmasının WEKA çıktısı OPTICS algoritmasının sonucu incelendiğinde hazırlanan verinin çoğunun tanımlanmamış (Undefined) veri olarak kümelendiği görülmektedir. Bu da OPTICS algoritmasının çalışmada kullanılan veriye uygun olmadığını göstermektedir. 81 5. SONUÇ Teknolojinin gelişmesi ile birlikte veri ambarlarında artan verinin bir yığın halinde tutulması bir anlam ifade etmezken, veri madenciliği modelleri kullanılarak bu veri yığınından anlamlı sonuçlar elde edilmiştir. Bu çalışmada veri madenciliği sürecinde yapılması gerekenler ele alınmış; veri madenciliği modellerinden sınıflandırma, birliktelik kuralları, regresyon modelleri incelenerek kümeleme modelleri üzerinde detaylı bir şekilde durulmuş ve Meslek Yüksekokullarında eğitim gören öğrencilerin başarı düzeylerini etkileyen faktörler, veri madenciliği kümeleme teknikleri kullanılarak incelenmiştir. Meslek Yüksekokulları, çeşitli mesleklerde eğitimli, başarılı ve kaliteli bireyler yetiştirmek amacıyla kurulmuş eğitim kurumlarıdır. Günümüzde şirketlerin artmasıyla ara eleman ihtiyacı giderek artmakta, bu nedenle Meslek Yüksekokullarına büyük görev düşmektedir. Daha kaliteli ve başarılı öğrenciler yetiştirmek amacıyla veri madenciliği kümeleme teknikleri kullanılarak öğrencilerin başarılarını etkileyebilecek faktörler incelenmiş ve çeşitli sonuçlar bulunmuştur. Bu faktörler göz önünde bulundurularak daha başarılı bireyler yetiştirilebilir. Örneklem olarak alınan Meslek Yüksekokulu verileri SQL ve T-SQL kodları yardımı ile temizleme, dönüştürme işlemleri ile istenen formata dönüştürüldükten sonra, WEKA programı bünyesindeki kümeleme teknikleri ile modellenmiştir. Tez kapsamında kümeleme tekniklerinden K-Means, DBScan ve OPTICS algoritmaları kullanılmıştır. K-Means algoritmasının sonucu incelendiğinde: 1. Meslek lisesinden farklı bir liseden mezun olan öğrencilerin daha başarılı olduğu, 2. Yurtta kalan öğrencilerin daha başarılı olduğu, 3. Ailesinin aylık geliri 0-750 TL arasında olan öğrencilerin başarı oranının daha yüksek olduğu, 82 4. 7 veya daha fazla kardeşe sahip öğrencilerin daha başarılı olması, kalabalık aile yaşamının öğrenciye daha fazla sorumluluk getirdiği, 5. 21 ile 35 yaş arasında olan öğrencilerin başarı oranının daha yüksek olduğunun görülmesi belli bir olgunluğa gelmiş öğrencinin hayata bir an önce atılmak amacıyla daha fazla çalıştığı, 6. Sağlık sorunu olmayan öğrencilerin başarı oranının daha yüksek olduğu, 7. Annesi çalışmayan öğrencinin başarı oranının daha yüksek olduğu, 8. Diğer özelliklerde ise dengeli bir dağılım olduğu sonuçlarına varılmıştır. Sonuç olarak yaptığımız çalışmada, uygulamada kullandığımız veri setine K-Means, DBScan ve OPTICS algoritmaları uygulanmıştır. K-Means algoritması olumlu sonuçlar vermiş, DBScan ve OPTICS algoritmalarında herhangi bir sonuca varılamamıştır. Bu durumda K-Means algoritmasının daha iyi sonuç vermesi eldeki veriler işlenirken bu algoritmanın kullanılmasının, daha uygun olacağını akla getirmektedir. 83 KAYNAKLAR Agrawal, R., Johannes, G., Dimitrios, G. and Prabhakar, R., 1998. Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications. ACM SIGMOD Int. Conf. on Managment of Data, Seattle. Akgöbek, Ö. ve Çakır, F., 2009. Veri Madenciliğinde Bir Uzman Sistem Tasarımı. Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri. Şanlıurfa. Akın, Y. K., 2008. Veri Madenciliğinde Kümeleme Algoritmaları ve Kümeleme Analizi. Doktora Tezi, Sosyal Bilimler Enstitüsü, Marmara Üniversitesi, İstanbul. Akpınar, H., 2000. Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği. İ.Ü. İşletme Fakültesi Dergisi, 29 (1), 1-22. Albayrak, A. S. ve Yılmaz, Ş. K., 2009. Veri Madenciliği: Karar Ağaçları Algoritmaları ve İMKB Verileri Üzerine Bir Uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 14 (1), 31-52. Albayrak, M., 2008. EEG Sinyallerindeki Epileptiform Aktivitenin Veri Madenciliği Süreci ile Tespiti. Doktora Tezi, Sakarya Üniversitesi Fen Bilimleri Enstitüsü, Sakarya. Ankerst, M., Breunig , M. M., Hans-Peter, K. and Sander, J., 1999. OPTICS: Ordering Points To Identify the Clustering Structure. ACM SIGMOD’99 Int. Conf. on Management of Data, Philadelphia. Argüden, Y. ve Erşahin, B., 2008. Veri Madenciliği Veriden Bilgiye, Masraftan Değere. Alkim Kağıt San. ve Tic. A.Ş., 72 s, İstanbul. Babadağ, K. K., 2006. Veri Madenciliği Yaklaşımı ve Veri Kalitesinin Artması için Kullanılması. İstatistik Araştırma Sempozyumu, Ankara. Baykal, A., 2006. Veri Madenciliği Uygulama Alanları. D. Ü. Ziya Gökalp Eğitim Fakültesi Dergisi, 7, 95-107. Baykasoğlu, A., 2005. Veri Madenciliği ve Çimento Sektöründe Bir Uygulama. Akademik Bilişim Konferansı, Gaziantep. Bozkır, A. S., Sezer, E. ve Gök, B., 2009. Öğrenci Seçme Sınavında (ÖSS) öğrenci Başarımını Etkileyen Faktörlerin Veri Madenciliği Yöntemleriyle Tespiti. 5. Uluslararası İleri Teknolojiler Sempozyumu (IATS’09), Karabük. Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C. and Wirth, R., 2000. CRISP-DM 1.0: Step-by-step data mining guide. SPSS Inc., 76 p, USA. Çalışkan, S. B., 2008. K´KNN: Kümeleme ve K En Yakın Komsu Yöntemi İle Ağlarda Nüfuz Tespiti. Y.Lisans Tezi, Gebze İleri Teknoloji Enstitüsü Mühendislik ve Fen Bilimleri Enstitüsü, Gebze. Çankırı, S., Kartal, E., Yıldırım, K., ve Gülseçen, S., 2011. Organizasyonlarda Bilgi Yönetimi Sürecinde Veri Madenciliği Yaklaşımı. Bilgi Çağında Varoluş: “Fırsatlar ve Tehditler” Sempozyumu: Bildiriler Kitabı, Ed: A. Yıldızeli, A. Arıkan, T. Çakmak, Yeditepe Üniversitesi, İstanbul, 148-167. Çoban, A., 2006. İmalat Sanayisinde Veri Madenciliği Uygulaması. Doktora Tezi, Sakarya Üniversitesi Fen Bilimleri Enstitüsü, Sakarya. 84 Demiralay, M. ve Çamurcu, A. Y., 2005. Cure, Agnes ve K-Means Algoritmalarındaki Kümeleme Yeteneklerinin Karşılaştırılması. İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 8, 1-18. Dener, M., Dörterler, M. ve Orman, A. 2009. Açık Kaynak Kodlu Veri Madenciliği Programları: WEKA’da Örnek Uygulama. Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri, Şanlıurfa. Dinçer, E., 2006. Veri Madenciliğinde K-Means Algoritması ve Tıp Alanında Uygulanması. Y.Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli. Doğan, S., Özyolu, F. ve Köseoğlu, B., 2010. CLARA ve CLARANS Algoritmaları. http://www.mcilmgoc.com/mgocmen37/verimadenciligi/Clara&Clarans.pdf (18.10.2012). Dondurmacı, G., 2011. Veri Madenciliği’nde Regresyon Ağaçları İle Sınıflandırma Ve Bir Uygulama. Doktora Tezi, Mimar Sinan Güzel Sanatlar Üniversitesi Fen Bilimleri Enstitüsü, İstanbul. Durmuş, M. S. ve İplikçi, S., 2007. Veri Kümeleme Algoritmalarının Performansları Üzerine Karşılaştırmalı Bir Çalışma. Akademik Bilişim’07 - IX. Akademik Bilişim Konferansı Bildirileri, Kütahya. Erdoğan, Ş. Z., 2004. Veri Madenciliği ve Veri Madenciliğinde Kullanılan K-Means Algoritmasının Öğrenci Veri Tabanında Uygulanması. Y. Lisans Tezi, İstanbul Üniversitesi Sosyal Bilimler Enstitüsü, İstanbul. Ester, M., Kriegel, H. P., Sander, J. and Xu, X., 1996. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. 2nd International Conference on Knowledge Discovery and Data Mining, München. Fayyad, U., Piatetsky-Shapiro, G. and Smyth, P. 1996. From Data Mining to Knowledge Discovery in Databases. AI Magazine, 17 (3), 37-54. Giannotti, F. and Pedreschi, D.,2008. Mobility, Data Mining and Privacy. Springer, 410 s, Pisa, Italy. Gözüdeli, Y., 2012. Yazılımcılar için SQL Server 2012 ve Veritabanı Programlama. Seçkin Yayınları, 688 s, Ankara. Gürsoy, U. T. Ş., 2009. Veri Madenciliği ve Bilgi Keşfi. Pegem Akademi Yayınları, 174 s, Ankara. Gürsoy, U. T. Ş., 2011. Uygulamalı Veri Madenciliği Sektörel Analizler. Pegem Akademi Yayınları, 126 s, Ankara. Han, J. and Kamber , M., 2006. Data Mining: Concepts and Techniques. Morgan Kauffmann, 743 p, San Francisco. Hinneburg, A. and Keim, D. A., 1998. An Efficient Approach to Clustering in Large Multimedia Databases with Noise. Proceedings of the 4th International Conference on Knowledge Discovery and Datamining (KDD'98), New York. Çelebi, Ö. F., 2011. Yazılım Deneyimleri. www.omerfarukcelebi.com/?p=89 (15.10. 2012) Işık, M. ve Çamurcu, A. Y., 2008. Web Belgeleri Kümelemede Benzerlik ve Uzaklık Ölçütleri Başarılarının Karşılaştırılması. Marmara Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 20 (1), 35-49. İşler, Y. ve Narin, A., 2012. «WEKA Yazılımında k-Ortalama Algoritması Kullanılarak Konjestif Kalp Yetmezliği Hastalarının Teşhisi. SDU Teknik Bilimler Dergisi 2 (4), 21-29. 85 Kavurkacı, Ş., Aydın, Z. G. ve Şam, R., 2011. Büyük Ölçekli Veri Tabanlarında Bilgi Keşfi. Akademik Bilişim’11 - XIII. Akademik Bilişim Konferansı Bildirileri, Malatya. Kaya , E., Bulun, M. ve Arslan, A. Tıpta Veri Ambarları Oluşturma ve Veri Madenciliği Uygulamaları. ab.org.tr/ab03/tammetin/96.doc (14.10.2012). Koyuncugil, A. S. ve Özgülbaş, N., 2009. Veri Madenciliği: Tıp ve Sağlık Hizmetlerinde Kullanımı. Bilişim Teknolojileri Dergisi, 2 (2), 21-32. Kuo, R. J., Ho, L.M. and Hu, C. M., 2002. Integration Of Self-Organizing Feature Map and K-Means Algorithm for Market Segmentation. Computers & Operations Research, 29 (11), 1475-1493. Larose, D. T. 2006. Data Mining Methods and Models. John Wiley & Sons, Inc., 340 p, New Jersey. Mitra, S. and Acharya, T., 2003. Data Mining - Multimedia, Soft Computing and Bioinformatics. A John Wiley & Sons, Inc., 424 p, New Jersey. Ng, R. T. and Han, J., 1994. Efficient and Effective Clustering Methods for Spatial Data Mining. Proceedings of the 20th VLDB Conference, Santiago. Oğuzlar, A., 2003. Veri Ön İşleme. Erciyes Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 21, 67-76. Özdamar, E. Ö., 2002. Veri Madenciliğinde Kullanılan Teknikler ve Bir Uygulama. Y. Lisans Tezi, Mimar Sinan Üniversitesi Fen Bilimleri Enstitüsü, İstanbul. Özekes, S., 2003. Veri Madenciliği Modelleri ve Uygulama Alanları. İstanbul Ticaret Üniversitesi Dergisi, 2 (3), 65-82. Özkan, Y., 2013. Veri Madenciliği Yöntemleri. Papatya Yayınları, 216 s, İstanbul. Özmen, Ş., 2003. Marmara University Department of Business Administration Konferanslar. Http://mimoza. marmara.edu.tr/ ~sozmen/ konferanslar.php (8.11. 2012). Özseven, T., 2010.Veritabanı Yönetim Sistemleri II. Murathan Yayınları, 351 s, Trabzon. Sever, H. ve Oğuz, B. 2002. Veri Tabanlarında Bilgi Keşfine Formel Bir Yaklaşım Kısım I: Eşleştirme Sorguları ve Algoritmalar. Bilgi Dünyası, 3 (2), 173-204. Silahtaroğlu, G., 2008. Kavram ve Algoritmalarıyla Temel Veri Madenciliği. Papatya Yayınları, 174 s, İstanbul. Şeker, Ş. E., 2008. K-Ortalama Algoritması (K-Means Algorithm). http://www.bilgisayarkavramlari.com/2008/12/15/k-ortalama-algoritmasi-KMeans-algorithm/ (25.9. 2012). Şentürk, A., 2006. Veri Madenciliği Kavram ve Teknikler. Ekin Yayınları, 114 s, Bursa. Tapkan, P., Özbakır, L. ve Baykasoğlu, A., 2011. WEKA ile Veri Madenciliği Süreci ve Örnek Uygulama. Endüstri Mühendisliği Yazılımları ve Uygulamaları Kongresi, İzmir. Vahaplar, A. ve İnceoğlu, M. M., 2001. Veri Madenciliği ve Elektronik Ticaret. VII. Türkiye’de İnternet Konferansı, İstanbul. Wang, W., Yang, J. and Muntz, R., 1997. Sting: A Statistical Information Grid Approach to Spatial Data Mining. Proceedings of the 23rd VLDB Conference, Athens. Yazıcı, F., 2005. EM Algoritması ve Uzantıları. Y. Lisans Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara. 86 Yılmaz, Ş. K. ve Patır, S., 2011. Kümeleme Analizi ve Pazarlamada Kullanımı. Akademik Yaklaşımlar Dergisi, 2 (1), 91-113. Zaïane, O. R., 1999. Chapter I: Introduction to Data Mining. University of Alberta, http://webdocs.cs.ualberta.ca/~zaiane/courses/cmput690/notes/Chapter1/ch1.pdf (7.10.2012). ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, adı: ÇELİK, Gaffari Uyruğu: T.C. Doğum tarihi ve yeri: 1982 / Merkez-Adıyaman Medeni hali: Evli e-mail: [email protected] Eğitim Eğitim Birimi Mezuniyet tarihi Derece Yüksek Lisans Atatürk Üniversitesi/Fen Bilimleri Enstitüsü/Bilgisayar Mühendisliği 2013 Anabilim Dalı Lisans Mersin Üniversitesi/ Bilgisayar 2005 Mühendisliği Bölümü Lise Yabancı Dil İngilizce Adıyaman Atatürk Lisesi 1999