ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ Hanife GÖKER YÜKSEK LİSANS TEZİ BİLGİSAYAR EĞİTİMİ GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ HAZİRAN 2012 ANKARA Tarih : 18 / 06 / 2012 Bu tez, Gazi Üniversitesi Bilişim Enstitüsü tez yazım kurallarına uygundur. TEZ BİLDİRİMİ Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalışmada orijinal olmayan her türlü kaynağa eksiksiz atıf yapıldığını bildiririm. Hanife GÖKER iv ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ (Yüksek Lisans Tezi) Hanife GÖKER GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ Haziran 2012 ÖZET Günümüzde her alanda bilgisayar teknolojilerinin kullanımı ile başlayan gelişmeler katlanarak yaygınlaşmaktadır. Eğitim ve diğer alanlardaki hizmetlerin daha yüksek standartlara ulaştırılmasında; yapay zeka, veri madenciliği, bulanık mantık ve örüntü tanıma vb. tekniklerin kullanılmasının faydaları herkesçe bilinmektedir. Veri madenciliği teknikleri ile verilerin sınıflandırılması, kümelenmesi ve veriler arasındaki birliktelik kurallarının çıkarılması mümkündür. Bu kapsamda geçmişteki tecrübelerden faydalanarak, gelecekteki olayları tahmin eden sınıflandırma algoritmalarının kullanılmasıyla yeni uygulamalar geliştirilebilmektedir. Bu çalışmanın amacı üniversite giriş sınavına giren öğrencilerin başarılarının veri madenciliği ile tahmin edilmesidir. Çalışmada öğrenci veri ambarı üzerinde Naive Bayes algoritması kullanılarak bir yazılım geliştirilmiştir. Geliştirilen bu yazılım ile öğrenci ve aileleri için, öğrencilerin üniversite giriş sınavındaki başarı durumlarını tahmin eden bir erken uyarı sisteminin geliştirilmesi amaçlanmıştır. v Bilim Kodu Anahtar Kelime Sayfa Adedi Tez Yöneticisi : 702.1.014 : veri madenciliği, naive bayes, birliktelik kuralları, sınıflandırma, kümeleme, weka : 70 : Doç. Dr. Halil İbrahim BÜLBÜL vi THE ESTIMATION OF STUDENTS’ SUCCESSES IN UNIVERSITY ENTRANCE EXAM BY DATA MINING METHODS (M.Sc. Thesis) Hanife GÖKER GAZİ UNIVERSITY INFORMATICS INSTITUTE June 2012 ABSTRACT Nowadays the improvements that have been started by using computer technologies have been growing. For reaching to higher standards of services offered by education and other fields; it is obvious that using the techniques of artificial intelligence, data mining, fuzzy logic and pattern recognition, and etc. are very useful. It is possible to classify and group the data and to get association rules between the data by data mining techniques. Within this scope it might be developed new applications using classification algorithms that estimates the future events by past experiences. The aim of this study, using data mining algorithms on the created student data warehouse, is to estimate the students’ successes, who are taking the university entrance exam, by data mining. In this study, it has been improved a software considering Naive Bayes algorithms for student data warehouse. By that developed software, it is aimed to improve an early warning system that may estimate the states of the students’ successes in university entrance exam for students and also for their families. vii Science Code Key Words Page Number Adviser : 702.1.014 : data mining, naive bayes, association rules, classification, cluster, weka : 70 : Assoc. Prof. Dr. Halil İbrahim BÜLBÜL viii TEŞEKKÜR Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren danışmanım Doç. Dr. Halil İbrahim BÜLBÜL’ e, verilerin toplanma sürecinde yardımlarını esirgemeyen Ahmet – Alper Dinçer Anadolu Lisesi okul müdürü Mustafa KALE’ ye, desteklerinden dolayı eşime ve kızıma teşekkür ederim. ix İÇİNDEKİLER Sayfa ÖZET ...................................................................................................................................... iv ABSTRACT............................................................................................................................ vi TEŞEKKÜR.......................................................................................................................... viii İÇİNDEKİLER ....................................................................................................................... ix ÇİZELGELERİN LİSTESİ ..................................................................................................... xi ŞEKİLLERİN LİSTESİ ......................................................................................................... xii SİMGELER VE KISALTMALAR ....................................................................................... xiii 1. GİRİŞ ................................................................................................................................... 1 2. KONU İLE İLGİLİ MEVCUT ÇALIŞMALARIN İNCELENMESİ ................................. 4 3. VERİ MADENCİLİĞİ VE UYGULAMA ALANLARI ..................................................... 7 3.1. Üniversite Giriş Sınavı ...................................................................................... 7 3.2. Veri Madenciliği ............................................................................................... 9 3.3. Veri Madenciliği Uygulama Alanları.............................................................. 10 3.4. Veri Ambarı Kavramı ve Özellikleri .............................................................. 14 3.5. Veri Madenciliği Uygulama Süreci ................................................................ 15 3.5.1. Problemin tanımlanması ....................................................................... 18 3.5.2. Veri önişleme ....................................................................................... 19 3.5.3. Model değerlendirme aşaması .............................................................. 23 3.5.4. Bilginin sunumu aşaması ..................................................................... 28 3.6. Veri Madenciliği Modelleri............................................................................. 28 3.6.1. Sınıflandırma ........................................................................................ 29 3.6.2. Kümeleme ............................................................................................ 35 3.6.3. Birliktelik kuralları ............................................................................... 36 x Sayfa 4. MATERYAL VE METOD ................................................................................................ 38 4.1. Yazılımın Geliştirilmesinde Kullanılan Araçlar ............................................. 38 4.2. Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Kriterlerin Seçimi ........................................................................................................................ 40 4.3. Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Sınıflandırma Algoritmasının Seçimi.................................................................................... 40 5. ÜNİVERSİTE GİRİŞ SINAVINDA VERİ MADENCİLİĞİ İLE BAŞARI TAHMİNİ... 41 5.1. Problemin Tanımı ........................................................................................... 41 5.2. Verilerin Elde Edilme Süreci .......................................................................... 42 5.3. Veri Önişleme Basamakları ............................................................................ 44 5.3.1. Veri temizleme ..................................................................................... 44 5.3.2. Veri bütünleştirme ................................................................................ 45 5.3.3. Veri dönüştürme ................................................................................... 45 5.3.4. Veri azaltma ......................................................................................... 47 5.4. Modelleme....................................................................................................... 49 5.4.1. Modelleme basamağı: WEKA ............................................................. 49 5.4.2. Modelleme basamağı: Üniversite giriş sınavında öğrencilerin başarılarının tahmin edilmesinde veri madenciliği uygulama yazılımı 50 6. SONUÇ VE ÖNERİLER ................................................................................................... 59 KAYNAKLAR ...................................................................................................................... 62 EKLER................................................................................................................................... 65 EK-1. Anket formu ................................................................................................................ 66 EK-2. Naive Bayes algoritmasının C#.NET dili kodları....................................................... 68 ÖZGEÇMİŞ ........................................................................................................................... 70 xi ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 3. 1. Karışıklık matrisi ..............................................................................26 Çizelge 3. 2. Eğitim veri seti ..................................................................................31 Çizelge 3. 3. Eğitim veri seti kritelerine ait frekanslar ..........................................32 Çizelge 5. 1. Nitelikler ve alabileceği değerler ......................................................42 Çizelge 5. 2. Öznitelik seçimi işleminden önce sınıflayıcı başarı oranı ................48 Çizelge 5. 3. Öznitelik seçimi işleminden sonra sınıflayıcı başarı oranı ...............48 Çizelge 5. 4. Sınıflandırma algoritmalarının karşılaştırılması ...............................50 Çizelge 5. 5. Test verileri için yapılan başarı tahmin sonuçları .............................56 xii ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 3. 1. Fayyad’a göre veri madenciliği sürecinde yer alan basamaklar ............ 15 Şekil 3. 2. Han’a göre veri madenciliği sürecinde yer alan basamaklar ................. 17 Şekil 3. 3. Veri madenciliği modelleri ve algoritmalar ........................................... 29 Şekil 5. 1. Yazılım ana formu ................................................................................. 51 Şekil 5. 2. Öğrenci genel bilgileri giriş formu ........................................................ 51 Şekil 5. 3. Öğrenci aile bilgileri giriş formu ........................................................... 52 Şekil 5. 4. Öğrenci bireysel bilgileri giriş formu .................................................... 52 Şekil 5. 5. Öğrenci not ve devamsızlık bilgileri giriş formu ................................... 53 Şekil 5. 6. Veri görüntüleme formu ........................................................................ 53 Şekil 5. 7. Başarı tahmin formu .............................................................................. 54 Şekil 5. 8. Başarı sonuç mesajı................................................................................ 56 xiii SİMGELER VE KISALTMALAR Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Kısaltmalar Açıklama ÖSYM Öğrenci Seçme ve Yerleştirme Merkezi E-OKUL E-Okul Yönetim Bilgi Sistemi KDD Knowledge Discovery From Data (Veritabanından Bilgi Keşfi) MAP Maximum A Posteriori Classification (En Büyük Sonrasal Sınıflandırma Yöntemi) MUC Message Understanding Conference TP True Positive TN True Negative FP False Positive FN False Negative SQL Structured Query Language (Yapısal Sorgulama Dili) AOBP Ağırlıklı Orta Öğretim Başarı Puanı 1 1. GİRİŞ Eğitim sistemimizde, yükseköğrenim görmek için üniversite giriş sınavında yeterli puanı alarak başarılı olmak gerekmektedir. Ülkemizde her yıl Öğrenci Seçme ve Yerleştirme Merkezinin (ÖSYM) yaptığı üniversite giriş sınavına bir buçuk milyondan fazla öğrenci girmekte ve bu sayı giderek artmaktadır. Üniversite giriş sınavına giren öğrencilerin sayısı, yükseköğretim kurumlarının alacağı öğrenci sayısından fazla olduğundan, sistem üniversite giriş sınavını zorunlu hale getirmiştir. Ortaöğretim ile yükseköğretim arasında bir tür kopuş ifade eden öğrenci arz-talep dengesizliğindeki bu hızlı artış, en üst düzey devlet yetkililerinden, okul yöneticilerine, öğretmenlerden velilere ve öğrencilere kadar, toplumun birçok bölümünü büyük ölçüde tedirgin etmektedir. Üniversiteye girişin zorlaşması ve rekabetin artması, Türkiye’de “Üniversite Giriş Sınavlarına Hazırlanma Kursları” veya “Özel Dershaneler” olarak bilinen özgün ve özel öğretim kurumlarının ortaya çıkmasına ve hızla artıp yaygınlaşmasına yol açmıştır. Bunun yanında okullar işlevsiz ve sadece diploma veren bir kurum haline gelmiştir. Ailelerde, ekonomik ve kültürel güçlerinin elverdiği ölçüde, çocuklarının üniversiteye girme şanslarını artırmak için, çocuklarını bu kulvarda koşturmaktadırlar. Türkiye’de üniversite öncesi eğitim- öğretim süreci ve bu süreç boyunca gösterilen çabaların büyük bir bölümü, üniversite giriş sınavlarına endekslenmiş durumdadır. Açıkça ifade edilsin veya edilmesin, öğrencilerin üniversite giriş sınavlarında göstermiş oldukları başarı düzeyi, sınav öncesi eğitim-öğretim sürecinde etkin olan tüm kişi ve kurumların başarı veya başarısızlıklarının en somut göstergesi olarak algılanmaktadır. Başka bir deyişle, öğrencilerin üniversite giriş sınavlarında göstermiş oldukları başarı düzeyi, mezun oldukları lisenin başarı ve verimlilik düzeyinin de en önemli ölçütü olarak değerlendirilmektedir [1]. Öğrencilerin üniversite giriş sınavında başarısını etkileyen birçok faktör bulunmaktadır. Öğrencilerin demografik özellikleri, bireysel özellikleri, okul ve dershane bilgileri bu etkenlerden bazılarıdır. Üniversite giriş sınavında yüksek puan almak, meslek hayatı ile ilişkili olduğundan çok daha fazla önem arz etmektedir. 2 Öğrenciler küçük yaştan itibaren bu sınava hazırlanmakta ve dolayısıyla rekabet ortamı giderek güçlenmektedir. Öğrencilerin sınavda başarılı olmaları için, bu sınavda başarıyı etkileyen faktörlerin araştırılması gerekmektedir. Hatta başarıyı etkileyen birçok faktör olduğundan, bu faktörler arasında başarıyı en çok etkileyenlerin öncelik sırasının belirlenmesi, önceliği en yüksek olan faktörlerin geliştirilmesi ve desteklenmesi sağlanmalıdır. Üniversite giriş sınavında, başarıyı etkileyen faktörlerin her biri daha önceden araştırılmış, bu faktörlerin üniversite giriş sınavındaki başarıyı nasıl etkilediği farklı araştırmacılar tarafından incelenmiştir. Bu çalışmalar incelendiğinde, öğrencilerin üniversite giriş sınavındaki başarıları ile okul kültürü, sınav yılı, okul türü, bölgeler, öğrencinin sosyoekonomik ve demografik özellikleri, öğrencinin okul mezuniyet notu, cinsiyeti, yaşı ve aile ortamı gibi her bir faktör ile üniversite giriş sınavındaki başarıyı inceleyen birçok çalışma bulunmaktadır [2-5]. Yapılan bu çalışmalarda not bilgisi, aile ortamı, dershane ve özel ders bilgisi, sınav kaygı düzeyi, çalışma düzeni, yaş, cinsiyet vb. faktörlerin tamamının üniversite giriş sınav başarısını kümülatif olarak ne kadar etkilediği ve bu faktörlerin öncelik sırası ile ilgili bir çalışma bulunmamaktadır. Bu nedenle öğrencilerin üniversite giriş sınavındaki başarısını etkileyen faktörlerin belirlenmesi ve ortaöğretim öğrencilerinin üniversite giriş sınavını kazanıp kazanamayacaklarının tahmini yapılarak, eksik faktörlerin geliştirilmesi, bu sınavdan elde edilecek başarının artmasında önemli rol oynamaktadır. Yukarıda bahsedilen işlemlerin yapılmasında birçok farklı yöntem kullanılmaktadır. Bu yöntemlerden biride veri madenciliğidir. Veri yığınlarının içerisinden, gizli örüntülerin belirlenip, yararlı bilgilerin ortaya çıkarılması işlemine veri madenciliği denilmektedir. Veri madenciliği, bankacılık, emniyet, telekomünikasyon, spor gibi çeşitli alanlarda kullanılmaktadır. Eğitim ve diğer alanlardaki hizmetlerin daha yüksek standartlara ulaştırılmasında bilgisayar uygulamaları önemli yer tutmaktadır. Eğitim sisteminde, yapay zeka 3 tekniklerini, veri madenciliği tekniklerini, bulanık mantık uygulamalarını ve örüntü tanıma tekniklerini içeren uygulamalarla daha iyi sonuç almak mümkündür. Eğitimde kalitenin artırılması, gelecekteki eğitim politikalarının şekillendirilmesi, öğrenci başarılarının artırılması, öğrenci davranışlarına ve gruplarına göre bireysel eğitimin verilmesi gibi amaçlar ile veri madenciliği teknikleri uygulanmalıdır. Veri madenciliği teknikleri sayesinde veri ambarından çıkarılan örüntüler, klasik yöntemlere göre doğruluk oranı daha yüksektir ve daha hızlı elde edilebilir. Bu çalışmanın amacı; bir öğrenci veri ambarı oluşturmak ve bu öğrenci veri ambarı üzerinde, öznitelik seçme algoritmaları ile seçilen öncelikli niteliklere göre öğrencilerin üniversite sınavını kazanıp kazanamayacağının, veri madenciliği algoritmalarından Naive Bayes algoritması ile tahmin etmeye çalışmaktır. Geliştirilen yazılımda, insanların hayatlarında dönüm noktalarından bir tanesi olan üniversite giriş sınavındaki başarı durumlarının tahmin edilmesi ve üniversite giriş sınavında başarıyı etkileyen faktörlerin arasından öncelikli faktörlerin tespiti için bir erken uyarı sistemi geliştirilmesi amaçlanmıştır. 4 2. KONU İLE İLGİLİ MEVCUT ÇALIŞMALARIN İNCELENMESİ Veri madenciliği uygulamalarına duyulan önemin her geçen gün artmasıyla birlikte, veri madenciliği teknikleri başta pazarlama olmak üzere her alanda kullanılmaya başlanılmıştır. Bu bölümde, öğrenci bilgileri ve eğitim öğretim faaliyetlerini içeren veriler üzerinde veri madenciliği tekniklerinin kullanılması ile ilgili çalışmalara yer verilmiştir. Bırtıl (2011), “Kız Meslek Lisesi Öğrencilerinin Akademik Başarısızlık Nedenlerinin Veri Madenciliği Tekniği ile Analizi” isimli tezinde, öğrencilerin başarısızlık anketine verdikleri cevaplar incelenmiş ve veri madenciliği yöntemi ile öğrencilerin genelde “birlikte katılıyorum” cevabı verdikleri sorular tespit edilmiştir. Kümeleme algoritması kullanılarak öğrencilerin başarısızlık nedenleri gruplandırılmış ve gruplandırılan başarısızlık nedenlerinin daha aza indirilmesi için gerekli önlemlerin alınarak, öğrenci başarı düzeylerinin artırılabileceği sonucuna varılmıştır [6]. Bir başka çalışmada, Üçgün (2009) “Ortaöğretim Okulları İçin Öğrenci Otomasyonu Tasarımı ve Öğrenci Verileri Üzerine Veri Madenciliği Uygulamaları” isimli veri madenciliği uygulamasında, ilişkilendirme kuralları algoritmalarından Apriori algoritmasını kullanarak öğrenci ders notları ile ilgili bazı kurallar çıkarmıştır. Bu kurallar ile öğrenci başarısını artırabilecek yeni stratejilerin oluşturulması gerektiği sonucuna varılmıştır [7]. Öğrenci veri tabanında veri madenciliği algoritmalarından genetik algoritmayı kullanan Gündoğdu (2007) tarafından yapılan çalışmada, Kocaeli Üniversitesindeki öğrencilerin verileri üzerinde geliştirilen yazılım ile verilerin analizinin yapılması ve eğitimcilerin öğrenci profillerini değerlendirmesine yardımcı olması amaçlanmıştır. Genetik algoritma kullanılarak, öğrencilerin üniversite giriş sınavındaki başarıları ile derslerdeki başarı ortalamaları arasındaki kuralların çıkarılması ve yeni gelecek öğrencilerin başarı durumlarının öngörülebileceği öğrenci başarı analizi için bir yazılım geliştirilmiştir [8]. 5 Bulut (2010) tarafından gerçekleştirilen diğer bir çalışmada, öğrencileri madde bağımlılığından korumak için ailelere ve eğitimcilere yardımcı olacak bir uyarı sistemi geliştirilmiştir. Gelecekte bir öğrencinin madde bağımlısı olma risk yüzdesi, WEKA programı kullanılarak çeşitli sınıflandırma algoritmaları ile hesaplatılmaktadır [9]. Gülçe’nin 2010 yılında yaptığı bir çalışmada ise, veri madenciliği teknikleri kullanılarak öğrenci karar destek sistemi oluşturulmuştur. Üniversite öğrencilerinin akademik başarı durumlarının tahmini yapılarak, elde edilen bilgilerin ilgili kişilerin onayına sunulması, bu sayede gelecekte alınacak eğitim ve öğretim plan ve programlama sürecine yönelik kararlarda yönetime destek olması hedeflenmiştir [10]. Konuyla ilgili bir başka çalışma, Bülbül ve Ünsal tarafından 2010 yılında yapılmıştır. Çalışma kapsamında, makine öğrenmesi algoritmalarından Naive Bayes algoritması kullanılarak öğrencilere uygulanan mesleki alan seçimi işlemi ile başarılı sonuçlar elde edilmiştir. Geliştirilen yazılım ile mesleki alan seçim sürecinde bulunan bireylerden alınan verilere göre birey için en uygun mesleki alanın sistem tarafından önerilmesi amaçlanmıştır [11]. Sınıflandırma algoritmasının kullanılmasına yönelik diğer bir çalışmada 2011 yılında Yardımcı tarafından yapılmıştır. Yardımcı (2011) “Makine Öğrenmesi Teknikleri ile Rss Besleme Yönetimi” isimli çalışmasında, makine öğrenmesi algoritmalarından sınıflandırma algoritmasını kullanarak, kullanıcının haber okuma alışkanlığının web sitesine öğretilmesini ve tekrar haber okunmak istendiğinde öğrenilen alışkanlığa göre haberlerin kullanıcıya sunulmasını sağlamıştır [12]. Bozkır ve arkadaşları tarafından 2009 yılında yapılan “Öğrenci Seçme Sınavında Öğrenci Başarısını Etkileyen Faktörlerin Veri Madenciliği Yöntemleriyle Tespiti” isimli çalışmada, 2008 yılında sınava girmiş olan öğrencilerin verileri üzerinde kümeleme ve karar ağaçları algoritmaları kullanılarak oluşturulan bağımlılık ağları ile niteliklerin birbirleri üzerindeki etkileri tespit edilmiştir [13]. 6 Yukarıda verilen çalışmalarda veri madenciliği tekniklerinden birliktelik kuralları çıkarma ve sınıflandırma işlemleri geliştirilmiştir. Öğrenci veri tabanı üzerinde; öğrenci başarısını artırmak, madde bağımlısı gibi risk grubunda bulunan öğrencileri belirlemek, mesleki alan seçiminde doğru seçimi yapmak gibi veri madenciliği tekniklerinin uygulanması ile ilgili literatürde birçok çalışma bulunmaktadır [611,13]. Çalışmamızda öğrenci veri ambarı üzerinde sınıflandırma algoritmalarından Naive Bayes algoritması kullanılarak üniversite giriş sınavı başarı tahmini yapılmıştır. 7 3. VERİ MADENCİLİĞİ VE UYGULAMA ALANLARI Veri madenciliğinin birçok tanımı bulunmaktadır. Genel tanımıyla yararlı bilgilerin, büyük veri tabanlarından çıkarılması işlemidir. Son yıllarda finans, haberleşme, sağlık sektörlerinde özellikle ticari alanda veri madenciliği yöntemleri sıklıkla kullanılmaya başlamıştır. Bu tezin konusu üniversite giriş sınavında öğrenci başarılarının tahmin edilmesi ve sınavda başarıyı etkileyen faktörlerin öncelik sırasının belirlenmesidir. Üniversite giriş sınavına giren öğrenci sayısı her geçen yıl artmakta ve bu sınavda başarıyı etkileyen birçok faktör bulunmaktadır. Bu faktörlerin üniversite giriş sınavındaki başarıyı kümülatif olarak nasıl etkilediği, öğrencilerin sınavı kazanıp kazanamayacaklarının öngörülmesi önemlidir. Bu bölümde, veri madenciliği, veri madenciliği uygulama alanları ve bu tezin konusunu oluşturan üniversite giriş sınavından bahsedilmiştir. 3.1. Üniversite Giriş Sınavı Türkiye’de yükseköğretime öğrenci seçme işlemi, 1925 yılında kurulan ilk Hukuk Mektebinden hatta kökleri çok eskilere dayanan ancak 1919 yılında bilimsel ve kısmen yönetim özerkliğine kavuşan İstanbul Darülfünun’un kurulusundan günümüze kadar, anlayış olarak çok fazla da değişmeyen belirli bir yapı üzerinde gelişerek gelmiştir. O yıllarda yükseköğretime başvuran öğrenci sayısının kontenjan sayısından az olması, büyük ve merkezi sınavları gerekli kılmamıştır. Yetkililer 1930-40’lı yıllara kadar ortaöğretimle ilgili alanlarda, yazılı ve sözlü sınavlar yaparak öğrencileri seçmeye çalışmışlar, adaylara sınavlarda matematik, geometri, fen bilimleri, tarih, coğrafya, mantık, felsefe, Türkçe ve kompozisyon alanlarında sorular sormuşlardır. Cumhuriyetin ilanından sonra sosyoekonomik alandaki ilerlemeler, nüfusun giderek artmasına ve toplumdaki genç nüfusun çoğalmasına neden olmuştur. Genç Cumhuriyetimizin eğitime verdiği destekle birlikte, yükseköğretime başvuran aday sayısı artmış; yukarıda sözü edilen sınav sistemi kullanılamaz duruma gelmiştir. 1940-45’li yıllarda yükseköğretime başvuran aday 8 sayısı, örneğin Siyasal Bilgiler Fakültesi için 700 kişi civarındadır. Ancak yükseköğrenim görmek isteyen kişi sayısı 1961 yılında 25 bine 1974 yılında 230 binlere, 1980’ li yıllarda 470 binlere ve 1990 yılında 900 binlere yükselmiştir. 2003 yılında ise 1 502 605 kişi ve 2011 yılında 1 711 254 kişi sınava başvurmuştur. [14] Üniversite giriş sınavına başvuru sayısının her geçen yıl arttığı görülmektedir. Üniversite giriş sınavında başarıyı etkileyen faktörler Literatür incelendiğinde, üniversite giriş sınavında başarıyı etkileyen birçok faktör bulunduğu görülmektedir [2-5]. Başarıyı etkileyen bu faktörleri ailesel faktörler, dershane ve özel ders bilgisi, okul faktörü ve bireysel faktörler olarak kategorize edebiliriz. Bu kategorilerin altındaki başarıyı etkileyebilecek faktörleri aşağıdaki gibi sıralayabiliriz: a) Aile Faktörü Ailenin sosyoekonomik düzeyi, Anne baba eğitim durumu, Anne baba mesleği, Kardeş sayısı, İkamet edilen yer, b) Okul Faktörü Okul türü, Ortaöğretim not bilgisi, İlköğretim not bilgisi, Devamsızlık bilgisi, Ağırlıklı ortaöğretim başarı puanı, Ortaöğretimde seçilen alan, Sınıf mevcudu, Öğretmen faktörü, Sosyal ve kültürel etkinlikler, c) Dershane ve Özel Ders Bilgisi 9 d) Bireysel Faktörler Cinsiyet, yaş, Bedensel özellikleri, özür durumu, Kitap okuma alışkanlığı, Sınav kaygısı, Sorumluluk bilinci, Motivasyon düzeyi ve amaçları, Hazır bulunma düzeyi, Çalışma düzeni, Zeka düzeyi, Özel yetenekleri, İlgileri ve algı düzeyleri Yukarıda belirtildiği gibi üniversite giriş sınavını etkileyen birçok faktör bulunmaktadır. Bu faktörler arasında başarıyı en çok etkileyenlerin öncelik sırasının belirlenmesi, önceliği en yüksek olan faktörlerin geliştirilmesi ve desteklenmesi sağlanmalıdır. 3.2. Veri Madenciliği Veri madenciliği, belirli bir hedef doğrultusunda, anlamlı kuralların çıkarılması, verilerin demetlenmesinin sağlanması, belirli bir sınıfa ait olup olmadığının bulunması için veri ambarındaki verilerin analiz edilmesi işlemidir. Veri tabanlarındaki kayıtlı milyonlarca veri tek başına anlamsızdır ve değerli değildir. Bu verilerden amaca yönelik bilgi çıkarımı yapıldığında, veri tabanındaki örüntüler çıkarıldığında değerli olur. Hastane bilgi sistemlerinde tutulan her hastanın klinik laboratuvar sonuçları sadece bir veridir. Bu verilerden herhangi bir hastalığın erken teşhisi yapılabilirse o zaman bu veriler anlamlı olur ve bilgiye dönüşür. amaçla veriden bilgi keşfi yapılması işlemine veri madenciliği denilmektedir. Bu 10 Veri madenciliği, anlamlı kuralların ve örüntülerin keşfedilmesi için büyük miktardaki verilerin araştırılması ve analiz edilmesidir [15]. Veri madenciliği bilgi keşfi veya veri tabanından bilgi keşfi (KDD), bilgi çıkarımı, veri/örüntü analizi, veri arkeolojisi ve veri eşeleme olarak da isimlendirilir [16]. KDD, daha iyi karar verebilmek için gizli desenlerin keşfedilmesi işlemidir. Veri madenciliği, KDD sürecinde sadece bir basamak olmasına rağmen literatürde veri madenciliği ve KDD aynı anlamda kullanılmaktadır. Günümüzde veri madenciliği analizi, risk yönetiminde, müşteri ilişkileri yönetiminde yaygın olarak kullanılmasıyla birlikte hemen hemen her alanda kullanılmaktadır. Veri madenciliğinin finansal, ekonomik ve banka risk yönetiminde, kriz tahmini, sahtekarlık tespiti uygulamaları gözlenmektedir [17]. Veri madenciliği anomali tespiti, birliktelik analizi, demetleme ve tahmin modellemesi gibi teknikleri içerir [15,16]. 3.3. Veri Madenciliği Uygulama Alanları Günümüzde veri madenciliği birçok alanda uygulanmaktadır. Fakat bu uygulamalar arasından teşhis amaçlı uygulamalar, müşteri ilişki yönetimi, web madenciliği, metin madenciliği, benzerlik korunumu, çapraz ateş uygulamalarının yaygın bir biçimde kullanıldığını görmekteyiz. Veri madenciliği uygulama alanlarından bazıları aşağıda listelenmiştir [18-22]: Perakende / Pazarlama Müşterilerin satın alma örüntülerinin tespiti, Müşterilerin demografik özellikleri arasında ilişkilendirme kurallarının bulunması, Kampanya maillerinin cevaplanma tahmini, Pazar sepeti analizi, 11 Müşteri ilişkileri yönetimi, Müşteri değerlendirme, Satış tahmini, Hedef pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi, Risk analizi, Teknolojideki ve insanların tüketim alışkanlıklarındaki yeni trendlerin tespiti, Anlık kişi, profil, içerik analizinin yapılması ve kişiye özel reklam sistemlerinin oluşturulması, Müşterilerin, internette firmalar ve ürünleri hakkında paylaştığı görüşlerinin tespiti, Müşteri hizmetlerine yapılan aramaların veya yazılı şikayetlerin otomatik olarak gruplanması ve konunun tespit edilerek ilgili birimlere otomatik yönlendirilmesi yapılabilir. Bankacılık Sahte kredi kartı kullanımının tespiti, Sadık müşterilerin belirlenmesi, Kredi kartını değiştirme riski olan müşterilerin tahmini, Müşteri gruplarının kredi kartı harcama alışkanlıklarının belirlenmesi, Farklı finansal göstergeler arasındaki gizli korelasyonların bulunması, Geçmiş pazar verilerinden ticaret kuralları belirlenir. Sigortacılık Hizmetleri Talep analizi Yeni politikalarla satın alacak müşterilerin tahmini Riskli müşterilerin davranış örüntülerinin belirlenmesi Sahtekarlık tespitinde Müşteri kaybı sebeplerinin belirlenmesi, Usulsüzlüklerin önlenmesi, Ana giderler azaltılabilir. 12 Tıp / Sağlık Ofis ziyaretlerini tahmin etmek için hasta davranışlarının karakterize edilmesi, Farklı hastalıklar için başarılı tıbbi tedavilerin tanımlanması, Test sonuçlarının tahmini, Ürün geliştirme, Tedavi sürecinin belirlenmesi, DNA içerisindeki genlerin sıralarının belirlenmesi, Protein analizlerinin yapılması, Hastalık haritalarının hazırlanması, Hastalık tanıları, Sağlık politikalarına yön verilmesi, Hasta bilgi kaydı ve raporlarının analizi ve bu yolla belirli bir hastalığı tetikleyen bilinmeyen etmenlerin veya olası genetik eğilimlerin tespiti, Sağlık alanında tarama testlerinden elde edilen verileri kullanarak çeşitli kanserlerin ön tanısı, Kalp verilerini kullanarak kalp krizi riskinin tespiti, Acil servislerde hasta semptomlarına göre risk ve öncelikler tespit edilebilir. Eğitim Akademik bir çalışmanın çalıntı olup olmadığının tespiti, İsimsiz bir metnin yazarının tespiti, Öğrenci işlerinde veriler analiz edilerek öğrencilerin başarı ve başarısızlık nedenleri, Başarının arttırılması için hangi konulara ağırlık verilmesi gerektiği, Üniversite giriş puanları ile okul başarısı arasındaki bir ilişkinin var olup olmadığı belirlenebilir. İnternet / Yazılım Sitelerdeki illegal içeriğin otomatik tespiti, Spam maillerin zeki ara birimlerce ayıklanması, 13 Yapılması planlanan bir yazılım projesinin özelliklerinden hareketle gerekli teknik ihtiyaçların otomatik çıkarımı, Çok daha sağlıklı işleyen arama sonuçlarının ve arama motorlarının kurgulanması, Bir metnin hangi dilde yazıldığının otomatik tespiti, Şirketler bünyesindeki büyük veri setlerinin gruplanması ve veri madenciliğine uygun hale getirilmesi için kullanılabilir. Kamuya Özgü Genel ve İstihbarat Amaçlı Uygulamalar Geçmiş patentlerin analizi sonucu, yeni patent başvuruların olası benzerliklerinin tespiti ve önlenmesi, Polis vaka kayıtlarının analizi ve yeni vakalar ile eskilerinin benzerliklerinin tespiti, Şifreli yazışmaların dilin temel yapısına uygun olarak çözümlenmesine yönelik uygulamalar, Kara para aklama ve hesap hareketlerinin, şirketler arası yazışmaların incelenmesi ve tüm şebeke ve üyelerinin ortaya çıkarılması, Hukuki davaların sonuçları ile vaka özetlerinin ilişkilendirilmesi ve hakimlerin karar vermesini kolaylaştırıcı yönde benzer diğer dava sonuçlarının otomatik tespiti, Bilirkişi raporlarının semantik olarak indekslenebilmesi ve metin tabanlı örnek bilirkişi raporu aratılabilir. Bilim ve Mühendislik Ampirik veriler üzerinde modeller kurarak bilimsel ve teknik problemlerin çözümlenmesi, Yeni virüs türlerinin keşfi ve sınıflandırılması, Gen haritasının analizi ve genetik hastalıkların tespiti, Kanserli hücrelerin tespiti, Gezegen yüzey şekillerinin, gezegen yerleşimlerinin ve yeni galaksilerin keşfi yapılabilir. 14 Diğer Uygulama Alanları Verilen bir metinden veya haberden özet çıkarımı, Farklı kaynaklardan gelen ancak aynı konu ile ilgili haberlerin otomatik tespiti, Düzensiz veri kümelerinin düzenli hale getirilmesi, veri madenciliği içinde kullanılabilecek hale getirme, Bir metnin farklı bir dile otomatik çevrimi, Taşımacılık ve ulaşım alanlarında kullanılabilir. 3.4. Veri Ambarı Kavramı ve Özellikleri Veri ambarı, birçok veri tabanından karar vermeye yardımcı olacak şekilde toplanmış, ön işlemeden geçirilmiş, sadece ilk veri yüklemesinde ve veri erişimi için kullanılan veri deposudur. Veri madenciliği uygulamalarında, kurumlarda bulunan veri tabanları direkt olarak kullanılmaz. Bu verilerin veri madenciliği uygulamaları için uygun hale getirilmesi gerekir. Veri madenciliği uygulamaları için kurumların tüm veri tabanlarındaki veriler, veri ambarında toplanır. Veri ambarı kurumsal verileri içerir ve farklı kaynaklardaki verilerden oluşur. Veri madenciliği sürecinde yararlı bilgileri elde etmek için ilk ve en önemli yapılacak işlem, geçerli bir veri ambarının oluşturulmasıdır. Inmon (2005) veri ambarını, yönetimsel karar vermeye yardımcı olacak şekilde toplanmış olan konu odaklı, birleştirilmiş, zaman değişkenli ve sabit veriler topluluğu olarak tanımlamıştır [23]. Veri ambarındaki verinin taşıması gereken özellikler aşağıdaki gibi sıralanmıştır: Birleştirilmiş olması: Veri ambarı, doğru kararlar verebilmek için birçok veri kaynağındaki verilerden oluşmalıdır. Bu verilere birleştirme ve temizleme teknikleri uygulanarak farklı veri tabanlarından gelen veriler arasında tutarlılık sağlanır. 15 Konu odaklı olması: Veri ambarı belirli bir konuya yönelik belirlenir. Hastane veri ambarı düşünüldüğünde, hastalar, hastalık çeşitleri, klinik değerler, kanser verileri veri ambarı konusu olabilir. Zaman değişkenli olması: Veri ambarındaki veriler, geçmişte belirli bir zaman dilimine aittir. Canlı bir veri tabanına göre zaman periyodu daha uzundur. Canlı veri tabanında bilgiler güncel iken, veri ambarında geçmişe dair bilgiler sunulur. Bir veri ambarındaki verilerin zamansal olarak uzunluğu genellikle 5 ile 10 yıl arasındadır. Sabit (Kalıcı) olması: Veri ambarında, ilk veri yüklemesi yapıldıktan sonra veri güncellenmesi olmaz, sadece veri erişimi işlemlerinde kullanılır. Silme, değiştirme gibi veri tabanı işlemlerinde kullanılmaz. 3.5. Veri Madenciliği Uygulama Süreci Veri madenciliği sürecinin basamaklarına baktığımızda, Fayyad ile arkadaşlarının (1996) veri madenciliği uygulama basamakları ve Han ile arkadaşlarının (2005) veri madenciliği uygulama basamakları olmak üzere iki tanesi ön plana çıkmaktadır. Fayyad ve arkadaşları (1996), veri madenciliği sürecinin basamaklarını aşağıdaki gibi belirtmişlerdir [24]: Şekil 3.1. Fayyad’a göre veri madenciliği sürecinde yer alan basamaklar [24]. 16 Fayyad ve arkadaşlarının ( 1996), Şekil 3.1.’deki veri madenciliği süreci aşağıdaki basamakları içermektedir [24]: a) İlk olarak, müşterilerin bakış açısı ile veri madenciliği işlem sürecinin amaçlarının tanımlanmasını ve ilişkili ön bilgiyi içerir. b) İkinci olarak, hedef veri seti oluşturulur. Veri setinin seçilmesini veya keşfin veri örneklerinin veya değişkenlerin bir alt kümesine odaklanmayı içerir. c) Üçüncü olarak, veri temizleme ve önişleme yapılır. Gürültülü verilerin kaldırılması, gürültülü veriyi açıklamak veya model oluşturmak için gerekli bilginin toplanması, eksik veri alanlarının ele alınması için stratejilerin belirlenmesi, ardışık zamanlı bilgilerin ve bilinen değişikliklerin açıklanması gibi temel işlemleri içerir. d) Dördüncü olarak, verilerin indirgenmesi işlemi yapılır. Problemin amacına bağlı olarak verileri temsil etmek için yararlı özelliklerin bulunmasını kapsamaktadır. Boyut indirgeme ve dönüşüm metotları ile göz önüne alınan değişkenlerin etkin sayısı azaltılabilir veya veriler için farklı olmayan temsiller bulunabilir. e) Beşinci olarak, veri madenciliği metodu için, veri madenciliği sürecinin hedefleri belirlenir. Örneğin, özetleme, sınıflandırma, regresyon, kümeleme vb. olacağı kararlaştırılır. f) Altıncı olarak, keşif analizi, model ve hipotezin seçimi yapılır. Veri madenciliği algoritmasının seçimini ve veri örüntülerinin araştırılması için seçilen metotların kullanılabilmesini kapsar. Bu işlem modelin ve uygun parametrelerin tanımlanmasını ve bir veri madenciliği metodu veri madenciliği sürecinin bütün kriterleriyle eşleştirilmesini içerir. g) Yedinci olarak, veri madenciliği basamağı uygulanır. Sınıflandırma kuralları veya ağaçları, regresyon ve kümelemeyi içeren belirli bir temsilinde ilgilenilen örüntülerin aranmasını içerir. h) Sekizinci olarak, örüntüler yorumlanır. Muhtemelen 1 ile 7 arasındaki basamaklardan herhangi birine dönülmesini içerir. Bu adım çıkarılan modelin ve örüntülerin görselleştirilmesini içermektedir. i) Dokuzuncu olarak, keşfedilen bilginin kullanılması basamağıdır. Başka bir işlem için başka bir sisteme bilgi içeren ya da basitçe belgelenmesi ve ilgili taraflara 17 raporlanması için bilgilerin direkt kullanılmasıdır. Bu işlem, inanılan bilgi ile potansiyel uyuşmazlıkların giderilmesini ve kontrol edilmesini içerir. Veri madenciliği uygulama süreci, 7. Adım olan veri madenciliği üzerinde odaklanmıştır. Ancak diğer adımlarda, başarılı bir veri madenciliği uygulamasında önemlidir. Han ve arkadaşları (2005) da veri madenciliği sürecinin basamaklarını aşağıdaki gibi belirtmişlerdir [16]: Şekil 3.2. Han’a göre veri madenciliği sürecinde yer alan basamaklar [16]. Han ve arkadaşlarının (2005), Şekil 3.2.’de gösterilen veri madenciliği sürecinin basamakları aşağıdaki adımları içerir [16]: a) Veri temizleme basamağı, gürültülü ve tutarsız verilerin çıkarılmasıdır. b) Veri bütünleştirme basamağı, birçok veri kaynağının bir araya getirilmesidir. c) Veri seçme basamağında, yapılacak analiz ile ilgili olan veriler belirlenir. 18 d) Veri dönüşümü basamağında, verinin veri madenciliği yöntemine uygun dönüşümü gerçekleştirilir. e) Veri madenciliği basamağında verilerdeki örüntülerin belirlenmesi için veri madenciliği yöntemleri uygulanır. f) Model değerlendirme basamağında, bazı ölçütlere göre elde edilmiş ilginç örüntüler bulunur ve değerlendirilir. g) Bilgi sunumu basamağında, madenciliği yapılmış elde edilen bilgilerin kullanıcılara sunumu gerçekleştirilir. Her iki veri madenciliği süreci basamaklarına baktığımızda benzerlik gösterdiğini ve veri madenciliğinin, veri madenciliği sürecinde bir basamak olduğu gözükmektedir. Veri madenciliği, veri madenciliği sürecinin önemli bir kısmını oluşturmaktadır. Yukarıdaki veri madenciliği sürecinde bulunan basamaklar incelendiğinde, veri madenciliği sürecinde bulunan basamaklar aşağıdaki şekilde ifade edilebilir: Problemin tanımlanması Veri önişleme aşaması Veri temizleme Veri bütünleştirme Veri dönüştürme Veri azaltma Model değerlendirme aşaması Bilginin sunumu aşaması 3.5.1. Problemin tanımlanması Veri madenciliği uygulamalarında başarılı olabilmek için, problemin tanımlanması aşamasında projenin hangi sektörde kullanılacağının, proje amacının, projenin sonunda gerçekleştirilmek istenen hedeflerin ve elde edilecek sonuçların nasıl değerlendirileceğinin belirlenmesi gerekmektedir. 19 Bu aşamada veri madenciliği çalışmasındaki amaçlar, kısıtlamalar, gereksinimler, elde edilecek sonuçların nasıl değerlendirileceği ve belirlenen hedeflere ulaşmak için izlenecek stratejiler oluşturulur. 3.5.2. Veri önişleme Veri ambarı oluşturma işlemi sadece çeşitli veri tabanlarından, bilgi kaynaklarından alınan bilgilerin birleştirilmesi işlemi değildir. Bununla birlikte birleştirilen veriler içerisinde var olan eksik bilgilerin tamamlanması, sapan verilen ayıklanması, tekrarlı ve gürültülü verilerin temizlenmesi aşamasıdır. Bu aşamaya veri önişleme denir. Veri önişleme, veri madenciliği kalitesini artırır, verimliliği artırır ve işlemleri kolaylaştırır. Veri önişleme basamakları şu şekilde sıralanabilir [16]: a) Veri Temizleme b) Veri Birleştirme c) Veri Dönüştürme d) Veri İndirgeme Veri temizleme Veri temizleme işlemi, eksik verilerin doldurulması, sapan verilerin tespiti ve verilerdeki tutarsızlıkların giderilmesi işlemlerini içermektedir. Sapan veriler tamamen atılır. Eksik veriler doldurulurken, verinin kategorik veya nümerik olması durumuna dikkat edilmelidir. Eğer eksik veri kategorik bir veri ise, eksik değer, “k” gibi genel bir değerle doldurulabilir veya Regresyon analizi veya Kümeleme analizi yapılarak en uygun değerle doldurulabilir. Fakat niteliğe ait eksik veri sayısı fazla ise, nitelik veri tabanından çıkarılmalıdır. Eksik veri nümerik bir veri ise, eksik verilerin doldurulması için farklı yöntemlerden bazıları aşağıda açıklanmaktadır [25]: a) Eksik değer içeren kayıtlar atılabilir. 20 b) Niteliğin diğer örneklemlerdeki ortalaması ile eksik değer doldurulabilir. c) Niteliğin, aynı sınıfa ait tüm örneklemlerin ortalaması ile eksik değer doldurulabilir. d) Eksik değer, Regresyon analizi veya Kümeleme analizi yapılarak en uygun değerle doldurulabilir. Veri birleştirme (Veri bütünleştirme) Veri bütünleştirme işlemi, veri tabanlarından, çeşitli bilgi kaynaklarından gelen verilerin birleştirilmesi, artık verilerin kaldırılmasıdır. Farklı veri tabanlarındaki verilerin tek bir veri tabanında birleştirilmesiyle şema birleştirme hataları oluşur. Örneğin, bir veri tabanında girişler “tüketici-ID” şeklinde yapılmışken, bir diğerinde “tüketici-numarası” şeklinde olabilir. Bu tip şema birleştirme hatalarından kaçınmak için meta veriler kullanılır. Veri tabanları ve veri ambarları genellikle meta veriye sahiptirler. Meta veri, veriye ilişkin veridir [26]. Veri birleştirmede önemli bir konu da indirgemedir. Bir değişken, başka bir tablodan türetilmişse fazlalık olabilir. Değişkenlerdeki tutarsızlıklar da, sonuçta elde edilen veri kümesinde fazlalıklara neden olabilir. Bu fazlalıklar Korelasyon analizi ile araştırılabilir. Örneğin, yukarıda da bahsedilen “tüketici-ID” ile “tüketici-numarası” korelasyon katsayısı bulunabilir. Eğer bulunan korelasyon katsayısı yüksek bulunuyorsa, değişkenlerden biri veri tabanından çıkarılarak indirgeme yapılabilir [26]. Artık verilerin kaldırılmasında en çok kullanılan teknikler, Korelasyon analizi ve Chi-Square testidir. Veri dönüştürme (Veri değiştirme) Veriyi daha anlaşılabilir hale getirmek için, verinin normalize edilmesi ve genelleme işleminin yapılmasıdır. 21 Veri matrisinde değişkenlerin ortalama ve varyansları birbirinden çok farklı olduklarında, büyük ortalama ve varyansa sahip değişkenler diğer etkinliklerini göreceli olarak azaltmaktadırlar. Bazen değişkenlerin aşırı uçlarda yer alan değerleri olumsuz etkilerde bulunmaktadır. Bu gibi durumlarda verilerin standardize ya da belirli aralıklarda gözlenen değerlere dönüştürülmesi edilmesi uygun olmaktadır. Bu tür veriler ölçeklenmiş veriler olarak alınırlar [27]. Verilerin standardize edilmesi ya da belirli aralıklara dönüştürülmesi için birçok yöntem bulunmaktadır. Bu yöntemler; z skorlarına dönüştürme, -1≤ X ≤ +1 aralığına dönüştürme, 0≤ X ≤ 1 dönüştürme, maksimum değer 1 olacak şekilde dönüştürme, ortalama 1 olacak şekilde dönüştürme ve standart sapma 1 olacak şekilde dönüştürme gibi yöntemlerdir [27]. Veriler normalize edilirken en çok kullanılan tekniklerin başında z-score veya min – max teknikleri gelir. Z skorlarına dönüştürme oransal ya da aralıklı ölçekle elde edilen ve normal dağılım gösterdiği varsayılan verilere uygulanan ve en çok tercih edilen bir dönüştürme yöntemidir [27]. Değerler z i= ⃑ biçiminde z skorlarına dönüştürülür. Formülde değerlerin aritmetik ortalaması, S standart sapmasını temsil etmektedir. Min – Max tekniğinde yani verilerin 0≤ X ≤ 1 aralığına dönüştürme işleminde, heterojen yapıda değerlerin ve aşırı uçlarda değerlerin yer aldığı durumlarda değerleri pozitif ve 0 – 1 aralığında değişecek biçime dönüştürmek için tercih edilen bir dönüştürme yöntemidir. Dizide en büyük değer Xmax, en küçük değer Xmin olmak ve değişim genişliği (range) R = Xmax – Xmin olarak hesaplanmaktadır. Min – Max dönüştürme işlemi Xi = biçiminde yapılır. 22 Veri indirgeme (Veri azaltma) Veri indirgeme teknikleri, daha küçük hacimli olarak ve veri kümesinin indirgenmiş bir örneğinin elde edilmesi amacıyla uygulanır. Bu sayede elde edilen indirgenmiş veri kümesine veri madenciliği teknikleri uygulanarak daha etkin sonuçlar elde edilebilir [26]. Veri azaltma öznitelik seçme, öznitelik çıkarma, boyut küçültme ve verinin bütünleştirilmesi işlemleridir. Veri madenciliği uygulamalarında, problemin çözümünü etkileyen çok sayıda özellik bulunduğundan, sonucu en fazla etkileyenlerin bulunması (öznitelik seçimi) problemi ortaya çıkmaktadır. Bu kısımda, öğrenci veri ambarında bulunan nitelikler arasından öznitelik seçme ve öznitelik çıkarımı işlemleri yapılmaktadır. Öznitelik çıkarımı ve öznitelik seçimi işlemleri Veriye ait birçok özellikten verinin kümesini, sınıfını, değerini belirleyen özelliklerinin hangileri olduğu bilinmeyebilir. Bu durumlarda tüm özellik kümesinin bir alt kümesi seçilir (özellik seçimi) ya da bu özelliklerin birleşimlerinden yeni özellikler elde edilir [28]. Öznitelik, örüntülerden elde edilen, ölçülebilen veya gözlemlenebilen değerlerdir. Öznitelik seçilirken hangi öznitelikler ayırt ediciyse bu öznitelikler seçilir. Veri madenciliği, örüntü tanıma, makine öğrenmesi uygulamalarında, örneklem sayısı ve nitelik sayısı çok önemlidir. Genellikle sınıflayıcının doğru karar vermesinde, örneklem ve nitelik sayısı ne kadar artarsa o kadar doğru sonuç vereceği düşünülse de, hatanın artması ile makinenin aşırı öğrenme olasılığından dolayı, hem örneklem sayısı hem de nitelik sayısı optimum sayıda olması etkendir. Nitelikler içinden, optimum sayıya ulaşmak, işlem karmaşıklığını azaltmak, daha kısa sürede sonuca ulaşmak, hesaplama hata olasılığını düşürmek ve daha doğru genelleme yapabilmek için öznitelik seçme işlemi yapılmaktadır. 23 Öznitelik seçme işlemi, boyut indirgemek için yapılır. Öznitelik seçiminde, öznitelikler ayırt edici ise seçilir. Öznitelik sayısı, en az sınıf sayısı kadar olmalıdır. Literatürde örnek sayısı ve öznitelik sayısı arasında doğrudan bir ilişki formülü olmaması ile birlikte, genelde örneklem sayısı (N), öznitelik sayısının (l) üç katı civarındadır. N/l oranının 2 ile 10 arasında olması gerektiğine dair görüşler de bulunmaktadır. Öznitelik seçimi yapılırken; mevcut nitelikler arasından bazılarını seçebilir veya mevcut özelliklerin lineer birleşimlerinden yeni öznitelikler çıkarma işlemi yapılır. Öznitelik seçme işlemi yapılırken, WEKA yazılımı içinde yer alan öznitelik seçme metotlarından en çok kullanılanları ReliefFAttributeEval, InfoGainAttributeEval, GainRatioAttributeEval, SymmetricalUncertAttributeEval, OneRAttributeEval, ChiSquaredAttributeEval algoritmalarıdır [29]. Öznitelik çıkarımı, mevcut özniteliklerin lineer birleşimlerinden yeni bir öznitelik uzayı oluşturulması ve verilerin bu uzayda ifade edilmesidir. Öznitelik çıkarımı işlemi için, Bağımsız Bileşen Analizi, Ayrık Zaman Dalgacık Dönüşümü, Tekil Değer Ayrıştırma ve Temel Bileşen Analizi en çok kullanılan analizlerdir. 3.5.3. Model değerlendirme aşaması Veri önişleme basamağından sonraki adım modelleme basamağıdır. Modelleme kısmında veri madenciliği modeli ve bu model içinde yer alan algoritmalardan, uygun olan algoritmanın seçimi yapılır. Algoritma seçimi yapılırken, veri seti üzerinde farklı algoritmalar denenerek oluşturulan modellerin başarım ölçütleri yüksek olan algoritma seçilir. Daha sonra seçilen algoritma veri seti üzerinde çalıştırılarak, çıkarılan örüntüler yorumlanır. Modelleme aşaması, denetimli ve denetimsiz öğrenme modeline göre farklılık gösterir. Denetimsiz öğrenmede veriler arasındaki benzerlikten yararlanılarak sınıf bilgisi tanımlanmaktadır. Denetimli öğrenmede ise sınıf bilgisi daha önceden bellidir 24 ve verilerin hangi sınıfa ait olduğu tahmin edilir. Kümeleme algoritmaları denetimsiz öğrenmeye, sınıflandırma algoritmaları denetimli öğrenmeye örnek verilebilir. Denetimli öğrenimde kullanılacak algoritma seçildikten sonra, veri kümesi eğitim veri seti ve test veri seti olarak ikiye ayrılır. Eğitim verisi modelin öğrenmesi ve test verisi modelin geçerliliğinin test edilmesi için kullanılmaktadır. Modelin öğrenmesi, eğitim seti kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi belirlenir. Modelin doğruluk derecesi belirlenirken bazı yöntemler kullanılmaktadır. Bu yöntemlerden bazıları aşağıda özetlenmiştir: Geçerlilik yöntemi (Simple Validation): Oluşturulan modelin doğruluğunun test edilmesinde kullanılan en basit yöntem basit geçerlilik yöntemidir. Bu yöntemde tipik olarak verilerin % 5 ile % 33 arasındaki bir kısmı test verileri olarak ayrılır. Geriye kalan kısmı üzerinde algoritmalar uygulanarak, modelin öğrenimi gerçekleştirilir. Test verileri ile test işlemi yapılır. Bir sınıflama modelinde yanlış olarak sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı hesaplanır (Doğruluk Oranı = 1 - Hata Oranı) [21]. Çapraz geçerlilik (Cross Validation): Sınırlı miktarda veriye sahip olunması durumunda çapraz geçerlilik yöntemi kullanılabilir. Bu yöntemde veri kümesi rastgele olarak iki eşit parçaya ayrılır. İlk aşamada a parçası üzerinde model eğitimi ve b parçası üzerinde test işlemi; ikinci aşamada ise b parçası üzerinde model eğitimi ve a parçası üzerinde test işlemi yapılarak elde edilen hata oranlarının ortalaması kullanılır [21]. K- Kat çapraz geçerleme (K-Fold Cross Validation): Bir kaç bin veya daha az satırdan meydana gelen küçük veri tabanlarında, verilerin k gruba ayrıldığı k katlı çapraz geçerlilik yöntemi kullanılabilir. Veri seti rastgele k adet gruba ayrılır. Literatürü incelediğimizde, genellikle n değerinin 10 olarak seçildiği görülmektedir. Bu yöntemde, ilk aşamada birinci grup test, diğer gruplar öğrenim için kullanılır. Bu süreç her defasında bir grubun test, diğer grupların öğrenim amaçlı kullanılması ile 25 sürdürülür. Sonuçta elde edilen on hata oranının ortalaması, kurulan modelin tahmini hata oranı olacaktır [21]. BootStrapping: Bootstrapping küçük veri kümeleri için modelin hata düzeyinin tahmininde kullanılan bir başka tekniktir. Çapraz geçerlilikte olduğu gibi model bütün veri kümesi üzerine kurulur. Veri kümesinden yerine koyma yöntemi ile örnekler seçilerek öğrenme kümesi oluşturulur. İşlem genellikle 200 ile 1000 arası tekrarlanır ve elde edilen performans değerlerinin ortalaması model değerlendirilir [21, 30]. Holdout yöntemi: Belli sayıda örnek test veri seti için ayrılır, geriye kalan örnekler eğitim veri seti olarak kullanılır. Genelde veri kümesinin 2 / 3’ü eğitim veri seti, 1/3’i test veri seti olarak ayrılır. Eğitim veri seti kullanılarak model oluşturulur ve test veri seti kullanılarak model değerlendirilir. Eğer veri dağılımı dengeli ise, veri setindeki örnek sayısı ve her sınıfa ait örnek sayısı fazla ise holdout yöntemi kullanılabilir [30]. Model başarım ölçütleri Veri madenciliği uygulama sürecinde sınıflandırma, kümeleme veya birliktelik kuralı çıkarma uygulamalarında kullanılan algoritmaların performansını ölçmek ve en iyi performansı gösteren algoritmayı seçmek gerekir. MUC (Message Understanding Conference) tarafından kullanılması tavsiye edilen bazı ölçütler bulunmaktadır. MUC tarafından da kullanımı tavsiye edilen ölçütler, ilk olarak istatistiksel başarımın hesaplanması amacıyla kullanılmışlardır. İki sınıfa ayrılmış bir veri kümesi içerisinde yapılan veri ayrıştırma işlemi sonucunda ortaya bir karışıklık matrisi çıkmaktadır. Bu matris içerisinde dört durum oluşmaktadır. Bu durumlar Çizelge 3.1.’de verilmiştir [ 31]: 26 Çizelge 3.1. Karışıklık matrisi Tahmin Edilen Sınıf Sınıf=1 Gerçek Sınıf Sınıf=0 Sınıf=1 TP FP Sınıf=0 FN TN Çizelge 3.1.’de TP (True Positive) ve TN (True Negative) ile gösterilen sayılar sınıfları doğru tahmin edilen, FP (False Positive) ve FN (False Negative) ile gösterilen sayılar ise sınıfları yanlış tahmin edilen örneklerin sayılarını göstermektedir. FP’ye 1. Tip hata (type I error), FN’ye de 2. tip hata (type II error) denir [ 31]. TP, sınıflandırıcı tarafından 1.sınıfına atanan birimlerden gerçekte 1. sınıfına ait olanların oranını gösterir. FP, sınıflandırıcı tarafından 1. sınıfına atandığı halde gerçekte 1. sınıfına ait olmayan birimlerin oranını gösterir. Karışıklık matrisi (Confusion matrix), yakınsaklık matrisi olarak da adlandırılır. Doğru olarak sınıflandırılan örneklerin sayısı bu matrisin diyagonal elemanlarının toplamına eşittir [32]. Karışıklık matrisinden elde edilen bu sayılarla çeşitli ölçütler hesaplanır. Bunlardan doğruluk (accuracy) ölçütü, tüm veri içinde doğru tahmin edilenlerin oranını ölçmeye imkan tanır. Bütün hata tiplerini dikkate alarak, pozitif ve negatif örnekleri aynı derecede önemsemeyi sağlar. Sınıflandırıcının toplam performansını değerlendirmeye yardımcı olur. Fakat doğruluk ölçütü, veri kümesinde dengesiz dağılım var ise yeterli olmamaktadır. Bu durumda kullanılan kesinlik (recall) ve duyarlılık (precision) ölçütleri, sırasıyla, pozitif örneklerin negatif olarak sınıflandırılmasından oluşan hatalar ile negatif örneklerin pozitif olarak sınıflandırılmasından oluşan hataları belirtirler. F-ölçütü (f-measure) geri çağırım ve duyarlılık ölçütlerini, her ikisinin armonik ortalamasını alarak birleştirir [32]. 27 ğ ı ıı ı ı ğ ı ı ı ı ı ı ı ğ ı ı ı ı ı ğ ı ö ö (3.1) ı ı ı ı (3.2) (3.3) Ö çü ü ıı ıı (3.4) Algoritmaların performans değerlendirmesi için, MUC tarafından tavsiye edilen en temel model başarım ölçütleri; doğruluk oranı, kesinlik, duyarlılık ve f ölçütüdür. Modelin başarısı ölçülürken, yukarıda verilen doğruluk, duyarlılık, kesinlik ve F ölçütlerinin dışında, ayrıca ROC area değeri ve kappa istatistiği de ölçüt olarak kullanılabilir. Kappa istatistiği, yapılan tahminin doğruluk ölçüsüdür. Doğruluk ölçütüne alternatif olarak, kappa istatistiği de kullanılabilir. Kappa istatistik değeri 1’e yaklaştığında tesadüfün ötesinde bir uyum olduğunu, 0’a yaklaştığında ise uyumsuzluğun olduğunu gösterir. Landis ve Koch (1977), kappa istatistik değerinin 0,4’ün üzerinde olması durumunda ölçümün tesadüfi olmadığını, uyum kabul edilebileceğini, kappa istatistik değerinin 0,6 ile 0,8 arasında olması önemli bir derecede uyum olduğunu, 0,8 ile 1 arasında olması ise neredeyse mükemmel bir uyumun olduğunu gösterdiğini söylemektedir [33]. 28 Veri madenciliği uygulamalarında kappa istatistiği, sınıflandırma algoritmasının doğruluğu ile tesadüfî tahminde bulunan rastgele bir sınıflandırma algoritmasının doğruluğunun karşılaştırılması amacıyla kullanılmaktadır. ROC eğrisi, TP ve FP değerleri kullanılarak düzenlenen bir grafiktir. ROC area değerinin de, kappa istatistik değeri gibi 1’e yakın olması istenir. 3.5.4. Bilginin sunumu aşaması Veri madenciliği algoritması veriler üzerinde uygulandıktan sonra, sonuçlar düzenlenerek ilgili yerlere sunulur. Sonuçlar çoğu kez grafiklerle desteklenir. Örneğin bir hiyerarşik kümeleme modeli uygulanmış ise sonuçlar dendrogram adı verilen özel grafiklerle sunulur [25]. 3.6. Veri Madenciliği Modelleri Veri madenciliği konusunda çok sayıda yöntem ve algoritma geliştirilmiştir. Bu yöntemlerin birçoğu istatistiksel tabanlıdır. Veri madenciliği modellerini temel olarak şu şekilde gruplandırabiliriz [25]: a) Sınıflandırma b) Kümeleme c) Birliktelik Kuralları Veri madenciliği modelleri ve en çok kullanılan algoritmalar Şekil 3.3.’de gösterilmiştir: 29 Veri Madenciliği Modelleri Sınıflandırma Kümeleme Birliktelik Kuralları Naive Bayes Algoriması K-Means Algoritması Apriori Algoritması Karar Ağaçları Algoritmaları K-Medoid Algoritması FP Tree Algoritması En yakın Komşu Algoritması EM Algoritması Yapay Sinir Ağları OPTICS Algoritması GRI(The Generalized Rule Induction) Genetik Algoritma DBSCAN Algoritması Karar Destek Makineleri CobWeb Algoritması Şekil 3.3. Veri madenciliği modelleri ve algoritmalar 3.6.1. Sınıflandırma Sınıflama veri madenciliğinde sıkça kullanılan bir yöntem olup, veri tabanlarındaki gizli örüntüleri ortaya çıkarmakta kullanılır. Verilerin sınıflandırılması için belirli bir süreç izlenir. Öncelikle var olan veri tabanının bir kısmı eğitim amacıyla kullanılarak sınıflandırma kurallarının oluşturulması sağlanır. Daha sonra bu kurallar yardımıyla yeni bir durum ortaya çıktığında nasıl karar verileceği belirlenir [25]. Geçmiş bilgilerin hangi sınıflara ait olduğu verilir ve yeni gelen verinin hangi sınıfa dahil olduğu bulunur. Örnek olarak iki tahlil sonucuna göre bir kişinin hasta olup olmadığı belirlenmeye çalışılırsa önceki hasta ve sağlam kişilerin tahlil sonuçları kullanılır [28]. Her veri kümesinde mükemmel çalışan bir algoritma olmadığından birçok sınıflandırma algoritması geliştirilmiştir. Sınıflandırma algoritmalarından en çok kullanılanlar; Karar Ağaçları Algoritması, Bayes Sınıflandırıcılar ve Bayes Ağları, En Yakın Komşu Algoritması, Destek Vektör Makineleri, Yapay Sinir Ağları ve Genetik Algoritmalarıdır. Bu tez kapsamında, Bayes Sınıflandırıcısı kullanılmıştır. 30 Sınıflandırma uygulamalarına; kredi kartı harcamasının sahtekarlık olup olmadığına karar verilmesi, kredi başvurularının değerlendirilmesi, yazı tanıma, ses tanıma, akademik bir çalışmanın çalıntı olup olmadığının tespiti, kanserli hücrelerin tespiti, isimsiz bir metnin yazarının tespiti gibi örnekler verilebilir. Sade Bayes sınıflandırıcısı (Naive Bayes sınıflandırıcısı) Sade Bayes sınıflandırıcısı ya da kısaca “Bayes Sınıflandırıcısı” kavramını şu şekilde açıklayabiliriz [25]: X sınıf üyeliği bilinmeyen veri örneği olsun. Örnek X{x 1, x2…xn} nitelik değerlerinden oluşsun. Bu örnek sınıfta m sınıf olduğunu varsayalım. C1, C2…Cn sınıf değerleri olsun. Sınıfı belirlenecek olan örneğe ilişkin olarak, P(X|Ci) P(Ci) P(Ci | X) = (3.5) olasılıkları hesaplanır. Hesaplamalardaki işlem yükünü azaltmak üzere P(X|Ci) olasılığı için basitleştirme yoluna gidilebilir. Bunun için, örneğe ait Xi değerlerinin birbirinden bağımsız olduğu kabul edilerek şu bağıntı kurulabilir: ⬚P( Xk | Ci ) P(X|Ci) = (3.6) =1 Bilinmeyen örnek X’ i sınıflandırmak için (3. 5) de P(Ci|X) içinde yer alan paydalar birbirine eşit olduğuna göre sadece pay değerlerinin karşılaştırılması yeterlidir. Bu değerler içinden en büyük olanı seçilerek bilinmeyen örneğin bu sınıfa ait olduğu belirlenmiş olur. arg max {P(X | Ci) P(Ci) } Ci (3.7) 31 Sonrasal olasılıkları kullanan yukarıdaki ifade, en büyük sonrasal sınıflandırma yöntemi ( Maximum A Posteriori Classification = MAP) olarak ta bilinir. O halde sonuç olarak (3.6) dan dolayı, Bayes sınıflandırıcısı olarak aşağıdaki bağıntı kullanılabilir: ⬚P( Xk | Ci ) C MAP = argmax C (3.8) =1 Naive Bayes sınıflandırıcı, Bayes karar teorisine dayanan olasılıksal bir sınıflandırıcıdır. Naive Bayes sınıflandırıcısında; niteliklerin hepsinin aynı derecede önemli olduğu, niteliklerin birbirinden bağımsız olduğu ve bir nitelik değerinin başka bir nitelik değeri hakkında bilgi içermediği kabul edilir. Naive Bayes sınıflandırıcısının çoğu durumda iyi sonuç vermesi, gerçekleşmesinin kolay olması yüksek doğruluk, kesin ve hızlı sonuçlar üretmesi, algoritmanın basit ve anlaşılabilir olması avantajları arasında sayılabilir. Gerçek hayatta değişkenler birbiri ile bağımlıdır. Bu nedenle niteliklerin birbirinden bağımsız olduğu varsayımına dayanması Naive Bayes sınıflandırıcısının dezavantajıdır. Naive Bayes algoritmasının tez kapsamında kullanılması nedeniyle aşağıda Naive Bayes algoritması bir örnek üzerinde açıklanmıştır [25]: Çizelge 3.2. Eğitim veri seti Başvuru Eğitim Yaş Cinsiyet Kabul 1 ORTA YAŞLI ERKEK EVET 2 İLK GENÇ ERKEK HAYIR 3 YÜKSEK ORTA KADIN HAYIR 4 ORTA ORTA ERKEK EVET 5 İLK ORTA ERKEK EVET 6 YÜKSEK YAŞLI KADIN EVET 7 İLK GENÇ KADIN HAYIR 8 ORTA ORTA KADIN EVET 32 Yukarıdaki eğitim kümesini ele alarak, Bayes sınıflandırıcılarını kullanmak suretiyle aşağıdaki örneğin hangi sınıfa ait olduğunu belirlemek istiyoruz. X1: EĞİTİM = YÜKSEK, X2: YAŞ = ORTA, X3: CİNSİYET = KADIN, KABUL = ? Bayes olasılıklarını hesaplamak amacıyla Çizelge 3.3.’ü düzenliyoruz. Çizelge 3.3. Eğitim veri seti kriterlerine ait frekanslar KABUL Nitelikler EĞİTİM YAŞ CİNSİYET Değeri EVET HAYIR Sayısı Olasılık Sayısı Olasılık İLK 1 1/5 2 2/3 ORTA 3 3/5 0 0 YÜKSEK 1 1/5 1 1/3 GENÇ 0 0 2 2/3 ORTA 3 3/5 1 1/3 YAŞLI 2 2/5 0 0 ERKEK 3 3/5 1 1/3 KADIN 2 2/5 2 2/3 Bayes sınıflandırmasını gerçekleştirmek için her bir hipotez için Bayes olasılıkları tek tek hesaplanır. C1: KABUL = EVET C2: KABUL = HAYIR olmak üzere | ve | ifadelerini hesaplamamız gerekiyor. Söz konusu ifadeler içinde en büyük olası bize örneğin sınıfını verecektir. 33 a. | olasılığının hesaplanması Burada P(X|KABUL=EVET) koşullu olasılığını hesaplamak gerekiyor. Söz konusu olasılığı bulmak için X= {X1, X2,..,Xn} değerleri için ayrı ayrı koşullu olasılıkları bulmak gerekmektedir. P(X1|C1) = P(EĞİTİM = YÜKSEK|KABUL = EVET) = 1 P(X2|C1) = P(YAŞ= ORTA|KABUL = EVET) = P(X3|C1) = P(CİNSİYET = KADIN|KABUL = EVET) = O halde; 1 P(X|C1) = P(X|KABUL = EVET) =( ) ( ) ( )= 1 hesaplanır. Diğer taraftan P(X|KABUL = EVET) olasılığı şu şekilde elde edilir: P(C1) = P(KABUL=EVET) = Böylece, P(X|C1)P(C1)= P(X|KABUL=EVET)P(KABUL=EVET) = (1 ) ( ) elde edilmiş olur. b. | olasılığının hesaplanması Burada önce P(X|C2) olasılığını hesaplamak gerekiyor. Yani P(X|KABUL=HAYIR) olasılığı hesaplanacaktır. X’ in her bir değeri için aşağıdaki hesaplamalar yapılır: P(X1|C2) = P(EĞİTİM = YÜKSEK|KABUL = HAYIR) = P(X2|C2) = P(YAŞ= ORTA|KABUL = HAYIR) = 1 P(X3|C2) = P(CİNSİYET = KADIN|KABUL = HAYIR) = 1 34 Bu değerler kullanılarak şu hesaplama yapılır: 1 1 P(X|C2) = P(X|KABUL = HAYIR) =( ) ( ) ( )= Bunun dışında P(X|KABUL = HAYIR) olasılığı şu şekilde elde edilir: P(C2) = P(KABUL=HAYIR) = olduğundan şu hesaplama yapılabilir: P(X|C1)P(C1)= P(X|KABUL=HAYIR)P(KABUL=HAYIR) = ( ) ( ) c. Sonuç MAP yöntemine göre sınıflandırmayı yapmak üzere argmaxciP(P(X|Ci)P(Ci) değerini bulabiliriz. argmaxci{ P(P(X|Ci)P(Ci)} = max {0.03,0.027} = 0.03 O halde örneğin 0.03 olasılığı ile ilgili olan sınıfa, yani “EVET” sınıfına ait olduğu anlaşılır. Naive Bayes algoritmasında olasılığın sıfır olması Naive Bayes sınıflandırma algoritmasında, her bir olasılık değerinin sıfırdan büyük olması gerekir, aksi takdirde bütün olasılık sıfır olur. Olasılığın sıfır olması durumunu, önlemek için k gibi küçük bir değer her orana eklenir. Her bir oranına k sayısının ilave edilmesiyle bağıntısı elde edilir. Burada k ilave edilecek sayı, p ise 0 sorununa neden olan kriterin farklı değer sayısıdır [25]. Eklenen sayı, veri seti büyük olduğu için çok fark etmez. 35 3.6.2. Kümeleme Kümeleme analizi, sınıflandırmada olduğu gibi sahip olunan verileri gruplara ayırma işlemidir. Sınıflandırma işleminde, sınıflar önceden belirli iken kümelemede sınıflar önceden belirli değildir. Verilerin hangi kümelere ve kaç değişik gruba ayrılacağı eldeki verilerin birbirlerine olan uzaklığa göre belirlenir. Kümeleme analizi biyoloji, tıp, antropoloji, pazarlama, ekonomi ve telekomünikasyon gibi birçok alanda kullanılmaktadır [34]. Kümeleme analizi; birimleri, değişkenler arası benzerlik ya da farklılıklara dayalı olarak hesaplanan bazı ölçülerden yararlanarak homojen gruplara bölmek belirli prototipler tanımlamak amacıyla kullanılır [27]. Kümeleme analizinin uygulama aşamaları aşağıdaki gibi verilebilir [27]: a) Birim ya da değişkenlerin doğal sınıflamaları hakkında kesin bilgilerin bulunmadığı popülasyonlardan alınan n sayıda birimin p sayıda değişkenine ilişkin gözlemlerin elde edilir. (Veri matrisinin belirlenmesi) b) Birimlerin / değişkenlerin birbirleri ile olan benzerliklerini ya da farklılıklarını gösteren uygun bir benzerlik ölçüsü ile birimlerin/ değişkenlerin birbirlerine uzaklıklarının hesaplanır. (Benzerlik ya da farklılık matrislerinin belirlenmesi) c) Uygun kümeleme yöntemi (algoritma) yardımı ile benzerlik ve farklılık matrislerine göre birimlerin / değişkenlerin uygun sayıda kümelere ayrılması d) Elde edilen kümelerin yorumlanması ve bu kümeleme yapısına dayalı olarak kurulan hipotezlerin doğrulanması için gerekli analitik yöntemler uygulanır. Kümeleme analizinde en çok kullanılan algoritmalar; K-Means, K-Medoids, OPTICS, DBSCAN, CobWeb algoritmalarıdır. Kümeleme analizi; diğer veri madenciliği uygulamaları için veri önişleme de verinin azaltılması için kümeleme merkezinin kullanılması ve veri setinin dağılımını anlamak için kullanılabilir. Ayrıca Kümeleme analizi; doküman demetlenmesi, kullanıcı ve kullanıcı davranışlarını demetlenmesi, sapan verilerin belirlenmesi için de kullanılabilir. 36 3.6.3. Birliktelik kuralları Birliktelik kuralları, veri seti içindeki yaygın örüntülerin ve nesneleri oluşturan öğeler arasındaki ilişkilerin çıkarılması işlemidir. Birliktelik kurallarının kullanıldığı en tipik örnek market sepeti uygulamasıdır. Bu işlem, müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri bularak müşterilerin satın alma alışkanlıklarını analiz eder. Bu tip birlikteliklerin keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve market yöneticileri de bu bilgi ışığında daha etki satış stratejileri geliştirebilirler. Örneğin bir müşteri süt satın alıyorsa, aynı alışverişte sütün yanında ekmek alma olasılığı nedir? Bu tip bir bilgi ışığında rafları düzenleyen market yöneticileri ürünlerindeki satış oranını arttırabilirler. Örneğin bir marketin müşterilerinin süt ile birlikte ekmek satın alan oranı yüksekse, market yöneticileri süt ile ekmek raflarını yan yana koyarak ekmek satışlarını arttırabilirler [35]: Sepet analizinde amaç alanlar arasındaki ilişkileri bulmaktır. Bu ilişkilerin bilinmesi şirketin kârını arttırmak için kullanılabilir. Eğer X malını alanların Y malını da çok yüksek olasılıkla aldıklarını biliyorsanız ve eğer bir müşteri X malını alıyor ama Y malını almıyorsa o potansiyel bir Y müşterisidir. Eğer elimizdeki veride mallar için sadece satın alındı/alınmadı bilgisi varsa, sepet analizinde mallar arasındaki bağıntı, destek ve güven kıstasları aracılığıyla hesaplanır. İki mal, X ve Y, için destek ve güven tanımları şöyledir [36]: ı ı Destek: Güven: ı ış üş | üş ı ı (3. 9) ı ı ı ı ı ı ı ı ış ış üş üş ı ı ı ı (3.10) Destek veride bu bağıntının ne kadar sık olduğunu, güven de Y malını almış bir kişinin hangi olasılıkla X malını alacağını söyler. Bağıntının önemli olması için her iki değerin de olabildiğince büyük olması gerekir. 37 Birliktelik kurallarını bulmak için yaygın olarak Apriori, FP Tree ve GRI (TheGeneralizedRuleInduction) algoritmaları kullanılmaktadır. 38 4. MATERYAL VE METOD Bu bölümde, çalışma kapsamında kullanılan materyal ve metotlardan bahsedilmiştir. Kullanılan materyal ve metodun neden seçildiğinden, geliştirilen sistemin genel özelliklerinden, süreçte kullanılan araçlardan ve verilerin işlenebilmesi için gereken kaynakların nereden alınacağından bahsedilmiştir. Uygulamada, Ahmet-Alper Dinçer Anadolu Lisesi öğrenci verilerinden yararlanılmıştır. Öğrenci veri ambarı oluşturmak, üniversite giriş sınavında başarıyı etkileyen faktörlerin öncelik sıralarını araştırmak ve öğrencilerin üniversite giriş sınavındaki başarı durumlarını tahmin etmek hedeflenmiştir. 4.1. Yazılımın Geliştirilmesinde Kullanılan Araçlar Veri ambarında yer alan veriler, ilk önce WEKA programında veri önişleme basamakları gerçekleştirilmiştir. Daha sonra WEKA programında, tüm sınıflandırma algoritmaları uygulanmış, en iyi sonuç veren Naive Bayes algoritması, C# programlama dilinde kodlanarak, bu problemin çözümüne yönelik özelleştirilmiş bir yazılım gerçekleştirilmiştir. WEKA yazılımı WEKA makine öğrenme algoritmalarının ve veri önişleme araçlarının bir araya getirildiği, akademik çevrelerde sıklıkla kullanılan, açık kaynak kodlu bir veri madenciliği programıdır. Yeni Zelanda’nın Waikato Üniversitesinde geliştirilmiş ücretsiz bir yazılımdır. Yazılım, Java yazılım dili ile geliştirilmiştir. Büyük veri tabanlarında kullanılabilir. 39 WEKA1 ile verinin hazırlanması, sınıflama, kümeleme, birliktelik analizi, nitelik değerlerinin seçilmesi yapılabilmektedir. WEKA programı dört kısımdan oluşmaktadır: a) Simple CLI : Basit komut satırı ara yüzü olarak adlandırılan bu kısım, WEKA komutlarının direkt olarak çalıştırılmasını sağlar. b) Explorer : WEKA ile veri keşfi yapılmasına imkan sağlayan bir platformdur. Veri madenciliği tekniklerini kullanmayı ve görselleştirme yapmayı sağlayan kısımdır. c) Experimenter : Öğrenme setlerinin denemelerinin ve aralarındaki istatistiksel testlerin yapılmasını sağlayan kısımdır. d) Knowledge Flow : Explorer kısmının grafik olarak temsil edilmesidir. Bilgi akışının modellenmesini sağlayan bir kısımdır. Explorer ilk çalıştırıldığında veri önişleme menüsü dışındaki bölümler aktif değildir. Bunun sebebi öncelikle bir veri seti seçilmesini sağlamaktır. Veri seti bir dosyadan, veri ambarından ya da URL adresi girilerek seçilebilir. WEKA, veri setleri için arff, data ve csv uzantılı dosya formatını kabul etmektedir. Üniversite giriş sınavında başarı tahmini için geliştirilen uygulama yazılımında kullanılan araçlar Yazılım, Microsoft Visual Studio 2008 C#.Net kullanılarak geliştirilmiştir. Veri tabanı tasarımı için, ilişkisel veri tabanı modeline uygun olan MSSQL 2005 veri tabanı kullanılmıştır. Veri tabanı tasarımı, veri temizleme, eksik değer problemini çözmek ve veri dönüştürme işleminde kullanılan SQL komutları için, SQL Server Managemet Studio Express arayüz programından yararlanılmıştır. 1 Weka paket programı, http://www.cs.waikato.ac.nz/ml/weka adresinden temin edilebilir. 40 4.2. Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Kriterlerin Seçimi Yazılımda, öznitelik seçme algoritmaları kullanılarak niteliklerin önem dereceleri ve öncelikli olarak hangi niteliklerin seçilmesi gerektiğine karar verilmiştir. Öznitelik seçimi işleminde, 39 nitelikten 20 nitelik seçilerek sınıflandırma işlemi yapılmış, sınıflandırma algoritmalarının başarı oranları karşılaştırılmıştır. Öznitelik seçme algoritmalarından en yüksek başarıyı veren, GainRatioAttributeEval algoritması kullanılarak, 39 nitelik bilgisinden öğrencilerin üniversite sınavını kazanmasına öncelikli olarak etkileyen 20 öznitelik seçilmiştir. 4.3. Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Sınıflandırma Algoritmasının Seçimi Geçmiş tecrübelere dayanarak tahmin işleminin yapılması konusunda yapay zekanın bir alanı olarak makine öğrenmesi ve veri madenciliği teknikleri araştırılmıştır. Yapılan araştırma sonucunda, problemlerin çözümü için yüksek doğruluk ve başarı elde edildiğinden, hızlı ve çabuk eğitilebilir olduğundan dolayı genellikle Naive Bayes algoritmasının kullanıldığı görülmüştür. Veri madenciliğinde model başarımı değerlendirilirken doğruluk, kesinlik, duyarlılık ve f ölçütüne bakılır. Sınıflandırma algoritmaları karşılaştırıldığında, model başarım ölçütleri ışığında en çok verim alınan algoritma, Naive Bayes algoritmasıdır. Bununla birlikte, en fazla doğru olarak sınıflandırılan örnek sayısının buna bağlı olarak başarı yüzdesi Naive Bayes algoritmasına aittir. Bu çalışmada, üniversite giriş sınavında başarının tahminde kullanılan kriterlerin ve algoritmanın seçimi konusunda hem literatürdeki çalışmalar hem de model başarım ölçütlerinin sonuçları ışığında Naive Bayes algoritması kodlanmıştır. 41 5. ÜNİVERSİTE GİRİŞ SINAVINDA VERİ MADENCİLİĞİ İLE BAŞARI TAHMİNİ Bu bölümde, geliştirilen yazılımda üniversite giriş sınavına giren öğrencilerin başarı tahmini yapılırken algoritmanın uygulama aşamalarından ve bu süreçte yazılımın nasıl kullanıldığından bahsedilmiştir. 5.1. Problemin Tanımı Ülkemizde, yükseköğrenim görmek için üniversite giriş sınavında yeterli puanı alarak başarılı olmak gerekmektedir. Üniversite giriş sınavına giren öğrencilerin sayısının her yıl artması ile birlikte, üniversite giriş sınavı zorlaşmakta ve rekabet artmaktadır. Üniversite giriş sınavında başarılı olmak, bireylerin meslek hayatlarını ve gelecekteki statülerini etkilediğinden çok daha fazla önem arz etmektedir. Bu nedenle üniversite giriş sınavında başarıyı etkileyen faktörlerin araştırılması, öğrencilerin sınavda başarıları tahmin edilerek erken uyarı sisteminin geliştirilmesi başarının artmasında önemli rol oynamaktadır. Uygulama, Gölbaşı Ahmet- Alper Dinçer Lisesi öğrenci verilerinden yararlanılarak gerçekleştirilmiştir. Bu çalışmada mezun öğrencilerden elde edilen 220 adet kayıt kullanılmıştır. Öğrencilerin üniversite sınavını kazanmasına etki eden nitelikler araştırılmış, bu niteliklere göre öğrencilerin sınavı kazanıp kazanamayacakları veri madenciliği ile tahmin edilmeye çalışılmıştır. Yapılan çalışma sonucunda, öğrencilerin başarısızlıkların nedenini bulmak, üniversite giriş sınavında hangi niteliğin daha etkin olduğunu araştırmak, mevcut veri seti ile makinenin eğitilip, yeni bir veri kümesinde sınavı kazanıp kazanamayacağını tahmin etmek hedeflenmiştir. Bulunan sonuçlar, daha kaliteli eğitim verilebilmesi, öğrencilerin zayıf olduğu niteliğin güçlendirilmesi açısından yardımcı olacaktır. 42 5.2. Verilerin Elde Edilme Süreci Uygulamada öğrenci veri ambarı oluşturulurken öğrenci tanıma fişleri, e-okul sistemine girilen veriler, lise öğrenci dosyaları, öğrenci üniversite sınav sonuç belgesi, rehberlik birimi dokümanları, ilköğretim öğrenci dosyaları ve öğrencilere düzenlenen anket sonuçları birleştirilmiştir. Veriler elde edildikten sonra eksik ve gürültülü veriler üzerinde veri madenciliği sürecinin basamaklarından veri önişleme uygulanarak gerekli düzeltmeler yapılmıştır. Öğrenci veri ambarı 220 kayıttan, 39 nitelik ve 1 sınıf bilgisinden oluşmaktadır. Bu nitelikler oluşturulurken, eğitimde kaliteyi etkileyen faktörler, araçlar, uygulanan modeller, rehberlik hizmetleri araştırılarak, literatürde daha önceden bu konuda çalışılmış, eğitimde verimliliği artırdığı ve eğitimi etkilediği düşünülen niteliklerin belirlenmesine dikkat edilmiştir. Öğrencilerin sosyoekonomik düzeyi, annenin ve babanın eğitim durumu, annenin ve babanın mesleği, bireysel özellikleri, dershane bilgisi, not bilgisi gibi eğitimde kaliteyi etkileyen özellikleri alınarak bir veri ambarı oluşturulmuştur. Bu nitelikler ve alabileceği değerler Çizelge 5.1.’de verilmiştir. Çizelge 5.1. Nitelikler ve alabileceği değerler Nitelikler Cinsiyet Hangi bölümde okuyor? Okulda velisi kim? Kiminle oturuyor? Kendi odası var mı? Ev ne ile ısınıyor? Bir işte çalışıyor mu? Aile dışında kalan var mı? Sürekli hastalığı var mı? Sürekli kullandığı ilaç Nitelik Adı CINS DAL VELI KALYER ODA ISINMA ISCALIS AILEDISI HAST ILAC Baba Meslek BMESLEK Baba Öğrenim Durumu BTAH Alabileceği Değerler Kız, Erkek Eşit Ağırlık, Sayısal, Sözel Anne, Baba Aile, Akraba Var, Yok Kalorifer, Soba Evet, Hayır Evet, Hayır Evet, Hayır Kullandığı ilaç yok, Astım ilacı, Kalp ilacı, Sara ilacı, Şeker ilacı, Diğer Memur, Esnaf, Emekli, İnşaat, İşçi, Serbest, Şoför, Diğer İlkokul, Ortaokul, Lise, Ön lisans, Lisans, Yüksek Lisans, Doktora 43 Çizelge 5.1. (Devam) Nitelikler ve alabileceği değerler Anne Meslek AMESLEK Anne Öğrenim Durumu ATAH Kardeş sayısı nedir? Baba Hayatta mı? Anne Hayatta mı? Anne Baba birlikte mi? Aile gelir durumu nedir? Ailede üniversite mezunu /okuyan var mı? Dershaneye gidiyor mu? Kitap Okuma alışkanlığı var mı? Sosyal faaliyetlere katılma bilgisi nasıldır? Çalışma düzeni nasıldır? Evine düzenli olarak gazete alınıyor mu? Evinde bilgisayar var mı? Evinde internet var mı? Sınav Kaygısı var mı? 9. sınıf not ortalaması nedir? 10. sınıf not ortalaması nedir? 11. sınıf not ortalaması nedir? 12. sınıf not ortalaması nedir? 9. sınıf devamsızlık bilgisi nedir? 10. sınıf devamsızlık bilgisi nedir? 11. sınıf devamsızlık bilgisi nedir? 12. sınıf devamsızlık bilgisi nedir? İlkokul diploma notu nedir? Ağırlıklı Ortaöğretim başarı puanı nedir? Üniversite sınav puanı Sonuç Bilgisi KARDES BSAG ASAG ABERABER AGELIR AUNI Memur, Esnaf, Emekli, Ev hanımı, İşçi, Serbest, Şoför, Diğer İlkokul, Ortaokul, Lise, Ön lisans, Lisans, Yüksek Lisans, Doktora 0-15 Evet, Hayır Evet, Hayır Birlikte, Ayrı Çok Kötü, Düşük, Orta, İyi, Çok iyi Var, Yok DERSHANE KITAP Evet, Hayır Var, Yok FAAL Zayıf, Orta, İyi, Çok iyi CALISD GAZETE Günlük, Sınav Dönemi Evet, Hayır BILG INT SINAVK N9 N10 N11 N12 D9 Evet, Hayır Evet, Hayır Var, Yok 0 -100 0 -100 0 -100 0 -100 0-20 D10 0-20 D11 0-20 D12 0-20 ILKOGR APO 1-5 0-100 PUAN CLASS 0-500 Kazandı, Kazanamadı 44 Veri madenciliği uygulamalarında, örneklem sayısı ve nitelik sayısı çok önemlidir. Nitelikler içinden, optimum sayıya ulaşmak, işlem karmaşıklığını azaltmak, daha kısa sürede sonuca ulaşmak, hesaplama hata olasılığını düşürmek ve daha doğru genelleme yapabilmek için öznitelik seçme işlemi yapılmaktadır. Bu 39 nitelik veri azaltma bölümünde, öznitelik seçme işlemine tabi tutulacak ve 20 adet öznitelik ile çalışılacaktır. 5.3. Veri Önişleme Basamakları Veri madenciliğinin en önemli aşaması veri önişleme basamağıdır. Verinin kalitesi, veri madenciliğinin performansı açısından çok önemlidir. Veri önişleme basamağında, eksik değer problemini çözmek, gürültülü verileri düzeltmek ve veri dönüştürme işlemleri için “Structured Query Language” (SQL) komutları kullanılmıştır. Veri önişleme basamakları aşağıdaki şekilde sıralanabilir: a) Veri Temizleme b) Veri Bütünleştirme c) Veri Dönüştürme d) Veri Azaltma 5.3.1. Veri temizleme Veri ambarında bulunan BMESLEK, AMESLEK, ATAH, AUNI, N9, N10, N11, N12 ve D9 nitelikleri içerisinde eksik değerler yer almaktadır. Baba mesleği, anne mesleği, baba tahsil, anne tahsil ve ailede üniversite mezunu sayısı nitelikleri kategorik verilerdir. Bu kategorik verilerdeki eksik verilerin sayısı çok fazla olmadığından, BOS isimli genel bir değerle doldurulmuştur. update veriambar set BMESLEK='BOS' where BMESLEK is null; update veriambar set AMESLEK='BOS' where AMESLEK is null; update veriambar set AUNI='BOS' where AUNI is null; 45 Nakil işlemi ile gelen 22 öğrencinin 9. Sınıf devamsızlık bilgisi bulunmamaktadır. D9 niteliği boş olan kayıtlara, D9 alanının ortalaması yazılarak veri düzeltme işlemi yapılmıştır. update veriambar set D9 = ( Select AVG ( D9 ) From veriambar where D9 is not null ) where D9 is null ; N9,N10, N11, N12 niteliği boş olan 2 kayıt için, bu alanların ortalaması alınarak düzeltme işlemi yapılmıştır. update veriambar set N9=(Select AVG(N9) From veriambar where N9 is not null) where N9 is null ; update veriambar set N10=(Select AVG(N10) From veriambar where N10 is not null) where N10 is null ; update veriambar set N11=(Select AVG(N11) From veriambar where N11 is not null) where N11 is null ; update veriambar set N12=(Select AVG(N12) From veriambar where N12 is not null) where N12 is null ; 5.3.2. Veri bütünleştirme Veri bütünleştirme işlemi, veri tabanlarından, çeşitli bilgi kaynaklarından gelen verilerin birleştirilmesi, artık verilerin kaldırılmasıdır. Öğrenci tanıma fişlerinden, eokul sistemine girilen verilerden, lise öğrenci dosyalarından, üniversite sınav sonuç belgesinden, rehberlik birimi dokümanlarından ve ilköğretim öğrenci dosyalarından alınan bilgiler ışığında öğrenci veri ambarı oluşturulmuştur. 5.3.3. Veri dönüştürme Veri temizlemeden ve bütünleştirmeden sonraki adım veri dönüştürmedir. Veri ambarındaki N9, N10, N11, N12, DEVAM, KARDES, ILKOGR, APO ve PUAN nitelikleri üzerinde veri dönüştürme işlemleri yapılmıştır. Buna göre aşağıdaki dönüşümler elde edilmiştir: 46 a) SQL komutları ile N9, N10, N11, N12 niteliklerinde bulunan, not bilgisi kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set N9='N1' where N9<=100 and N9 >=95 Update veriambar set N9='N2' where N9<95 and N9 >=90 Update veriambar set N9='N3' where N9<90 and N9 >=85 Update veriambar set N9='N4' where N9<85 and N9 >=80 Update veriambar set N9='N5' where N9<80 and N9 >=75 Update veriambar set N9='N6' where N9<75 and N9 >=70 Update veriambar set N9='N7' where N9<70 and N9 >=65 Update veriambar set N9='N8' where N9<65 and N9 >=60 Update veriambar set N9='N9' where N9<60 and N9 >=55 Update veriambar set N9='N10' where N9<55 and N9 >=50 Update veriambar set N9='N11' where N9<50 and N9 >=45 Update veriambar set N9='N12' where N9<45 and N9 >=40 b) SQL komutları ile DEVAM niteliğinde bulunan, devamsızlık bilgisi kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set Devam='D1' where Devam<=5 and Devam >=0 Update veriambar set Devam='D2' where Devam<=10 and Devam >5 Update veriambar set Devam='D3' where Devam<=15 and Devam >10 Update veriambar set Devam='D4' where Devam<=20 and Devam>15 c) SQL komutları ile KARDES niteliğinde bulunan, kardeş sayısı bilgisi kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set kardes='K5' where kardes<=15 and kardes >=8 Update veriambar set kardes='K4' where kardes<8 and kardes >=6 Update veriambar set kardes='K3' where kardes<6 and kardes >=4 Update veriambar set kardes='K2' where kardes<4 and kardes >=2 Update veriambar set kardes='K1' where kardes<2 and kardes>=0 47 d) SQL komutları ile ILKOGR niteliğinde bulunan, ilköğretim diploma notu bilgisi kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set ilkogr='I5' where ilkogr<=5 and ilkogr >=4.5 Update veriambar set ilkogr='I4' where ilkogr<4.5 and ilkogr >=4 Update veriambar set ilkogr='I3' where ilkogr<4 and ilkogr >=3.5 Update veriambar set ilkogr='I2' where ilkogr<3.5 and ilkogr >=3 Update veriambar set ilkogr='I1' where ilkogr<3 and ilkogr>=2.5 e) SQL komutları ile APO niteliğinde bulunan, ağırlıklı ortaöğretim başarı puanı kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set apo='A1' where apo<=100 and apo >=95 Update veriambar set apo='A2' where apo<95 and apo >=90 Update veriambar set apo='A3' where apo<90 and apo >=85 Update veriambar set apo='A4' where apo<85 and apo >=80 Update veriambar set apo='A5' where apo<80 and apo >=75 Update veriambar set apo='A6' where apo<75 and apo >=70 Update veriambar set apo='A7' where apo<70 and apo >=65 Update veriambar set apo='A8' where apo<65 and apo >=60 Update veriambar set apo='A9' where apo<60 and apo >=55 Update veriambar set apo='A10' where apo<55 and apo >=40 f) SQL komutları ile PUAN niteliğinde bulunan üniversite giriş sınav puan bilgisi alanı aşağıdaki şekilde kategorize edilmiştir: Update veriambar set puan='KAZANAMADI' where puan>=100 and puan <=320 Update veriambar set puan='KAZANDI' where puan >320 and puan <=500 5.3.4. Veri azaltma Bu kısımda, öğrenci veri ambarında bulunan nitelikler arasından öznitelik seçme işlemi yapılmaktadır. 48 Her sınıf düzeyindeki D9, D10, D11 ve D12 nitelikleri ile alınan devamsızlık bilgisi ortalamasının genel olarak öğrencinin devamsızlığını yansıttığından, daha az nitelikle işlem yapmak için, bu sınıflardaki devamsızlıkların ortalaması alınıp “Devam” niteliği oluşturulmuştur. update veriambar set Devam=((D9+D10+D11+D12) / 4) where Devam is null ; Öznitelik seçme işlemi yapılırken, WEKA yazılımı içinde yer alan Nitelik Seçimi (Select attributes) kısmındaki en çok kullanılan öznitelik seçme metotları (InfoGainAttributeEval, GainRatioAttributeEval, SymmetricalUncertAttributeEval, OneRAttributeEval, ChiSquaredAttributeEval) kullanılmıştır. Öznitelik seçimi işlemi yapılmadan önce sınıflandırma işlemi yapılmış ve sınıflandırma algoritmalarının başarı oranları aşağıda verilmiştir: Çizelge 5.2. Öznitelik seçimi işleminden önce sınıflayıcı başarı oranı Naive Bayes Sınıflayıcı Başarı Oranı 85 % KNN (IBk k=7) 82.7273 % J48 Bayes Net 80.4545 % 85 % RBF NETWORK 85.4545 % Öznitelik seçme metotları kullanılarak, niteliklerin önem dereceleri ve öncelikli olarak hangi niteliklerin seçilmesi gerektiğine karar verilmiştir. Öznitelik seçimi işleminde, 39 nitelikten 20 nitelik seçilerek sınıflandırma işlemi yapılmış, sınıflandırma algoritmalarının başarı oranları karşılaştırılmıştır. Karşılaştırma sonuçları Çizelge 5.3.’de yer almaktadır: Çizelge 5.3. Öznitelik seçimi işleminden sonra sınıflayıcı başarı oranı Öznitelik Seçme Algoritmaları Sınıflandırma Algoritmaları InfoGain GainRatio Symmetrical OneR ChiSquared Uncert Naive Bayes 86.81% 87.27 % 86.36 % 85.90 % 86.81 % KNN(IBk k=7) J48 Bayes Net RBFNETWORK 81.81 % 81.81 % 86.36 % 85 % 80.90 % 81.81 % 87.27 % 85.90 % 84.09 % 81.81 % 86.36 % 85.90 % 86.36 % 81.81 % 85.45 % 86.36 % 81.81 % 81.81 % 86.36 % 85 % 49 Öznitelik çıkarma algoritmalarından InfoGainAttributeEval, GainRatioAttributeEval, SymmetricalUncertAttributeEval, OneRAttributeEval, ChiSquaredAttributeEval algoritmaları kullanılarak 20 öznitelik seçilmiştir. Bu özniteliklerle oluşturulan yeni veri kümesinin kullanılarak, sınıflandırma algoritmalarının başarı oranlarına bakıldığında en yüksek başarı oranını veren algoritmanın, 87.27 % başarı oranı ile Naive Bayes sınıflandırma algoritması olduğu görülmektedir. Bu nedenle öznitelik seçme algoritmalarından GainRatioAttributeEval algoritması kullanılarak, 39 nitelik bilgisinden öğrencilerin üniversite sınavını kazanmasına öncelikli olarak etkileyen 20 öznitelik seçilmiştir. Bu öznitelikler önem derecesine göre; N12, N11, N10, ISCALIS, APO, ILKOGR, N9, DERSHANE, CINS, CALISD, KITAP, DAL, DEVAM, AILEDISI, ILAC, KARDES, BMESLEK, FAAL, ODA, AGELIR nitelikleridir. Seçilen öznitelikler incelendiğinde, öğrencilerin üniversite giriş sınavında başarılarını etkileyen en önemli niteliklerin ortaöğretimdeki not ortalamaları olduğu gözükmektedir. Özellikle öğrencilerin 11. ve 12. sınıf notlarının üniversite giriş sınavındaki başarılarında diğer notlarına göre daha önemli olduğu gözlenmektedir. Özniteliklere bakıldığında dershane bilgisi, ilköğretim diploma notu, çalışma düzeni, kitap okuma alışkanlığı, sürekli bir ilaç kullanıp kullanmadığı, bir işte çalışıp çalışmadığı da önemli faktörler arasında yer almaktadır. Ailenin meslek grubu, evde aile dışında kalan kişilerin ve aile gelir durumunun da etkisi olduğu sonucuna varılmıştır. 5.4. Modelleme Uygulamanın hem WEKA programında yapılan, hem de C# da geliştirilen yazılım ile yapılan modelleme basamağı aşağıda verilmiştir: 5.4.1. Modelleme basamağı: WEKA Veri önişlemeden sonraki adım modelleme basamağıdır. Farklı algoritmalar veri seti üzerinde denenerek oluşturulan modellerin başarım ölçütleri yüksek olan algoritma 50 seçilir. Literatürde en çok kullanılan algoritmalar kullanılmış, kullanılan algoritmaların karşılaştırılması Çizelge 5.4.’de gösterilmiştir: Çizelge 5.4. Sınıflandırma algoritmalarının karşılaştırmaları Doğru Olarak Sınıflandırılan Örnek Sayısı Yanlış Olarak Sınıflandırılan Örnek Sayısı ROC Area değeri Kesinlik Duyarlılık F-Ölçütü Kapa İstatistiği Başarı Yüzdesi (Doğruluk) Sınıflandırma Algoritmaları Naive KNN J48 Bayes (IBk k=7) 192 178 180 Bayes Net 192 RBF NETWORK 189 28 42 40 28 31 0.94 0.87 0.88 0.87 0.74 87.27 % 0.90 0.81 0.81 0.81 0.61 80.90 % 0.85 0.82 0.82 0.82 0.63 81.82 % 0.94 0.87 0.88 0.87 0.74 87.27 % 0.92 0.86 0.86 0.86 0.72 85.91 % Sınıflandırma algoritmaları karşılaştırıldıklarında, doğru olarak sınıflandırılan örnek sayısı en yüksek olan algoritmanın Naive Bayes algoritması olduğu görülmektedir. Model başarım ölçütlerinden ROC area değerinin, kesinlik, duyarlılık ve f ölçüt değerlerinin 1’ e yakın olması istenir. Karşılaştırma tablosu incelendiğinde bu değer ışığında da en yüksek başarının Naive Bayes algoritmasında olduğu görülmektedir. Kappa istatistik değeri 0,6 ile 0,8 arasında ise önemli derecede bir uyum olduğunu, sınıflandırıcının tesadüfi bir tahminde bulunmadığını göstermektedir. 5.4.2. Modelleme basamağı: Üniversite giriş sınavında öğrencilerin başarılarının tahmin edilmesinde veri madenciliği uygulama yazılımı Microsoft Visual Studio 2008 C#.Net kullanılarak, problemin çözümüne yönelik özelleştirilmiş bir yazılım tasarımı yapılmıştır. Bu yazılımın, öğrenci veri ambarı üzerinde yapılacak diğer veri madenciliği uygulamalarına örnek olacağı ve önemli ölçüde yarar sağlayacağı düşünülmektedir. 51 Yazılımın ara yüz tanıtımı Üniversite Giriş Sınavına Giren Öğrencilerin Başarılarının Tahminde Veri Madenciliği Uygulama Yazılımı veri ambarı oluşturma, verilerin görüntülenmesi ve veri madenciliği uygulaması olmak üzere üç bölümden oluşmaktadır. Yazılımda, verilerin girildiği, grafiksel olarak gösterildiği, verilerin listelendiği, sınavda başarı durumlarının tahmininin yapıldığı formlar ile bu formların hepsine ulaşım sağlayan bir ana form bulunmaktadır. Yazılım ilk çalıştırıldığında kullanıcıların karşısına Şekil 5.1’de yer alan ana form gelmektedir. Şekil 5.1. Ana form İlk olarak “Veri Ambarı Oluşturma” seçeneği tıklanarak ortaöğretim öğrencilerinin bilgileri alınarak öğrenci veri ambarı oluşturulmaktadır. Bu form, Öğrenci Genel Bilgileri, Aile Bilgileri, Bireysel Bilgileri, Bireysel Bilgileri, Not ve Devasızlık Bilgileri olmak üzere birbirine bağlı dört kısımdan oluşmaktadır. Bu formda veri ambarı oluşturulurken, ortaöğretim e-okul sistemi üzerinde bulunan bilgilerin olmasına dikkat edilmiştir. Şekil 5.2. Öğrenci genel bilgileri giriş formu 52 Öğrenci genel bilgiler kısmına girilen öğrencinin okul numarası ve adı ile bağlantı kurularak, öğrencinin aile bilgileri girilmektedir. Şekil 5.3. Öğrenci aile bilgileri giriş formu Şekil 5.4. Öğrenci bireysel bilgileri giriş formu 53 Şekil 5.5. Öğrenci not ve devamsızlık bilgisi giriş formu Veri ambarı oluşturma formunda, öğrencilerin genel bilgileri, aile bilgileri, bireysel bilgileri, not bilgileri ve devamsızlık bilgileri alınarak kayıt işlemi yapılmaktadır. 220 kayıttan oluşan bir veri ambarı oluşturulmuştur. Veri ambarı oluşturulduktan sonra, verilerin görüntülenmesi kısmında veriler listelenmekte, her bir niteliğe ait kayıtlar grafiksel olarak gösterilmektedir. Şekil 5.6. Veri görüntüleme formu 54 Şekil 5.7. Başarı tahmin formu Bu formda öznitelikler girilerek, öğrencilerin sınav başarı tahminleri yapılmaktadır. Naive Bayes algoritmasının uygulanması Yazılımda üniversite giriş sınavına giren öğrencilerin başarı tahmini yapılırken, öznitelik seçme algoritması ile seçilen 20 öznitelik ile işlem yapılmıştır. Uygulamada, öğrenci veri ambarındaki veriler Naive Bayes algoritmasının uygulanacağı, eğitim ve test verisi olmak üzere iki gruba ayrılmıştır. Uygulamada eğitim veri seti ve test veri seti oluşturulurken verilerin yaklaşık 1/5’ ü test verisi, 4/5’ ü eğitim verisi olarak seçilmiştir. 220 kayıttan 175 tanesi eğitim veri seti, 45 tanesi test veri seti olarak kullanılmıştır. Test veri seti belirlenirken, veri kümesi içerisinden her 5 kayıttan bir tanesi test verisi olarak kabul edilmiştir. Veri setindeki veri dağılımının dengeli, örnek sayısı ve her sınıfa ait örnek sayısı fazla olduğundan bu yöntem kullanılmıştır. 55 Algoritma eğitim veri seti ile eğitilirken, test veri seti ile kontrol edilmektedir. Formda test verileri listelenmekte, test veri setinde yer alan veriler girilerek algoritmanın başarısı kontrol edilebilmektedir. Tahmin yaptırılırken ilk olarak, eğitim verileri veri tabanından çekilerek DataRow nesnesine aktarılmaktadır. İkinci aşamada, sınıf (class) bilgisinde yer alan “Kazandı” ve “Kazanamadı” sınıflarına ait toplam örnek sayıları p ve q olarak iki değişkende tutulmaktadır. Daha sonraki aşamada, her bir sınıf bilgisine ait ihtimal durumu için formda yer alan Combobox nesnesinden seçilen her bir nitelik değeri alınarak frekans sayıları hesaplatılmaktadır. Bu olasılık hesaplatılırken, her bir niteliğe ait ihtimalin çarpımı ile tüm olasılık elde edildiğinden tek bir niteliğe ait bilginin 0 olması durumunda sonuç 0 olacaktır. “Kazandı” ve “Kazanamadı” ihtimal hesaplamasında 0 sorununa yol açabilecek veriler belirlenerek, her bir kriterin pay ve paydasına küçük bir değer ilave edilmektedir. Son aşamada ise her bir sınıf bilgisine ait olma ihtimalleri niteliklerin elde edilen frekansları ile hesaplatılmaktadır. Sonuç olarak, her bir sınıf bilgisine ait ihtimaller karşılaştırılarak eğer “Kazandı” sınıf bilgisine ait ihtimal daha yüksek ise “Kazandı”, “Kazanamadı” sınıf bilgisine ait ihtimal daha yüksekse “Kazanamadı” olarak kullanıcıya yansıtılmaktadır. Yazılımın Kullanılması Uygulamada, üniversite giriş sınavına giren öğrencilerin başarı tahmini yapılırken Şekil 5.7.’deki form kullanılmaktadır. Formda öğrenciye ait nitelik değerleri ComboBox nesnesinden seçilerek başarı tahmini yapılmaktadır. Öğrenciye ait tüm bilgiler girildikten sonra başarı tahmini hesaplatılarak, sonuç kullanıcıya Şekil 5.8.’de gösterilen “Sınav Başarı Tahmini” mesaj kutusu ile gösterilmektedir. 56 Şekil 5.8. Başarı sonuç mesajı Uygulamada, üniversite giriş sınavında başarıyı etkileyen öncelikli nitelikler tespit edilmiş ve öğrencilerin sınavdaki başarı durumları önceden tahmin edilerek bir erken uyarı sistemi geliştirilmiştir. Üniversite giriş sınavında başarıyı etkileyen nitelikler belirlenirken öznitelik seçme algoritmalarından GainRatioAttributeEval algoritması kullanılmış ve 20 nitelik öncelikli olarak seçilmiştir. Öğrencilerin üniversite giriş sınavındaki başarı durumlarının tahmini yapılırken test verileri ile çalışma kontrol edilmiştir. Çalışma sonucunda öğrenci veri ambarında bulunan nitelikler ile üniversite giriş sınavında öğrencilerin başarıları durumlarının tahmininde, büyük bir kısmının açıklanabildiği sonucuna varılmıştır. Yazılımın uygulanması sonucunda, öğrencilerin sınavı kazanıp kazanmadıkları ve sistemin yaptığı başarı tahmin sonuçları Çizelge 5.5.’de verilmiştir. Çizelge 5.5. Test verileri için yapılan başarı tahmin sonuçları No 1 2 3 4 5 6 7 8 9 ID 1 6 11 16 21 26 31 36 41 Mevcut Sonuç Bilgisi Kazandı Kazandı Kazandı Kazandı Kazanamadı Kazanamadı Kazanamadı Kazanamadı Kazanamadı Sistem Tarafından Yapılan Tahmin Kazandı Kazandı Kazandı Kazandı Kazanamadı Kazanamadı Kazanamadı Kazanamadı Kazanamadı Sonuç Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı 57 Çizelge 5.5. (Devam) Test verileri için yapılan başarı tahmin sonuçları No ID Mevcut Sonuç Bilgisi Sistem Tarafından Yapılan Tahmin Sonuç 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Kazanamadı Kazanamadı Kazandı Kazandı Kazanamadı Kazanamadı Kazandı Kazandı Kazanamadı Kazandı Kazandı Kazandı Kazandı Kazandı Kazanamadı Kazandı Kazanamadı Kazandı Kazandı Kazandı Kazanamadı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 141 146 156 161 166 171 176 181 186 191 196 201 206 211 216 220 Kazanamadı Kazanamadı Kazanamadı Kazanamadı Kazanamadı Kazanamadı Kazandı Kazandı Kazanamadı Kazandı Kazanamadı Kazandı Kazandı Kazandı Kazandı Kazandı Kazanamadı Kazanamadı Kazandı Kazanamadı Kazanamadı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazandı Kazanamadı Kazandı Kazandı Kazandı Kazandı Kazandı Başarılı Başarılı Başarısız Başarısız Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı Başarısız Başarılı Başarılı Başarılı Başarısız Başarılı Başarılı Başarısız Başarılı Başarısız Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı Başarılı Başarısız Başarılı Başarılı Başarılı Başarılı Başarılı 58 Çizelge 5.5. incelendiğinde, sistem tarafından yapılan üniversite giriş sınavına giren öğrencilerin başarı tahmini sonucunda test edilen verilerin çok büyük bir oranda doğru sonuç ürettiği görülmektedir. Sistemin ne kadar çok eğitilirse o kadar iyi sonuç verdiği gözlemlenmiştir. 59 6. SONUÇ VE ÖNERİLER Bu bölümde üniversite giriş sınavında öğrenci başarılarının tahmini uygulaması ile ilgili sonuçlar ve öneriler yer almaktadır. Ortaöğretim öğrencilerinin, üniversite giriş sınavında başarılı olup olmamaları mesleki hayatlarını, gelecekteki statülerini etkilediğinden hayatlarındaki en önemli noktalardan bir tanesidir. Kişilerin çalışma döneminin nasıl olacağını belirleyen bu sınav, hem öğrenciler hem de aileleri için büyük önem arz etmektedir. Ülkemizde üniversite giriş sınavına giren öğrenci sayısının her yıl artması ile birlikte sınav rekabeti artmakta, öğrenci ve aileleri daha çok strese girmektedirler. Bu nedenle ortaöğretim sürecinde eğitimin kalitesinin artırılması, öğrencilerin eksik olduğu niteliklerin güçlendirilmesi, öğrencilerin akademik başarılarının artırılması gerekmektedir. Veri madenciliği algoritmasının öğrenci veri ambarı üzerinde uygulanması, değerli bilgilerin çıkartılmasında ve eğitimin kalitesinin artırılmasında büyük katkılar sağlamaktadır. Bu çalışmada veri madenciliği algoritmalarından Naive Bayes algoritmasının öğrenci veri ambarı üzerinde nasıl kullanılabileceği konusunda örnek bir çalışma yapılmış ve sonuç olarak üniversite giriş sınavında öğrencilerin başarı durumları tahmin edilmiştir. Sonuçlar Çalışma kapsamında elde edilen sonuçlar aşağıda listelenmiştir: Bu çalışma kapsamında, ortaöğretim öğrencilerinin not bilgisi, aile ortamı, dershane bilgisi, sınav kaygı düzeyi, çalışma düzeni, yaş, cinsiyet vb. faktörleri içeren bir ‘’öğrenci veri ambarı’’ oluşturulmuştur. Bu öğrenci veri ambarı üzerinde, öznitelik seçme algoritmaları ile üniversite giriş sınavında başarıyı öncelikli olarak etkileyen faktörler belirlenmiş ve bu 60 faktörlerin kümülatif olarak üniversite giriş sınavında başarıyı ne derecede etkilediği tespit edilmiştir. Öğrenci veri ambarındaki nitelikler içinden, GainRatioAttributeEval öznitelik algoritması ile seçilen öznitelikler incelendiğinde, üniversite giriş sınavında başarıyı etkileyen faktörlerin başında, öğrencilerin ortaöğretimdeki not bilgileri ve ilköğretim diploma not bilgisi olduğu gözükmektedir. Özellikle öğrencilerin 11. ve 12. sınıf notlarının üniversite giriş sınavındaki başarılarında diğer notlarına göre daha önemli olduğu sonucuna varılmıştır. Not bilgisinden sonra başarıyı etkileyen en çok etkileyen niteliklerin; dershane bilgisi, kitap okuma alışkanlığı, çalışma düzeni, sürekli ilaç kullanıp kullanmadığı, ailenin meslek grubu, evde aile dışında kalan kişi bilgisi ve aile gelir durumu olduğu sonucuna varılmıştır. Bu çalışmada, üniversite sınavına giren öğrencilerin başarı durumlarının tahmin edilmesi için veri madenciliği algoritmalarından Naive Bayes algoritması uygulanmıştır. Öğrencilerin üniversite giriş sınavındaki başarı durumlarının tahmininde, öğrenci veri ambarında bulunan nitelikler ile büyük bir kısmının açıklanabildiği sonucuna varılmıştır. Yapılan çalışma sonucunda, öğrenci ve aileleri için, öğrencilerin üniversite giriş sınavında başarılarını tahmin eden bir erken uyarı sisteminin geliştirilmiştir. Üniversite giriş sınavında hangi niteliğin daha etkin olduğunu araştırılmasının ve öğrencilerin sınavı kazanıp kazanamayacağının tahmin edilmesinin, üniversiteye giriş sınavında başarının artmasında önemli rol oynayacağı düşünülmektedir. Öneriler Çalışma kapsamında elde edilen sonuçlar da dikkate alınarak aşağıdakiler önerilmektedir. Çalışma kapsamında elde edilen sonuçlar da dikkate alınarak öğrenci veri ambarı üzerinde; kötü alışkanlıklara, şiddete veya intihara meyilli öğrenci profilinin 61 çıkarılması, 9. sınıf öğrencilerin gelecekte akademik başarılarının ve devamsızlık yapabilecek riskli öğrenci gruplarının tahmin edilmesi uygulamaları önerilmektedir. Yapılan bu çalışmanın e-okul sistemi ile uyumlu olması tüm ilköğretim ve ortaöğretim kurumlarında kullanılabilmesine imkan sağlamaktadır ve öğrenci veri tabanı üzerinde yapılacak diğer veri madenciliği uygulamalarının geliştirilmesine ışık tutacaktır. 62 KAYNAKLAR 1. Köse, M. R. , “Üniversiteye giriş ve liselerimiz”, Hacettepe Üniv. Eğitim Fak. Der. , 15: 51-60 (1999). 2. Berberoğlu, G. ve Kalender, İ. , “Öğrenci başarısının yıllara, okul türlerine, bölgelere göre incelenmesi: öss ve pisa analizi”, Eğitim Bilimleri ve Uygulama Der. , 4 (7): 21-35 (2005). 3. Pakır, F. , “Aile sosyo-ekonomik ve demografik özellikleri ile mezun olunan lise türünün öğrencilerin üniversite giriş sınavındaki başarıları üzerindeki etkileri”, Yüksek Lisans Tezi, Yüzüncü Yıl Üniversitesi Sosyal Bilimler Enstitüsü, Van, 18-22 (2006). 4. Karaman, İ., Dilber, R. ve Sönmez, E.., “Ortaöğretim başarı ölçütleri ile ÖSS puanları arasındaki ilişkinin araştırılması”, Kazım Karabekir Eğitim Fak.Der., 9, 263-269 (2004). 5. Demirtaş, Z., “Liselerde okul kültürü ile öğrenci başarısı arasındaki ilişki”, Mustafa Kemal Üniversitesi Sosyal Bilimler Ens. Der. , 7 (13), 208-223 (2010). 6. Bırtıl, F.S., “Kız meslek lisesi öğrencilerinin akademik başarısızlık nedenlerinin veri madenciliği tekniği ile analizi”, Yüksek Lisans Tezi, Afyon Kocatepe Üniversitesi Fen Bilimleri Enstitüsü, Afyon, 70-71,2 (2011). 7. Üçgün, K., “Ortaöğretim okulları için öğrenci otomasyonu tasarımı ve öğrenci verileri üzerine veri madenciliği uygulamaları”, Yüksek Lisans Tezi, Marmara Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 89-90, 2 (2009). 8. Gündoğdu, S., “Veri madenciliğinde genetik algoritmalar”, Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli, 99-101 (2007). 9. Bulut, F., , “Madde bağımlısı olma riski altında olan öğrencilerin veri madenciliği sınıflandırma algoritmalarıyla tespit edilmesi”, Yüksek Lisans Tezi, Fatih Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 6 (2010). 10. Gülçe, G., “Veri ambarı ve veri madenciliği teknikleri kullanılarak öğrenci karar destek sistemi oluşturma”, Yüksek Lisans Tezi, Pamukkale Üniversitesi Fen Bilimleri Enstitüsü, Denizli, 90s (2010). 11. Bülbül, H. İ., Ünsal, Ö., “Determination of vocational fields with machine learning algorithm”, The Ninth International Conference on Machine Learning and Applications (ICMLA 2010), IEEE Computer Society, Washington D:C:, 710-713 (2010). 63 12. Yardımcı, T., “Makine öğrenmesi teknikleri ile rss besleme yönetimi”, Yüksek Lisans Tezi , Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 1-2 (2011). 13. Bozkır, A.S., Sezer, E. ve Gök, B., “Öğrenci seçme sınavında öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti”, 5. Uluslararası İleri Teknolojiler Sempozyumu (IATS’09), Karabük, 1-7 (2009). 14. Güzel, M.,“Öss ve öys türkçe soruları üzerine bir araştırma”, Yüksek Lisans Tezi, Gazi Üniversitesi Sosyal Bilimler Enstitüsü, Ankara, 1-3 (2006). 15. Berry, M. J. A., and Linoff, G. S., “Data Mining Techniques: For Marketing, Sales, and Customer Support”, Wiley Computer Pub. , NewYork (1997). 16. Han, J. and Kamber, M.,”Data Mining: Concept and Techniques”, Morgan Kaufmann Publications, USA (2001). 17. Koyuncugil, A.S., Özgülbaş, N., “Surveillance Technologies and Early Warning Systems: Data Mining Applications for Risk Detection”, IGI Global, USA (2010). 18. Kelly, S., “Data Warehousing : The Route to Mass Customisation”, John Wiley & Sons, NewYork (1996). 19. Baykal, A., “Veri madenciliği uygulama alanları”, D.Ü.Ziya Gökalp Eğitim Fakültesi Dergisi, 7, 95-107 (2006). 20. İnternet: Gazi Üniversitesi, “Veri Madenciliği (Suat Özdemir Ders Notları)” http://ceng.gazi.edu.tr/~ozdemir/teaching/dm/index.html (2011). 21. Akpınar, H., “Veri tabanlarında bilgi keşfi ve veri madenciliği”, İstanbul Üniversitesi İşletme Fakültesi Dergisi, 29(1):1-22 (2000). 22. Altıntop, Ü., “İnternet tabanlı öğretimde veri madenciliği tekniklerinin uygulanması”, Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen bilimleri Enstitüsü, Kocaeli, 15 (2006). 23. Inmon, W. H., “Building the Data Warehouse”, John Wiley & Sons, NewYork (1996). 24. Fayyad, U., Gregory P., S., ve SMYTH, P., “From Data Mining to Knowledge Discovery in Databases”, AI Magazine, 37-54 (1996). 64 25. Özkan, Y., “Veri Madenciliği Yöntemleri”, Papatya Yayıncılık Eğitim, İstanbul (2008). 26. Oğuzlar, A.: “Veri önişleme”, Erciyes Üniv. İktisadi ve İdari Bilimler Fakültesi Dergisi, 21: 67 - 76 (2003). 27. Özdamar K., “Çok Değişkenli Analizler”, Kaan Kitabevi, Eskişehir (2004 ). 28. İnternet: Yıldız Teknik Üniversitesi “Makine Öğrenmesine Giriş (M. Fatih Amasyalı Ders Notları)”, http://www.ce.yildiz.edu.tr/mygetfile.php?id=868 (2011). 29. Amasyalı, M. F., “Yeni makine öğrenmesi metotları ve ilaç tasarımına uygulamaları”, Doktora Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 93-95 (2008). 30. İnternet: İstanbul Teknik Üniversitesi “Veri Madenciliği (Şule Öğütücü Ders Notları)”, http://ninova.itu.edu.tr/tr/dersler/bilisim-enstitusu/195/bbl606/ekkaynaklar ?g8396 (2011). 31. Güner, E.S., “Türkçe için derlem tabanlı bir anafor çözümleme çalışması”, Yüksek Lisans Tezi, Trakya Üniversitesi Fen Bilimleri Enstitüsü, Edirne, 36-38 (2008). 32. Akbulut, S., “Veri madenciliği teknikleri ile bir kozmetik markanın ayrılan müşteri analizi ve müşteri segmentasyonu”, Yüksek Lisans Tezi , Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 54 (2006). 33. Landis JR., Koch GG., “The measurement of observer agreement for categorical data”, Biometrics, 33: 159-174 (1977). 34. Silahtaroğlu, G., “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”, Papatya Yayıncılık Eğitim, İstanbul (2008). 35. Özekes, S., “Veri madenciliği modelleri ve uygulama alanları”, İstanbul Ticaret Üniversitesi Dergisi, 3: 65-82 (2003). 36. Alpaydın, E., “Introduction to Machine Learning”, The MIT Press, London (2004). 65 EKLER 66 EK-1. Anket formu ÖĞRENCİ VERİ AMBARI OLUŞTURMA Sayın katılımcı, bu araştırma, yüksek lisans tez çalışması için yürütülmektedir. Araştırmadan elde edilen veriler, araştırmanın amacı olan bilimsel çalışma dışında kullanılmayacağı gibi herhangi bir kurum veya kuruluşa da verilmeyecektir. Araştırmanın amacı, üniversiteye giriş sınavına giren öğrencilerinin başarılarını tahmin etmeye çalışmaktır. Anket 4 bölümden oluşmaktadır. Birinci bölümde genel bilgilerinize ilişkin sorular, ikinci bölümde aile bilgilerinize ilişkin sorular, üçüncü bölümde bireysel bilgilerinize ilişkin sorular, son bölümde ise üniversite sonuç bilgilerinize ilişkin sorular yer almaktadır. Anketi yanıtlamanız yaklaşık 10 dakikanızı alacaktır. Her sorudaki duruma ilişkin gerçek bilgilerinizi girmeniz veri ambarı oluşturmada önemli bir yer tutacaktır. Araştırmaya katkınızdan dolayı teşekkür ederim. Hanife GÖKER Öğrenci Bilgileri Öğrenci Ad-Soyad Okul No Cinsiyet Doğum Yılı Dal Okulda Velisi Aile Bilgileri Anne Adı Baba Adı Anne Meslek Baba Meslek Annenizin Öğrenim Durumu Babanızın Öğrenim Durumu Anne Baba Birlikte / Ayrı Anneniz Hayatta mı? Babanız Hayatta mı? Aile Gelir Durumu (Çok kötü/Düşük/Orta/İyi/Çok İyi) Ailede üniversite okuyan / mezun var mı? Kardeş sayısı Genel Bilgiler Kiminle Oturuyorsunuz? (Aile / Akraba ) Oturduğunuz ev kira mı? (kendi / kira /lojman) Kendi Odanız var mı? (var / yok) 67 EK-1. (Devam) Anket formu Genel Bilgiler Ev ne ile ısınıyor (Soba / kalorifer) Okula nasıl geliyorsunuz? (yürüyerek / servisle/ailesiyle/toplu taşıma) Bir işte çalışıyor mu? (evet /hayır) Evde aile dışında kalan var mı? (var / yok) Sürekli hastalığınız var mı? Evet ise hastalık ismi? (evet / hayır) Sürekli kullandığınız ilaç var mı? (evet /hayır) Evet ise ilacın türü?(astım ilacı, kalp ilacı, şeker ilacı) Bireysel Bilgiler Lisede dershaneye gittiniz mi? (evet / hayır) Cevap evet ise kaç yıl gittiniz Kitap okuma alışkanlığınız var mı? (var /yok) Sosyal Faaliyet durumu(zayıf / orta/iyi/çok iyi) Çalışma düzeni (günlük / sınav dönemi) Eve her gün düzenli olarak gazete giriyor mu? Evde bilgisayar var mı?(evet /hayır) Evde internet var mı? (evet /hayır) Sınav Kaygınız var mı? (evet /hayır) Üniversite bilgileri Üniversite sınavını ilk yılınızda kazandınız mı? ( evet /hayır) İlk yılınızdaki ÖSS sınav puanı İlk yılınızdaki Kazandığınız üniversite / bölüm Eğer daha sonra sınavı kazandıysanız kaçıncı yılınızda kazandınız? Kazandığınız ÖSS sınav puanı Kazandığınız üniversite / bölüm 68 EK-2. Naive Bayes algoritmasının C#.NET dili kodları DataRow[] kayıtlar = verilerDataSet2.EGITIM_VERI.Select(); int i = kayıtlar.Length; int p = 0, q = 0; int ep = 0, eq = 0; decimal eppay = 0, eqpay = 0; // Her bir sınıfa ait örnek sayısının hesaplanması for (int j = 0; j < i; j++) { if (kayıtlar[j][21].ToString() == "KAZANDI") { p++; } else { q++; } } decimal[,] top = new decimal[20,2]; for (int j = 0; j < i; j++) { for (int t = 0; t < 20; t++) { string deger1 = (((ComboBox)this.Controls["ComboBox" + t.ToString()]).Text).ToString(); if (kayıtlar[j][t+1].ToString() == deger1) top[t,0] ++; else top[t, 1]++; } } decimal[,] top2 = new decimal[2, 20]; // Hesaplacak her bir nitelik için her bir sınıfa ait olasılık hesaplama for (int j = 0; j < i; j++) { for (int x = 0; x < 20; x++) { string deger = (((ComboBox)this.Controls["ComboBox" + x.ToString()]).Text).ToString(); if ((kayıtlar[j][x + 1].ToString() == deger) && (kayıtlar[j][21].ToString() == "KAZANDI")) top2[0, x]++; else if ((kayıtlar[j][x + 1].ToString() == deger) && (kayıtlar[j][21].ToString() =="KAZANAMADI")) top2[1, x]++; } } 69 EK-2. (Devam) Naive Bayes algoritmasının C#.NET dili kodları // Sıfır olma olasılığının ortadan kaldırılması for (int y = 0; y < 20; y++) { if (top2[0,y] == 0) { ep++; eppay += (decimal)1 / p; } if (top2[1,y] == 0) { eq++; eqpay += (decimal)1 / q; } } decimal poran = 0, qoran = 0; // p ve q oranlarının hesaplanması poran = (decimal)p / i; qoran = (decimal)q / i; for (int a = 0; a < 20; a++) { poran *= (decimal)(top2[0, a]+eppay) / (p+ep); qoran *= (decimal)(top2[1, a]+eqpay) / (q+eq); } if (poran > qoran) MessageBox.Show("P Oran : " + string.Format("{0:F30}", poran) + " Q Oran :" + string.Format("{0:F30}", qoran) + "\nSonuç: KAZANDI;", "SINAV BASARI TAHMINI", MessageBoxButtons.OK, MessageBoxIcon.Information); else MessageBox.Show("P Oran : " + string.Format("{0:F30}", poran) + " Q Oran :" + string.Format("{0:F30}", qoran) + "\nSonuç: KAZANAMADI;", "SINAV BASARI TAHMINI", MessageBoxButtons.OK, MessageBoxIcon.Information); 70 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, adı : GÖKER Hanife Uyruğu : T.C. Doğum tarihi ve yeri : 15.06.1982 Bala Medeni hali : Evli Telefon : 0 (312) 485 24 21 E-mail : [email protected] Eğitim Bilgileri Derece Eğitim Birimi Lisans Atatürk Üniversitesi Bilg. Öğretim ve Tekn. Öğrt 2004 Lise Dikmen Nevzat Ayaz Anadolu Meslek Lisesi Mezuniyet Tarihi 2000 İş Deneyimi Yıl Yer Görev 2004-2006 Akyurt Çok Programlı Lisesi Öğretmen 2006-….. Ahmet-Alper Dinçer Anadolu Lisesi Öğretmen Yabancı Dil İngilizce Hobiler Kitap okumak, Bilişim teknolojileri, Tiyatro