ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ

advertisement
ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ
VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ
Hanife GÖKER
YÜKSEK LİSANS TEZİ
BİLGİSAYAR EĞİTİMİ
GAZİ ÜNİVERSİTESİ
BİLİŞİM ENSTİTÜSÜ
HAZİRAN 2012
ANKARA
Tarih
: 18 / 06 / 2012
Bu tez, Gazi Üniversitesi Bilişim Enstitüsü tez yazım kurallarına uygundur.
TEZ BİLDİRİMİ
Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde
edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu
çalışmada orijinal olmayan her türlü kaynağa eksiksiz atıf yapıldığını bildiririm.
Hanife GÖKER
iv
ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ
VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ
(Yüksek Lisans Tezi)
Hanife GÖKER
GAZİ ÜNİVERSİTESİ
BİLİŞİM ENSTİTÜSÜ
Haziran 2012
ÖZET
Günümüzde her alanda bilgisayar teknolojilerinin kullanımı ile başlayan
gelişmeler katlanarak
yaygınlaşmaktadır.
Eğitim
ve
diğer alanlardaki
hizmetlerin daha yüksek standartlara ulaştırılmasında; yapay zeka, veri
madenciliği, bulanık mantık ve örüntü tanıma vb. tekniklerin kullanılmasının
faydaları herkesçe bilinmektedir.
Veri madenciliği teknikleri ile verilerin sınıflandırılması, kümelenmesi ve veriler
arasındaki birliktelik kurallarının çıkarılması mümkündür. Bu kapsamda
geçmişteki tecrübelerden faydalanarak, gelecekteki olayları tahmin eden
sınıflandırma
algoritmalarının
kullanılmasıyla
yeni
uygulamalar
geliştirilebilmektedir.
Bu çalışmanın amacı üniversite giriş sınavına giren öğrencilerin başarılarının
veri madenciliği ile tahmin edilmesidir. Çalışmada öğrenci veri ambarı üzerinde
Naive Bayes algoritması kullanılarak bir yazılım geliştirilmiştir. Geliştirilen bu
yazılım ile öğrenci ve aileleri için, öğrencilerin üniversite giriş sınavındaki
başarı durumlarını tahmin eden bir erken uyarı sisteminin geliştirilmesi
amaçlanmıştır.
v
Bilim Kodu
Anahtar Kelime
Sayfa Adedi
Tez Yöneticisi
: 702.1.014
: veri madenciliği, naive bayes, birliktelik kuralları,
sınıflandırma, kümeleme, weka
: 70
: Doç. Dr. Halil İbrahim BÜLBÜL
vi
THE ESTIMATION OF STUDENTS’ SUCCESSES IN UNIVERSITY
ENTRANCE EXAM BY DATA MINING METHODS
(M.Sc. Thesis)
Hanife GÖKER
GAZİ UNIVERSITY
INFORMATICS INSTITUTE
June 2012
ABSTRACT
Nowadays the improvements that have been started by using computer
technologies have been growing. For reaching to higher standards of services
offered by education and other fields; it is obvious that using the techniques of
artificial intelligence, data mining, fuzzy logic and pattern recognition, and etc.
are very useful.
It is possible to classify and group the data and to get association rules between
the data by data mining techniques. Within this scope it might be developed new
applications using classification algorithms that estimates the future events by
past experiences.
The aim of this study, using data mining algorithms on the created student data
warehouse, is to estimate the students’ successes, who are taking the university
entrance exam, by data mining. In this study, it has been improved a software
considering Naive Bayes algorithms for student data warehouse. By that
developed software, it is aimed to improve an early warning system that may
estimate the states of the students’ successes in university entrance exam for
students and also for their families.
vii
Science Code
Key Words
Page Number
Adviser
: 702.1.014
: data mining, naive bayes, association rules, classification,
cluster, weka
: 70
: Assoc. Prof. Dr. Halil İbrahim BÜLBÜL
viii
TEŞEKKÜR
Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren danışmanım
Doç. Dr. Halil İbrahim BÜLBÜL’ e, verilerin toplanma sürecinde yardımlarını
esirgemeyen Ahmet – Alper Dinçer Anadolu Lisesi okul müdürü Mustafa KALE’ ye,
desteklerinden dolayı eşime ve kızıma teşekkür ederim.
ix
İÇİNDEKİLER
Sayfa
ÖZET ...................................................................................................................................... iv
ABSTRACT............................................................................................................................ vi
TEŞEKKÜR.......................................................................................................................... viii
İÇİNDEKİLER ....................................................................................................................... ix
ÇİZELGELERİN LİSTESİ ..................................................................................................... xi
ŞEKİLLERİN LİSTESİ ......................................................................................................... xii
SİMGELER VE KISALTMALAR ....................................................................................... xiii
1. GİRİŞ ................................................................................................................................... 1
2. KONU İLE İLGİLİ MEVCUT ÇALIŞMALARIN İNCELENMESİ ................................. 4
3. VERİ MADENCİLİĞİ VE UYGULAMA ALANLARI ..................................................... 7
3.1. Üniversite Giriş Sınavı ...................................................................................... 7
3.2. Veri Madenciliği ............................................................................................... 9
3.3. Veri Madenciliği Uygulama Alanları.............................................................. 10
3.4. Veri Ambarı Kavramı ve Özellikleri .............................................................. 14
3.5. Veri Madenciliği Uygulama Süreci ................................................................ 15
3.5.1. Problemin tanımlanması ....................................................................... 18
3.5.2. Veri önişleme ....................................................................................... 19
3.5.3. Model değerlendirme aşaması .............................................................. 23
3.5.4. Bilginin sunumu aşaması ..................................................................... 28
3.6. Veri Madenciliği Modelleri............................................................................. 28
3.6.1. Sınıflandırma ........................................................................................ 29
3.6.2. Kümeleme ............................................................................................ 35
3.6.3. Birliktelik kuralları ............................................................................... 36
x
Sayfa
4. MATERYAL VE METOD ................................................................................................ 38
4.1. Yazılımın Geliştirilmesinde Kullanılan Araçlar ............................................. 38
4.2. Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Kriterlerin Seçimi
........................................................................................................................ 40
4.3. Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Sınıflandırma
Algoritmasının Seçimi.................................................................................... 40
5. ÜNİVERSİTE GİRİŞ SINAVINDA VERİ MADENCİLİĞİ İLE BAŞARI TAHMİNİ... 41
5.1. Problemin Tanımı ........................................................................................... 41
5.2. Verilerin Elde Edilme Süreci .......................................................................... 42
5.3. Veri Önişleme Basamakları ............................................................................ 44
5.3.1. Veri temizleme ..................................................................................... 44
5.3.2. Veri bütünleştirme ................................................................................ 45
5.3.3. Veri dönüştürme ................................................................................... 45
5.3.4. Veri azaltma ......................................................................................... 47
5.4. Modelleme....................................................................................................... 49
5.4.1. Modelleme basamağı: WEKA ............................................................. 49
5.4.2. Modelleme basamağı: Üniversite giriş sınavında öğrencilerin
başarılarının tahmin edilmesinde veri madenciliği uygulama yazılımı 50
6. SONUÇ VE ÖNERİLER ................................................................................................... 59
KAYNAKLAR ...................................................................................................................... 62
EKLER................................................................................................................................... 65
EK-1. Anket formu ................................................................................................................ 66
EK-2. Naive Bayes algoritmasının C#.NET dili kodları....................................................... 68
ÖZGEÇMİŞ ........................................................................................................................... 70
xi
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 3. 1. Karışıklık matrisi ..............................................................................26
Çizelge 3. 2. Eğitim veri seti ..................................................................................31
Çizelge 3. 3. Eğitim veri seti kritelerine ait frekanslar ..........................................32
Çizelge 5. 1. Nitelikler ve alabileceği değerler ......................................................42
Çizelge 5. 2. Öznitelik seçimi işleminden önce sınıflayıcı başarı oranı ................48
Çizelge 5. 3. Öznitelik seçimi işleminden sonra sınıflayıcı başarı oranı ...............48
Çizelge 5. 4. Sınıflandırma algoritmalarının karşılaştırılması ...............................50
Çizelge 5. 5. Test verileri için yapılan başarı tahmin sonuçları .............................56
xii
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 3. 1. Fayyad’a göre veri madenciliği sürecinde yer alan basamaklar ............ 15
Şekil 3. 2. Han’a göre veri madenciliği sürecinde yer alan basamaklar ................. 17
Şekil 3. 3. Veri madenciliği modelleri ve algoritmalar ........................................... 29
Şekil 5. 1. Yazılım ana formu ................................................................................. 51
Şekil 5. 2. Öğrenci genel bilgileri giriş formu ........................................................ 51
Şekil 5. 3. Öğrenci aile bilgileri giriş formu ........................................................... 52
Şekil 5. 4. Öğrenci bireysel bilgileri giriş formu .................................................... 52
Şekil 5. 5. Öğrenci not ve devamsızlık bilgileri giriş formu ................................... 53
Şekil 5. 6. Veri görüntüleme formu ........................................................................ 53
Şekil 5. 7. Başarı tahmin formu .............................................................................. 54
Şekil 5. 8. Başarı sonuç mesajı................................................................................ 56
xiii
SİMGELER VE KISALTMALAR
Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte
aşağıda sunulmuştur.
Kısaltmalar
Açıklama
ÖSYM
Öğrenci Seçme ve Yerleştirme Merkezi
E-OKUL
E-Okul Yönetim Bilgi Sistemi
KDD
Knowledge Discovery From Data
(Veritabanından Bilgi Keşfi)
MAP
Maximum A Posteriori Classification
(En Büyük Sonrasal Sınıflandırma Yöntemi)
MUC
Message Understanding Conference
TP
True Positive
TN
True Negative
FP
False Positive
FN
False Negative
SQL
Structured Query Language
(Yapısal Sorgulama Dili)
AOBP
Ağırlıklı Orta Öğretim Başarı Puanı
1
1. GİRİŞ
Eğitim sistemimizde, yükseköğrenim görmek için üniversite giriş sınavında yeterli
puanı alarak başarılı olmak gerekmektedir. Ülkemizde her yıl Öğrenci Seçme ve
Yerleştirme Merkezinin (ÖSYM) yaptığı üniversite giriş sınavına bir buçuk
milyondan fazla öğrenci girmekte ve bu sayı giderek artmaktadır. Üniversite giriş
sınavına giren öğrencilerin sayısı, yükseköğretim kurumlarının alacağı öğrenci
sayısından fazla olduğundan, sistem üniversite giriş sınavını zorunlu hale getirmiştir.
Ortaöğretim ile yükseköğretim arasında bir tür kopuş ifade eden öğrenci arz-talep
dengesizliğindeki bu hızlı artış, en üst düzey devlet yetkililerinden, okul
yöneticilerine, öğretmenlerden velilere ve öğrencilere kadar, toplumun birçok
bölümünü büyük ölçüde tedirgin etmektedir. Üniversiteye girişin zorlaşması ve
rekabetin artması, Türkiye’de “Üniversite Giriş Sınavlarına Hazırlanma Kursları”
veya “Özel Dershaneler” olarak bilinen özgün ve özel öğretim kurumlarının ortaya
çıkmasına ve hızla artıp yaygınlaşmasına yol açmıştır. Bunun yanında okullar
işlevsiz ve sadece diploma veren bir kurum haline gelmiştir. Ailelerde, ekonomik ve
kültürel güçlerinin elverdiği ölçüde, çocuklarının üniversiteye girme şanslarını
artırmak için, çocuklarını bu kulvarda koşturmaktadırlar. Türkiye’de üniversite
öncesi eğitim- öğretim süreci ve bu süreç boyunca gösterilen çabaların büyük bir
bölümü, üniversite giriş sınavlarına endekslenmiş durumdadır. Açıkça ifade edilsin
veya edilmesin, öğrencilerin üniversite giriş sınavlarında göstermiş oldukları başarı
düzeyi, sınav öncesi eğitim-öğretim sürecinde etkin olan tüm kişi ve kurumların
başarı veya başarısızlıklarının en somut göstergesi olarak algılanmaktadır. Başka bir
deyişle, öğrencilerin üniversite giriş sınavlarında göstermiş oldukları başarı düzeyi,
mezun oldukları lisenin başarı ve verimlilik düzeyinin de en önemli ölçütü olarak
değerlendirilmektedir [1].
Öğrencilerin
üniversite
giriş
sınavında
başarısını
etkileyen
birçok
faktör
bulunmaktadır. Öğrencilerin demografik özellikleri, bireysel özellikleri, okul ve
dershane bilgileri bu etkenlerden bazılarıdır. Üniversite giriş sınavında yüksek puan
almak, meslek hayatı ile ilişkili olduğundan çok daha fazla önem arz etmektedir.
2
Öğrenciler küçük yaştan itibaren bu sınava hazırlanmakta ve dolayısıyla rekabet
ortamı giderek güçlenmektedir. Öğrencilerin sınavda başarılı olmaları için, bu
sınavda başarıyı etkileyen faktörlerin araştırılması gerekmektedir. Hatta başarıyı
etkileyen birçok faktör olduğundan, bu faktörler arasında başarıyı en çok
etkileyenlerin öncelik sırasının belirlenmesi, önceliği en yüksek olan faktörlerin
geliştirilmesi ve desteklenmesi sağlanmalıdır.
Üniversite giriş sınavında, başarıyı etkileyen faktörlerin her biri daha önceden
araştırılmış, bu faktörlerin üniversite giriş sınavındaki başarıyı nasıl etkilediği farklı
araştırmacılar tarafından incelenmiştir. Bu çalışmalar incelendiğinde, öğrencilerin
üniversite giriş sınavındaki başarıları ile okul kültürü, sınav yılı, okul türü, bölgeler,
öğrencinin sosyoekonomik ve demografik özellikleri, öğrencinin okul mezuniyet
notu, cinsiyeti, yaşı ve aile ortamı gibi her bir faktör ile üniversite giriş sınavındaki
başarıyı inceleyen birçok çalışma bulunmaktadır [2-5].
Yapılan bu çalışmalarda not bilgisi, aile ortamı, dershane ve özel ders bilgisi, sınav
kaygı düzeyi, çalışma düzeni, yaş, cinsiyet vb. faktörlerin tamamının üniversite giriş
sınav başarısını kümülatif olarak ne kadar etkilediği ve bu faktörlerin öncelik sırası
ile ilgili bir çalışma bulunmamaktadır. Bu nedenle öğrencilerin üniversite giriş
sınavındaki başarısını etkileyen faktörlerin belirlenmesi ve ortaöğretim öğrencilerinin
üniversite giriş sınavını kazanıp kazanamayacaklarının tahmini yapılarak, eksik
faktörlerin geliştirilmesi, bu sınavdan elde edilecek başarının artmasında önemli rol
oynamaktadır.
Yukarıda bahsedilen işlemlerin yapılmasında birçok farklı yöntem kullanılmaktadır.
Bu yöntemlerden biride veri madenciliğidir. Veri yığınlarının içerisinden, gizli
örüntülerin belirlenip, yararlı bilgilerin ortaya çıkarılması işlemine veri madenciliği
denilmektedir. Veri madenciliği, bankacılık, emniyet, telekomünikasyon, spor gibi
çeşitli alanlarda kullanılmaktadır.
Eğitim ve diğer alanlardaki hizmetlerin daha yüksek standartlara ulaştırılmasında
bilgisayar uygulamaları önemli yer tutmaktadır. Eğitim sisteminde, yapay zeka
3
tekniklerini, veri madenciliği tekniklerini, bulanık mantık uygulamalarını ve örüntü
tanıma tekniklerini içeren uygulamalarla daha iyi sonuç almak mümkündür.
Eğitimde kalitenin artırılması, gelecekteki eğitim politikalarının şekillendirilmesi,
öğrenci başarılarının artırılması, öğrenci davranışlarına ve gruplarına göre bireysel
eğitimin verilmesi gibi amaçlar ile veri madenciliği teknikleri uygulanmalıdır. Veri
madenciliği teknikleri sayesinde veri ambarından çıkarılan örüntüler, klasik
yöntemlere göre doğruluk oranı daha yüksektir ve daha hızlı elde edilebilir.
Bu çalışmanın amacı; bir öğrenci veri ambarı oluşturmak ve bu öğrenci veri ambarı
üzerinde, öznitelik seçme algoritmaları ile seçilen öncelikli niteliklere göre
öğrencilerin üniversite sınavını kazanıp kazanamayacağının, veri madenciliği
algoritmalarından Naive Bayes algoritması ile tahmin etmeye çalışmaktır.
Geliştirilen yazılımda, insanların hayatlarında dönüm noktalarından bir tanesi olan
üniversite giriş sınavındaki başarı durumlarının tahmin edilmesi ve üniversite giriş
sınavında başarıyı etkileyen faktörlerin arasından öncelikli faktörlerin tespiti için bir
erken uyarı sistemi geliştirilmesi amaçlanmıştır.
4
2. KONU İLE İLGİLİ MEVCUT ÇALIŞMALARIN İNCELENMESİ
Veri madenciliği uygulamalarına duyulan önemin her geçen gün artmasıyla birlikte,
veri madenciliği teknikleri başta pazarlama olmak üzere her alanda kullanılmaya
başlanılmıştır. Bu bölümde, öğrenci bilgileri ve eğitim öğretim faaliyetlerini içeren
veriler üzerinde veri madenciliği tekniklerinin kullanılması ile ilgili çalışmalara yer
verilmiştir.
Bırtıl (2011), “Kız Meslek Lisesi Öğrencilerinin Akademik Başarısızlık Nedenlerinin
Veri Madenciliği Tekniği ile Analizi” isimli tezinde, öğrencilerin başarısızlık
anketine verdikleri cevaplar incelenmiş ve veri madenciliği yöntemi ile öğrencilerin
genelde “birlikte katılıyorum” cevabı verdikleri sorular tespit edilmiştir. Kümeleme
algoritması kullanılarak öğrencilerin başarısızlık nedenleri gruplandırılmış ve
gruplandırılan başarısızlık nedenlerinin daha aza indirilmesi için gerekli önlemlerin
alınarak, öğrenci başarı düzeylerinin artırılabileceği sonucuna varılmıştır [6].
Bir başka çalışmada, Üçgün (2009) “Ortaöğretim Okulları İçin Öğrenci Otomasyonu
Tasarımı ve Öğrenci Verileri Üzerine Veri Madenciliği Uygulamaları” isimli veri
madenciliği uygulamasında, ilişkilendirme kuralları algoritmalarından Apriori
algoritmasını kullanarak öğrenci ders notları ile ilgili bazı kurallar çıkarmıştır. Bu
kurallar ile öğrenci başarısını artırabilecek yeni stratejilerin oluşturulması gerektiği
sonucuna varılmıştır [7].
Öğrenci veri tabanında veri madenciliği algoritmalarından genetik algoritmayı
kullanan Gündoğdu (2007) tarafından yapılan çalışmada, Kocaeli Üniversitesindeki
öğrencilerin verileri üzerinde geliştirilen yazılım ile verilerin analizinin yapılması ve
eğitimcilerin öğrenci profillerini değerlendirmesine yardımcı olması amaçlanmıştır.
Genetik algoritma kullanılarak, öğrencilerin üniversite giriş sınavındaki başarıları ile
derslerdeki başarı ortalamaları arasındaki kuralların çıkarılması ve yeni gelecek
öğrencilerin başarı durumlarının öngörülebileceği öğrenci başarı analizi için bir
yazılım geliştirilmiştir [8].
5
Bulut (2010) tarafından gerçekleştirilen diğer bir çalışmada, öğrencileri madde
bağımlılığından korumak için ailelere ve eğitimcilere yardımcı olacak bir uyarı
sistemi geliştirilmiştir. Gelecekte bir öğrencinin madde bağımlısı olma risk yüzdesi,
WEKA
programı
kullanılarak
çeşitli
sınıflandırma
algoritmaları
ile
hesaplatılmaktadır [9].
Gülçe’nin 2010 yılında yaptığı bir çalışmada ise, veri madenciliği teknikleri
kullanılarak öğrenci karar destek sistemi oluşturulmuştur. Üniversite öğrencilerinin
akademik başarı durumlarının tahmini yapılarak, elde edilen bilgilerin ilgili kişilerin
onayına sunulması, bu sayede gelecekte alınacak eğitim ve öğretim plan ve
programlama sürecine yönelik kararlarda yönetime destek olması hedeflenmiştir
[10].
Konuyla ilgili bir başka çalışma, Bülbül ve Ünsal tarafından 2010 yılında yapılmıştır.
Çalışma kapsamında, makine öğrenmesi algoritmalarından Naive Bayes algoritması
kullanılarak öğrencilere uygulanan mesleki alan seçimi işlemi ile başarılı sonuçlar
elde edilmiştir. Geliştirilen yazılım ile mesleki alan seçim sürecinde bulunan
bireylerden alınan verilere göre birey için en uygun mesleki alanın sistem tarafından
önerilmesi amaçlanmıştır [11].
Sınıflandırma algoritmasının kullanılmasına yönelik diğer bir çalışmada 2011 yılında
Yardımcı tarafından yapılmıştır. Yardımcı (2011) “Makine Öğrenmesi Teknikleri ile
Rss Besleme Yönetimi” isimli çalışmasında, makine öğrenmesi algoritmalarından
sınıflandırma algoritmasını kullanarak, kullanıcının haber okuma alışkanlığının web
sitesine öğretilmesini ve tekrar haber okunmak istendiğinde öğrenilen alışkanlığa
göre haberlerin kullanıcıya sunulmasını sağlamıştır [12].
Bozkır ve arkadaşları tarafından 2009 yılında yapılan “Öğrenci Seçme Sınavında
Öğrenci Başarısını Etkileyen Faktörlerin Veri Madenciliği Yöntemleriyle Tespiti”
isimli çalışmada, 2008 yılında sınava girmiş olan öğrencilerin verileri üzerinde
kümeleme ve karar ağaçları algoritmaları kullanılarak oluşturulan bağımlılık ağları
ile niteliklerin birbirleri üzerindeki etkileri tespit edilmiştir [13].
6
Yukarıda verilen çalışmalarda veri madenciliği tekniklerinden birliktelik kuralları
çıkarma ve sınıflandırma işlemleri geliştirilmiştir. Öğrenci veri tabanı üzerinde;
öğrenci başarısını artırmak, madde bağımlısı gibi risk grubunda bulunan öğrencileri
belirlemek, mesleki alan seçiminde doğru seçimi yapmak gibi veri madenciliği
tekniklerinin uygulanması ile ilgili literatürde birçok çalışma bulunmaktadır [611,13]. Çalışmamızda öğrenci veri ambarı üzerinde sınıflandırma algoritmalarından
Naive Bayes algoritması kullanılarak üniversite giriş sınavı başarı tahmini
yapılmıştır.
7
3. VERİ MADENCİLİĞİ VE UYGULAMA ALANLARI
Veri madenciliğinin birçok tanımı bulunmaktadır. Genel tanımıyla yararlı bilgilerin,
büyük veri tabanlarından çıkarılması işlemidir. Son yıllarda finans, haberleşme,
sağlık sektörlerinde özellikle ticari alanda veri madenciliği yöntemleri sıklıkla
kullanılmaya başlamıştır.
Bu tezin konusu üniversite giriş sınavında öğrenci başarılarının tahmin edilmesi ve
sınavda başarıyı etkileyen faktörlerin öncelik sırasının belirlenmesidir. Üniversite
giriş sınavına giren öğrenci sayısı her geçen yıl artmakta ve bu sınavda başarıyı
etkileyen birçok faktör bulunmaktadır. Bu faktörlerin üniversite giriş sınavındaki
başarıyı
kümülatif
olarak
nasıl
etkilediği,
öğrencilerin
sınavı
kazanıp
kazanamayacaklarının öngörülmesi önemlidir.
Bu bölümde, veri madenciliği, veri madenciliği uygulama alanları ve bu tezin
konusunu oluşturan üniversite giriş sınavından bahsedilmiştir.
3.1. Üniversite Giriş Sınavı
Türkiye’de yükseköğretime öğrenci seçme işlemi, 1925 yılında kurulan ilk Hukuk
Mektebinden hatta kökleri çok eskilere dayanan ancak 1919 yılında bilimsel ve
kısmen yönetim özerkliğine kavuşan İstanbul Darülfünun’un kurulusundan
günümüze kadar, anlayış olarak çok fazla da değişmeyen belirli bir yapı üzerinde
gelişerek gelmiştir. O yıllarda yükseköğretime başvuran öğrenci sayısının kontenjan
sayısından az olması, büyük ve merkezi sınavları gerekli kılmamıştır. Yetkililer
1930-40’lı yıllara kadar ortaöğretimle ilgili alanlarda, yazılı ve sözlü sınavlar
yaparak öğrencileri seçmeye çalışmışlar, adaylara sınavlarda matematik, geometri,
fen bilimleri, tarih, coğrafya, mantık, felsefe, Türkçe ve kompozisyon alanlarında
sorular sormuşlardır.
Cumhuriyetin ilanından sonra sosyoekonomik alandaki
ilerlemeler, nüfusun giderek artmasına ve toplumdaki genç nüfusun çoğalmasına
neden olmuştur. Genç Cumhuriyetimizin eğitime verdiği destekle birlikte,
yükseköğretime başvuran aday sayısı artmış; yukarıda sözü edilen sınav sistemi
kullanılamaz duruma gelmiştir. 1940-45’li yıllarda yükseköğretime başvuran aday
8
sayısı, örneğin Siyasal Bilgiler Fakültesi için 700 kişi civarındadır. Ancak
yükseköğrenim görmek isteyen kişi sayısı 1961 yılında 25 bine 1974 yılında 230
binlere, 1980’ li yıllarda 470 binlere ve 1990 yılında 900 binlere yükselmiştir. 2003
yılında ise 1 502 605 kişi ve 2011 yılında 1 711 254 kişi sınava başvurmuştur. [14]
Üniversite giriş sınavına başvuru sayısının her geçen yıl arttığı görülmektedir.
Üniversite giriş sınavında başarıyı etkileyen faktörler
Literatür incelendiğinde, üniversite giriş sınavında başarıyı etkileyen birçok faktör
bulunduğu görülmektedir [2-5]. Başarıyı etkileyen bu faktörleri ailesel faktörler,
dershane ve özel ders bilgisi, okul faktörü ve bireysel faktörler olarak kategorize
edebiliriz. Bu kategorilerin altındaki başarıyı etkileyebilecek faktörleri aşağıdaki gibi
sıralayabiliriz:
a) Aile Faktörü

Ailenin sosyoekonomik düzeyi,

Anne baba eğitim durumu,

Anne baba mesleği,

Kardeş sayısı,

İkamet edilen yer,
b) Okul Faktörü

Okul türü,

Ortaöğretim not bilgisi,

İlköğretim not bilgisi,

Devamsızlık bilgisi,

Ağırlıklı ortaöğretim başarı puanı,

Ortaöğretimde seçilen alan,

Sınıf mevcudu,

Öğretmen faktörü,

Sosyal ve kültürel etkinlikler,
c) Dershane ve Özel Ders Bilgisi
9
d) Bireysel Faktörler

Cinsiyet, yaş,

Bedensel özellikleri, özür durumu,

Kitap okuma alışkanlığı,

Sınav kaygısı,

Sorumluluk bilinci,

Motivasyon düzeyi ve amaçları,

Hazır bulunma düzeyi,

Çalışma düzeni,

Zeka düzeyi,

Özel yetenekleri,

İlgileri ve algı düzeyleri
Yukarıda belirtildiği gibi üniversite giriş sınavını etkileyen birçok faktör
bulunmaktadır. Bu faktörler arasında başarıyı en çok etkileyenlerin öncelik sırasının
belirlenmesi, önceliği en yüksek olan faktörlerin geliştirilmesi ve desteklenmesi
sağlanmalıdır.
3.2. Veri Madenciliği
Veri madenciliği, belirli bir hedef doğrultusunda, anlamlı kuralların çıkarılması,
verilerin demetlenmesinin sağlanması, belirli bir sınıfa ait olup olmadığının
bulunması için veri ambarındaki verilerin analiz edilmesi işlemidir.
Veri tabanlarındaki kayıtlı milyonlarca veri tek başına anlamsızdır ve değerli
değildir. Bu verilerden amaca yönelik bilgi çıkarımı yapıldığında, veri tabanındaki
örüntüler çıkarıldığında değerli olur. Hastane bilgi sistemlerinde tutulan her hastanın
klinik laboratuvar sonuçları sadece bir veridir. Bu verilerden herhangi bir hastalığın
erken teşhisi yapılabilirse o zaman bu veriler anlamlı olur ve bilgiye dönüşür.
amaçla veriden bilgi keşfi yapılması işlemine veri madenciliği denilmektedir.
Bu
10
Veri madenciliği, anlamlı kuralların ve örüntülerin keşfedilmesi için büyük
miktardaki verilerin araştırılması ve analiz edilmesidir [15].
Veri madenciliği bilgi keşfi veya veri tabanından bilgi keşfi (KDD), bilgi çıkarımı,
veri/örüntü analizi, veri arkeolojisi ve veri eşeleme olarak da isimlendirilir [16].
KDD, daha iyi karar verebilmek için gizli desenlerin keşfedilmesi işlemidir. Veri
madenciliği, KDD sürecinde sadece bir basamak olmasına rağmen literatürde veri
madenciliği ve KDD aynı anlamda kullanılmaktadır.
Günümüzde veri madenciliği analizi, risk yönetiminde, müşteri ilişkileri yönetiminde
yaygın olarak kullanılmasıyla birlikte hemen hemen her alanda kullanılmaktadır.
Veri madenciliğinin finansal, ekonomik ve banka risk yönetiminde, kriz tahmini,
sahtekarlık tespiti uygulamaları gözlenmektedir [17]. Veri madenciliği anomali
tespiti, birliktelik analizi, demetleme ve tahmin modellemesi gibi teknikleri içerir
[15,16].
3.3. Veri Madenciliği Uygulama Alanları
Günümüzde veri madenciliği birçok alanda uygulanmaktadır. Fakat bu uygulamalar
arasından teşhis amaçlı uygulamalar, müşteri ilişki yönetimi, web madenciliği, metin
madenciliği, benzerlik korunumu, çapraz ateş uygulamalarının yaygın bir biçimde
kullanıldığını görmekteyiz.
Veri madenciliği uygulama alanlarından bazıları aşağıda listelenmiştir [18-22]:
Perakende / Pazarlama

Müşterilerin satın alma örüntülerinin tespiti,

Müşterilerin demografik özellikleri arasında ilişkilendirme kurallarının
bulunması,

Kampanya maillerinin cevaplanma tahmini,

Pazar sepeti analizi,
11

Müşteri ilişkileri yönetimi,

Müşteri değerlendirme,

Satış tahmini,

Hedef pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz
pazar incelemesi,

Risk analizi,

Teknolojideki ve insanların tüketim alışkanlıklarındaki yeni trendlerin tespiti,

Anlık kişi, profil, içerik analizinin yapılması ve kişiye özel reklam
sistemlerinin oluşturulması,

Müşterilerin, internette firmalar ve ürünleri hakkında paylaştığı görüşlerinin
tespiti,

Müşteri hizmetlerine yapılan aramaların veya yazılı şikayetlerin otomatik
olarak gruplanması ve konunun tespit edilerek ilgili birimlere otomatik
yönlendirilmesi yapılabilir.
Bankacılık

Sahte kredi kartı kullanımının tespiti,

Sadık müşterilerin belirlenmesi,

Kredi kartını değiştirme riski olan müşterilerin tahmini,

Müşteri gruplarının kredi kartı harcama alışkanlıklarının belirlenmesi,

Farklı finansal göstergeler arasındaki gizli korelasyonların bulunması,

Geçmiş pazar verilerinden ticaret kuralları belirlenir.
Sigortacılık Hizmetleri

Talep analizi

Yeni politikalarla satın alacak müşterilerin tahmini

Riskli müşterilerin davranış örüntülerinin belirlenmesi

Sahtekarlık tespitinde

Müşteri kaybı sebeplerinin belirlenmesi,

Usulsüzlüklerin önlenmesi,

Ana giderler azaltılabilir.
12
Tıp / Sağlık

Ofis ziyaretlerini tahmin etmek için hasta davranışlarının karakterize
edilmesi,

Farklı hastalıklar için başarılı tıbbi tedavilerin tanımlanması,

Test sonuçlarının tahmini,

Ürün geliştirme,

Tedavi sürecinin belirlenmesi,

DNA içerisindeki genlerin sıralarının belirlenmesi,

Protein analizlerinin yapılması,

Hastalık haritalarının hazırlanması,

Hastalık tanıları,

Sağlık politikalarına yön verilmesi,

Hasta bilgi kaydı ve raporlarının analizi ve bu yolla belirli bir hastalığı
tetikleyen bilinmeyen etmenlerin veya olası genetik eğilimlerin tespiti,

Sağlık alanında tarama testlerinden elde edilen verileri kullanarak çeşitli
kanserlerin ön tanısı,

Kalp verilerini kullanarak kalp krizi riskinin tespiti,

Acil servislerde hasta semptomlarına göre risk ve öncelikler tespit edilebilir.
Eğitim

Akademik bir çalışmanın çalıntı olup olmadığının tespiti,

İsimsiz bir metnin yazarının tespiti,

Öğrenci işlerinde veriler analiz edilerek öğrencilerin başarı ve başarısızlık
nedenleri,

Başarının arttırılması için hangi konulara ağırlık verilmesi gerektiği,

Üniversite giriş puanları ile okul başarısı arasındaki bir ilişkinin var olup
olmadığı belirlenebilir.
İnternet / Yazılım

Sitelerdeki illegal içeriğin otomatik tespiti,

Spam maillerin zeki ara birimlerce ayıklanması,
13

Yapılması planlanan bir yazılım projesinin özelliklerinden hareketle gerekli
teknik ihtiyaçların otomatik çıkarımı,

Çok daha sağlıklı işleyen arama sonuçlarının ve arama motorlarının
kurgulanması,

Bir metnin hangi dilde yazıldığının otomatik tespiti,

Şirketler
bünyesindeki
büyük
veri
setlerinin
gruplanması
ve
veri
madenciliğine uygun hale getirilmesi için kullanılabilir.
Kamuya Özgü Genel ve İstihbarat Amaçlı Uygulamalar

Geçmiş
patentlerin
analizi
sonucu,
yeni
patent
başvuruların
olası
benzerliklerinin tespiti ve önlenmesi,

Polis vaka kayıtlarının analizi ve yeni vakalar ile eskilerinin benzerliklerinin
tespiti,

Şifreli yazışmaların dilin temel yapısına uygun olarak çözümlenmesine
yönelik uygulamalar,

Kara para aklama ve hesap hareketlerinin, şirketler arası yazışmaların
incelenmesi ve tüm şebeke ve üyelerinin ortaya çıkarılması,

Hukuki davaların sonuçları ile vaka özetlerinin ilişkilendirilmesi ve
hakimlerin karar vermesini kolaylaştırıcı yönde benzer diğer dava
sonuçlarının otomatik tespiti,

Bilirkişi raporlarının semantik olarak indekslenebilmesi ve metin tabanlı
örnek bilirkişi raporu aratılabilir.
Bilim ve Mühendislik

Ampirik veriler üzerinde modeller kurarak bilimsel ve teknik problemlerin
çözümlenmesi,

Yeni virüs türlerinin keşfi ve sınıflandırılması,

Gen haritasının analizi ve genetik hastalıkların tespiti,

Kanserli hücrelerin tespiti,

Gezegen yüzey şekillerinin, gezegen yerleşimlerinin ve yeni galaksilerin keşfi
yapılabilir.
14
Diğer Uygulama Alanları

Verilen bir metinden veya haberden özet çıkarımı,

Farklı kaynaklardan gelen ancak aynı konu ile ilgili haberlerin otomatik
tespiti,

Düzensiz veri kümelerinin düzenli hale getirilmesi, veri madenciliği içinde
kullanılabilecek hale getirme,

Bir metnin farklı bir dile otomatik çevrimi,

Taşımacılık ve ulaşım alanlarında kullanılabilir.
3.4. Veri Ambarı Kavramı ve Özellikleri
Veri ambarı, birçok veri tabanından karar vermeye yardımcı olacak şekilde
toplanmış, ön işlemeden geçirilmiş, sadece ilk veri yüklemesinde ve veri erişimi için
kullanılan veri deposudur.
Veri madenciliği uygulamalarında, kurumlarda bulunan veri tabanları direkt olarak
kullanılmaz. Bu verilerin veri madenciliği uygulamaları için uygun hale getirilmesi
gerekir. Veri madenciliği uygulamaları için kurumların tüm veri tabanlarındaki
veriler, veri ambarında toplanır. Veri ambarı kurumsal verileri içerir ve farklı
kaynaklardaki verilerden oluşur. Veri madenciliği sürecinde yararlı bilgileri elde
etmek için ilk ve en önemli yapılacak işlem, geçerli bir veri ambarının
oluşturulmasıdır.
Inmon (2005) veri ambarını, yönetimsel karar vermeye yardımcı olacak şekilde
toplanmış olan konu odaklı, birleştirilmiş, zaman değişkenli ve sabit veriler
topluluğu olarak tanımlamıştır [23].
Veri ambarındaki verinin taşıması gereken özellikler aşağıdaki gibi sıralanmıştır:
Birleştirilmiş olması: Veri ambarı, doğru kararlar verebilmek için birçok veri
kaynağındaki verilerden oluşmalıdır. Bu verilere birleştirme ve temizleme teknikleri
uygulanarak farklı veri tabanlarından gelen veriler arasında tutarlılık sağlanır.
15
Konu odaklı olması: Veri ambarı belirli bir konuya yönelik belirlenir. Hastane veri
ambarı düşünüldüğünde, hastalar, hastalık çeşitleri, klinik değerler, kanser verileri
veri ambarı konusu olabilir.
Zaman değişkenli olması: Veri ambarındaki veriler, geçmişte belirli bir zaman
dilimine aittir. Canlı bir veri tabanına göre zaman periyodu daha uzundur. Canlı veri
tabanında bilgiler güncel iken, veri ambarında geçmişe dair bilgiler sunulur. Bir veri
ambarındaki verilerin zamansal olarak uzunluğu genellikle 5 ile 10 yıl arasındadır.
Sabit (Kalıcı) olması: Veri ambarında, ilk veri yüklemesi yapıldıktan sonra veri
güncellenmesi olmaz, sadece veri erişimi işlemlerinde kullanılır. Silme, değiştirme
gibi veri tabanı işlemlerinde kullanılmaz.
3.5. Veri Madenciliği Uygulama Süreci
Veri madenciliği sürecinin basamaklarına baktığımızda, Fayyad ile arkadaşlarının
(1996) veri madenciliği uygulama basamakları ve Han ile arkadaşlarının (2005) veri
madenciliği uygulama basamakları olmak üzere iki tanesi ön plana çıkmaktadır.
Fayyad ve arkadaşları (1996), veri madenciliği sürecinin basamaklarını aşağıdaki
gibi belirtmişlerdir [24]:
Şekil 3.1. Fayyad’a göre veri madenciliği sürecinde yer alan basamaklar [24].
16
Fayyad ve arkadaşlarının ( 1996), Şekil 3.1.’deki veri madenciliği süreci aşağıdaki
basamakları içermektedir [24]:
a) İlk olarak, müşterilerin bakış açısı ile veri madenciliği işlem sürecinin
amaçlarının tanımlanmasını ve ilişkili ön bilgiyi içerir.
b) İkinci olarak, hedef veri seti oluşturulur. Veri setinin seçilmesini veya keşfin veri
örneklerinin veya değişkenlerin bir alt kümesine odaklanmayı içerir.
c) Üçüncü olarak, veri temizleme ve önişleme yapılır. Gürültülü verilerin
kaldırılması, gürültülü veriyi açıklamak veya model oluşturmak için gerekli
bilginin toplanması, eksik veri alanlarının ele alınması için stratejilerin
belirlenmesi, ardışık zamanlı bilgilerin ve bilinen değişikliklerin açıklanması gibi
temel işlemleri içerir.
d) Dördüncü olarak, verilerin indirgenmesi işlemi yapılır. Problemin amacına bağlı
olarak verileri temsil etmek için yararlı özelliklerin bulunmasını kapsamaktadır.
Boyut indirgeme ve dönüşüm metotları ile göz önüne alınan değişkenlerin etkin
sayısı azaltılabilir veya veriler için farklı olmayan temsiller bulunabilir.
e) Beşinci olarak, veri madenciliği metodu için, veri madenciliği sürecinin hedefleri
belirlenir. Örneğin, özetleme, sınıflandırma, regresyon, kümeleme vb. olacağı
kararlaştırılır.
f) Altıncı olarak, keşif analizi, model ve hipotezin seçimi yapılır. Veri madenciliği
algoritmasının seçimini ve veri örüntülerinin araştırılması için seçilen metotların
kullanılabilmesini kapsar. Bu işlem modelin ve uygun parametrelerin
tanımlanmasını ve bir veri madenciliği metodu veri madenciliği sürecinin bütün
kriterleriyle eşleştirilmesini içerir.
g) Yedinci olarak, veri madenciliği basamağı uygulanır. Sınıflandırma kuralları
veya ağaçları, regresyon ve kümelemeyi içeren belirli bir temsilinde ilgilenilen
örüntülerin aranmasını içerir.
h) Sekizinci olarak, örüntüler yorumlanır. Muhtemelen 1 ile 7 arasındaki
basamaklardan herhangi birine dönülmesini içerir. Bu adım çıkarılan modelin ve
örüntülerin görselleştirilmesini içermektedir.
i) Dokuzuncu olarak, keşfedilen bilginin kullanılması basamağıdır. Başka bir işlem
için başka bir sisteme bilgi içeren ya da basitçe belgelenmesi ve ilgili taraflara
17
raporlanması için bilgilerin direkt kullanılmasıdır. Bu işlem, inanılan bilgi ile
potansiyel uyuşmazlıkların giderilmesini ve kontrol edilmesini içerir.
Veri madenciliği uygulama süreci, 7. Adım olan veri madenciliği üzerinde
odaklanmıştır. Ancak diğer adımlarda, başarılı bir veri madenciliği uygulamasında
önemlidir.
Han ve arkadaşları (2005) da veri madenciliği sürecinin basamaklarını aşağıdaki gibi
belirtmişlerdir [16]:
Şekil 3.2. Han’a göre veri madenciliği sürecinde yer alan basamaklar [16].
Han ve arkadaşlarının (2005), Şekil 3.2.’de gösterilen veri madenciliği sürecinin
basamakları aşağıdaki adımları içerir [16]:
a) Veri temizleme basamağı, gürültülü ve tutarsız verilerin çıkarılmasıdır.
b) Veri bütünleştirme basamağı, birçok veri kaynağının bir araya getirilmesidir.
c) Veri seçme basamağında, yapılacak analiz ile ilgili olan veriler belirlenir.
18
d) Veri dönüşümü basamağında, verinin veri madenciliği yöntemine uygun
dönüşümü gerçekleştirilir.
e) Veri madenciliği basamağında verilerdeki örüntülerin belirlenmesi için veri
madenciliği yöntemleri uygulanır.
f) Model değerlendirme basamağında, bazı ölçütlere göre elde edilmiş ilginç
örüntüler bulunur ve değerlendirilir.
g) Bilgi sunumu basamağında, madenciliği yapılmış elde edilen bilgilerin
kullanıcılara sunumu gerçekleştirilir.
Her iki veri madenciliği süreci basamaklarına baktığımızda benzerlik gösterdiğini ve
veri madenciliğinin, veri madenciliği sürecinde bir basamak olduğu gözükmektedir.
Veri madenciliği, veri madenciliği sürecinin önemli bir kısmını oluşturmaktadır.
Yukarıdaki veri madenciliği sürecinde bulunan basamaklar incelendiğinde, veri
madenciliği sürecinde bulunan basamaklar aşağıdaki şekilde ifade edilebilir:

Problemin tanımlanması

Veri önişleme aşaması
 Veri temizleme
 Veri bütünleştirme
 Veri dönüştürme
 Veri azaltma

Model değerlendirme aşaması

Bilginin sunumu aşaması
3.5.1. Problemin tanımlanması
Veri madenciliği uygulamalarında başarılı olabilmek için, problemin tanımlanması
aşamasında projenin hangi sektörde kullanılacağının, proje amacının, projenin
sonunda gerçekleştirilmek istenen hedeflerin ve elde edilecek sonuçların nasıl
değerlendirileceğinin belirlenmesi gerekmektedir.
19
Bu aşamada veri madenciliği çalışmasındaki amaçlar, kısıtlamalar, gereksinimler,
elde edilecek sonuçların nasıl değerlendirileceği ve belirlenen hedeflere ulaşmak için
izlenecek stratejiler oluşturulur.
3.5.2. Veri önişleme
Veri ambarı oluşturma işlemi sadece çeşitli veri tabanlarından, bilgi kaynaklarından
alınan bilgilerin birleştirilmesi işlemi değildir. Bununla birlikte birleştirilen veriler
içerisinde var olan eksik bilgilerin tamamlanması, sapan verilen ayıklanması, tekrarlı
ve gürültülü verilerin temizlenmesi aşamasıdır. Bu aşamaya veri önişleme denir. Veri
önişleme, veri madenciliği kalitesini artırır, verimliliği artırır ve işlemleri
kolaylaştırır.
Veri önişleme basamakları şu şekilde sıralanabilir [16]:
a) Veri Temizleme
b) Veri Birleştirme
c) Veri Dönüştürme
d) Veri İndirgeme
Veri temizleme
Veri temizleme işlemi, eksik verilerin doldurulması, sapan verilerin tespiti ve
verilerdeki tutarsızlıkların giderilmesi işlemlerini içermektedir. Sapan veriler
tamamen atılır.
Eksik veriler doldurulurken, verinin kategorik veya nümerik olması durumuna dikkat
edilmelidir. Eğer eksik veri kategorik bir veri ise, eksik değer, “k” gibi genel bir
değerle doldurulabilir veya Regresyon analizi veya Kümeleme analizi yapılarak en
uygun değerle doldurulabilir. Fakat niteliğe ait eksik veri sayısı fazla ise, nitelik veri
tabanından çıkarılmalıdır. Eksik veri nümerik bir veri ise, eksik verilerin
doldurulması için farklı yöntemlerden bazıları aşağıda açıklanmaktadır [25]:
a) Eksik değer içeren kayıtlar atılabilir.
20
b) Niteliğin diğer örneklemlerdeki ortalaması ile eksik değer doldurulabilir.
c) Niteliğin, aynı sınıfa ait tüm örneklemlerin ortalaması ile eksik değer
doldurulabilir.
d) Eksik değer, Regresyon analizi veya Kümeleme analizi yapılarak en uygun
değerle doldurulabilir.
Veri birleştirme (Veri bütünleştirme)
Veri bütünleştirme işlemi, veri tabanlarından, çeşitli bilgi kaynaklarından gelen
verilerin birleştirilmesi, artık verilerin kaldırılmasıdır.
Farklı veri tabanlarındaki verilerin tek bir veri tabanında birleştirilmesiyle şema
birleştirme hataları oluşur. Örneğin, bir veri tabanında girişler “tüketici-ID” şeklinde
yapılmışken, bir diğerinde “tüketici-numarası” şeklinde olabilir. Bu tip şema
birleştirme hatalarından kaçınmak için meta veriler kullanılır. Veri tabanları ve veri
ambarları genellikle meta veriye sahiptirler. Meta veri, veriye ilişkin veridir [26].
Veri birleştirmede önemli bir konu da indirgemedir. Bir değişken, başka bir tablodan
türetilmişse fazlalık olabilir. Değişkenlerdeki tutarsızlıklar da, sonuçta elde edilen
veri kümesinde fazlalıklara neden olabilir. Bu fazlalıklar Korelasyon analizi ile
araştırılabilir. Örneğin, yukarıda da bahsedilen “tüketici-ID” ile “tüketici-numarası”
korelasyon katsayısı bulunabilir. Eğer bulunan korelasyon katsayısı yüksek
bulunuyorsa, değişkenlerden biri veri tabanından çıkarılarak indirgeme yapılabilir
[26].
Artık verilerin kaldırılmasında en çok kullanılan teknikler, Korelasyon analizi ve
Chi-Square testidir.
Veri dönüştürme (Veri değiştirme)
Veriyi daha anlaşılabilir hale getirmek için, verinin normalize edilmesi ve genelleme
işleminin yapılmasıdır.
21
Veri matrisinde değişkenlerin ortalama ve varyansları birbirinden çok farklı
olduklarında, büyük ortalama ve varyansa sahip değişkenler diğer etkinliklerini
göreceli olarak azaltmaktadırlar. Bazen değişkenlerin aşırı uçlarda yer alan değerleri
olumsuz etkilerde bulunmaktadır. Bu gibi durumlarda verilerin standardize ya da
belirli aralıklarda gözlenen değerlere dönüştürülmesi edilmesi uygun olmaktadır. Bu
tür veriler ölçeklenmiş veriler olarak alınırlar [27].
Verilerin standardize edilmesi ya da belirli aralıklara dönüştürülmesi için birçok
yöntem bulunmaktadır. Bu yöntemler; z skorlarına dönüştürme, -1≤ X ≤ +1 aralığına
dönüştürme, 0≤ X ≤ 1 dönüştürme, maksimum değer 1 olacak şekilde dönüştürme,
ortalama 1 olacak şekilde dönüştürme ve standart sapma 1 olacak şekilde dönüştürme
gibi yöntemlerdir [27].
Veriler normalize edilirken en çok kullanılan tekniklerin başında z-score veya min –
max teknikleri gelir.
Z skorlarına dönüştürme oransal ya da aralıklı ölçekle elde edilen ve normal dağılım
gösterdiği varsayılan verilere uygulanan ve en çok tercih edilen bir dönüştürme
yöntemidir [27].
Değerler
z i=
⃑
biçiminde z skorlarına dönüştürülür. Formülde
değerlerin aritmetik ortalaması, S standart sapmasını temsil etmektedir.
Min – Max tekniğinde yani verilerin 0≤ X ≤ 1 aralığına dönüştürme işleminde,
heterojen yapıda değerlerin ve aşırı uçlarda değerlerin yer aldığı durumlarda
değerleri pozitif ve 0 – 1 aralığında değişecek biçime dönüştürmek için tercih edilen
bir dönüştürme yöntemidir.
Dizide en büyük değer Xmax, en küçük değer Xmin olmak ve değişim genişliği
(range) R = Xmax – Xmin olarak hesaplanmaktadır. Min – Max dönüştürme işlemi
Xi =
biçiminde yapılır.
22
Veri indirgeme (Veri azaltma)
Veri indirgeme teknikleri, daha küçük hacimli olarak ve veri kümesinin indirgenmiş
bir örneğinin elde edilmesi amacıyla uygulanır. Bu sayede elde edilen indirgenmiş
veri kümesine veri madenciliği teknikleri uygulanarak daha etkin sonuçlar elde
edilebilir [26].
Veri azaltma öznitelik seçme, öznitelik çıkarma, boyut küçültme ve verinin
bütünleştirilmesi
işlemleridir.
Veri
madenciliği
uygulamalarında,
problemin
çözümünü etkileyen çok sayıda özellik bulunduğundan, sonucu en fazla
etkileyenlerin bulunması (öznitelik seçimi) problemi ortaya çıkmaktadır.
Bu kısımda, öğrenci veri ambarında bulunan nitelikler arasından öznitelik seçme ve
öznitelik çıkarımı işlemleri yapılmaktadır.
Öznitelik çıkarımı ve öznitelik seçimi işlemleri
Veriye ait birçok özellikten verinin kümesini, sınıfını, değerini belirleyen
özelliklerinin hangileri olduğu bilinmeyebilir. Bu durumlarda tüm özellik kümesinin
bir alt kümesi seçilir (özellik seçimi) ya da bu özelliklerin birleşimlerinden yeni
özellikler elde edilir [28].
Öznitelik, örüntülerden elde edilen, ölçülebilen veya gözlemlenebilen değerlerdir.
Öznitelik seçilirken hangi öznitelikler ayırt ediciyse bu öznitelikler seçilir. Veri
madenciliği, örüntü tanıma, makine öğrenmesi uygulamalarında, örneklem sayısı ve
nitelik sayısı çok önemlidir. Genellikle sınıflayıcının doğru karar vermesinde,
örneklem ve nitelik sayısı ne kadar artarsa o kadar doğru sonuç vereceği düşünülse
de, hatanın artması ile makinenin aşırı öğrenme olasılığından dolayı, hem örneklem
sayısı hem de nitelik sayısı optimum sayıda olması etkendir. Nitelikler içinden,
optimum sayıya ulaşmak, işlem karmaşıklığını azaltmak, daha kısa sürede sonuca
ulaşmak, hesaplama hata olasılığını düşürmek ve daha doğru genelleme yapabilmek
için öznitelik seçme işlemi yapılmaktadır.
23
Öznitelik seçme işlemi, boyut indirgemek için yapılır. Öznitelik seçiminde,
öznitelikler ayırt edici ise seçilir. Öznitelik sayısı, en az sınıf sayısı kadar olmalıdır.
Literatürde örnek sayısı ve öznitelik sayısı arasında doğrudan bir ilişki formülü
olmaması ile birlikte, genelde örneklem sayısı (N), öznitelik sayısının (l) üç katı
civarındadır. N/l oranının 2 ile 10 arasında olması gerektiğine dair görüşler de
bulunmaktadır.
Öznitelik seçimi yapılırken; mevcut nitelikler arasından bazılarını seçebilir veya
mevcut özelliklerin lineer birleşimlerinden yeni öznitelikler çıkarma işlemi yapılır.
Öznitelik seçme işlemi yapılırken, WEKA yazılımı içinde yer alan öznitelik seçme
metotlarından en çok kullanılanları ReliefFAttributeEval, InfoGainAttributeEval,
GainRatioAttributeEval,
SymmetricalUncertAttributeEval,
OneRAttributeEval,
ChiSquaredAttributeEval algoritmalarıdır [29].
Öznitelik çıkarımı, mevcut özniteliklerin lineer birleşimlerinden yeni bir öznitelik
uzayı oluşturulması ve verilerin bu uzayda ifade edilmesidir. Öznitelik çıkarımı
işlemi için, Bağımsız Bileşen Analizi, Ayrık Zaman Dalgacık Dönüşümü, Tekil
Değer Ayrıştırma ve Temel Bileşen Analizi en çok kullanılan analizlerdir.
3.5.3. Model değerlendirme aşaması
Veri önişleme basamağından sonraki adım modelleme basamağıdır. Modelleme
kısmında veri madenciliği modeli ve bu model içinde yer alan algoritmalardan,
uygun olan algoritmanın seçimi yapılır. Algoritma seçimi yapılırken, veri seti
üzerinde farklı algoritmalar denenerek oluşturulan modellerin başarım ölçütleri
yüksek olan algoritma seçilir.
Daha sonra seçilen algoritma veri seti üzerinde
çalıştırılarak, çıkarılan örüntüler yorumlanır.
Modelleme aşaması, denetimli ve denetimsiz öğrenme modeline göre farklılık
gösterir. Denetimsiz öğrenmede veriler arasındaki benzerlikten yararlanılarak sınıf
bilgisi tanımlanmaktadır. Denetimli öğrenmede ise sınıf bilgisi daha önceden bellidir
24
ve verilerin hangi sınıfa ait olduğu tahmin edilir. Kümeleme algoritmaları denetimsiz
öğrenmeye, sınıflandırma algoritmaları denetimli öğrenmeye örnek verilebilir.
Denetimli öğrenimde kullanılacak algoritma seçildikten sonra, veri kümesi eğitim
veri seti ve test veri seti olarak ikiye ayrılır. Eğitim verisi modelin öğrenmesi ve test
verisi modelin geçerliliğinin test edilmesi için kullanılmaktadır.
Modelin öğrenmesi, eğitim seti kullanılarak gerçekleştirildikten sonra, test kümesi ile
modelin doğruluk derecesi belirlenir. Modelin doğruluk derecesi belirlenirken bazı
yöntemler kullanılmaktadır. Bu yöntemlerden bazıları aşağıda özetlenmiştir:
Geçerlilik yöntemi (Simple Validation): Oluşturulan modelin doğruluğunun test
edilmesinde kullanılan en basit yöntem basit geçerlilik yöntemidir. Bu yöntemde
tipik olarak verilerin % 5 ile % 33 arasındaki bir kısmı test verileri olarak ayrılır.
Geriye kalan kısmı üzerinde algoritmalar uygulanarak, modelin öğrenimi
gerçekleştirilir. Test verileri ile test işlemi yapılır. Bir sınıflama modelinde yanlış
olarak sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile hata oranı, doğru
olarak sınıflanan olay sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı
hesaplanır (Doğruluk Oranı = 1 - Hata Oranı) [21].
Çapraz geçerlilik (Cross Validation): Sınırlı miktarda veriye sahip olunması
durumunda çapraz geçerlilik yöntemi kullanılabilir. Bu yöntemde veri kümesi
rastgele olarak iki eşit parçaya ayrılır. İlk aşamada a parçası üzerinde model eğitimi
ve b parçası üzerinde test işlemi; ikinci aşamada ise b parçası üzerinde model eğitimi
ve a parçası üzerinde test işlemi yapılarak elde edilen hata oranlarının ortalaması
kullanılır [21].
K- Kat çapraz geçerleme (K-Fold Cross Validation): Bir kaç bin veya daha az
satırdan meydana gelen küçük veri tabanlarında, verilerin k gruba ayrıldığı k katlı
çapraz geçerlilik yöntemi kullanılabilir. Veri seti rastgele k adet gruba ayrılır.
Literatürü incelediğimizde, genellikle n değerinin 10 olarak seçildiği görülmektedir.
Bu yöntemde, ilk aşamada birinci grup test, diğer gruplar öğrenim için kullanılır. Bu
süreç her defasında bir grubun test, diğer grupların öğrenim amaçlı kullanılması ile
25
sürdürülür. Sonuçta elde edilen on hata oranının ortalaması, kurulan modelin tahmini
hata oranı olacaktır [21].
BootStrapping: Bootstrapping küçük veri kümeleri için modelin hata düzeyinin
tahmininde kullanılan bir başka tekniktir. Çapraz geçerlilikte olduğu gibi model
bütün veri kümesi üzerine kurulur. Veri kümesinden yerine koyma yöntemi ile
örnekler seçilerek öğrenme kümesi oluşturulur. İşlem genellikle 200 ile 1000 arası
tekrarlanır ve elde edilen performans değerlerinin ortalaması model değerlendirilir
[21, 30].
Holdout yöntemi: Belli sayıda örnek test veri seti için ayrılır, geriye kalan örnekler
eğitim veri seti olarak kullanılır. Genelde veri kümesinin 2 / 3’ü eğitim veri seti, 1/3’i
test veri seti olarak ayrılır. Eğitim veri seti kullanılarak model oluşturulur ve test veri
seti kullanılarak model değerlendirilir. Eğer veri dağılımı dengeli ise, veri setindeki
örnek sayısı ve her sınıfa ait örnek sayısı fazla ise holdout yöntemi kullanılabilir
[30].
Model başarım ölçütleri
Veri madenciliği uygulama sürecinde sınıflandırma, kümeleme veya birliktelik kuralı
çıkarma uygulamalarında kullanılan algoritmaların performansını ölçmek ve en iyi
performansı gösteren algoritmayı seçmek gerekir. MUC (Message Understanding
Conference) tarafından kullanılması tavsiye edilen bazı ölçütler bulunmaktadır.
MUC tarafından da kullanımı tavsiye edilen ölçütler, ilk olarak istatistiksel başarımın
hesaplanması amacıyla kullanılmışlardır. İki sınıfa ayrılmış bir veri kümesi içerisinde
yapılan veri ayrıştırma işlemi sonucunda ortaya bir karışıklık matrisi çıkmaktadır.
Bu matris içerisinde dört durum oluşmaktadır. Bu durumlar Çizelge 3.1.’de
verilmiştir [ 31]:
26
Çizelge 3.1. Karışıklık matrisi
Tahmin Edilen Sınıf
Sınıf=1
Gerçek Sınıf
Sınıf=0
Sınıf=1
TP
FP
Sınıf=0
FN
TN
Çizelge 3.1.’de TP (True Positive) ve TN (True Negative) ile gösterilen sayılar
sınıfları doğru tahmin edilen, FP (False Positive) ve FN (False Negative) ile
gösterilen sayılar ise
sınıfları
yanlış
tahmin
edilen örneklerin
sayılarını
göstermektedir. FP’ye 1. Tip hata (type I error), FN’ye de 2. tip hata (type II error)
denir [ 31].
TP, sınıflandırıcı tarafından 1.sınıfına atanan birimlerden gerçekte 1. sınıfına ait
olanların oranını gösterir. FP, sınıflandırıcı tarafından 1. sınıfına atandığı halde
gerçekte 1. sınıfına ait olmayan birimlerin oranını gösterir. Karışıklık matrisi
(Confusion matrix), yakınsaklık matrisi olarak da adlandırılır. Doğru olarak
sınıflandırılan örneklerin sayısı bu matrisin diyagonal elemanlarının toplamına eşittir
[32].
Karışıklık matrisinden elde edilen bu sayılarla çeşitli ölçütler hesaplanır. Bunlardan
doğruluk (accuracy) ölçütü, tüm veri içinde doğru tahmin edilenlerin oranını ölçmeye
imkan tanır. Bütün hata tiplerini dikkate alarak, pozitif ve negatif örnekleri aynı
derecede
önemsemeyi
sağlar.
Sınıflandırıcının
toplam
performansını
değerlendirmeye yardımcı olur. Fakat doğruluk ölçütü, veri kümesinde dengesiz
dağılım var ise yeterli olmamaktadır. Bu durumda kullanılan kesinlik (recall) ve
duyarlılık (precision) ölçütleri, sırasıyla, pozitif örneklerin negatif olarak
sınıflandırılmasından
oluşan
hatalar
ile
negatif
örneklerin
pozitif
olarak
sınıflandırılmasından oluşan hataları belirtirler. F-ölçütü (f-measure) geri çağırım ve
duyarlılık ölçütlerini, her ikisinin armonik ortalamasını alarak birleştirir [32].
27
ğ
ı
ıı
ı
ı
ğ
ı ı
ı
ı ı
ı
ı
ğ
ı ı
ı
ı ı
ğ
ı
ö
ö
(3.1)
ı ı
ı ı
(3.2)
(3.3)
Ö çü ü
ıı
ıı
(3.4)
Algoritmaların performans değerlendirmesi için, MUC tarafından tavsiye edilen en
temel model başarım ölçütleri; doğruluk oranı, kesinlik, duyarlılık ve f ölçütüdür.
Modelin başarısı ölçülürken, yukarıda verilen doğruluk, duyarlılık, kesinlik ve F
ölçütlerinin dışında, ayrıca ROC area değeri ve kappa istatistiği de ölçüt olarak
kullanılabilir.
Kappa istatistiği, yapılan tahminin doğruluk ölçüsüdür. Doğruluk ölçütüne alternatif
olarak, kappa istatistiği de kullanılabilir. Kappa istatistik değeri 1’e yaklaştığında
tesadüfün ötesinde bir uyum olduğunu, 0’a yaklaştığında ise uyumsuzluğun
olduğunu gösterir.
Landis ve Koch (1977), kappa istatistik değerinin 0,4’ün üzerinde olması durumunda
ölçümün tesadüfi olmadığını, uyum kabul edilebileceğini, kappa istatistik değerinin
0,6 ile 0,8 arasında olması önemli bir derecede uyum olduğunu, 0,8 ile 1 arasında
olması ise neredeyse mükemmel bir uyumun olduğunu gösterdiğini söylemektedir
[33].
28
Veri madenciliği uygulamalarında kappa istatistiği, sınıflandırma algoritmasının
doğruluğu ile tesadüfî tahminde bulunan rastgele bir sınıflandırma algoritmasının
doğruluğunun karşılaştırılması amacıyla kullanılmaktadır.
ROC eğrisi, TP ve FP değerleri kullanılarak düzenlenen bir grafiktir. ROC area
değerinin de, kappa istatistik değeri gibi 1’e yakın olması istenir.
3.5.4. Bilginin sunumu aşaması
Veri madenciliği algoritması veriler üzerinde uygulandıktan sonra, sonuçlar
düzenlenerek ilgili yerlere sunulur. Sonuçlar çoğu kez grafiklerle desteklenir.
Örneğin bir hiyerarşik kümeleme modeli uygulanmış ise sonuçlar dendrogram adı
verilen özel grafiklerle sunulur [25].
3.6. Veri Madenciliği Modelleri
Veri madenciliği konusunda çok sayıda yöntem ve algoritma geliştirilmiştir. Bu
yöntemlerin birçoğu istatistiksel tabanlıdır. Veri madenciliği modellerini temel
olarak şu şekilde gruplandırabiliriz [25]:
a) Sınıflandırma
b) Kümeleme
c) Birliktelik Kuralları
Veri madenciliği modelleri ve en çok kullanılan algoritmalar Şekil 3.3.’de
gösterilmiştir:
29
Veri Madenciliği Modelleri
Sınıflandırma
Kümeleme
Birliktelik Kuralları
Naive Bayes
Algoriması
K-Means
Algoritması
Apriori
Algoritması
Karar Ağaçları
Algoritmaları
K-Medoid
Algoritması
FP Tree
Algoritması
En yakın Komşu
Algoritması
EM Algoritması
Yapay Sinir Ağları
OPTICS
Algoritması
GRI(The
Generalized Rule
Induction)
Genetik Algoritma
DBSCAN
Algoritması
Karar Destek
Makineleri
CobWeb
Algoritması
Şekil 3.3. Veri madenciliği modelleri ve algoritmalar
3.6.1. Sınıflandırma
Sınıflama veri madenciliğinde sıkça kullanılan bir yöntem olup, veri tabanlarındaki
gizli örüntüleri ortaya çıkarmakta kullanılır. Verilerin sınıflandırılması için belirli bir
süreç izlenir. Öncelikle var olan veri tabanının bir kısmı eğitim amacıyla kullanılarak
sınıflandırma kurallarının oluşturulması sağlanır. Daha sonra bu kurallar yardımıyla
yeni bir durum ortaya çıktığında nasıl karar verileceği belirlenir [25].
Geçmiş bilgilerin hangi sınıflara ait olduğu verilir ve yeni gelen verinin hangi sınıfa
dahil olduğu bulunur. Örnek olarak iki tahlil sonucuna göre bir kişinin hasta olup
olmadığı belirlenmeye çalışılırsa önceki hasta ve sağlam kişilerin tahlil sonuçları
kullanılır [28].
Her veri kümesinde mükemmel çalışan bir algoritma olmadığından birçok
sınıflandırma algoritması geliştirilmiştir. Sınıflandırma algoritmalarından en çok
kullanılanlar; Karar Ağaçları Algoritması, Bayes Sınıflandırıcılar ve Bayes Ağları,
En Yakın Komşu Algoritması, Destek Vektör Makineleri, Yapay Sinir Ağları ve
Genetik Algoritmalarıdır. Bu tez kapsamında, Bayes Sınıflandırıcısı kullanılmıştır.
30
Sınıflandırma uygulamalarına; kredi kartı harcamasının sahtekarlık olup olmadığına
karar verilmesi, kredi başvurularının değerlendirilmesi, yazı tanıma, ses tanıma,
akademik bir çalışmanın çalıntı olup olmadığının tespiti, kanserli hücrelerin tespiti,
isimsiz bir metnin yazarının tespiti gibi örnekler verilebilir.
Sade Bayes sınıflandırıcısı (Naive Bayes sınıflandırıcısı)
Sade Bayes sınıflandırıcısı ya da kısaca “Bayes Sınıflandırıcısı” kavramını şu şekilde
açıklayabiliriz [25]:
X sınıf üyeliği bilinmeyen veri örneği olsun. Örnek X{x 1, x2…xn} nitelik
değerlerinden oluşsun. Bu örnek sınıfta m sınıf olduğunu varsayalım. C1, C2…Cn
sınıf değerleri olsun.
Sınıfı belirlenecek olan örneğe ilişkin olarak,
P(X|Ci) P(Ci)
P(Ci | X) =
(3.5)
olasılıkları hesaplanır.
Hesaplamalardaki işlem yükünü azaltmak üzere P(X|Ci)
olasılığı için basitleştirme yoluna gidilebilir. Bunun için, örneğe ait Xi değerlerinin
birbirinden bağımsız olduğu kabul edilerek şu bağıntı kurulabilir:
⬚P( Xk | Ci )
P(X|Ci) =
(3.6)
=1
Bilinmeyen örnek X’ i sınıflandırmak için (3. 5) de P(Ci|X) içinde yer alan paydalar
birbirine eşit olduğuna göre sadece pay değerlerinin karşılaştırılması yeterlidir. Bu
değerler içinden en büyük olanı seçilerek bilinmeyen örneğin bu sınıfa ait olduğu
belirlenmiş olur.
arg max {P(X | Ci) P(Ci) }
Ci
(3.7)
31
Sonrasal olasılıkları kullanan yukarıdaki ifade, en büyük sonrasal sınıflandırma
yöntemi ( Maximum A Posteriori Classification = MAP) olarak ta bilinir. O halde
sonuç olarak (3.6) dan dolayı, Bayes sınıflandırıcısı olarak aşağıdaki bağıntı
kullanılabilir:
⬚P( Xk | Ci )
C MAP = argmax
C
(3.8)
=1
Naive Bayes sınıflandırıcı, Bayes karar teorisine dayanan olasılıksal bir
sınıflandırıcıdır. Naive Bayes sınıflandırıcısında; niteliklerin hepsinin aynı derecede
önemli olduğu, niteliklerin birbirinden bağımsız olduğu ve bir nitelik değerinin başka
bir nitelik değeri hakkında bilgi içermediği kabul edilir. Naive Bayes
sınıflandırıcısının çoğu durumda iyi sonuç vermesi, gerçekleşmesinin kolay olması
yüksek doğruluk, kesin ve hızlı sonuçlar üretmesi, algoritmanın basit ve anlaşılabilir
olması avantajları arasında sayılabilir.
Gerçek hayatta değişkenler birbiri ile bağımlıdır. Bu nedenle niteliklerin birbirinden
bağımsız
olduğu
varsayımına
dayanması
Naive
Bayes
sınıflandırıcısının
dezavantajıdır.
Naive Bayes algoritmasının tez kapsamında kullanılması nedeniyle aşağıda Naive
Bayes algoritması bir örnek üzerinde açıklanmıştır [25]:
Çizelge 3.2. Eğitim veri seti
Başvuru
Eğitim
Yaş
Cinsiyet
Kabul
1
ORTA
YAŞLI
ERKEK
EVET
2
İLK
GENÇ
ERKEK
HAYIR
3
YÜKSEK
ORTA
KADIN
HAYIR
4
ORTA
ORTA
ERKEK
EVET
5
İLK
ORTA
ERKEK
EVET
6
YÜKSEK
YAŞLI
KADIN
EVET
7
İLK
GENÇ
KADIN
HAYIR
8
ORTA
ORTA
KADIN
EVET
32
Yukarıdaki eğitim kümesini ele alarak, Bayes sınıflandırıcılarını kullanmak suretiyle
aşağıdaki örneğin hangi sınıfa ait olduğunu belirlemek istiyoruz.
X1: EĞİTİM = YÜKSEK,
X2: YAŞ = ORTA,
X3: CİNSİYET = KADIN,
KABUL = ?
Bayes olasılıklarını hesaplamak amacıyla Çizelge 3.3.’ü düzenliyoruz.
Çizelge 3.3. Eğitim veri seti kriterlerine ait frekanslar
KABUL
Nitelikler
EĞİTİM
YAŞ
CİNSİYET
Değeri
EVET
HAYIR
Sayısı
Olasılık
Sayısı
Olasılık
İLK
1
1/5
2
2/3
ORTA
3
3/5
0
0
YÜKSEK
1
1/5
1
1/3
GENÇ
0
0
2
2/3
ORTA
3
3/5
1
1/3
YAŞLI
2
2/5
0
0
ERKEK
3
3/5
1
1/3
KADIN
2
2/5
2
2/3
Bayes sınıflandırmasını gerçekleştirmek için her bir hipotez için Bayes olasılıkları
tek tek hesaplanır.
C1: KABUL = EVET
C2: KABUL = HAYIR
olmak üzere
|
ve
|
ifadelerini hesaplamamız gerekiyor.
Söz konusu ifadeler içinde en büyük olası bize örneğin sınıfını verecektir.
33
a.
|
olasılığının hesaplanması
Burada P(X|KABUL=EVET) koşullu olasılığını hesaplamak gerekiyor. Söz konusu
olasılığı bulmak için X= {X1, X2,..,Xn} değerleri için ayrı ayrı koşullu olasılıkları
bulmak gerekmektedir.
P(X1|C1) = P(EĞİTİM = YÜKSEK|KABUL = EVET) =
1
P(X2|C1) = P(YAŞ= ORTA|KABUL = EVET) =
P(X3|C1) = P(CİNSİYET = KADIN|KABUL = EVET) =
O halde;
1
P(X|C1) = P(X|KABUL = EVET) =( ) ( ) ( )= 1
hesaplanır. Diğer taraftan P(X|KABUL = EVET) olasılığı şu şekilde elde edilir:
P(C1) = P(KABUL=EVET) =
Böylece,
P(X|C1)P(C1)= P(X|KABUL=EVET)P(KABUL=EVET) = (1 ) ( )
elde
edilmiş olur.
b.
|
olasılığının hesaplanması
Burada önce P(X|C2) olasılığını hesaplamak gerekiyor. Yani P(X|KABUL=HAYIR)
olasılığı hesaplanacaktır. X’ in her bir değeri için aşağıdaki hesaplamalar yapılır:
P(X1|C2) = P(EĞİTİM = YÜKSEK|KABUL = HAYIR) =
P(X2|C2) = P(YAŞ= ORTA|KABUL = HAYIR) =
1
P(X3|C2) = P(CİNSİYET = KADIN|KABUL = HAYIR) =
1
34
Bu değerler kullanılarak şu hesaplama yapılır:
1
1
P(X|C2) = P(X|KABUL = HAYIR) =( ) ( ) ( )=
Bunun dışında P(X|KABUL = HAYIR) olasılığı şu şekilde elde edilir:
P(C2) = P(KABUL=HAYIR) =
olduğundan şu hesaplama yapılabilir:
P(X|C1)P(C1)= P(X|KABUL=HAYIR)P(KABUL=HAYIR) = ( ) ( )
c. Sonuç
MAP yöntemine göre sınıflandırmayı yapmak üzere argmaxciP(P(X|Ci)P(Ci) değerini
bulabiliriz.
argmaxci{ P(P(X|Ci)P(Ci)} = max {0.03,0.027} = 0.03
O halde örneğin 0.03 olasılığı ile ilgili olan sınıfa, yani “EVET” sınıfına ait olduğu
anlaşılır.
Naive Bayes algoritmasında olasılığın sıfır olması
Naive Bayes sınıflandırma algoritmasında, her bir olasılık değerinin sıfırdan büyük
olması gerekir, aksi takdirde bütün olasılık sıfır olur.
Olasılığın sıfır olması durumunu, önlemek için k gibi küçük bir değer her orana
eklenir. Her bir
oranına k sayısının ilave edilmesiyle
bağıntısı elde edilir.
Burada k ilave edilecek sayı, p ise 0 sorununa neden olan kriterin farklı değer
sayısıdır [25]. Eklenen sayı, veri seti büyük olduğu için çok fark etmez.
35
3.6.2. Kümeleme
Kümeleme analizi, sınıflandırmada olduğu gibi sahip olunan verileri gruplara ayırma
işlemidir. Sınıflandırma işleminde, sınıflar önceden belirli iken kümelemede sınıflar
önceden belirli değildir. Verilerin hangi kümelere ve kaç değişik gruba ayrılacağı
eldeki verilerin birbirlerine olan uzaklığa göre belirlenir. Kümeleme analizi biyoloji,
tıp, antropoloji, pazarlama, ekonomi ve telekomünikasyon gibi birçok alanda
kullanılmaktadır [34].
Kümeleme analizi; birimleri, değişkenler arası benzerlik ya da farklılıklara dayalı
olarak hesaplanan bazı ölçülerden yararlanarak homojen gruplara bölmek belirli
prototipler tanımlamak amacıyla kullanılır [27].
Kümeleme analizinin uygulama aşamaları aşağıdaki gibi verilebilir [27]:
a) Birim ya da değişkenlerin doğal sınıflamaları hakkında kesin bilgilerin
bulunmadığı popülasyonlardan alınan n sayıda birimin p sayıda değişkenine
ilişkin gözlemlerin elde edilir. (Veri matrisinin belirlenmesi)
b) Birimlerin / değişkenlerin birbirleri ile olan benzerliklerini ya da farklılıklarını
gösteren uygun bir benzerlik ölçüsü ile birimlerin/ değişkenlerin birbirlerine
uzaklıklarının hesaplanır. (Benzerlik ya da farklılık matrislerinin belirlenmesi)
c) Uygun kümeleme yöntemi (algoritma) yardımı ile benzerlik ve farklılık
matrislerine göre birimlerin / değişkenlerin uygun sayıda kümelere ayrılması
d) Elde edilen kümelerin yorumlanması ve bu kümeleme yapısına dayalı olarak
kurulan hipotezlerin doğrulanması için gerekli analitik yöntemler uygulanır.
Kümeleme analizinde en çok kullanılan algoritmalar; K-Means, K-Medoids,
OPTICS, DBSCAN, CobWeb algoritmalarıdır. Kümeleme analizi; diğer veri
madenciliği uygulamaları için veri önişleme de verinin azaltılması için kümeleme
merkezinin kullanılması ve veri setinin dağılımını anlamak için kullanılabilir. Ayrıca
Kümeleme analizi; doküman demetlenmesi, kullanıcı ve kullanıcı davranışlarını
demetlenmesi, sapan verilerin belirlenmesi için de kullanılabilir.
36
3.6.3. Birliktelik kuralları
Birliktelik kuralları, veri seti içindeki yaygın örüntülerin ve nesneleri oluşturan
öğeler arasındaki ilişkilerin çıkarılması işlemidir.
Birliktelik kurallarının kullanıldığı en tipik örnek market sepeti uygulamasıdır. Bu
işlem, müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri bularak
müşterilerin satın alma alışkanlıklarını analiz eder. Bu tip birlikteliklerin
keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve
market yöneticileri de bu bilgi ışığında daha etki satış stratejileri geliştirebilirler.
Örneğin bir müşteri süt satın alıyorsa, aynı alışverişte sütün yanında ekmek alma
olasılığı nedir? Bu tip bir bilgi ışığında rafları düzenleyen market yöneticileri
ürünlerindeki satış oranını arttırabilirler. Örneğin bir marketin müşterilerinin süt ile
birlikte ekmek satın alan oranı yüksekse, market yöneticileri süt ile ekmek raflarını
yan yana koyarak ekmek satışlarını arttırabilirler [35]:
Sepet analizinde amaç alanlar arasındaki ilişkileri bulmaktır. Bu ilişkilerin bilinmesi
şirketin kârını arttırmak için kullanılabilir. Eğer X malını alanların Y malını da çok
yüksek olasılıkla aldıklarını biliyorsanız ve eğer bir müşteri X malını alıyor ama Y
malını almıyorsa o potansiyel bir Y müşterisidir. Eğer elimizdeki veride mallar için
sadece satın alındı/alınmadı bilgisi varsa, sepet analizinde mallar arasındaki bağıntı,
destek ve güven kıstasları aracılığıyla hesaplanır. İki mal, X ve Y, için destek ve
güven tanımları şöyledir [36]:
ı ı
Destek:
Güven:
ı
ış
üş
|
üş
ı ı
(3. 9)
ı ı
ı ı
ı ı
ı
ı
ış
ış
üş
üş
ı ı
ı ı
(3.10)
Destek veride bu bağıntının ne kadar sık olduğunu, güven de Y malını almış bir
kişinin hangi olasılıkla X malını alacağını söyler. Bağıntının önemli olması için her
iki değerin de olabildiğince büyük olması gerekir.
37
Birliktelik kurallarını bulmak için yaygın olarak Apriori, FP Tree ve GRI
(TheGeneralizedRuleInduction) algoritmaları kullanılmaktadır.
38
4. MATERYAL VE METOD
Bu bölümde, çalışma kapsamında kullanılan materyal ve metotlardan bahsedilmiştir.
Kullanılan materyal ve metodun neden seçildiğinden, geliştirilen sistemin genel
özelliklerinden, süreçte kullanılan araçlardan ve verilerin işlenebilmesi için gereken
kaynakların nereden alınacağından bahsedilmiştir.
Uygulamada,
Ahmet-Alper
Dinçer
Anadolu
Lisesi
öğrenci
verilerinden
yararlanılmıştır. Öğrenci veri ambarı oluşturmak, üniversite giriş sınavında başarıyı
etkileyen faktörlerin öncelik sıralarını araştırmak ve öğrencilerin üniversite giriş
sınavındaki başarı durumlarını tahmin etmek hedeflenmiştir.
4.1. Yazılımın Geliştirilmesinde Kullanılan Araçlar
Veri ambarında yer alan veriler, ilk önce WEKA programında veri önişleme
basamakları gerçekleştirilmiştir. Daha sonra WEKA programında, tüm sınıflandırma
algoritmaları uygulanmış, en iyi sonuç veren Naive Bayes algoritması, C#
programlama dilinde kodlanarak, bu problemin çözümüne yönelik özelleştirilmiş bir
yazılım gerçekleştirilmiştir.
WEKA yazılımı
WEKA makine öğrenme algoritmalarının ve veri önişleme araçlarının bir araya
getirildiği, akademik çevrelerde sıklıkla kullanılan, açık kaynak kodlu bir veri
madenciliği programıdır. Yeni Zelanda’nın Waikato Üniversitesinde geliştirilmiş
ücretsiz bir yazılımdır. Yazılım, Java yazılım dili ile geliştirilmiştir. Büyük veri
tabanlarında kullanılabilir.
39
WEKA1 ile verinin hazırlanması, sınıflama, kümeleme, birliktelik analizi, nitelik
değerlerinin
seçilmesi
yapılabilmektedir.
WEKA
programı
dört
kısımdan
oluşmaktadır:
a) Simple CLI
: Basit komut satırı ara yüzü olarak adlandırılan bu kısım,
WEKA komutlarının direkt olarak çalıştırılmasını sağlar.
b) Explorer
: WEKA ile veri keşfi yapılmasına imkan sağlayan bir
platformdur. Veri madenciliği tekniklerini kullanmayı ve görselleştirme yapmayı
sağlayan kısımdır.
c) Experimenter
: Öğrenme setlerinin denemelerinin ve aralarındaki istatistiksel
testlerin yapılmasını sağlayan kısımdır.
d) Knowledge Flow : Explorer kısmının grafik olarak temsil edilmesidir. Bilgi
akışının modellenmesini sağlayan bir kısımdır.
Explorer ilk çalıştırıldığında veri önişleme menüsü dışındaki bölümler aktif değildir.
Bunun sebebi öncelikle bir veri seti seçilmesini sağlamaktır. Veri seti bir dosyadan,
veri ambarından ya da URL adresi girilerek seçilebilir. WEKA, veri setleri için arff,
data ve csv uzantılı dosya formatını kabul etmektedir.
Üniversite giriş sınavında başarı tahmini için geliştirilen uygulama yazılımında
kullanılan araçlar
Yazılım, Microsoft Visual Studio 2008 C#.Net kullanılarak geliştirilmiştir. Veri
tabanı tasarımı için, ilişkisel veri tabanı modeline uygun olan MSSQL 2005 veri
tabanı kullanılmıştır. Veri tabanı tasarımı, veri temizleme, eksik değer problemini
çözmek ve veri dönüştürme işleminde kullanılan SQL komutları için, SQL Server
Managemet Studio Express arayüz programından yararlanılmıştır.
1
Weka paket programı, http://www.cs.waikato.ac.nz/ml/weka adresinden temin
edilebilir.
40
4.2. Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Kriterlerin
Seçimi
Yazılımda, öznitelik seçme algoritmaları kullanılarak niteliklerin önem dereceleri ve
öncelikli olarak hangi niteliklerin seçilmesi gerektiğine karar verilmiştir. Öznitelik
seçimi işleminde, 39 nitelikten 20 nitelik seçilerek sınıflandırma işlemi yapılmış,
sınıflandırma algoritmalarının başarı oranları karşılaştırılmıştır.
Öznitelik seçme algoritmalarından en yüksek başarıyı veren, GainRatioAttributeEval
algoritması kullanılarak, 39 nitelik bilgisinden öğrencilerin üniversite sınavını
kazanmasına öncelikli olarak etkileyen 20 öznitelik seçilmiştir.
4.3. Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Sınıflandırma
Algoritmasının Seçimi
Geçmiş tecrübelere dayanarak tahmin işleminin yapılması konusunda yapay zekanın
bir alanı olarak makine öğrenmesi ve veri madenciliği teknikleri araştırılmıştır.
Yapılan araştırma sonucunda, problemlerin çözümü için yüksek doğruluk ve başarı
elde edildiğinden, hızlı ve çabuk eğitilebilir olduğundan dolayı genellikle Naive
Bayes algoritmasının kullanıldığı görülmüştür.
Veri madenciliğinde model başarımı değerlendirilirken doğruluk, kesinlik, duyarlılık
ve f ölçütüne bakılır. Sınıflandırma algoritmaları karşılaştırıldığında, model başarım
ölçütleri ışığında en çok verim alınan algoritma, Naive Bayes algoritmasıdır.
Bununla birlikte, en fazla doğru olarak sınıflandırılan örnek sayısının buna bağlı
olarak başarı yüzdesi Naive Bayes algoritmasına aittir.
Bu çalışmada, üniversite giriş sınavında başarının tahminde kullanılan kriterlerin ve
algoritmanın seçimi konusunda hem literatürdeki çalışmalar hem de model başarım
ölçütlerinin sonuçları ışığında Naive Bayes algoritması kodlanmıştır.
41
5. ÜNİVERSİTE GİRİŞ SINAVINDA VERİ MADENCİLİĞİ İLE BAŞARI
TAHMİNİ
Bu bölümde, geliştirilen yazılımda üniversite giriş sınavına giren öğrencilerin başarı
tahmini yapılırken algoritmanın uygulama aşamalarından ve bu süreçte yazılımın
nasıl kullanıldığından bahsedilmiştir.
5.1. Problemin Tanımı
Ülkemizde, yükseköğrenim görmek için üniversite giriş sınavında yeterli puanı
alarak başarılı olmak gerekmektedir. Üniversite giriş sınavına giren öğrencilerin
sayısının her yıl artması ile birlikte, üniversite giriş sınavı zorlaşmakta ve rekabet
artmaktadır. Üniversite giriş sınavında başarılı olmak, bireylerin meslek hayatlarını
ve gelecekteki statülerini etkilediğinden çok daha fazla önem arz etmektedir. Bu
nedenle üniversite giriş sınavında başarıyı etkileyen faktörlerin araştırılması,
öğrencilerin sınavda başarıları tahmin edilerek erken uyarı sisteminin geliştirilmesi
başarının artmasında önemli rol oynamaktadır.
Uygulama, Gölbaşı Ahmet- Alper Dinçer Lisesi öğrenci verilerinden yararlanılarak
gerçekleştirilmiştir. Bu çalışmada mezun öğrencilerden elde edilen 220 adet kayıt
kullanılmıştır. Öğrencilerin üniversite sınavını kazanmasına etki eden nitelikler
araştırılmış, bu niteliklere göre öğrencilerin sınavı kazanıp kazanamayacakları veri
madenciliği ile tahmin edilmeye çalışılmıştır. Yapılan çalışma sonucunda,
öğrencilerin başarısızlıkların nedenini bulmak, üniversite giriş sınavında hangi
niteliğin daha etkin olduğunu araştırmak, mevcut veri seti ile makinenin eğitilip, yeni
bir veri kümesinde sınavı kazanıp kazanamayacağını tahmin etmek hedeflenmiştir.
Bulunan sonuçlar, daha kaliteli eğitim verilebilmesi, öğrencilerin zayıf olduğu
niteliğin güçlendirilmesi açısından yardımcı olacaktır.
42
5.2. Verilerin Elde Edilme Süreci
Uygulamada öğrenci veri ambarı oluşturulurken öğrenci tanıma fişleri, e-okul
sistemine girilen veriler, lise öğrenci dosyaları, öğrenci üniversite sınav sonuç
belgesi, rehberlik birimi dokümanları, ilköğretim öğrenci dosyaları ve öğrencilere
düzenlenen anket sonuçları birleştirilmiştir. Veriler elde edildikten sonra eksik ve
gürültülü veriler üzerinde veri madenciliği sürecinin basamaklarından veri önişleme
uygulanarak gerekli düzeltmeler yapılmıştır.
Öğrenci veri ambarı 220 kayıttan, 39 nitelik ve 1 sınıf bilgisinden oluşmaktadır. Bu
nitelikler oluşturulurken, eğitimde kaliteyi etkileyen faktörler, araçlar, uygulanan
modeller, rehberlik hizmetleri araştırılarak, literatürde daha önceden bu konuda
çalışılmış, eğitimde verimliliği artırdığı ve eğitimi etkilediği düşünülen niteliklerin
belirlenmesine dikkat edilmiştir. Öğrencilerin sosyoekonomik düzeyi, annenin ve
babanın eğitim durumu, annenin ve babanın mesleği, bireysel özellikleri, dershane
bilgisi, not bilgisi gibi eğitimde kaliteyi etkileyen özellikleri alınarak bir veri ambarı
oluşturulmuştur. Bu nitelikler ve alabileceği değerler Çizelge 5.1.’de verilmiştir.
Çizelge 5.1. Nitelikler ve alabileceği değerler
Nitelikler
Cinsiyet
Hangi bölümde okuyor?
Okulda velisi kim?
Kiminle oturuyor?
Kendi odası var mı?
Ev ne ile ısınıyor?
Bir işte çalışıyor mu?
Aile dışında kalan var mı?
Sürekli hastalığı var mı?
Sürekli kullandığı ilaç
Nitelik Adı
CINS
DAL
VELI
KALYER
ODA
ISINMA
ISCALIS
AILEDISI
HAST
ILAC
Baba Meslek
BMESLEK
Baba Öğrenim Durumu
BTAH
Alabileceği Değerler
Kız, Erkek
Eşit Ağırlık, Sayısal, Sözel
Anne, Baba
Aile, Akraba
Var, Yok
Kalorifer, Soba
Evet, Hayır
Evet, Hayır
Evet, Hayır
Kullandığı ilaç yok, Astım ilacı, Kalp
ilacı, Sara ilacı, Şeker ilacı, Diğer
Memur, Esnaf, Emekli, İnşaat, İşçi,
Serbest, Şoför, Diğer
İlkokul, Ortaokul, Lise, Ön lisans,
Lisans, Yüksek Lisans, Doktora
43
Çizelge 5.1. (Devam) Nitelikler ve alabileceği değerler
Anne Meslek
AMESLEK
Anne Öğrenim Durumu
ATAH
Kardeş sayısı nedir?
Baba Hayatta mı?
Anne Hayatta mı?
Anne Baba birlikte mi?
Aile gelir durumu nedir?
Ailede
üniversite
mezunu
/okuyan var mı?
Dershaneye gidiyor mu?
Kitap Okuma alışkanlığı var
mı?
Sosyal faaliyetlere katılma
bilgisi nasıldır?
Çalışma düzeni nasıldır?
Evine düzenli olarak gazete
alınıyor mu?
Evinde bilgisayar var mı?
Evinde internet var mı?
Sınav Kaygısı var mı?
9. sınıf not ortalaması nedir?
10. sınıf not ortalaması nedir?
11. sınıf not ortalaması nedir?
12. sınıf not ortalaması nedir?
9. sınıf devamsızlık bilgisi
nedir?
10. sınıf devamsızlık bilgisi
nedir?
11. sınıf devamsızlık bilgisi
nedir?
12. sınıf devamsızlık bilgisi
nedir?
İlkokul diploma notu nedir?
Ağırlıklı Ortaöğretim başarı
puanı nedir?
Üniversite sınav puanı
Sonuç Bilgisi
KARDES
BSAG
ASAG
ABERABER
AGELIR
AUNI
Memur, Esnaf, Emekli, Ev hanımı, İşçi,
Serbest, Şoför, Diğer
İlkokul, Ortaokul, Lise, Ön lisans,
Lisans, Yüksek Lisans, Doktora
0-15
Evet, Hayır
Evet, Hayır
Birlikte, Ayrı
Çok Kötü, Düşük, Orta, İyi, Çok iyi
Var, Yok
DERSHANE
KITAP
Evet, Hayır
Var, Yok
FAAL
Zayıf, Orta, İyi, Çok iyi
CALISD
GAZETE
Günlük, Sınav Dönemi
Evet, Hayır
BILG
INT
SINAVK
N9
N10
N11
N12
D9
Evet, Hayır
Evet, Hayır
Var, Yok
0 -100
0 -100
0 -100
0 -100
0-20
D10
0-20
D11
0-20
D12
0-20
ILKOGR
APO
1-5
0-100
PUAN
CLASS
0-500
Kazandı, Kazanamadı
44
Veri madenciliği uygulamalarında, örneklem sayısı ve nitelik sayısı çok önemlidir.
Nitelikler içinden, optimum sayıya ulaşmak, işlem karmaşıklığını azaltmak, daha
kısa sürede sonuca ulaşmak, hesaplama hata olasılığını düşürmek ve daha doğru
genelleme yapabilmek için öznitelik seçme işlemi yapılmaktadır.
Bu 39 nitelik veri azaltma bölümünde, öznitelik seçme işlemine tabi tutulacak ve 20
adet öznitelik ile çalışılacaktır.
5.3. Veri Önişleme Basamakları
Veri madenciliğinin en önemli aşaması veri önişleme basamağıdır. Verinin kalitesi,
veri
madenciliğinin
performansı
açısından
çok
önemlidir.
Veri
önişleme
basamağında, eksik değer problemini çözmek, gürültülü verileri düzeltmek ve veri
dönüştürme işlemleri için
“Structured Query Language” (SQL) komutları
kullanılmıştır.
Veri önişleme basamakları aşağıdaki şekilde sıralanabilir:
a) Veri Temizleme
b) Veri Bütünleştirme
c) Veri Dönüştürme
d) Veri Azaltma
5.3.1. Veri temizleme
Veri ambarında bulunan BMESLEK, AMESLEK, ATAH, AUNI, N9, N10, N11,
N12 ve D9 nitelikleri içerisinde eksik değerler yer almaktadır. Baba mesleği, anne
mesleği, baba tahsil, anne tahsil ve ailede üniversite mezunu sayısı nitelikleri
kategorik verilerdir. Bu kategorik verilerdeki eksik verilerin sayısı çok fazla
olmadığından, BOS isimli genel bir değerle doldurulmuştur.
update veriambar set BMESLEK='BOS' where BMESLEK is null;
update veriambar set AMESLEK='BOS' where AMESLEK is null;
update veriambar set AUNI='BOS' where AUNI is null;
45
Nakil işlemi ile gelen 22 öğrencinin 9. Sınıf devamsızlık bilgisi bulunmamaktadır.
D9 niteliği boş olan kayıtlara, D9 alanının ortalaması yazılarak veri düzeltme işlemi
yapılmıştır.
update veriambar set D9 = ( Select AVG ( D9 ) From veriambar where D9 is not
null ) where D9 is null ;
N9,N10, N11, N12 niteliği boş olan 2 kayıt için, bu alanların ortalaması alınarak
düzeltme işlemi yapılmıştır.
update veriambar set N9=(Select AVG(N9) From veriambar where N9 is not null)
where N9 is null ;
update veriambar set N10=(Select AVG(N10) From veriambar where N10 is not
null) where N10 is null ;
update veriambar set N11=(Select AVG(N11) From veriambar where N11 is not
null) where N11 is null ;
update veriambar set N12=(Select AVG(N12) From veriambar where N12 is not
null) where N12 is null ;
5.3.2. Veri bütünleştirme
Veri bütünleştirme işlemi, veri tabanlarından, çeşitli bilgi kaynaklarından gelen
verilerin birleştirilmesi, artık verilerin kaldırılmasıdır. Öğrenci tanıma fişlerinden, eokul sistemine girilen verilerden, lise öğrenci dosyalarından, üniversite sınav sonuç
belgesinden, rehberlik birimi dokümanlarından ve ilköğretim öğrenci dosyalarından
alınan bilgiler ışığında öğrenci veri ambarı oluşturulmuştur.
5.3.3. Veri dönüştürme
Veri temizlemeden ve bütünleştirmeden sonraki adım veri dönüştürmedir. Veri
ambarındaki N9, N10, N11, N12, DEVAM, KARDES, ILKOGR, APO ve PUAN
nitelikleri üzerinde veri dönüştürme işlemleri yapılmıştır. Buna göre aşağıdaki
dönüşümler elde edilmiştir:
46
a) SQL komutları ile N9, N10, N11, N12 niteliklerinde bulunan, not bilgisi kayıtları
aşağıdaki şekilde kategorize edilmiştir:
Update veriambar set N9='N1' where N9<=100 and N9 >=95
Update veriambar set N9='N2' where N9<95 and N9 >=90
Update veriambar set N9='N3' where N9<90 and N9 >=85
Update veriambar set N9='N4' where N9<85 and N9 >=80
Update veriambar set N9='N5' where N9<80 and N9 >=75
Update veriambar set N9='N6' where N9<75 and N9 >=70
Update veriambar set N9='N7' where N9<70 and N9 >=65
Update veriambar set N9='N8' where N9<65 and N9 >=60
Update veriambar set N9='N9' where N9<60 and N9 >=55
Update veriambar set N9='N10' where N9<55 and N9 >=50
Update veriambar set N9='N11' where N9<50 and N9 >=45
Update veriambar set N9='N12' where N9<45 and N9 >=40
b) SQL komutları ile DEVAM niteliğinde bulunan, devamsızlık bilgisi kayıtları
aşağıdaki şekilde kategorize edilmiştir:
Update veriambar set Devam='D1' where Devam<=5 and Devam >=0
Update veriambar set Devam='D2' where Devam<=10 and Devam >5
Update veriambar set Devam='D3' where Devam<=15 and Devam >10
Update veriambar set Devam='D4' where Devam<=20 and Devam>15
c) SQL komutları ile KARDES niteliğinde bulunan, kardeş sayısı bilgisi kayıtları
aşağıdaki şekilde kategorize edilmiştir:
Update veriambar set kardes='K5' where kardes<=15 and kardes >=8
Update veriambar set kardes='K4' where kardes<8 and kardes >=6
Update veriambar set kardes='K3' where kardes<6 and kardes >=4
Update veriambar set kardes='K2' where kardes<4 and kardes >=2
Update veriambar set kardes='K1' where kardes<2 and kardes>=0
47
d) SQL komutları ile ILKOGR niteliğinde bulunan, ilköğretim diploma notu bilgisi
kayıtları aşağıdaki şekilde kategorize edilmiştir:
Update veriambar set ilkogr='I5' where ilkogr<=5 and ilkogr >=4.5
Update veriambar set ilkogr='I4' where ilkogr<4.5 and ilkogr >=4
Update veriambar set ilkogr='I3' where ilkogr<4 and ilkogr >=3.5
Update veriambar set ilkogr='I2' where ilkogr<3.5 and ilkogr >=3
Update veriambar set ilkogr='I1' where ilkogr<3 and ilkogr>=2.5
e) SQL komutları ile APO niteliğinde bulunan, ağırlıklı ortaöğretim başarı puanı
kayıtları aşağıdaki şekilde kategorize edilmiştir:
Update veriambar set apo='A1' where apo<=100 and apo >=95
Update veriambar set apo='A2' where apo<95 and apo >=90
Update veriambar set apo='A3' where apo<90 and apo >=85
Update veriambar set apo='A4' where apo<85 and apo >=80
Update veriambar set apo='A5' where apo<80 and apo >=75
Update veriambar set apo='A6' where apo<75 and apo >=70
Update veriambar set apo='A7' where apo<70 and apo >=65
Update veriambar set apo='A8' where apo<65 and apo >=60
Update veriambar set apo='A9' where apo<60 and apo >=55
Update veriambar set apo='A10' where apo<55 and apo >=40
f) SQL komutları ile PUAN niteliğinde bulunan üniversite giriş sınav puan bilgisi
alanı aşağıdaki şekilde kategorize edilmiştir:
Update veriambar set puan='KAZANAMADI' where puan>=100 and puan <=320
Update veriambar set puan='KAZANDI' where puan >320 and puan <=500
5.3.4. Veri azaltma
Bu kısımda, öğrenci veri ambarında bulunan nitelikler arasından öznitelik seçme
işlemi yapılmaktadır.
48
Her sınıf düzeyindeki D9, D10, D11 ve D12 nitelikleri ile alınan devamsızlık bilgisi
ortalamasının genel olarak öğrencinin devamsızlığını yansıttığından, daha az nitelikle
işlem yapmak için, bu sınıflardaki devamsızlıkların ortalaması alınıp “Devam”
niteliği oluşturulmuştur.
update veriambar set Devam=((D9+D10+D11+D12) / 4) where Devam is null ;
Öznitelik seçme işlemi yapılırken, WEKA yazılımı içinde yer alan Nitelik Seçimi
(Select attributes) kısmındaki en çok kullanılan öznitelik seçme metotları
(InfoGainAttributeEval, GainRatioAttributeEval, SymmetricalUncertAttributeEval,
OneRAttributeEval, ChiSquaredAttributeEval) kullanılmıştır. Öznitelik seçimi işlemi
yapılmadan önce sınıflandırma işlemi yapılmış ve sınıflandırma algoritmalarının
başarı oranları aşağıda verilmiştir:
Çizelge 5.2. Öznitelik seçimi işleminden önce sınıflayıcı başarı oranı
Naive Bayes
Sınıflayıcı Başarı Oranı
85
%
KNN
(IBk k=7)
82.7273 %
J48
Bayes Net
80.4545 %
85
%
RBF
NETWORK
85.4545 %
Öznitelik seçme metotları kullanılarak, niteliklerin önem dereceleri ve öncelikli
olarak hangi niteliklerin seçilmesi gerektiğine karar verilmiştir. Öznitelik seçimi
işleminde, 39 nitelikten 20 nitelik seçilerek sınıflandırma işlemi yapılmış,
sınıflandırma algoritmalarının başarı oranları karşılaştırılmıştır. Karşılaştırma
sonuçları Çizelge 5.3.’de yer almaktadır:
Çizelge 5.3. Öznitelik seçimi işleminden sonra sınıflayıcı başarı oranı
Öznitelik Seçme Algoritmaları
Sınıflandırma Algoritmaları InfoGain GainRatio Symmetrical OneR
ChiSquared
Uncert
Naive Bayes
86.81% 87.27 %
86.36 %
85.90 % 86.81 %
KNN(IBk k=7)
J48
Bayes Net
RBFNETWORK
81.81 %
81.81 %
86.36 %
85 %
80.90 %
81.81 %
87.27 %
85.90 %
84.09 %
81.81 %
86.36 %
85.90 %
86.36 %
81.81 %
85.45 %
86.36 %
81.81 %
81.81 %
86.36 %
85 %
49
Öznitelik çıkarma algoritmalarından InfoGainAttributeEval, GainRatioAttributeEval,
SymmetricalUncertAttributeEval,
OneRAttributeEval,
ChiSquaredAttributeEval
algoritmaları kullanılarak 20 öznitelik seçilmiştir. Bu özniteliklerle oluşturulan yeni
veri kümesinin kullanılarak, sınıflandırma algoritmalarının başarı oranlarına
bakıldığında en yüksek başarı oranını veren algoritmanın, 87.27 % başarı oranı ile
Naive Bayes sınıflandırma algoritması olduğu görülmektedir. Bu nedenle öznitelik
seçme algoritmalarından GainRatioAttributeEval algoritması kullanılarak, 39 nitelik
bilgisinden öğrencilerin üniversite sınavını kazanmasına öncelikli olarak etkileyen 20
öznitelik seçilmiştir. Bu öznitelikler önem derecesine göre; N12, N11, N10,
ISCALIS, APO, ILKOGR, N9, DERSHANE, CINS, CALISD, KITAP, DAL,
DEVAM, AILEDISI, ILAC, KARDES, BMESLEK, FAAL, ODA, AGELIR
nitelikleridir.
Seçilen
öznitelikler
incelendiğinde,
öğrencilerin
üniversite
giriş
sınavında
başarılarını etkileyen en önemli niteliklerin ortaöğretimdeki not ortalamaları olduğu
gözükmektedir. Özellikle öğrencilerin 11. ve 12. sınıf notlarının üniversite giriş
sınavındaki başarılarında diğer notlarına göre daha önemli olduğu gözlenmektedir.
Özniteliklere bakıldığında dershane bilgisi, ilköğretim diploma notu, çalışma düzeni,
kitap okuma alışkanlığı, sürekli bir ilaç kullanıp kullanmadığı,
bir işte çalışıp
çalışmadığı da önemli faktörler arasında yer almaktadır. Ailenin meslek grubu, evde
aile dışında kalan kişilerin ve aile gelir durumunun da etkisi olduğu sonucuna
varılmıştır.
5.4. Modelleme
Uygulamanın hem WEKA programında yapılan, hem de C# da geliştirilen yazılım
ile yapılan modelleme basamağı aşağıda verilmiştir:
5.4.1. Modelleme basamağı: WEKA
Veri önişlemeden sonraki adım modelleme basamağıdır. Farklı algoritmalar veri seti
üzerinde denenerek oluşturulan modellerin başarım ölçütleri yüksek olan algoritma
50
seçilir.
Literatürde
en
çok
kullanılan
algoritmalar
kullanılmış,
kullanılan
algoritmaların karşılaştırılması Çizelge 5.4.’de gösterilmiştir:
Çizelge 5.4. Sınıflandırma algoritmalarının karşılaştırmaları
Doğru Olarak Sınıflandırılan
Örnek Sayısı
Yanlış Olarak Sınıflandırılan
Örnek Sayısı
ROC Area değeri
Kesinlik
Duyarlılık
F-Ölçütü
Kapa İstatistiği
Başarı Yüzdesi (Doğruluk)
Sınıflandırma Algoritmaları
Naive
KNN
J48
Bayes
(IBk k=7)
192
178
180
Bayes
Net
192
RBF
NETWORK
189
28
42
40
28
31
0.94
0.87
0.88
0.87
0.74
87.27 %
0.90
0.81
0.81
0.81
0.61
80.90 %
0.85
0.82
0.82
0.82
0.63
81.82 %
0.94
0.87
0.88
0.87
0.74
87.27 %
0.92
0.86
0.86
0.86
0.72
85.91 %
Sınıflandırma algoritmaları karşılaştırıldıklarında, doğru olarak sınıflandırılan örnek
sayısı en yüksek olan algoritmanın Naive Bayes algoritması olduğu görülmektedir.
Model başarım ölçütlerinden ROC area değerinin, kesinlik, duyarlılık ve f ölçüt
değerlerinin 1’ e yakın olması istenir. Karşılaştırma tablosu incelendiğinde bu değer
ışığında da en yüksek başarının Naive Bayes algoritmasında olduğu görülmektedir.
Kappa istatistik değeri 0,6 ile 0,8 arasında ise önemli derecede bir uyum olduğunu,
sınıflandırıcının tesadüfi bir tahminde bulunmadığını göstermektedir.
5.4.2. Modelleme basamağı: Üniversite giriş sınavında öğrencilerin
başarılarının tahmin edilmesinde veri madenciliği uygulama yazılımı
Microsoft Visual Studio 2008 C#.Net kullanılarak, problemin çözümüne yönelik
özelleştirilmiş bir yazılım tasarımı yapılmıştır. Bu yazılımın, öğrenci veri ambarı
üzerinde yapılacak diğer veri madenciliği uygulamalarına örnek olacağı ve önemli
ölçüde yarar sağlayacağı düşünülmektedir.
51
Yazılımın ara yüz tanıtımı
Üniversite Giriş Sınavına Giren Öğrencilerin Başarılarının Tahminde Veri
Madenciliği Uygulama Yazılımı veri ambarı oluşturma, verilerin görüntülenmesi ve
veri madenciliği uygulaması olmak üzere üç bölümden oluşmaktadır. Yazılımda,
verilerin girildiği, grafiksel olarak gösterildiği, verilerin listelendiği, sınavda başarı
durumlarının tahmininin yapıldığı formlar ile bu formların hepsine ulaşım sağlayan
bir ana form bulunmaktadır. Yazılım ilk çalıştırıldığında kullanıcıların karşısına
Şekil 5.1’de yer alan ana form gelmektedir.
Şekil 5.1. Ana form
İlk olarak “Veri Ambarı Oluşturma” seçeneği tıklanarak ortaöğretim öğrencilerinin
bilgileri alınarak öğrenci veri ambarı oluşturulmaktadır. Bu form, Öğrenci Genel
Bilgileri, Aile Bilgileri, Bireysel Bilgileri, Bireysel Bilgileri, Not ve Devasızlık
Bilgileri olmak üzere birbirine bağlı dört kısımdan oluşmaktadır. Bu formda veri
ambarı oluşturulurken, ortaöğretim e-okul sistemi üzerinde bulunan bilgilerin
olmasına dikkat edilmiştir.
Şekil 5.2. Öğrenci genel bilgileri giriş formu
52
Öğrenci genel bilgiler kısmına girilen öğrencinin okul numarası ve adı ile bağlantı
kurularak, öğrencinin aile bilgileri girilmektedir.
Şekil 5.3. Öğrenci aile bilgileri giriş formu
Şekil 5.4. Öğrenci bireysel bilgileri giriş formu
53
Şekil 5.5. Öğrenci not ve devamsızlık bilgisi giriş formu
Veri ambarı oluşturma formunda, öğrencilerin genel bilgileri, aile bilgileri, bireysel
bilgileri, not bilgileri ve devamsızlık bilgileri alınarak kayıt işlemi yapılmaktadır.
220 kayıttan oluşan bir veri ambarı oluşturulmuştur.
Veri ambarı oluşturulduktan sonra, verilerin görüntülenmesi kısmında veriler
listelenmekte, her bir niteliğe ait kayıtlar grafiksel olarak gösterilmektedir.
Şekil 5.6. Veri görüntüleme formu
54
Şekil 5.7. Başarı tahmin formu
Bu formda öznitelikler girilerek, öğrencilerin sınav başarı tahminleri yapılmaktadır.
Naive Bayes algoritmasının uygulanması
Yazılımda üniversite giriş sınavına giren öğrencilerin başarı tahmini yapılırken,
öznitelik seçme algoritması ile seçilen 20 öznitelik ile işlem yapılmıştır.
Uygulamada, öğrenci veri ambarındaki veriler Naive Bayes algoritmasının
uygulanacağı, eğitim ve test verisi olmak üzere iki gruba ayrılmıştır. Uygulamada
eğitim veri seti ve test veri seti oluşturulurken verilerin yaklaşık 1/5’ ü test verisi,
4/5’ ü eğitim verisi olarak seçilmiştir.
220 kayıttan 175 tanesi eğitim veri seti, 45 tanesi test veri seti olarak kullanılmıştır.
Test veri seti belirlenirken, veri kümesi içerisinden her 5 kayıttan bir tanesi test verisi
olarak kabul edilmiştir. Veri setindeki veri dağılımının dengeli, örnek sayısı ve her
sınıfa ait örnek sayısı fazla olduğundan bu yöntem kullanılmıştır.
55
Algoritma eğitim veri seti ile eğitilirken, test veri seti ile kontrol edilmektedir.
Formda test verileri listelenmekte, test veri setinde yer alan veriler girilerek
algoritmanın başarısı kontrol edilebilmektedir.
Tahmin yaptırılırken ilk olarak, eğitim verileri veri tabanından çekilerek DataRow
nesnesine aktarılmaktadır. İkinci aşamada, sınıf (class) bilgisinde yer alan “Kazandı”
ve “Kazanamadı” sınıflarına ait toplam örnek sayıları p ve q olarak iki değişkende
tutulmaktadır. Daha sonraki aşamada, her bir sınıf bilgisine ait ihtimal durumu için
formda yer alan Combobox nesnesinden seçilen her bir nitelik değeri alınarak
frekans sayıları hesaplatılmaktadır. Bu olasılık hesaplatılırken, her bir niteliğe ait
ihtimalin çarpımı ile tüm olasılık elde edildiğinden tek bir niteliğe ait bilginin 0
olması durumunda sonuç 0 olacaktır. “Kazandı” ve “Kazanamadı” ihtimal
hesaplamasında 0 sorununa yol açabilecek veriler belirlenerek, her bir kriterin pay ve
paydasına küçük bir değer ilave edilmektedir.
Son aşamada ise her bir sınıf bilgisine ait olma ihtimalleri niteliklerin elde edilen
frekansları ile hesaplatılmaktadır.
Sonuç olarak, her bir sınıf bilgisine ait ihtimaller karşılaştırılarak eğer “Kazandı”
sınıf bilgisine ait ihtimal daha yüksek ise “Kazandı”, “Kazanamadı” sınıf bilgisine ait
ihtimal daha yüksekse “Kazanamadı” olarak kullanıcıya yansıtılmaktadır.
Yazılımın Kullanılması
Uygulamada, üniversite giriş sınavına giren öğrencilerin başarı tahmini yapılırken
Şekil 5.7.’deki form kullanılmaktadır. Formda öğrenciye ait nitelik değerleri
ComboBox nesnesinden seçilerek başarı tahmini yapılmaktadır.
Öğrenciye ait tüm bilgiler girildikten sonra başarı tahmini hesaplatılarak, sonuç
kullanıcıya Şekil 5.8.’de gösterilen “Sınav Başarı Tahmini” mesaj kutusu ile
gösterilmektedir.
56
Şekil 5.8. Başarı sonuç mesajı
Uygulamada, üniversite giriş sınavında başarıyı etkileyen öncelikli nitelikler tespit
edilmiş ve öğrencilerin sınavdaki başarı durumları önceden tahmin edilerek bir erken
uyarı sistemi geliştirilmiştir. Üniversite giriş sınavında başarıyı etkileyen nitelikler
belirlenirken öznitelik seçme algoritmalarından GainRatioAttributeEval algoritması
kullanılmış ve 20 nitelik öncelikli olarak seçilmiştir. Öğrencilerin üniversite giriş
sınavındaki başarı durumlarının tahmini yapılırken test verileri ile çalışma kontrol
edilmiştir.
Çalışma sonucunda öğrenci veri ambarında bulunan nitelikler ile
üniversite giriş sınavında öğrencilerin başarıları durumlarının tahmininde, büyük bir
kısmının açıklanabildiği sonucuna varılmıştır.
Yazılımın uygulanması sonucunda, öğrencilerin sınavı kazanıp kazanmadıkları ve
sistemin yaptığı başarı tahmin sonuçları Çizelge 5.5.’de verilmiştir.
Çizelge 5.5. Test verileri için yapılan başarı tahmin sonuçları
No
1
2
3
4
5
6
7
8
9
ID
1
6
11
16
21
26
31
36
41
Mevcut Sonuç Bilgisi
Kazandı
Kazandı
Kazandı
Kazandı
Kazanamadı
Kazanamadı
Kazanamadı
Kazanamadı
Kazanamadı
Sistem Tarafından Yapılan Tahmin
Kazandı
Kazandı
Kazandı
Kazandı
Kazanamadı
Kazanamadı
Kazanamadı
Kazanamadı
Kazanamadı
Sonuç
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
57
Çizelge 5.5. (Devam) Test verileri için yapılan başarı tahmin sonuçları
No ID
Mevcut Sonuç Bilgisi Sistem Tarafından Yapılan Tahmin Sonuç
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
32
33
34
35
36
37
38
39
40
41
42
43
44
45
Kazanamadı
Kazanamadı
Kazandı
Kazandı
Kazanamadı
Kazanamadı
Kazandı
Kazandı
Kazanamadı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazanamadı
Kazandı
Kazanamadı
Kazandı
Kazandı
Kazandı
Kazanamadı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
46
51
56
61
66
71
76
81
86
91
96
101
106
111
116
121
126
131
136
141
146
156
161
166
171
176
181
186
191
196
201
206
211
216
220
Kazanamadı
Kazanamadı
Kazanamadı
Kazanamadı
Kazanamadı
Kazanamadı
Kazandı
Kazandı
Kazanamadı
Kazandı
Kazanamadı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazanamadı
Kazanamadı
Kazandı
Kazanamadı
Kazanamadı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Kazanamadı
Kazandı
Kazandı
Kazandı
Kazandı
Kazandı
Başarılı
Başarılı
Başarısız
Başarısız
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarısız
Başarılı
Başarılı
Başarılı
Başarısız
Başarılı
Başarılı
Başarısız
Başarılı
Başarısız
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
Başarısız
Başarılı
Başarılı
Başarılı
Başarılı
Başarılı
58
Çizelge 5.5. incelendiğinde, sistem tarafından yapılan üniversite giriş sınavına giren
öğrencilerin başarı tahmini sonucunda test edilen verilerin çok büyük bir oranda
doğru sonuç ürettiği görülmektedir. Sistemin ne kadar çok eğitilirse o kadar iyi sonuç
verdiği gözlemlenmiştir.
59
6. SONUÇ VE ÖNERİLER
Bu bölümde üniversite giriş sınavında öğrenci başarılarının tahmini uygulaması ile
ilgili sonuçlar ve öneriler yer almaktadır.
Ortaöğretim öğrencilerinin, üniversite giriş sınavında başarılı olup olmamaları
mesleki hayatlarını, gelecekteki statülerini etkilediğinden hayatlarındaki en önemli
noktalardan bir tanesidir. Kişilerin çalışma döneminin nasıl olacağını belirleyen bu
sınav, hem öğrenciler hem de aileleri için büyük önem arz etmektedir.
Ülkemizde üniversite giriş sınavına giren öğrenci sayısının her yıl artması ile birlikte
sınav rekabeti artmakta, öğrenci ve aileleri daha çok strese girmektedirler. Bu
nedenle ortaöğretim sürecinde eğitimin kalitesinin artırılması, öğrencilerin eksik
olduğu niteliklerin güçlendirilmesi, öğrencilerin akademik başarılarının artırılması
gerekmektedir.
Veri madenciliği algoritmasının öğrenci veri ambarı üzerinde uygulanması, değerli
bilgilerin çıkartılmasında ve eğitimin kalitesinin artırılmasında büyük katkılar
sağlamaktadır. Bu çalışmada veri madenciliği algoritmalarından Naive Bayes
algoritmasının öğrenci veri ambarı üzerinde nasıl kullanılabileceği konusunda örnek
bir çalışma yapılmış ve sonuç olarak üniversite giriş sınavında öğrencilerin başarı
durumları tahmin edilmiştir.
Sonuçlar
Çalışma kapsamında elde edilen sonuçlar aşağıda listelenmiştir:

Bu çalışma kapsamında, ortaöğretim öğrencilerinin not bilgisi, aile ortamı,
dershane bilgisi, sınav kaygı düzeyi, çalışma düzeni, yaş, cinsiyet vb. faktörleri
içeren bir ‘’öğrenci veri ambarı’’ oluşturulmuştur.

Bu öğrenci veri ambarı üzerinde, öznitelik seçme algoritmaları ile üniversite giriş
sınavında başarıyı öncelikli olarak etkileyen faktörler belirlenmiş ve bu
60
faktörlerin kümülatif olarak üniversite giriş sınavında başarıyı ne derecede
etkilediği tespit edilmiştir.

Öğrenci veri ambarındaki nitelikler içinden, GainRatioAttributeEval öznitelik
algoritması ile seçilen öznitelikler incelendiğinde, üniversite giriş sınavında
başarıyı etkileyen faktörlerin başında, öğrencilerin ortaöğretimdeki not bilgileri
ve ilköğretim diploma not bilgisi olduğu gözükmektedir. Özellikle öğrencilerin
11. ve 12. sınıf notlarının üniversite giriş sınavındaki başarılarında diğer notlarına
göre daha önemli olduğu sonucuna varılmıştır. Not bilgisinden sonra başarıyı
etkileyen en çok etkileyen niteliklerin; dershane bilgisi, kitap okuma alışkanlığı,
çalışma düzeni, sürekli ilaç kullanıp kullanmadığı, ailenin meslek grubu, evde
aile dışında kalan kişi bilgisi ve aile gelir durumu olduğu sonucuna varılmıştır.

Bu çalışmada, üniversite sınavına giren öğrencilerin başarı durumlarının tahmin
edilmesi için veri madenciliği algoritmalarından Naive Bayes algoritması
uygulanmıştır. Öğrencilerin üniversite giriş sınavındaki başarı durumlarının
tahmininde, öğrenci veri ambarında bulunan nitelikler ile büyük bir kısmının
açıklanabildiği sonucuna varılmıştır.

Yapılan çalışma sonucunda, öğrenci ve aileleri için, öğrencilerin üniversite giriş
sınavında başarılarını tahmin eden bir erken uyarı sisteminin geliştirilmiştir.
Üniversite giriş sınavında hangi niteliğin daha etkin olduğunu araştırılmasının ve
öğrencilerin sınavı kazanıp kazanamayacağının tahmin edilmesinin, üniversiteye
giriş sınavında başarının artmasında önemli rol oynayacağı düşünülmektedir.
Öneriler
Çalışma kapsamında elde edilen sonuçlar da dikkate alınarak aşağıdakiler
önerilmektedir.
Çalışma kapsamında elde edilen sonuçlar da dikkate alınarak öğrenci veri ambarı
üzerinde; kötü alışkanlıklara, şiddete veya intihara meyilli öğrenci profilinin
61
çıkarılması, 9. sınıf öğrencilerin gelecekte akademik başarılarının ve devamsızlık
yapabilecek riskli öğrenci gruplarının tahmin edilmesi uygulamaları önerilmektedir.
Yapılan bu çalışmanın e-okul sistemi ile uyumlu olması tüm ilköğretim ve
ortaöğretim kurumlarında kullanılabilmesine imkan sağlamaktadır ve öğrenci veri
tabanı üzerinde yapılacak diğer veri madenciliği uygulamalarının geliştirilmesine ışık
tutacaktır.
62
KAYNAKLAR
1.
Köse, M. R. , “Üniversiteye giriş ve liselerimiz”, Hacettepe Üniv. Eğitim
Fak. Der. , 15: 51-60 (1999).
2.
Berberoğlu, G. ve Kalender, İ. , “Öğrenci başarısının yıllara, okul türlerine,
bölgelere göre incelenmesi: öss ve pisa analizi”, Eğitim Bilimleri ve
Uygulama Der. , 4 (7): 21-35 (2005).
3.
Pakır, F. , “Aile sosyo-ekonomik ve demografik özellikleri ile mezun olunan
lise türünün öğrencilerin üniversite giriş sınavındaki başarıları üzerindeki
etkileri”, Yüksek Lisans Tezi, Yüzüncü Yıl Üniversitesi Sosyal Bilimler
Enstitüsü, Van, 18-22 (2006).
4.
Karaman, İ., Dilber, R. ve Sönmez, E.., “Ortaöğretim başarı ölçütleri ile ÖSS
puanları arasındaki ilişkinin araştırılması”, Kazım Karabekir
Eğitim
Fak.Der., 9, 263-269 (2004).
5.
Demirtaş, Z., “Liselerde okul kültürü ile öğrenci başarısı arasındaki ilişki”,
Mustafa Kemal Üniversitesi Sosyal Bilimler Ens. Der. , 7 (13), 208-223
(2010).
6.
Bırtıl, F.S., “Kız meslek lisesi öğrencilerinin akademik başarısızlık
nedenlerinin veri madenciliği tekniği ile analizi”, Yüksek Lisans Tezi, Afyon
Kocatepe Üniversitesi Fen Bilimleri Enstitüsü, Afyon, 70-71,2 (2011).
7.
Üçgün, K., “Ortaöğretim okulları için öğrenci otomasyonu tasarımı ve
öğrenci verileri üzerine veri madenciliği uygulamaları”, Yüksek Lisans Tezi,
Marmara Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 89-90, 2 (2009).
8.
Gündoğdu, S., “Veri madenciliğinde genetik algoritmalar”, Yüksek Lisans
Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli, 99-101 (2007).
9.
Bulut, F., , “Madde bağımlısı olma riski altında olan öğrencilerin veri
madenciliği sınıflandırma algoritmalarıyla tespit edilmesi”, Yüksek Lisans
Tezi, Fatih Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 6 (2010).
10.
Gülçe, G., “Veri ambarı ve veri madenciliği teknikleri kullanılarak öğrenci
karar destek sistemi oluşturma”, Yüksek Lisans Tezi, Pamukkale
Üniversitesi Fen Bilimleri Enstitüsü, Denizli, 90s (2010).
11.
Bülbül, H. İ., Ünsal, Ö., “Determination of vocational fields with machine
learning algorithm”, The Ninth International Conference on Machine
Learning and Applications (ICMLA 2010), IEEE Computer Society,
Washington D:C:, 710-713 (2010).
63
12.
Yardımcı, T., “Makine öğrenmesi teknikleri ile rss besleme yönetimi”,
Yüksek Lisans Tezi , Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 1-2
(2011).
13.
Bozkır, A.S., Sezer, E. ve Gök, B., “Öğrenci seçme sınavında öğrenci
başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti”, 5.
Uluslararası İleri Teknolojiler Sempozyumu (IATS’09), Karabük, 1-7
(2009).
14.
Güzel, M.,“Öss ve öys türkçe soruları üzerine bir araştırma”, Yüksek Lisans
Tezi, Gazi Üniversitesi Sosyal Bilimler Enstitüsü, Ankara, 1-3 (2006).
15.
Berry, M. J. A., and Linoff, G. S., “Data Mining Techniques: For Marketing,
Sales, and Customer Support”, Wiley Computer Pub. , NewYork (1997).
16.
Han, J. and Kamber, M.,”Data Mining: Concept and Techniques”, Morgan
Kaufmann Publications, USA (2001).
17.
Koyuncugil, A.S., Özgülbaş, N., “Surveillance Technologies and Early
Warning Systems: Data Mining Applications for Risk Detection”, IGI
Global, USA (2010).
18.
Kelly, S., “Data Warehousing : The Route to Mass Customisation”, John
Wiley & Sons, NewYork (1996).
19.
Baykal, A., “Veri madenciliği uygulama alanları”, D.Ü.Ziya Gökalp Eğitim
Fakültesi Dergisi, 7, 95-107 (2006).
20.
İnternet: Gazi Üniversitesi, “Veri Madenciliği (Suat Özdemir Ders Notları)”
http://ceng.gazi.edu.tr/~ozdemir/teaching/dm/index.html (2011).
21.
Akpınar, H., “Veri tabanlarında bilgi keşfi ve veri madenciliği”, İstanbul
Üniversitesi İşletme Fakültesi Dergisi, 29(1):1-22 (2000).
22.
Altıntop, Ü., “İnternet tabanlı öğretimde veri madenciliği tekniklerinin
uygulanması”, Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen bilimleri
Enstitüsü, Kocaeli, 15 (2006).
23.
Inmon, W. H., “Building the Data Warehouse”, John Wiley & Sons,
NewYork (1996).
24.
Fayyad, U., Gregory P., S., ve SMYTH, P., “From Data Mining to
Knowledge Discovery in Databases”, AI Magazine, 37-54 (1996).
64
25.
Özkan, Y., “Veri Madenciliği Yöntemleri”, Papatya Yayıncılık Eğitim,
İstanbul (2008).
26.
Oğuzlar, A.: “Veri önişleme”, Erciyes Üniv. İktisadi ve İdari Bilimler
Fakültesi Dergisi, 21: 67 - 76 (2003).
27.
Özdamar K., “Çok Değişkenli Analizler”, Kaan Kitabevi, Eskişehir (2004 ).
28.
İnternet: Yıldız Teknik Üniversitesi “Makine Öğrenmesine Giriş (M. Fatih
Amasyalı Ders Notları)”, http://www.ce.yildiz.edu.tr/mygetfile.php?id=868
(2011).
29.
Amasyalı, M. F., “Yeni makine öğrenmesi metotları ve ilaç tasarımına
uygulamaları”, Doktora Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri
Enstitüsü, İstanbul, 93-95 (2008).
30.
İnternet: İstanbul Teknik Üniversitesi “Veri Madenciliği (Şule Öğütücü Ders
Notları)”, http://ninova.itu.edu.tr/tr/dersler/bilisim-enstitusu/195/bbl606/ekkaynaklar ?g8396 (2011).
31.
Güner, E.S., “Türkçe için derlem tabanlı bir anafor çözümleme çalışması”,
Yüksek Lisans Tezi, Trakya Üniversitesi Fen Bilimleri Enstitüsü, Edirne,
36-38 (2008).
32.
Akbulut, S., “Veri madenciliği teknikleri ile bir kozmetik markanın ayrılan
müşteri analizi ve müşteri segmentasyonu”, Yüksek Lisans Tezi , Gazi
Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 54 (2006).
33.
Landis JR., Koch GG., “The measurement of observer agreement for
categorical data”, Biometrics, 33: 159-174 (1977).
34.
Silahtaroğlu, G., “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”,
Papatya Yayıncılık Eğitim, İstanbul (2008).
35.
Özekes, S., “Veri madenciliği modelleri ve uygulama alanları”, İstanbul
Ticaret Üniversitesi Dergisi, 3: 65-82 (2003).
36.
Alpaydın, E., “Introduction to Machine Learning”, The MIT Press, London
(2004).
65
EKLER
66
EK-1. Anket formu
ÖĞRENCİ VERİ AMBARI OLUŞTURMA
Sayın katılımcı, bu araştırma, yüksek lisans tez çalışması için yürütülmektedir.
Araştırmadan elde edilen veriler, araştırmanın amacı olan bilimsel çalışma
dışında kullanılmayacağı gibi herhangi bir kurum veya kuruluşa da
verilmeyecektir. Araştırmanın amacı, üniversiteye giriş sınavına giren
öğrencilerinin başarılarını tahmin etmeye çalışmaktır.
Anket 4 bölümden oluşmaktadır. Birinci bölümde genel bilgilerinize ilişkin
sorular, ikinci bölümde aile bilgilerinize ilişkin sorular, üçüncü bölümde
bireysel bilgilerinize ilişkin sorular, son bölümde ise üniversite sonuç
bilgilerinize ilişkin sorular yer almaktadır. Anketi yanıtlamanız yaklaşık 10
dakikanızı alacaktır. Her sorudaki duruma ilişkin gerçek bilgilerinizi girmeniz
veri ambarı oluşturmada önemli bir yer tutacaktır. Araştırmaya katkınızdan
dolayı teşekkür ederim.
Hanife GÖKER
Öğrenci Bilgileri
Öğrenci Ad-Soyad
Okul No
Cinsiyet
Doğum Yılı
Dal
Okulda Velisi
Aile Bilgileri
Anne Adı
Baba Adı
Anne Meslek
Baba Meslek
Annenizin Öğrenim Durumu
Babanızın Öğrenim Durumu
Anne Baba Birlikte / Ayrı
Anneniz Hayatta mı?
Babanız Hayatta mı?
Aile Gelir Durumu
(Çok kötü/Düşük/Orta/İyi/Çok İyi)
Ailede üniversite okuyan / mezun var mı?
Kardeş sayısı
Genel Bilgiler
Kiminle Oturuyorsunuz?
(Aile / Akraba )
Oturduğunuz ev kira mı?
(kendi / kira /lojman)
Kendi Odanız var mı?
(var / yok)
67
EK-1. (Devam) Anket formu
Genel Bilgiler
Ev ne ile ısınıyor
(Soba / kalorifer)
Okula nasıl geliyorsunuz?
(yürüyerek / servisle/ailesiyle/toplu
taşıma)
Bir işte çalışıyor mu? (evet /hayır)
Evde aile dışında kalan var mı?
(var / yok)
Sürekli hastalığınız var mı? Evet ise
hastalık ismi?
(evet / hayır)
Sürekli kullandığınız ilaç var mı?
(evet /hayır)
Evet ise ilacın türü?(astım ilacı, kalp ilacı,
şeker ilacı)
Bireysel Bilgiler
Lisede dershaneye gittiniz mi? (evet /
hayır)
Cevap evet ise kaç yıl gittiniz
Kitap okuma alışkanlığınız var mı? (var
/yok)
Sosyal Faaliyet durumu(zayıf /
orta/iyi/çok iyi)
Çalışma düzeni (günlük / sınav dönemi)
Eve her gün düzenli olarak gazete giriyor
mu?
Evde bilgisayar var mı?(evet /hayır)
Evde internet var mı? (evet /hayır)
Sınav Kaygınız var mı? (evet /hayır)
Üniversite bilgileri
Üniversite sınavını ilk yılınızda
kazandınız mı?
( evet /hayır)
İlk yılınızdaki ÖSS sınav puanı
İlk yılınızdaki Kazandığınız üniversite /
bölüm
Eğer daha sonra sınavı kazandıysanız
kaçıncı yılınızda kazandınız?
Kazandığınız ÖSS sınav puanı
Kazandığınız üniversite / bölüm
68
EK-2. Naive Bayes algoritmasının C#.NET dili kodları
DataRow[] kayıtlar = verilerDataSet2.EGITIM_VERI.Select();
int i = kayıtlar.Length;
int p = 0, q = 0;
int ep = 0, eq = 0;
decimal eppay = 0, eqpay = 0;
// Her bir sınıfa ait örnek sayısının hesaplanması
for (int j = 0; j < i; j++)
{
if (kayıtlar[j][21].ToString() == "KAZANDI")
{
p++;
}
else
{
q++;
}
}
decimal[,] top = new decimal[20,2];
for (int j = 0; j < i; j++)
{
for (int t = 0; t < 20; t++)
{
string deger1 = (((ComboBox)this.Controls["ComboBox" + t.ToString()]).Text).ToString();
if (kayıtlar[j][t+1].ToString() == deger1)
top[t,0] ++;
else
top[t, 1]++;
}
}
decimal[,] top2 = new decimal[2, 20];
// Hesaplacak her bir nitelik için her bir sınıfa ait olasılık hesaplama
for (int j = 0; j < i; j++)
{
for (int x = 0; x < 20; x++)
{
string deger = (((ComboBox)this.Controls["ComboBox" + x.ToString()]).Text).ToString();
if ((kayıtlar[j][x + 1].ToString() == deger) && (kayıtlar[j][21].ToString() == "KAZANDI"))
top2[0, x]++;
else if ((kayıtlar[j][x + 1].ToString() == deger) && (kayıtlar[j][21].ToString() =="KAZANAMADI"))
top2[1, x]++;
}
}
69
EK-2. (Devam) Naive Bayes algoritmasının C#.NET dili kodları
// Sıfır olma olasılığının ortadan kaldırılması
for (int y = 0; y < 20; y++)
{
if (top2[0,y] == 0)
{
ep++; eppay += (decimal)1 / p;
}
if (top2[1,y] == 0)
{
eq++; eqpay += (decimal)1 / q;
}
}
decimal poran = 0, qoran = 0;
// p ve q oranlarının hesaplanması
poran = (decimal)p / i;
qoran = (decimal)q / i;
for (int a = 0; a < 20; a++)
{
poran *= (decimal)(top2[0, a]+eppay) / (p+ep);
qoran *= (decimal)(top2[1, a]+eqpay) / (q+eq);
}
if (poran > qoran)
MessageBox.Show("P Oran : " + string.Format("{0:F30}", poran) + " Q Oran :" +
string.Format("{0:F30}", qoran) + "\nSonuç: KAZANDI;", "SINAV BASARI TAHMINI",
MessageBoxButtons.OK, MessageBoxIcon.Information);
else
MessageBox.Show("P Oran : " + string.Format("{0:F30}", poran) + " Q Oran :" +
string.Format("{0:F30}", qoran) + "\nSonuç: KAZANAMADI;", "SINAV BASARI TAHMINI",
MessageBoxButtons.OK, MessageBoxIcon.Information);
70
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, adı
: GÖKER Hanife
Uyruğu
: T.C.
Doğum tarihi ve yeri
: 15.06.1982 Bala
Medeni hali
: Evli
Telefon
: 0 (312) 485 24 21
E-mail
: [email protected]
Eğitim Bilgileri
Derece
Eğitim Birimi
Lisans
Atatürk Üniversitesi Bilg. Öğretim ve Tekn. Öğrt 2004
Lise
Dikmen Nevzat Ayaz Anadolu Meslek Lisesi
Mezuniyet Tarihi
2000
İş Deneyimi
Yıl
Yer
Görev
2004-2006
Akyurt Çok Programlı Lisesi
Öğretmen
2006-…..
Ahmet-Alper Dinçer Anadolu Lisesi
Öğretmen
Yabancı Dil
İngilizce
Hobiler
Kitap okumak, Bilişim teknolojileri, Tiyatro
Download