Untitled - Ulusal Tez Merkezi

advertisement
ii
VERİ MADENCİLİĞİ İLE FEN FAKÜLTELERİ ÖĞRENCİ
PROFİLLERİNİN İNCELENMESİ: GAZİ ÜNİVERSİTESİ ÖRNEĞİ
Ferda AKÇA
YÜKSEK LİSANS TEZİ
İSTATİSTİK ANABİLİM DALI
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
TEMMUZ 2014
ETİK BEYAN
Gazi Üniversitesi Fen Bilimleri Enstitüsü Tez Yazım Kurallarına uygun olarak
hazırladığım bu tez çalışmasında;

Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar
çerçevesinde elde ettiğimi,

Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun
olarak sunduğumu,

Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak
gösterdiğimi,

Kullanılan verilerde herhangi bir değişiklik yapmadığımı,

Bu tezde sunduğum çalışmanın özgün olduğunu,
bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan
ederim.
Ferda AKÇA
12.08.2014
iv
VERİ MADENCİLİĞİ İLE FEN FAKÜLTELERİ ÖĞRENCİ PROFİLLERİNİN
İNCELENMESİ: GAZİ ÜNİVERSİTESİ ÖRNEĞİ
(Yüksek Lisans Tezi)
Ferda AKÇA
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
Temmuz 2014
ÖZET
Bu çalışmada Gazi Üniversitesi öğrencilerine ilişkin bir profil ortaya çıkarmak amacıyla
öğrencilerin fen fakültesini seçmelerini etkilediği düşünülen öğrencilerin not ortalamaları,
nüfusa kayıtlı olduğu il, doğum yeri, tercih sırası, cinsiyeti, lise türü ve ÖSYM puanı gibi
çeşitli değişkenler ile akademik başarı puanları arasındaki ilişki Gazi Üniversitesi Fen
Fakültesi öğrencilerine ait 2010 yılı verileri kullanılarak incelenmektedir. Araştırmadan
elde edilen verilerin çözümlenmesinde Dört farklı Veri Madenciliği algoritması kullanılmış
ve her bir algoritmada farklı bağımsız değişkenler seçilmiştir.Ayrıca öğrencilerin not
ortalamalarını ve bölüm tercihi üzerinde önemli olan değişkenleri belirlenmeye
çalışılmıştır.Araştırma Gazi Üniversitesi öğrencilerinin profilini tespit ederek bilimsel
çalışmaya önem veren üniversitemizin bu çalışmalarını desteklemek amacıyla
yapılmıştır.Öğrenci profiline yönelik çalışmalardan elde edilen sonuçlar, öğrencilerin
üniversitenin güçlü ve zayıf yönlerini tanımasına, fırsatlarını ve engellerini bilmesine
yardımcı olacak ve gelecekte uygulanması planlanan öğrenci politikaları ve stratejilerinin
doğru bir şekilde belirlemelerine ışık tutacaktır.Çalışmada Veri Madenciliği
algoritmalarından CHAID, QUEST, C&RT ve C5.0 uygulanmıştır.Elde edilen analizin
sonuçları ayrıntılı olarak yorumlanmıştır.
Bilim Kodu
: 205.1.066
Anahtar Kelimeler : Veri Madenciliği, Veri Madenciliği Algoritması,CHAID, QUEST,
C&RT, C5.0
Sayfa Adedi
: 68
Danışman
: Doç. Dr. Bülent ALTUNKAYNAK
v
ANALYZING STUDENT’S PROFILES OF SCIENCE FACULTY WITH DATA
MINING METHOD: A SAMPLE OF GAZİ UNIVERSITY
(M. Sc. Thesis)
Ferda AKÇA
GAZİ UNIVERSITY
GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES
July 2014
ABSTRACT
In this research, to reveal a profile related to the students of Gazi University; the
relationship between the different variables like students’ grade point average, the city
where the parents of these students live, the city where the students born, ÖSYM selection
order, age, gender, type of high school, score percentage of ÖSYM, and academic success
grade by using data belong to Gazi University science department students in 2010. In the
analysis of the data 4 different data mining algorithms are used and arguments have been
selected for each different independent variables. Moreover students' grade point average
and preference section are tried to determine. The results gathered at the end of this
research will shed light on the students to have better idea of their opportunities and
handicaps; on the university to know more about their pros and cons and also to better
shape the student policies and strategies which are planned to put into action in the future.
In this study, data mining algorithms CHAID, QUEST, C&RT and C5.0 was applied. The
results of analyzes obtained are commented in detail.
Science Code
Key Words
Page Number
Supervisor
:
:
:
:
205.1.066
Data Mining, Data Mining Algorithm, CHAID, QUEST, C&RT, C5.0
68
Assoc. Prof. Dr. Bülent ALTUNKAYNAK
vi
TEŞEKKÜR
Öncelikle yüksek lisansın başından tamamlama aşamasına kadar geçen süre içerisinde
yakın ilgi ve değerli yardımlarını gördüğüm, tez danışmanım kıymetli hocam Doç. Dr.
Bülent ALTUNKAYNAK’a teşekkür ederim. Tez çalışmam boyunca desteğini hiçbir
zaman esirgemeyen aileme ve özellikle değerli babam Çetin AKÇA’ya da teşekkürü bir
borç bilirim. O olmasaydı onlarca işi tek başına yapmak oldukça güç olurdu. Katkıları paha
biçilmez değerdedir.
vii
İÇİNDEKİLER
Sayfa
ÖZET ..............................................................................................................................
iv
ABSTRACT ....................................................................................................................
v
TEŞEKKÜR ....................................................................................................................
vi
İÇİNDEKİLER ...............................................................................................................
vii
ÇİZELGELERİN LİSTESİ.............................................................................................
ix
ŞEKİLLERİN LİSTESİ ..................................................................................................
x
SİMGELER VE KISALTMALAR.................................................................................
xii
1. GİRİŞ........................................................................................................................
1
2. ÜNİVERSİTE EĞİTİM SİSTEMİNDE FEN FAKÜLTELERİ ...............
3
2.1. Üniversite Eğitim Sistemi ...................................................................................
3
2.2. Fen Fakülteleri ....................................................................................................
4
2.3. Eğitim Alanında Veri Madenciliği İle İlgili Önceki Çalışmalar .........................
6
3. VERİ MADENCİLİĞİ .........................................................................................
9
3.1. Veri Madenciliği Yazılımları ..............................................................................
13
4. SINIFLANDIRMA ALGORİTMALARI .......................................................
17
4.1. ID3 Algoritması ..................................................................................................
18
4.2. C4.5 ve C5.0 Algoritmaları .................................................................................
21
4.3. C&RT Algoritması ..............................................................................................
22
4.4. CHAID Algoritması ............................................................................................
23
4.5. QUEST Algoritması ............................................................................................
27
5. UYGULAMA .........................................................................................................
33
5.1. Veri Yapısı ve Değişkenler .................................................................................
33
5.2. Tanımlayıcı İstatistikler ......................................................................................
34
viii
Sayfa
5.3. Sınıflandırma Algoritmalarına İlişkin Bulgular ..................................................
39
5.4. Sonuçların Karşılaştırılması ................................................................................
59
6. SONUÇ VE TARTIŞMA....................................................................................
63
KAYNAKLAR ......................................................................................................
65
ÖZGEÇMİŞ ............................................................................................................
68
ix
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 2.1. Yıllara Göre fen bölümlerinin öğrenci sayıları ...........................................
4
Çizelge 4.1. Örnek veri çizelgesi ....................................................................................
19
Çizelge 4.2.Kiloya göre sınıflandırma ............................................................................
20
Çizelge 4.3. Boya göre sınıflandırma .............................................................................
20
Çizelge 4.4. Değişkenler ve düzeyleri ............................................................................
25
Çizelge 4.5. Başarı düzeyi ve uyku süresi arasındaki çapraz çizelge .............................
25
Çizelge 4.6. Beklenen frekanslar ....................................................................................
26
Çizelge 4.7. Başarı düzeyi ve yaşanılan yer arasındaki çapraz çizelge ..........................
26
Çizelge 4.8. Başarı düzeyi ve çalışma saatleri arasındaki çapraz çizelge .......................
26
Çizelge 4.9. Çapraz çizelgelerden elde edilen ki-kare değerleri .....................................
27
Çizelge 4.10. Yaşa göre sınıflama ..................................................................................
31
Çizelge 4.11. Araç tipine göre sınıflama ........................................................................
31
Çizelge 5.1. Değişkenlere ait açıklamalar ve kodlamalar ...............................................
34
x
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 5.1. Öğrencilerin cinsiyete göre dağılımı ...........................................................
34
Şekil 5.2. Öğrencilerin sınıflara göre dağılımı.............................................................
35
Şekil 5.3. Öğrencilerin geldiği yere göre dağılımı .......................................................
35
Şekil 5.4. Öğrencilerin ÖSYM puanına göre dağılımı ................................................
36
Şekil 5.5. Öğrencilerin tercih sırasına göre dağılımı ...................................................
36
Şekil 5.6. Öğrencilerin okudukları bölümlere göre dağılımı .......................................
37
Şekil 5.7. Öğrencilerin not ortalamasına göre dağılımı ...............................................
38
Şekil 5.8. Öğrencilerin mezun oldukları lise türüne göre dağılımı ..............................
38
Şekil 5.9. Öğrencilerin doğduğu yere göre dağılımı ....................................................
39
Şekil 5.10. Not ortalaması için algoritmalarda kullanılan değişkenler ........................
40
Şekil 5.11. C5.0 Algoritmasına göredeğişkenlerin not ortalamasındaki ağırlıkları .....
40
Şekil 5.12. Not ortalaması C5.0 algoritması karar ağacı örneği ..................................
42
Şekil 5.13. C&RT Algoritmasına göre değişkenlerin not ortalamasındaki ağırlıkları
43
Şekil 5.14. C&RT Algoritması karar ağacı örneği ......................................................
45
Şekil 5.15. CHAID Algortimasına göre değişkenlerin not ortalamasındaki ağırlıkları
46
Şekil 5.16. Not ortalaması için CHAID algoritması karar ağacı örneği ......................
48
Şekil 5.17. QUEST Algoritmasına göre değişkenlerin not ortalamasındaki ağırlıkları
49
Şekil 5.18. Not ortalaması için QUEST algoritması karar ağacı örneği ......................
50
Şekil 5.19. Bölüm değişkeni için modellerde kullanılan değişkenler ..........................
51
Şekil 5.20. C5.0 Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları .......
51
Şekil 5.21. Bölüm değişkeni için C5.0 algoritması karar ağacı örneği........................
52
Şekil 5.22. C&RT Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları ....
53
Şekil 5.23. Bölüm değişkeni için C&RT algoritması karar ağacı örneği ....................
54
xi
Şekil
Sayfa
Şekil 5.24. CHAID Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları ..
55
Şekil 5.25. Bölüm değişkeni için CHAID algoritması karar ağacı örneği...................
56
Şekil 5.26. QUEST Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları ..
57
Şekil 5.27. Bölüm değişkeni için QUEST algoritması karar ağacı örneği ..................
58
Şekil 5.28. Algoritmalara göre değişkenlerin not ortalaması üzerine olan ağırlıkları .
59
Şekil 5.29. Değişkelerin algoritmalara göre bölüm üzerinde olan ağırlıkları ..............
60
xii
SİMGELER VE KISALTMALAR
Bu çalışmada kullanılmış simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda
sunulmuştur.
Kısaltmalar
Açıklamalar
C&RT
Classification and Regression Trees
CHAID
Chi-Square Automatic Interaction Detector
CRM
Customer relationship management
FEF
Fen Edebiyat Fakültesi
ID3
Iterative Dichotomiser 3
LYS
Lisans Yerleştirme Sınavı
OBP
Orta Öğretim Başarı Puanı
ÖSS
Öğrenci Seçme Sınavı
ÖSYM
Ölçme, Seçme ve Yerleştirme Merkezi
QDA
Square Analysis of Variance
QUEST
Quaternion Estimator
VD.
Ve diğerleri
YGS
Yüksek Öğrenime Geçiş Sınavı
1
1. GİRİŞ
Teknolojinin gelişmesinde uygulamalı bilimlerin yanında temel bilimler de önemli bir role
sahiptir. Temel bilimlere ilişkin eğitimler üniversitelerin fen fakültelerinde verilmektedir.
Ancak son yıllarda ülkemizde fen fakültelerine olan öğrenci talebi azalmaktadır. Birçok
bölüm öğrenci sayısının yetersiz olmasından dolayı kapanma aşamasına gelmiştir. Bunda
son yıllarda birçok yeni üniversitenin açılmasının payı çoktur. Öğrencilerin fizik, kimya,
biyoloji gibi bölümleri tercih etmek yerine aynı puanlarla mühendislik veya işletme gibi
alanlara yerleşebilmelerinin bu durum üzerinde etkili olduğu söylenebilir.
Öğrencilerin bölüm tercihleri üzerinde başka değişkenlerin de etkisi olduğu düşünülebilir.
Bu nedenle tercih üzerinde etkili olabilecek demografik özelliklerin belirlenmesi de fen
fakültelerini tercih eden öğrenci profillerini belirlemek açısından önemlidir. Bölümleri
tercih eden öğrencilerin ne kadar başarılı oldukları da bölümlere göre öğrenci profillerinin
sınıflandırılması açısından önem taşımaktadır.
Bu amaçla veri madenciliği tekniklerinden yararlanılabilir. Veri madenciliği, çok büyük
miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya yardımcı
olan ve veri tabanı sistemleri içerisinde gizli kalmış bilgilerin çekilmesini sağlayan veri
analizi tekniğidir. Veri madenciliğinde en yaygın kullanılan yöntem ise karar ağaçlarıdır.
Karar ağaçları kolay uygulanabilmesi ve sonuçların anlaşılabilir olması nedeniyle yaygın
olarak kullanılan veri madenciliği tekniklerindendir.
Bu çalışmada fen fakültelerini tercih eden öğrencilerin bölüm tercihlerinde ve not
ortalamalarında etkili olan değişkenlerin belirlenmesi amaçlanmıştır. Bunun için veri
madenciliğinin sınıflandırma algoritmalarından
yararlanılmıştır. Çalışmanın
ikinci
bölümünde Türkiye’deki üniversite eğitim sistemi hakkında bilgiler verilmiştir. Bu
bölümde ayrıca fen fakülteleri ile ilgili bilgiler verilmiş eğitim alanında yapılan çalışmalar
hakkında literatür taraması yapılmıştır. Çalışmanın üçüncü bölümünde veri madenciliği
hakkında bilgi verilmiştir. Bu bölümde veri madenciliğinde kullanılan yazılımlar ve
algoritmalar hakkında bilgiler yer almaktadır. Dördüncü bölümde sınıflandırma
algoritmalarının ayrıntıları yer almaktadır. Bu bölümde çalışmada kullanılacak olan ID3,
C4.5/C5.0, C&RT, CHAID ve QUEST algoritmalarının işleyişi ve hesaplamalar hakkında
bilgiler yer almaktadır. Beşinci bölümde Gazi Üniversitesi Fen Fakültesi öğrenci verisine
2
uygulanan sınıflandırma algoritmalarının sonuçları ve bulguları yer almaktadır. Bu
bölümde veriye ait tanımlayıcı istatistikler ve karar ağaçları verilmektedir. Çalışmada
kullanılan algoritmaların sonuçlarına ilişkin karşılaştırmalar da beşinci bölümde
verilmiştir. Son bölüm sonuç ve tartışma bölümüdür.
3
2. ÜNİVERSİTE EĞİTİM SİSTEMİNDE FEN FAKÜLTELERİ
Bu bölümde üniversite eğitim sistemleri hakkında bilgi verilmiştir. Aynı zamanda fen
fakültelerinin durumu ve fen fakültelerini tercih eden öğrencilerin mevcut istatistikleri
yorumlanmıştır.
2.1. Üniversite Eğitim Sistemi
Bir toplumun görgüsünü, bilgisini, kültürünü, refah ve kalkınmışlık düzeyini kısaca genel
niteliklerini belirleyen ve etkileyen en önemli etken, o toplumun bilgi ve eğitim düzeyidir.
Genç insan gücü potansiyelinin değerlendirilmesi ve niteliğinin arttırılarak üretim sürecine
katılımının sağlanması, Türkiye’ nin kalkınmasında hayati öneme sahiptir. Bu ise eğitim ve
istihdam politikalarıyla yakından ilişkilidir. Eğitim-istihdam ilişkilerinin geliştirilmesi de
hem birey hem de ulusal ekonomi için rekabet üstünlüğü sağlamada gereklidir. Bunun için
bütün toplum mensuplarının kitlesel eğitimini genişletmeyi ve yükseltmeyi başlıca hedef
seçmişlerdir. Bu hedefi gerçekleştirmeye çalışan kurumlardan biri olan üniversiteler de
bilimsel bilgiyi araştırma yoluyla üretir, öğretir ve yayar(Arık, 2009).
Bu noktada, üniversite öğretimi su üç işlevi yerine getirir;
1. Kültür aktarımı
2. Meslek eğitimi
3. Bilimsel araştırma ve yeni bilim adamlarının yetiştirilmesi
Günümüzde bu işlevlere aynı önemde hizmet üretme işlevi de eklenmiştir.
Mevcut sistemde üniversiteye giriş iki sınavla gerçekleşmektedir.

YGS (Yükseköğrenime Geçiş Sınavı)

LYS (Lisans Yerleştirme Sınavı)
Her öğrenci YGS'ye girmek zorundadır. YGS, tüm lise öğrencilerinin aldığı ortak
derslerden oluşur. Bunlar; Temel Matematik (Mat1), Temel Fen Bilimleri (9. sınıf), Dil ve
Anlatım, Tarih, İnkılâp Tarihi, Milli Güvenlik Bilgisi, Temel Coğrafya (Coğ1), Felsefe'dir.
Meslek ve teknik lise öğrencilerin sadece YGS' ye girmesi yeterliyken Anadolu ve Genel
Lise öğrencilerinin LYS' ye de girmesi gerekmektedir.
4
2.2. Fen Fakülteleri
Türkiye’deki fen fakülteleri incelendiğinde fakültelerin genel olarak Fizik, Kimya,
Biyoloji, Matematik ve İstatistik bölümlerinden oluştuğu görülmektedir. Bu bölümlere ait
kontenjanlar, yerleşen öğrenci sayıları ve yerleşen öğrenci oranları Çizelge2.1’ de
verilmiştir. Çizelge incelendiğinde, Fizik, Kimya ve Biyoloji bölümlerine yerleşen öğrenci
oranlarının 2009 dan 2012’ye kadar düzgün bir şekilde azaldığı görülmektedir. Matematik
bölümü ise 2009-2011 yılları arasında yerleşen öğrenci oranı bakımından düzgün bir seyir
izlerken 2012 yılında bölüme yerleşen öğrenci oranı keskin bir düşüşle %49,2’ye
gerilemiştir. İstatistik bölümü de matematik bölümüne benzer bir seyir izlerken 2012’deki
azalış miktarı matematik bölümüne göre daha azdır. 2011 yılında istatistik bölümüne
yerleşen öğrenci oranı %100 iken 2012’de %72,6 olmuştur.
Çizelge 2.1. Yıllara göre fen bölümlerinin öğrenci sayıları
Yıllar
Bölüm
Fizik
Kimya
Biyoloji
Matematik
İstatistik
Öğrenci
Yerleşen
Kontenjan
%
Yerleşen
Kontenjan
%
Yerleşen
Kontenjan
%
Yerleşen
Kontenjan
%
Yerleşen
Kontenjan
%
2009
4942
6936
71.3
6479
7479
86.6
6897
7553
91.3
7796
7996
97.5
1819
2230
81.6
2010
3611
8266
43.7
7094
8977
79.0
7324
8885
82.4
9347
9455
98.9
2375
2375
100.0
2011
1545
4504
34.3
4582
8008
57.2
4339
8004
54.2
9354
9809
95.4
2387
2387
100.0
2012
555
2373
23.4
1949
5873
33.2
1679
5862
28.6
5430
11036
49.2
1809
2491
72.6
2013
553
1050
52.7
1647
2405
68.5
1435
2093
68.6
4963
5772
86.0
1887
2140
88.2
2013 yılında istatistik bölümü hariç diğer bölümlerde kontenjanlar neredeyse yarı yarıya
azaltılmıştır. İstatistik bölümü kontenjanlarında ise yaklaşık olarak %15’lik bir azalmaya
gidilmiştir. Buna rağmen 2013 yılında en fazla oranda öğrenci yerleşimi %88,2 ile istatistik
bölümünde gerçekleşmiştir. Bu durumlar Şekil 2.1 de net bir şekilde görülmektedir.
5
100%
90%
80%
70%
60%
Fizik
Kimya
50%
Biyoloji
40%
Matematik
İstatistik
30%
20%
10%
0%
2009
2010
2011
2012
2013
Şekil 2.1. Yıl bazında fen bölümlerine yerleşen öğrenci oranları
Özellikle Fizik, Kimya ve Biyoloji bölümlerinin öğrenci sayılarındaki bu azalışın nedeni
pedagojik formasyonun bu fakültelerde okuyan öğrencilerin elinden alınması olarak
görülmektedir (http://fefkon.beun.edu.tr/Sonuc_raporlari/Paneller.pdf). Koncuk (2012)
çalışmasında Fen Edebiyat Fakültelerinin tekrar rağbet görmesi için bu fakültelerin
yeniden öğretmen yetiştirmeye başlaması böylece hem Eğitim Fakültelerinin hantallığı
ortadan kalkması ve hem de Fen-Edebiyat Fakültelerine dinamizminin gelmesi yönünde bir
öneri sunmaktadır. Ancak pedagojik formasyonun 2012 yılında kaldırıldığı dikkate alınırsa
öğrenci sayılarındaki azalışın bu etkene bağlanması doğru olmaz. Bu azalışta yeni açılan
üniversitelerin aynı puanla farklı bölüm alternatifleri sunması da etkili olmuştur. Örneğin
bir öğrenci istihdam olanağı daha sınırlı olan Fizik bölümüne girmek yerine aynı puanla
inşaat mühendisliğine girebilmektedir.
Fen bölümlerinin, öğrenciler tarafından yeniden ilgi duyulan bir alan haline getirmek için;
 Üniversiteler bünyesinde tanıtım ofisleri kurulmalıdır, bu ofislerin FEF’lerin eğitimöğretim ve misyonunu tanıtan, mezunların yapabilecekleri iş olanaklarını ortaya koyan
bilgileri kamuoyuyla paylaşması gerekir.
 İlköğretimden başlayarak temel bilimler özendirilmeli, ilk ve orta öğretimde ders
müfredatları öğrencilerin bu bölümlere ilgisini arttıracak şekilde güncellenmelidir.
 Ortaöğretim müfredatlarında özellikle fen dersleri bilgi yığılması şeklinde öğretilmekte
ve öğrenciler, ezberlemek zorunda kaldıkları temel bilimlerden daha öğrenmeden
soğumaktadırlar. Öğrencilerin gözlem yapma, bilgiyi sistematik sınıflandırma ve
6
hipotez-kuram dizgisini anlama konusunda daha bilinçli olacağı şekilde, eğitim sistemi
düzenlenmeli ve yeni eğitim planları oluşturulmalıdır.
 Bölüm isimlerinin, popüler alt dallarının isimleriyle değiştirilmesi ya da yeni bir bölüm
olarak kurulması engellenmeli; farklı isimlerle anılan bölümlerden aynı unvanlı
mezunlar verilmemelidir.
Fen fakültelerinin bölümleri incelendiğinde en fazla rağbet gören bölümün İstatistik
bölümü olduğu görülmektedir. Bu çalışmada hem fen fakültelerinde okuyan öğrencilerin
başarı durumlarına etki eden faktörler hem de bölüm seçiminde etkili olan demografik
özellikler incelenecek ve bölümler bazında karşılaştırmalar yapılacaktır.
2.3. Eğitim Alanında Veri Madenciliği İle İlgili Önceki Çalışmalar
Aydın (2007) çalışmasında veri madenciliği konusunu ele alarak Uzaktan Eğitim
Sisteminin planlama faaliyetlerine katkı sağlayabilecek öğrenci performansını tahmin
etmeye yönelik bir model önermiştir. Ayrıca mezun öğrencilerin profillerini çıkarmaya
yönelik kümeleme çalışması gerçekleştirmiştir. Bu çalışmasında Aydın, Öğrenci bilgi
sistemi ve e-öğrenme sisteminden sağladığı verilerle SPSS Clementine veri madenciliği
yazılımı kullanarak öğrencinin kimlik, geçmiş başarısı ve e-öğrenme kullanım güncelerini
girdi parametresi olarak kullanan tahmin modelleri C5.0, Logistic Regression, Neural Net,
C&RT, CHAID ve QUEST algoritmalarını çalıştırarak elde etmiştir. Bu modellere
geçerlilik testi uygulayarak C5.0 ile elde ettiği karar ağacı modelini en iyi tahmin modeli
olarak seçilmiştir. C5.0 algoritması ile elde edilen tahmin modeli %82,1 doğruluk oranı
sağlamıştır. Yazar araştırmanın ikinci aşamasında mezun öğrenci verilerine kümeleme
analizi uygulamıştır. Mezun öğrenciler; medeni durum, bilgisayar ve internet kullanım
verileri, cinsiyet, mezuniyet yaşı ve mezuniyet gecikmesi özelliklerine göre beş küme
halinde gruplandırılmıştır. Kümeleme sonucu bilgisayar ve internet kullanan bekâr erkek
öğrencilerin diğer öğrencilere göre daha kısa sürede mezun oldukları gözlenmiştir.
Mezuniyet gecikmesi en fazla olan öğrencilerin ise yaşı büyük, internet kullanmayan ve
bilgisayarı sınırlı kullanan öğrenciler olduğu belirlenmiştir.
Öğrenci başarılarını etkileyen faktörler üzerine yapılan araştırmalar arasında yer alan
çalışmalardan biri de Kurt ve Erdem (2012) çalışmasıdır. Bu çalışmada başarılı ve başarısız
öğrencilerin profilleri belirlenerek, uygun çözümler önerilmiştir. Öğrencilerin akademik
7
başarılarına etki eden faktörlerin belirlenmesinde veri madenciliği yöntemlerini
kullanmıştır. Öğrencilerin başarılarına etki eden faktörleri bulabilmek amacıyla
çalışmasında C&RT, CHAID, Neural Network, Apriori, k-ortalama modellerini kullanarak
amaçlanan sonuçlara ulaşmaya çalışmıştır. Çalışmanın sonunda ise mezuniyet sonrası
bölümle ilgili bir işte çalışıp çalışmama ihtimalinin başarıyı ciddi şekilde etkilediği,
araştırmacı kişiliğin başarı üzerine çok büyük bir etkisi olduğu, başarısızlığa etki eden
faktörlerin başında istemediği bölümde okumak ve başarısız öğrencilerin çoğunun
istemediği bölümde okuduğu sonucuna ulaşmıştır. Öğrencilerin lise mezuniyet ortalamaları
ile lisans ortalamaları arasında ilişki bulunmuş, cinsiyetin başarıda etkin olarak belirleyici
bir etkisi saptamamıştır.
Keskin vd.(2010) yaptıkları çalışmada Pamukkale Üniversitesi Buldan Meslek Yüksek
Okulu bölümlerinde okuyan öğrencilerin profilini belirlemek amacıyla öğrencileri tesadüfi
örnekleme yöntemiyle belirleyerek anket çalışması yapmışlardır. Araştırma sonucu, bayan
öğrenci sayısının erkek öğrenci sayısından daha fazla olduğu ve yaş dağılımının birbirine
oldukça yakın olduğunu saptamışlardır. Öğrencilerin geldikleri illerin dağılımına
baktıklarında yakın illerden gelen öğrenci sayısının daha fazla olduğu sonucuna
varmışlardır. Öğrencilerin bölüm seçmelerindeki en büyük etkenin bir mesleğe sahip
olmak olduğu sonucunu elde etmişlerdir. Araştırmada elde edilen bulgular diğer
çalışmalarda elde edilen bulgularla benzerlik gösterdiği kanaatine varmışlardır.
Ataseven (2008) çalışmasında üniversite adaylarının tercihlerini belirleyen desenlerin veri
madenciliği yöntemlerinden Karar ağaçları ve Lojistik Regresyonu kullanılarak geliştirilen
model önerileri ve uygulamaları sunmuştur. Her puan türü için, o puan türünde yerleşmeye
hak kazanmış adaylar üzerinde modellerin uygulamasını gerçekleştirmeyi amaçlamıştır.
Bozkır vd.(2009) makalesinde öğrenci seçme sınavında öğrenci başarısını etkileyen
faktörleri, veri madenciliği yöntemleriyle tespit etmiştir. Çalışmasında ÖSYM’ nin resmi
internet sitesinden 2008 yılında uygulanmış olan ÖSS öğrenci anketinden elde edilen
veriler üzerinde sınıflandırma ve kümeleme yöntemlerini uygulanmış ve öğrencilerin ÖSS
sınavında gösterdikleri başarıyı etkileyen faktörleri tespit etmiştir. SPSS programını
kullanarak verilerine kümeleme ve karar ağacı algoritmalarını uygulamıştır. Araştırma
kapsamında, OBP puanı (Fen, Eşit ağırlık, sözel) tüm öğrencilerin ÖSS’ de ortak başarı
ölçütü olarak ele alınırsa bu puan türüne etkiyen en önemli beş faktörün yaş, okul türü,
8
sanat derslerine ilgi, matematik dersi için harcanan ödev zamanı ve fen bilgisi laboratuar
kullanım oranı olduğu gözlemlemiştir. Diğer tüm puan türlerinde de yaşın önemli bir etken
olduğu sonucuna varmıştır. Ayrıca okullarda sunulan teknik imkânların ÖSS başarısı
üzerinde önemli etkilerini tespit etmiştir. Özellikle kümeleme analizinde öğrencinin sahip
olduğu sosyal, kültürel ve ekonomik imkânların ÖSS başarısına büyük katkısı
bulunmuştur.
Owen vd. (2011) “XI. Ulusal Psikolojik Danışmanlık ve Rehberlik Kongresi’ nde sundukları
Üniversite Öğrencilerinin Bölüm Seçimlerini Etkileyen Etmenler çalışmalarında bölüm
seçerek gelecekte edinecekleri meslek ile seçimlerini yapmış olan üniversite öğrencilerinin
meslek seçimi yapmalarını etkileyen faktörleri belirlemişlerdir. Çalışmalarında 2009-2010
öğretim yılı bahar ve 2010-2011 öğretim yılı güz döneminde öğrenimine devam eden,
Türkiye’de bulunan 3 özel, 10 devlet üniversitesi olmak üzere toplam 13 üniversiteden 869
(385 K, 484 E) öğrenci verilerini kullanmışlardır. Çalışmalarında üniversite öğrencilerinin
cinsiyetleri, mezun oldukları lise türü, anne ve babalarının eğitim düzeyi, yaşamının
çoğunu geçirdikleri yer değişkenlerine göre meslek seçme nedenlerinde ve seçtikleri
bölümlerden memnuniyetlerinde farklıkların olması liselerde yapılacak mesleki rehberlik
çalışmalarında işe yarayabilir sonucuna ulaşmışlardır.
9
3. VERİ MADENCİLİĞİ
Frawley vd.(1992) veri madenciliğini “daha önceden bilinmeyen ve potansiyel olarak
yararlı olma durumuna sahip verinin keşfedilmesi” olarak tanımlamıştır. Bir başka tanıma
göre veri madenciliği, veri ambarlarındaki tutulan çok çeşitli verilere dayanarak daha önce
keşfedilmemiş bilgileri ortaya çıkarma ve bunları karar vermek için kullanma süreci olarak
ifade edilir (Swift, 2001). Daha genel bir ifadeyle veri madenciliği, geniş veri yığınları
içerisinde, yararlı olma potansiyeline sahip, aralarında beklenmedik / bilinmedik ilişkilerin
olduğu verilerin keşfedilerek, veri sahibi için hem anlaşılır hem de kullanılabilir bir biçime
getirilmesine yönelik geliştirilmiş yöntemler topluluğu olarak tanımlanabilir (Öğüt, 2005).
Veri madenciliğinin kökeni verilerin bilgisayar ortamında depolanmaya başladığı 1950’ li
yıllara dayanmaktadır. Bilgisayarlarda verilerin depolanmasıyla birlikte veri tabanları
denilen yapılar ortaya çıkmıştır. Veri tabanlarının büyük hacimlere ulaşması donanımsal
olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirmiştir. Gittikçe
büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de buna paralel olarak
güç bir hal almaya başlamıştır. Bu aşamada veri modelleme kavramı ortaya çıkmıştır
(Öğüt, 2005).
İlk olarak basit veri modelleri olan hiyerarşik ve şebeke veri modelleri geliştirilmiştir.
Hiyerarşik veri modeli, ağaç yapısına sahip, temelinde bir kök olan ve bu kök vasıtasıyla
üstünde her daim bir, altında ise n sayıda düğüm bulunan veri modelidir. Şebeke veri
modeli ise kayıt tipi ve bağlantıların olduğu, kayıt tiplerinin varlık, bağlantılarınsa ilişki
tiplerini belirlediği bir veri modelidir. Şebeke veri modelinde herhangi bir eleman bir
diğeri ile ilişki içerisine girebilir ancak çoklu ilişki kurmak söz konusu değildir. Hiyerarşik
veri modellerinde ise bu durum daha kısıtlıdır. Bundan dolayı ihtiyaçlar doğrultusunda
Geliştirilmiş Veri Modelleri geliştirilmiştir. Bunlar Varlık-İlişki, İlişkisel ve NesneYönelimli veri modelleri olarak bilinmektedirler. Günümüzde en sık kullanılanı ilişkisel
veri modelidir. Nesne -Yönelimli veri modelleri ise hala gelişim süreci içerisindedir.
Veri madenciliği, kavramsal olarak 1960’lı yıllarda, bilgisayarların veri analiz
problemlerini çözmek için kullanılmaya başlamasıyla ortaya çıkmıştır. O dönemlerde,
bilgisayar yardımıyla, yeterince uzun bir tarama yapıldığında, istenilen verilere ulaşmanın
10
mümkün olacağı gerçeği kabullenilmiştir. Bu işleme veri madenciliği yerine önceleri veri
taraması (data dredging), veri yakalanması (data fishing) gibi isimler verilmiştir. 1990’lı
yıllara gelindiğinde veri madenciliği ismi, bilgisayar mühendisleri tarafından ortaya
atılmıştır. Burada amaç, geleneksel istatistiksel yöntemler yerine, veri analizinin algoritmik
bilgisayar modülleri tarafından değerlendirmesini vurgulamaktır (Öğüt, 2005).
İstatistik ise verilerin toplanması, düzenlenmesi, analiz edilmesi ve raporlaştırılması
aşamalarını içeren veri bilimidir (Bakır ve Aydın, 2010). Bilgisayarların veri analizi için
kullanılmaya başlanmasıyla istatistiksel çalışmalar da hız kazanmıştır. 1990 yılından sonra
istatistik, veri madenciliği ile ortak bir platforma taşınmıştır. Verinin, yığınlar içerisinden
çekip çıkarılması ve analizinin yapılarak kullanıma hazırlanması sürecinde veri
madenciliği ve istatistik sıkı bir çalışma birlikteliği içine girmiştir. Veri madenciliğinin
karar verici için sağladığı yararlar şu şekilde verilebilir:

Bir işletme için mevcut müşterilerin karar verici tarafından daha iyi tanınmasını
sağlayabilir. Bu sayede işletme müşterilere sunduğu tekliflerle karlılığını arttırabilir.

Özellikle finans sektöründe mevcut müşterileri bölümlere ayırıp, kredi risk davranış
modelleri oluşturarak, yeni başvuruda bulunan müşterilere karşı riskin minimize
edilmesi sağlayabilir.

En iyi müşteriler tespit edilerek bunlara yönelik yeni pazarlama stratejileri
oluşturulabilir.

Veri madenciliği ile mevcut müşteriyi tanıyarak kuruluşların müşteri ilişkileri
yönetimlerinde (CRM) düzenleme ve geliştirmeler yapılabilir. Bu sayede kuruluşun
müşterilerini daha iyi tanıyarak müşteri gibi düşünme kapasitelerinin arttırılması
sağlanabilir.

Günümüzde var olan yoğun rekabet ortamında kuruluşların hızlı ve kendisi için en
doğru kararı almalarını sağlayabilir.

Sosyal paylaşım siteleri gibi yazışmaların yapıldığı internet ortamlarında metin
analizleri (text mining) yapılarak kullanıcılara yönelik sayfa düzenlemeleri ve
reklamlarla iyileşme sağlanabilir. Yine aynı ortamlarda kullanıcıların kişisel profilleri
belirlenebilir.
11
Dolayısıyla günümüzde veri madenciliği birçok alanda kullanılmaktadır. Bu alanlar
pazarlama, bankacılık, endüstri, sağlık ve risk yönetimi gibi başlıklar altında
sınıflandırılabilir (Eker, 2004).
Pazarlama
-
Müşterilerin satın alma örüntülerinin belirlenmesi,
-
Müşterilerin demografik özellikleri arasındaki bağlantıların bulunması,
-
Posta kampanyalarında cevap verme oranının artırılması,
-
Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması,
-
Pazar sepeti analizi,
-
Müşteri ilişkileri yönetimi,
-
Müşteri değerlendirmesi,
-
Satış tahmini,
Bankacılık
-
Farklı finansal göstergeler arasında gizli korelâsyonların bulunması,
-
Kredi kartı dolandırıcılıklarının tespiti,
-
Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi,
-
Kredi taleplerinin değerlendirilmesi
Endüstri
-
Kalite kontrolünde uygulanması,
-
Üretim çeşitliliğine ilişkin politikaların belirlenmesi
Sağlık
-
Hastalar için erken uyarı sistemlerinin oluşturulması,
-
Laboratuar testlerinde hata tespiti,
-
Yerleşim yerlerine göre hastalık haritalarının çıkartılması
12
Sigortacılık/Risk Yönetimi
-
Yeni poliçe talep edecek müşterilerin tahmin edilmesi,
-
Sigorta dolandırıcılıklarının tespiti,
-
Riskli müşteri örüntülerinin belirlenmesi
Yukarıda verilen alanlarla ilgili yapılan çalışmalardan bazıları şöyledir: Şimşek (2006)
yaptığı çalışmada, veri madenciliği ile Müşteri İlişkileri Yönetimi (CRM)‘i incelemiş ve bu
çalışmasında Kümeleme Analizi ve Birliktelik Analizini kullanmıştır. Bir diğer çalışma ise
Topaloğlu(2007) tarafından yürütülen çalışmadır. Veri Madenciliği ile Meteorolojik
Parametrelerin Analizi çalışmasında Karar Ağaçları yönteminden yararlanmıştır.
Veri madenciliğinin istatistik ile olan yakın ilişkisi tıp ve ekonomi gibi bilim dalları için de
önemli bir yöntemdir. Yıldırım vd.(2007) tarafından yapılan Hastane Bilgi Sistemlerinde
Veri Madenciliği adlı çalışmalarında İlişkisel Kural Analizi (Association Rules Analysis)
ile veri madenciliği tekniklerinden yararlanmışlardır. Bir diğer alan olan ekonomide ise
Koyuncugil (2007) Veri Madenciliği ve Sermaye Piyasalarına uygulanması adlı
çalışmasında Karar Ağaçları Yöntemleri ve Lojistik Regresyondan yararlanmıştır.
Kim vd.(2011) yaptığı çalışmada, çok değişkenli süreçlerde bağımlı gözlem durumu için
veri madenciliğine dayalı kontrol grafiklerini çalışmışlardır. Veri madenciliği algoritmaları
ve klasik yöntemlerin tanıtıldığı çalışmada simülasyona dayalı karşılaştırılmalar yer
almaktadır. Veri madenciliğine dayalı kontrol grafikleri ile geleneksel kontrol grafiklerinin
karşılaştırılmasında özellikle süreçte küçük kaymaların meydana geldiği durumlarda, veri
madenciliğine dayalı kontrol grafiklerinin daha etkin olduğu sonucuna ulaşılmıştır.
Hisse senetleri, döviz kurlarına ve işletme iflaslarının tahmini, finansal risk yönetimi ve
belirlenmesi, borç yönetimi, müşteri profillerinin belirlenmesi ve kara para aklama
analizleri veri madenciliğinin finansal çalışmalarda kullanıldığı temel alanlardır. Veri
madenciliğinin finansal çalışmalarda başarılı olarak uygulandığı araştırmalar; hilekârlığın,
işletme iflas ve başarısızlıklarının belirlendiği Lee vd.(1996) ve Kumar vd.(1997)
çalışmaları, stratejik finansal karar alma uygulamalarında Nazem ve Shin (1999) çalışması,
pazar uygulamalarında Brachman vd. (1996), finansal performans uygulamalarında
Magnusson vd.(2005) çalışmaları örnek olarak gösterilebilir.
13
İnternet, kullanım yaygınlığının artmasıyla birlikte sürekli büyüyen bir veri ağıdır.
Dolayısıyla bu alanda da son yıllarda veri madenciliği çalışmalarına rastlamak
mümkündür. Aynekin (2006) çalışmasında internet içeriğine ilişkin veri madenciliğini
yapay sinir ağlarına dayalı olarak incelemiştir.
Veri Madenciliği tekniklerinden olan birliktelik/sepet analizi de sık kullanılan
yöntemlerdendir. Timor ve Şimşek (2008) ile Gürgen (2008) Türkiye’de perakende
sektöründe faaliyet gösteren büyük bir market zincirine ait verilerden yararlanarak
birliktelik analizi ile ilgili çalışmalar yapmışlardır. Bu çalışmalarda müşterilerin satın alma
davranışlarını etkileyen değişkenler karar ağaçlarıyla belirtilmiştir. Emel vd.(2005)
pazarlama stratejisi için birliktelik analizi uygulamışlar ve işletmenin en çok kar ettiği
müşteri-ürün çiftlerini tespit etmeye çalışmışlardır.
Yukarıda verilen örneklerde de görüldüğü üzere veri madenciliği uygulamaları geniş bir
kullanım alanına sahiptir. Veri madenciliğinin kullanımının yaygınlaşması veri madenciliği
yazılımlarının da aynı paralellikte gelişmesini sağlamıştır. Takip eden bölümde veri
madenciliğinde kullanılan yazılımlar hakkında bilgi verilecektir.
3.1. Veri Madenciliği Yazılımları
Her veri madenciliği çalışmasında verilerin kaynaklardan toplanması ve entegrasyonu,
verilerin temizlenmesi, modelin oluşturulması, modelin denenmesi ve sonuçların sunuma
hazırlanması adımları karşımıza çıkar. Bu amaçla veri madenciliği çalışmalarını yapmak
için birçok yazılım geliştirilmiştir.
Veri madenciliği ile ilgili yapılan çalışmalar dikkate alındığında kullanım yüzdelerine göre
yazılımlar aşağıdaki grafikte verilmiştir (Rexer, 2013).
YAZILIM
14
KXEN
TIBCO S+
Salford Systems
SAP Business Objects
Orange
C45/C50/See5
Oracle Advanced Analytics
IBM Cognos
SAS JMP
Minitab
Mathematica
STATISTICA
KNIME
SAS Enterprise Miner
IBM SPSS Modeler
Microsoft SQL Server
Matlab
Weka
SAS
Rapid Miner
IBM SPSS Statistics
R
0
10
20
30
40
50
60
70
80
Kullanım Yüzdesi
Şekil 3.1. Yazılımların kullanım yüzdeleri
Grafikten de görüldüğü gibi veri madenciliğine ilişkin analizlerde en çok tercih edilen
yazılım R yazılımıdır (%70). Bunu sırasıyla IBM SPSS Statistics (%34) ve RapidMiner
(%32) yazlımları takip etmektedir. R yazılımının ücretsiz olması ve açık kodlu olması bu
yazılımın tercih edilme nedenlerinin başında gelmektedir.
Yazılımlarda kullanılan veri madenciliği yöntemlerinin dağılımı ise aşağıdaki grafikte yer
YÖNTEM
verilmiştir.
MARS
Uplift Modeling
Link Analysis
Genetic Algorithms
Social Network Anaysis
Rule Induction
Survival Analysis
Anomoly Detection
Bayesian
Support Vector
Ensemble Models
Association Rules
Text Mining
Factor Analysis
Neural Nets
Time Series
Cluster Analysis
Regression
Decision Trees
0
10
20
30
40
50
Kullanım Yüzdesi
Şekil 3.2. Yöntemlerin kullanım yüzdeleri
60
70
80
15
Şekilden de görüldüğü gibi veri madenciliği algoritmaları içerisinde en çok kullanılanı
karar ağaçlarıdır (%69). Bunu sırasıyla Regresyon (%68) ve Kümeleme Analizleri (%60)
takip etmektedir.
Karar ağaçları elde edilmesi ve yorumlanması kolay algoritmalardır. Bu algoritmalar
sınıflandırma algoritmaları içerisinde yer almaktadır. Bu çalışmada sınıflandırma
algoritmaları kullanılmıştır. Bu konuyla ilgili bilgi takip eden bölümde yer almaktadır.
16
17
4. SINIFLANDIRMA ALGORİTMALARI
Veri madenciliğinde kullanılan yöntemler önceki bölümde de bahsedildiği gibi
Sınıflandırma Teknikleri, Birliktelik Kuralları, Kümeleme Analizi, Regresyon Analizi ve
Zaman Serileri gibi başlıklar altında toplanabilmektedir. Bu bölümde çalışmada
kullanılacak olan sınıflandırma algoritmalarının ayrıntıları verilmiştir. Sınıflandırma
algoritmalarının geniş bir bölümünü karar ağaçları oluşturmaktadır.
Bu algoritmaların birbirleri ile aralarında farklılıklar olmakla birlikte ciddi benzerlikler de
bulunmaktadır. Aşağıda karar ağaçlarında kullanılan temel algoritma yapısı adımlar
halinde verilmektedir.
1. Başlangıçta bütün noktalar ağacın kökünde toplanmaktadır.
2. Tüm örneklemler aynı sınıfa ait olması durumunda, düğüm yaprağa dönüşür ve aynı
isim ile adlandırılır.
3. Aksi halde düğümdeki örneklemler birden fazla sınıfa aittir. Bu durumda test yapılarak
karar verilir ve bir bölümlenme meydana gelmektedir.
4. Kategorik veriler kullanılmaktadır. Sürekli değişkenlerin kesikli değişken haline
dönüştürülmesi gerekmektedir.
5. Bir dal, test değişkenin tüm değerleri için oluşturulmakta ve örneklemin bölümlenmesi
buna göre yapılmaktadır.
6. Örneklemin her bölümlenmesinde yinelemeli olarak aynı algoritma kullanılmaktadır.
7. Bölümlemenin sona ermesi için aşağıdaki koşullardan birisinin gerçekleşmesi
gerekmektedir.
a. Bir düğümde bulunan bütün örneklemler aynı sınıfa aittir.
b. Bölünmenin yapılacağı başka değişken kalmamıştır.
c. Başka örneklem kalmamıştır.
Karar ağaçları,
a. Kişilerin kredi geçmişlerini kullanarak kredi kararlarının verilmesi,
b. Geçmişte işletmeye en faydalı olan bireylerin özelliklerini kullanarak işe alma
süreçlerinin belirlenmesi,
c. Tıbbi gözlem verilerinden yararlanarak en etkin kararların verilmesi,
d. Hangi değişkenlerin satışları etkilediğinin belirlenmesi,
18
Üretim verilerini inceleyerek ürün hatalarına yol açan değişkenlerin belirlenmesi gibi
uygulamalarda kullanılmaktadır.
4.1. ID3 Algoritması
Bu algoritma sınıflandırmada en ayırt edici özelliğe sahip değişkeni belirlerken entropi
kavramını kullanır. Dunham (2003)’e göre entropi veri kümesi içerisindeki belirsizliği ve
rastgeleliği ölçen bir kavramdır (Dunham, 2003:8).
p1 , p2 ,..., pn ayrık olaylara ilişkin olasılıkları ifade etsin. Bu durumda
n
p
i 1
i
1
olmak üzere entropi aşağıdaki gibi ifade edilebilir.
n
H ( p1 , p2 ,..., pn )   pi log(1/ pi )
i 1
Entropi hesaplanırken ilk başta tüm veri tabanı için hesaplanır. Ancak herhangi bir
sınıflandırma
(dallandırma)
gerçekleştiğinde
her
bir
alt
bölümünde
entropisi
hesaplanmalıdır (Silahtaroğlu, 2013: 75).
Hesaplanan entropi değeri ile alt bölüme ait entropi değerleri arasındaki fark kazanım
(gain) olarak adlandırılır. Bu değer aşağıdaki gibi hesaplanır.
n
G( D)  H ( D)   P( Di ) H ( Di )
i 1
Burada D bir değişkeni temsil ederken Di değişkenin i. düzeyini temsil etmektedir.
Kazanım değeri hangi değişken için daha büyükse o değişken üzerinden dallandırma
yapılır.
19
ID3 algoritmasının işleyişini bir örnekle açıklayalım.
Çizelge 4.1. Örnek veri çizelgesi
Cinsiyet
K
K
E
E
K
E
E
K
E
E
K
K
K
K
E
Kilo
56
75
80
65
85
60
78
55
83
75
75
81
58
55
90
Boy
161
165
173
175
170
155
180
176
168
187
175
165
174
160
181
Beden
Orta
Büyük
Orta
Küçük
Orta
Küçük
Orta
Küçük
Büyük
Orta
Orta
Büyük
Küçük
Küçük
Büyük
Çizelgede ki veriler kullanılarak bir karar ağacı oluşturmak istenirse kök düğüm şu şekilde
hesaplanır;
Önce genel entropisi hesaplanır. Toplam gözlem sayımız 15 ve bu gözlemlerden bedene
göre 5 tanesi küçük, 7 tanesi orta ve 3 tanesi büyük sınıfında bulunmaktadır.
n
Kazanım( D; S )  H ( D)   P( Di ) H ( Di )
i 1
H ( p1 , p2 ,..., pn )   pi log(1/ pi )
5
 15  6
 15  4
 15 
log    log    log    0.4710
15
 5  15
 6  15
4
Şimdi cinsiyet değişkeni için entropi hesaplanırsa, küçük sınıfında ki kadın sayısı 3, orta
sınıfında ki kadın sayısı 3 ve büyük sınıfında ki kadın sayısı 2’ dir aynı şekilde erkekler
içinde hesaplanır.
3
8 3
8 2
8
entropi kadın = log    log    log    0.4685
8
3 8
3 8
2
2
7 3
7 2
7
entropi erkek = log    log    log    0.4677
7
2 7
3 7
2
20
8
7
Ağırlıklı toplam=    0.4685     0.4677  0.4680
 15 
 15 
Cinsiyet için kazanım ise 0.4710  0.4680  0.003 olarak hesaplanır.
Aynı işlemler kilo için de yapılır ancak öncelikle kilo değişkeninin gruplara ayrılması
gerekmektedir.
Çizelge 4.2. Kiloya göre sınıflandırma
Aralık(kilo)
55-65
66-75
76 ve üstü
Grup No
1
2
3
1. grup kilo için entropi=
4
6 2
6
log    log    0.2760
6
4 6
2
2. grup kilo için entropi=
1
3 2
3
log    log    0.2763
3
1 3
2
4
6 2
6
log    log    0.2760
6
4 6
2
6
3
6
Ağırlıklı toplam=
 0.2760   0.2763   0.2760  0.2760
15
15
15
3. grup kilo için entropi=
Kilo için kazanım ise 0.4710  0.2760  0.195 olacaktır.
Aynı işlemleri boy değişkeni için yapılır.
Çizelge 4.3. Boya göre sınıflandırma
Aralık(boy)
155-165
166-175
176 ve üstü
Grup No
1
2
3
1. grup boy için entropi=
1
5 4
5
log    log    0.2165
5
1 5
4
2. grup boy için entropi=
3
6 3
6
log    log    0.3010
6
3 6
3
3. grup boy için entropi=
1
4 3
4
log    log    0.2437
4
1 4
3
21
Ağırlıklı toplam=
5
6
4
 0.2165   0.3010   0.2437  0.258
15
15
15
Boy için kazanım ise 0.4710  0.258  0.213 olarak hesaplanır.
Bütün değişkenler için hesaplanan kazanımlar dikkate alındığında;
Cinsiyet (kazanım): 0.003
Kilo (kazanım): 0.195
Boy (kazanım): 0.213 olarak hesaplanır.
Bu aşamadan sonra en yüksek olan kazanım boy kök düğüm kabul edilir. Bu aşamadan
sonra boy verileri ele alınarak kilo ve cinsiyet değişkenleri için tekrar kazanımlar
hesaplanır ve düğümlerin isimleri belirlenir. Daha sonra aynı işlemler diğer dallar içinde
sırasıyla uygulanarak ağaç oluşturulur.
4.2. C4.5 ve C5.0 Algoritmaları
Entropi temelli ID3 algoritmasının geliştirilmiş formudur. Birçok veri madenciliği yazılımı
bu algortimayı içermektedir. Bu algoritmada hedef değişken üzerinde etkili olabilecek her
bir değişken için ayırma değeri (split value) ve kazanım oranı (gain ratio) hesaplanır.
Genel entropi fonksiyonu
H ( p1 , p2 ,..., pn )   pi log(1/ pi )
olmak üzere ayırma değeri
 D D
D 
H  1 , 2 ,..., s 
D 
 D D
şeklinde ifade edilebilir. Kazanım oranı ise
GR( D) 
H ( D)
SV ( D)
olarak yazılır (Pang and Gang, 2009).
C4.5 ve C5.0 Algoritmalarının işleyişini bir örnekle açıklayalım.
22
Çizelge4.1’ de yer alan örnek veri kullanılarakdiğer algoritmalardan farklı olarak
kazanımlar aşağıdaki gibi hesaplanır.
Kazanım Oranı(D,S)= Kazanım(D,S)/Ayırma Bilgisi(D,S)
 D
D 
Ayırma Bilgisi(D;S)=H  i ,..., s 
D 
 D
Cinsiyet için ayırma bilgisi
8 7 8
 15  7
 15 
H  ;   log    log    0.3001
 15 15  15
 8  15
7
Kazanım oranı: 0.4710  0.3001  0.1709
Kilo için ayırım bilgisi
6 3 6 6
 15  3
 15  6
 15 
H  ; ;   log    log    log    0.4577
 15 15 15  15
 6  15
 3  15
6
Kazanım oranı: 0.4710  0.4577  0.013
Boy için ayırma bilgisi
5 6 4 5
 15  6
 15  4
 15 
H  ; ;   log    log    log    0.4712
 15 15 15  15
 5  15
 6  15
4
Kazanım oranı: 0.4710  0.4712  0.0002
Bu algoritma sonucunda elde edilen kazanım oranlarından en küçük değerli değişken kök
olarak atanır. Yani kök düğüm boy değişkenidir.
4.3. C&RT Algoritması
C&RT, Sınıflandırma ve Regresyon Ağaçları kısaltmasıdır. Bu algoritma kümedeki
kayıtları önceki alt kümedeki kayıtlardan daha fazla homojen olacak şekilde iki alt kümeye
böler. Bu yinelemeli bir işlemdir, oluşan alt kümelerin her biri daha sonra tekrar bölünür ve
işlem homojenlik kriterine ulaşılana kadar veya başka bazı kriterlerle karşılaşana kadar
tekrar eder. Bu algoritma ikili ağaçlar üreten bir algoritmadır. Yani her bir düğüm
noktasından iki dallandırma yapılmasını sağlar. Bu nedenle algoritmanın adımları
verilirken “ağacın sağı” ve “ağacın solu” gibi kavramlar kullanılır.
23
C&RT algoritması da ID3 algoritmasında olduğu gibi entropiden yararlanır. En iyi ayırma
kriterinin belirlenmesinde ise farklı bir formül kullanır. Bu amaçla kullanılan formül
aşağıda verilmiştir.
M
  s / t   2 PL PR   P(C j / tL )  P(C j / tR ) 
j 1
Burada
(s/t) : Dallandırma kriteri
t: dallanmanın yapılacağı düğüm
c: kriter
L: Ağacın sol tarafı
R: Ağacın sağ tarafı
PL: Bir kaydın solda olma olasılığı
PR: Bir kaydın sağda olma olasılığı
P(C j / tL ) :Cj sınıfındaki bir kayıtın ağacın solunda olma olasılığı
P(C j / tR ) :C sınıfındaki bir kayıtın ağacın sağında olma olasılığı
j
Bu fonksiyona Twoing Kriter Fonksiyonu denir (Silahtaroğlu, 2013).
4.4. CHAID Algoritması
Kass (1980) tarafından geliştirilen bu teknik, Ki-kare Otomatik Etkileşim Dedektörünün
(CHi-squared Automatic Interaction Detection) kısaltmasıdır. Ağaç diyagramı oluşturmak
için son derece etkili bir istatistiksel tekniktir.Algoritma, homojen değişken düzeylerini
birleştirmeye ve heterojen olan düzeyleri ise ayrı tutarak dallandırma yapmaya dayalıdır.
Dallandırmanın uygulanabilmesi için en iyi ayırt edici değişkenin belirlenmesi gerekir.
Yöntem bunun için ki-kare istatistiğini temel alır. Değişkenlerin bölünmeye uygun olup
olmadığına, Bonferroni düzeltilmiş p değeri kullanılarak karar verilir.
CHAID ikili bir ağaç yöntemi değildir: yani, ağaçta bulunan herhangi bir özel seviyede
ikiden fazla kategori üretebilir. Bu nedenle, ikili oluşturma yöntemlerinden daha geniş bir
ağaç oluşturma eğilimindedir. Tüm değişken türleriyle çalışır ve eksik değerleri tek bir
kategori olarak işlemek suretiyle ele alabilir.
24
CHAID algoritmasının genelleştirilmiş bir türü CHAID yönteminin bazı zayıflıklarını
gidermek için geliştirilmiştir(Biggs, de Ville ve Suen, 1991). Bazı durumlarda CHAID bir
değişken için en uygun bölünmeyi bulamayabilir. Genelleştirilmiş CHAID, sadece iki üst
kategori kalana kadar tahmin edici değişkenlerinin kategorilerini birleştirmeye devam
etmek suretiyle bu soruna çözüm getirir. Algoritma birleşme dizilerini inceler ve hedef
değişkenle en güçlü ilişkiyi veren kategorilerin kümesini bulur.Bu ilişki için düzeltilmiş pdeğeri hesaplanır. Böylece bir tahmin edici için en iyi bölme bulunur ve hesaplanan pdeğerlerleri karşılaştırılarak hangi değişkenden bölme yapılacağı seçilebilir.
CHAID sürekli veya kategorik değişkenlerle çalışabilir. Bununla birlikte, sürekli
değişkenleranaliz amacıyla kategorize edilir. Hedef değişkeni Y üzerinde etkili olabilecek
değişken X olsun. CHAID algoritmasının işleyişi aşağıdaki gibi verilebilir.
a
Adım 1:Y’nin kategori sayısı d, X in kategori sayısı ise a olmak üzere   değeri kadar
2
a  d boyutlu çapraz çizelgeler oluşturulur.
Adım 2: Her bir çapraz çizelge için ki-kare değeri hesaplanır.
Adım 3: Anlamsız çıkan ki-kare değerleri için X’in kategorileri birleştirilir.
Adım 4: Anlamlı bulunan ki-kare değerleri içerisinde hangi X değişkeni için ki-kare değeri
büyükse o değişken dallandırma için kullanılır.
Ki-kare istatistiği aşağıdaki gibi hesaplanır.
c
r
  
2
(Gij  Bij )2
j 1 i 1
Bij
Burada Gij , i. satır j. sütun için gözlenen frekansı, Bij , i. satır j. sütun için beklenen
frekansı, c, sütun sayısını, r ise satır sayısını göstermektedir. Bu istatistik (r  1)(c  1)
serbestlik dereceli ki-kare dağılımına sahiptir. Beklenen frekans hesabı ise aşağıdaki gibi
verilebilir.
Bij 
(T. j )(Ti. )
n
Burada T. j , j. sütun toplamını ve Ti. , i. satır toplamını göstermektedir.
CHAID algoritmasının işleyişini aşağıda yer alan örnekle açıklayalım.
25
100 kişilik bir öğrenci grubunun uyku saati, yaşanılan yer ve haftalık çalışma saati
değişkenlerine göre başarı düzeylerini incelemek için bir karar ağacını CHAID
algoritmasına dayalı olarak oluşturalım.
Çalışma için değişkenlere ait düzeyler Çizelge4.4’de verilmiş olsun.
Çizelge 4.4. Değişkenler ve düzeyleri
Değişken
Başarı düzeyi
Uyku saati
Yaşanılan yer
Haftalık çalışma saati
Değeri
Kötü, Orta, İyi
8 saatten fazla, 8 saatten az
Yurt, Ev
5 saatten az, 5 saatten fazla
Karar ağacını CHAID algoritmasına dayalı olarak oluşturmak için aşağıdaki adımlar takip
edilir. Örneğin başarı düzeyi ile bağımsız değişkenler arasındaki ki-kare değerleri ve
çapraz çizelge dikkate alınır.
Çizelge 4.5. Başarı düzeyi ve uyku süresi arasındaki çapraz çizelge
Başarı Düzeyi
Uyku Süresi
8 saatten fazla (1)
8 saatten az (2)
Toplam
Kötü (1)
20
10
30
Orta (2)
40
6
46
İyi (3)
5
19
24
Toplam
65
35
100
Bu çizelgedeki değerler gözlenen frekansları göstermektedir. i. satır ve j. sütuna ait
beklenen frekansın hesaplanmasında ise
Bij 
TiT j
n
formülünden yararlanılır. Burada i. satır toplamı Ti, j. sütun toplamı Tj ve n genel toplamı
göstermektedir. Beklenen frekanslar aşağıdaki çizelgede parantez içinde verilmiştir.
Çizelge 4.6. Beklenen frekanslar
Uyku Süresi
8 saatten fazla (1)
8 saatten az (2)
Toplam
Kötü (1)
20 (19.5)
10 (10.5)
30
Başarı Düzeyi
Orta (2)
40 (29.9)
6(16.1)
46
İyi (3)
5 (10.5)
19 (8.4)
24
Toplam
65
35
100
26
r
c
 2  
Gij  Bij
Bij2
i 1 j 1
 0.012  6.33  3.41  13.37  7.20  0.023
 30.345
Aynı şekilde diğer çapraz çizelgeler için de ki-kare değerleri hesaplanır.
Çizelge 4.7. Başarı düzeyi ve yaşanılan yer arasındaki çapraz çizelge
Başarı Düzeyi
Kötü (1)
25 (21)
5 (9)
30
Yaşanılan Yer
Yurt (1)
Ev (2)
Toplam
r
c
 2  
i 1 j 1
Orta (2)
37 (32.2)
9 (13.8)
46
İyi (3)
8 (16.8)
16 (7.2)
24
Toplam
70
30
100
Gij  Bij
Bij2
 0.76  0.71  4.60  1.77  1.66  10.75
 20.25
Çizelge 4.8. Başarı düzeyi ve çalışma saatleri arasındaki çapraz çizelge
Başarı Düzeyi
Çalışma Saatleri
5 saatten az (1)
5 saatten fazla (2)
Toplam
r
c
 2  
i 1 j 1
Kötü (1)
26 (20.1)
4 (9.9)
30
Orta (2)
31 (30.82)
15 (15.18)
46
İyi (3)
10 (16.08)
14 (7.92)
24
Toplam
67
33
100
Gij  Bij
Bij2
 1.73  0.001  2.29  3.5  0.0021  4.66
 12.19
Elde edilen ki-kare değerleri aşağıdaki çizelge 4.9 aracılığıyla verilebilir.
27
Çizelge 4.9. Çapraz çizelgelerden elde edilen ki-kare değerleri
Bağımlı değişken
Başarı düzeyi
Başarı düzeyi
Başarı düzeyi
Bağımsız değişken
Uyku süresi
Yaşanılan yer
Çalışma saati
Ki-kare
30.35
20.25
12.19
Burada anlamlı olanlar içinde en büyük ki-kare değerine sahip bağımsız değişkene göre
dallandırma yapılır. Bu durumda karar ağacının kök düğümünden yapılacak dallandırma
aşağıdaki gibi gösterilebilir.
Kötü 30
Orta 46
İyi
24
Uyku Süresi
8 saatten fazla
Kötü 20
Orta 40
İyi
5
8 saatten az
Kötü 10
Orta 6
İyi
19
Şekil 4.1. Karar ağacı
4.5. QUEST Algoritması
QUEST, hızlı, yansız, verimli istatistiksel ağaç anlamına gelir. Nispeten yeni bir ikili ağaç
oluşturma algoritmasıdır. En önemli özelliği ise bölme alanı seçimi ve bölme noktası
seçimini ayrı ayrı ele alır. Bölme işlemleri için bir alfa düzeyi belirlenir. Varsayılan değer
 nominal  0.05 olarak alınır. Sonraki aşama bağımsız değişken seçimidir. Bağımsız
değişken seçimine ilişkin adımlar aşağıda verilmiştir.
Bağımsız değişken seçimi
1. İlgilenilen değişken kategorik ise Pearson ki-kare testinin p değeri aksi durumda yani
ilgilenilen değişken sürekli ise F testininp değeri kullanılır.
28
2. En küçük p değeri, önceden belirlenmiş ve Bonferroni-düzeltmeli  B seviyesiyle
karşılaştırılır. En küçük p değeri  B değerinden daha küçük ise, bu durumda düğümü
bölmek için ilgili değişken seçilir. Aksi durumda 3. adıma gidilir.
3. En küçük p değeri  B değerinde daha büyükse, bu durumda ölçek seviyesi sürekli olan
her bir X için bir p değeri hesaplamak amacıyla eşit olmayan varyanslar için Levene
testi kullanılır. Levene testinden elde edilen en küçük p değeri yeni bir Bonferronidüzeltmeli  L seviyesiyle karşılaştırılır.
4. Eğer p değeri,  L değerinden daha küçük ise, düğümü bölmek için Levene testinden
elde edilen en küçük p değerine karşılık gelen tahmin edici değişken seçilir.Eğer p
değeri,  L değerinden büyükse, düğüm bölünmez.
Bölme noktası seçimi (bağımsız değişken sürekliyse)
Eğer bağımlı değişken sadece iki kategoriye sahip ise bölme işlemi bu iki kategoriye göre
yapılır. Aksi takdirde, kategoriler aşağıdaki şekilde iki üst sınıfa gruplandırılır;
1. Bağımlı değişkenin her bir kategorisi için bağımsız değişkenortalaması hesaplanır.
2. Eğer tüm ortalamalar aynı ise, en büyük ağırlıklı frekansa sahip kategori bir üst sınıf
olarak seçilir ve diğer tüm kategoriler diğer üst sınıfı oluşturmak üzere birleştirilir.
3. Eğer tüm ortalamalar aynı değilse, kategorilerinden iki süper sınıf elde etmek amacıyla
k  2 olmak üzere k-ortalama kümeleme algoritması uygulanır.
4. Bölme noktasını belirlemek için karesel farklılık analizi (QDA) uygulanır. QDA’ın
genellikle iki kesme noktası ürettiğine dikkat edilmelidir, birinci üst sınıfın örneklem
ortalamasına daha yakın olan nokta tercih edilir.
Bölme noktası seçimi (bağımsız değişken kategorikse)
QUEST ilk önce, tahmin edicileri kategorilerine farklılık koordinatları atayarak, sürekli
hale getirir yukarıda tarif edildiği gibi bölünür.
QUEST algoritmasında kullanılan test istatistikleri ve diğer formüller aşağıdaki gibi
verilebilir.
29
Ki-Kare Testi
c
r
 2  
(Gij  Bij )2
Bij
j 1 i 1
Burada Gij , i. satır j. sütun için gözlenen frekansı, Bij , i. satır j. sütun için beklenen
frekansı, c, sütun sayısını, r ise satır sayısını göstermektedir. Bu istatistik (r  1)(c  1)
serbestlik dereceli ki-kare dağılımına sahiptir. Beklenen frekans hesabı ise aşağıdaki gibi
verilebilir.
Bij 
(T. j )(Ti. )
n
Burada T. j , j. sütun toplamını ve Ti. , i. satır toplamını göstermektedir.
F Testi
Bağımlı değişkenin k tane sınıfa sahip olduğu varsayılırsa bağımsız değişken için F değeri
aşağıdaki gibi hesaplanır.
k
F
n (X
i 1
nj
i
i
 X ) 2 / (k  1)
k

2 
(
X

X
)
/
  nj  k 

ij
j 1 i 1
 j 1

k
Levene Testi
Sürekli X değişkeni için, Zij  X ij  X j dönüşümü uygulanır.X değişkeni için Levene F
istatistiğinin değeri Z ij değerleri kullanılarak elde edilen ANOVA F istatistiğinin
değeridir.
Bonferroni Düzeltmesi
Düzeltilmiş alfa düzeyi  B ,nominal değerin olası karşılaştırmalar sayısına bölünmesiyle
hesaplanır.
30
QUEST için, başlangıç değişkeninin seçilmesi amacıyla Bonferroni düzeltilmiş alfa düzeyi
αB aşağıdaki gibi verilsin.
B 
 nominal
m
Burada m modeldeki tahmin edici değişkelerin sayısıdır. Levene testi için Bonferroni
düzeltilmiş alfa düzeyi αL ise
L 
 nominal
m  mc
olarak yazılır. Burada mc sürekli değişkenlerin sayısıdır.
Durma Kuralları
Durma kuralları ağaçta düğüm bölmenin ne zaman duracağını, algoritmanın nasıl karar
verdiğini kontrol eder. Ağaç oluşturma, ağaçtaki her yaprak düğümü en az bir durma
kuralı tetikleyene kadar devam eder. Aşağıdaki koşullardan herhangi biri sağlanırsa;
 Düğüm safsa, yani düğümdeki tüm kayıtlar model tarafından kullanılan tüm tahmin
edici değişkenler için aynı değere sahipse,
 Mevcut düğüm için ağaç derinliği (mevcut düğümün özyinelemeli bölünme sayısı),
maksimum ağaç derinliğiyse(varsayılan veya kullanıcı tanımlı),
 Düğümdeki kayıtların sayısı, minimum üst düğüm miktarından(varsayılan veya kullanıcı
tanımlı) daha az ise,
 Düğümün en iyi bölmesinden elde edilen herhangi bir alt düğümdeki kayıtların sayısın
minimum alt düğüm miktarından (varsayılan veya kullanıcı tanımlı) daha az ise,
düğüm bölünmekten korunacaktır.
QUEST algoritmasının da işleyişini bir örnekle açıklayalım.
İlk olarak her bir nitelik için aşağıdaki çizelgelerde görüldüğü gibi ayrı bir nitelik listesi
hazırlar.
31
Çizelge 4.10. Yaşa göre sınıflama
Yaş
Sınıf
Sıra No
17
Y
2
21
Y
1
22
Y
3
36
D
4
Araçlar yaşlarına göre sınıflara ayrılmış ve sıralanmıştır.
Çizelge 4.11. Araç tipine göre sınıflama
Araç Tipi
Sınıf
Sıra No
Sedan
Y
1
Spor
Y
2
Spor
Y
3
Sedan
D
4
Araç tiplerine göre sınıflama yapılmış ve sıralanmıştır.
Her çizelgede kullanılacak olan değişken, sınıf ve sıra no bulunacaktır. Bu durumda veri
setindeki nitelik sayısı kadar çizelge oluşacaktır. Sayısal değerleri taşıyan çizelgeler sayısal
değer değişkenine göre sıraya dizilirken, kategorik verileri taşıyan çizelgeler ise sıra
numarasına göre sıralı olarak kalacaktır. Eğitim kümelerinden elde edilen ilk listeler
sınıflandırma ağacının köküyle ilişkilendirilir. Ağaç büyüyüp düğümler yeni dallara
bölündükçe her düğüme ait değişken listeleri de bölünerek yeni dallarla ilişkilendirilir. Bir
liste bölündüğünde ise içindeki kayıtların sıralaması değiştirilemez; böylece bölünme
suretiyle oluşturulmuş yeni listelerin bir daha kendi içlerinde sıraya dizilmesine gerek
kalmaz.
Bölünme aşamasına gelmiş düğümler için Cüst ve Calt adı verilen ve düğümdeki sınıf
dağılımlarını elde etmek için kullanılan histogramlar belirlenir. Düğümlerden alt dallara
ayırma kriteri için Gini indeksi kullanılır. Herhangi bir K kümesinin gini(K) indeksi
aşağıdaki gibi hesaplanır.
32
gini( K )  1   p j 2
Burada K kümesi içinde j sınıfının sıklığı pj ile gösterilir. Eğer K kümesi K1ve K2 alt
kümelere bölünürse bölünmüş K kümesinin gini indeksi aşağıdaki gibidir.
ginibölünmüş ( K ) 
n1
n2
gini ( K1 ) 
gini ( K 2 )
n1  n2
n1  n2
Örnek çizelgede yer alan veriler dikkate alınarak aşağıdaki hesaplamalar yapılır.
2
2
2
Gini ( Kadın)  1   3 / 8    3 / 8    2 / 8    0.3437


2
2
2
Gini ( Erkek )  1   2 / 7    3 / 7    2 / 7    0.2653


Ginibölünmüş (cinsiyet ) 
8
7
 0.3437   0.2653  0.3068
15
15
Daha sonra aynı işlemler boy ve kilo değişkenleri içinde hesaplanır ve en küçük
Ginibölünmüş değerine sahip değişken kök düğüm olarak belirlenir.
33
5. UYGULAMA
Bu bölümde veri yapısı ve değişkenler hakkında bilgi verilerek çalışmaya alınan
değişkenlere ait tanımlayıcı istatistikler ve grafikler elde edilmiştir. Daha sonra 2010
yılında Gazi Üniversitesi Fen Fakültesinde okuyan öğrencilerinin profilerini incelemek için
sınıflandırma algoritmalarından CHAID, C&RT, C5.0 ve QUEST algoritmaları
kullanılarak elde edilen sonuçlar ve grafikler verilerek sonuçlar yorumlanmıştır. Tüm bu
algoritmalar SPSS Clementine 12 kullanılarak elde edilmiştir.
5.1. Veri Yapısı ve Değişkenler
Çalışmada kullanılan veriler Gazi Üniversitesi Fen Fakültesi öğrencilerine ait 2010 yılı
verileridir. Veriler Gazi Üniversitesi Öğrenci İşlerinden temin edilmiştir. Veride toplam
öğrenci sayısı 2953’dür. Türkiye’de 2010 yılında Fen fakültelerine kayıtlı öğrenci sayısı
ise 20205’dir. Bilgileri eksik veya hatalı olan öğrenciler veritabınından çıkartılmıştır. Veri
son haliyle toplam 2760 öğrenci kaydından oluşmaktadır. Veride öğrenci profillerini
belirlemeye yönelik değişkenler yer almaktadır. Bunlar; cinsiyet, sınıf, geldiği il, ÖSYM
puanı, tercih sırası, bölüm, şube, not ortalaması, mezun olduğu lise türü ve doğum yeridir.
Bu değişkenlere ait açıklamalar ve etiketlemeler aşağıdaki çizelgede verilmiştir.
34
Çizelge 5.1. Değişkenlere ait açıklamalar ve kodlamalar
Değişken adı
Cinsiyet
Açıklama
Öğrencinin cinsiyeti
Sınıf
Öğrencinin sınıfı
Geldiği il
Öğrencinin Ankara dışından
gelip gelmediği
Öğrencinin üniversiteye giriş
sınavından aldığı puan
Öğrencinin bölümünü kaçıncı
sırada tercih ettiği
Öğrencinin bölümü
ÖSYM Puanı
Tercih Sırası
Bölüm
Şube
Not Ortalaması
Mezun Olduğu
Lise Türü
Doğum Yeri
Öğrencinin normal ya da ikinci
öğretimde olma durumu
Öğrencinin genel not ortalaması
Öğrencinin mezun olduğu
lisenin türü
Öğrencinin Ankara dışında
doğup doğmadığı
Kodlama
1=Erkek
2=Kız
1=1.Sınıf
2=2.Sınıf
3=3.Sınıf
4=4.Sınıf
1=Ankara
2=Ankara Dışı
Kodlama yok
Kodlama yok
1=Biyoloji
2=Fizik
3=İstatistik
4=Kimya
5=Matematik
1=Normal
2=İkinci
Kodlama yok
1=Anadolu Lisesi
2=Düz Lise
3=Özel Lise
4=Diğer
1=Ankara
2=Ankara Dışı
5.2. Tanımlayıcı İstatistikler
Bu bölümde uygulamada kullanılan veri yapısına ait tanımlayıcı istatistikler ve grafiklere
yer verilmiştir.
Şekil 5.1. Öğrencilerin cinsiyete göre dağılımı
35
Çalışmada yer alan öğrencilerin %67’si kız, %33’ü ise erkek öğrencilerdir.
Şekil 5.2. Öğrencilerin sınıflara göre dağılımı
Şekle göre, öğrencilerin %14,75’i 1. Sınıf, %21,67’si 2. Sınıf, %20,58’ i ise 3. Sınıftadır. 4.
Sınıftaki öğrenci oranı %28,12 iken okulu 4 senede bitiremeyen öğrencilerin oranı
%14,89’dur.
Şekil 5.3. Öğrencilerin geldiği yere göre dağılımı
Çalışmada yer alan öğrencilerin %79,60’ı Ankara dışından gelmişken, %20,40’ı ise Ankara
içinden gelmiştir.
36
Şekil 5.4. Öğrencilerin ÖSYM puanına göre dağılımı
Çalışmada yer alan öğrencilerin ÖSYM puanlarının ortalaması yaklaşık olarak 300’dür.
Öğrencilerin bu ortalama etrafında hafif sağa çarpık ( ˆ  0.87 ) bir dağılım göstermektedir.
Şekil 5.5. Öğrencilerin tercih sırasına göre dağılımı
37
Çalışmada yer alan öğrencilerin yaklaşık olarak %12’si birinci tercihlerine yerleşirken
ikinci tercihlerine yerleşen öğrencilerin oranı yaklaşık %9,7’dir.
Şekil 5.6. Öğrencilerin okudukları bölümlere göre dağılımı
Grafiğe göre, hem normal öğretimde hem de ikinci öğretimde istatistik bölümünde okuyan
öğrencilerin sayısı diğer bölümlere göre daha fazladır. Şekilden de görüldüğü gibi Fizik
bölümünde okuyan öğrenci sayıları diğer bölümlere göre çok daha düşüktür. 2010 yılında
normal öğretimde okuyan öğrencilerin %25,55’i İstatistik bölümünde iken sadece %13,6’sı
Fizik bölümündedir. İkinci öğretimde ise bu oranlar sırasıyla %32,06’ya %10,58 olarak
görülmektedir.
38
Şekil 5.7. Öğrencilerin not ortalamasına göre dağılımı
Çalışmada yer alan öğrencilerin not ortalamalarının ortalaması yaklaşık olarak 2’dir.
Öğrencilerin bu ortalama etrafında hafif sola çarpık ( ˆ  0.27 ) bir dağılım gösterdiği
söylenebilir.
Şekil 5.8. Öğrencilerin mezun oldukları lise türüne göre dağılımı
39
Çalışmada yer alan öğrencilerin %55,36 gibi yüksek bir oranı düz lise mezunudur.
Anadolu lisesinden mezun olmuş öğrencilerin oranı %24,2 iken özel liseden mezun olmuş
öğrencilerin oranı %16,96’dır.
Şekil 5.9. Öğrencilerin doğduğu yere göre dağılımı
Çalışmada yer alan öğrencilerin %54.06’sı Ankara dışında doğmuşken, %45.94’ü ise
Ankara içinden doğmuştur.
5.3. Sınıflandırma Algoritmalarına İlişkin Bulgular
Bu bölümde öğrencilerin not ortalaması hedef değişken olmak üzere C5.0, CHAID, C&RT
ve QUEST algoritmalarına ilişkin sonuçlar yer almaktadır. Algoritmalarda kullanılan
değişkenler aşağıdaki şekilde verildiği gibidir.
40
Şubesi
Cinsiyeti
Doğum
Yeri
Nüfusa
kayıtlı
olduğu il
Lise Türü
Not
Ortalaması
Bölüm
Şekil 5.10. Not ortalaması için algoritmalarda kullanılan değişkenler
Bu değişkenler kullanılarak oluşturulan veri madenciliği algoritmalarından karar
ağaçlarının analiz sonuçları aşağıda yer almaktadır.
Şekil 5.11.C5.0 Algoritmasina göre değişkenlerin not ortalamasindaki ağırlıkları
Yukarıdaki şekilde görüldüğü gibi C5.0 algoritmasına göre not ortalaması üzerinde en
önemli değişken cinsiyet değişkenidir.
Şekle göre çalışmaya katılan öğrencilerin en yüksek orana sahip olanları 2 ile 3 arasında
not ortalaması olan öğrencilerdir ve bu oran %45,072’ dir. Not ortalaması üzerindeki en
önemli değişken cinsiyet olarak belirlenmiştir. Cinsiyete göre düğümler (nodes)
incelendiğinde kızların not ortalamasından 2 ile 3 arasında olanların oranı %50.700 iken
erkeklerin not ortalamasından 1 ile 2 arasında olanların oranı ise %42,810 olduğu görülür.
41
Erkek öğrencilerin not ortalaması üzerindeki en önemli değişken okuduğu bölümdür. Şekle
göre tüm bölümler birer düğüm oluşturmaktadır. Biyoloji bölümünde okuyan
öğrencilerden en yüksek ortalamaya sahip olanlar 1 ile 2 arasındaki not ortalamasıdır ve
%46,763 olarak hesaplanmıştır. Fizik bölümüne bakıldığında bu oran %36,242 istatistik
bölümü öğrencilerinin not ortalama oranı %48.903, kimya bölümü öğrencilerinin not
ortalaması oranı %35,119 ve son olarak matematik bölümü öğrencilerinin not ortalaması
oranı %43,411’dir. Biyoloji bölümünde okuyan öğrenciler üzerindeki en önemli değişken
doğum yeri, fizik bölümünde okuyan öğrenciler üzerindeki en önemli değişken mezun
olunan lise türü, istatistik bölümünde okuyan öğrenciler üzerindeki en önemli değişken
şube ve son olarak kimya bölümünde okuyan öğrenciler üzerinde en öenmli değişken
nüfusa kayıtlı olunan il değişkenidir.
Tüm düğümler dikkate alındığında en yüksek not ortalaması özel lise mezunu, nüfusa
kayıtlı olduğu il Ankara dışı olan ve kimya bölümü okuyan erkek öğrencilerdir. Bu
özelliklere sahip ve not ortalaması 2 ile 3 arasında olan öğrencilerin oranı %60,870 dir.
Şekil 5.12. Not ortalaması c5.0 algoritması karar ağacı örneği
42
43
Şekil 5.13. C&RT Algoritmasına göre değişkenlerin not ortalamasındaki ağırlıkları
Yukarıdaki şekilde görüldüğü gibi C&RT algoritmasına göre not ortalaması üzerinde en
önemli değişkenler sırasıyla cinsiyet, bölüm, şube, lise türü ve doğum yeridir. Bu
değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir.
Şekle göre çalışmaya katılan öğrencilerin en yüksek orana sahip olanları 2 ile 3 arasında
not ortalaması olan öğrencilerdir ve bu oran %45,072’ dir. Not ortalaması üzerindeki en
önemli değişken cinsiyet olarak belirlenmiştir. Cinsiyete göre düğümler (nodes)
incelendiğinde kızların not ortalamasından 2 ile 3 arasında olanların oranı %50.700 iken
erkeklerin not ortalamasından 1 ile 2 arasında olanların oranı ise %42,810 olduğu görülür.
Kız öğrencilerin not ortalaması üzerindeki en önemli değişken okuduğu bölümdür. Şekle
göre biyoloji ve istatistik bölümünde okuyan kız öğrencilerin not ortalaması 2 ile 3
arasında yer alanların oranı %53,068 iken fizik, kimya ve matematik bölümünde okuyan
öğrencilerinnot ortalaması 2 ile 3 arasında olanların oranı %48,566 olarak hesaplanmıştır.
Kız öğrencilerden biyoloji ve istatistik bölümü okuyanların Normal ve ikinci
öğretim(Şube) ayrımı yapıldığında normal öğretim öğrencilerinde not ortalaması 2 ile 3
arasında yer alanların oranı %56,344 iken ikinci öğretim öğrencilerinin not ortalaması 2
ile 3 arasında olanların oranı %49,398 olduğu görülmektedir. Kız öğrencilerdenfizik,
kimya ve matematik bölümü okuyanlar üzerinde önemli değişken mezun oldukları
lisedir.Bu öğrenciler düz lise ve diğer liseler olmak üzere 2 kola ayrılmıştır.Düz lise
mezunu kız öğrencilerden not ortalaması %44,213 iken diğer lise türlerinden mezun olan
öğrencilerin not ortalama 2 ile 3 arasında olanların oranı ise %53,675’ dir.
44
Erkek öğrencilerin not ortalaması üzerinde de en önemli değişkenin bölüm olduğu
görülmektedir. Şekle göre biyoloji ve istatistik bölümünde okuyanerkek öğrencilerin not
ortalaması 1 ile 2 arasında yer alanların oranı %48,253 fizik, kimya ve matematik
bölümünde okuyan ve not ortalaması 1 ile 2 arasında olanların oranı ise %37,220’ dir.
Biyoloji ve istatistik bölümünde okuyan erkek öğrencilerin not ortalaması üzerinde en
etkili değişken şube, fizik, kimya ve matematik bölümünde okuyan öğrencilerin not
ortalaması üzerinde en etkili değişken Lise türüdür. Şekilden de görüldüğü gibi normal
eğitimde okuyan erkek öğrencilerin not ortalaması 2 ile 3 arası olanların oranı %45 iken
ikinci eğitimde okuyan erkek öğrencilerin 1 ile 2 arası not ortalaması oranı %54,264
olmuştur. Normal öğretimde okuyan erkek öğrencilerin not ortalaması üzerinde en önemli
değişken ise lise türüdür.Özel lise mezunu öğrencilerin 2 ile 3 arası not ortalaması oranı
%61,111 iken diğer lise türlerinden mezun olanların not ortalaması 1 ile 2 arasında yer
alanları oranı %44,512’ dir. Fizik, kimya ve matematik bölümü okuyan erkek öğrenciler
ise mezun oldukları lise türüne göre dallara ayrılmıştır. Tüm düğümler dikkate alındığında
en yüksek not ortalaması özel lise mezunu, normal öğretimde biyoloji ve istatistik
bölümlerini okuyan erkek öğrenciler olduğu görülmektedir. Bu özelliklere sahip ve not
ortalamsı 2 ile 3 arasında olan öğrencilerin oranı %61,11’ dir.
Şekil 5.14. C&RT Algoritması karar ağacı örneği
45
46
Şekil 5.15. CHAID algortimasına göre değişkenlerin not ortalamasındaki ağırlıkları
Yukarıdaki şekilde görüldüğü gibi CHAID algoritmasına göre not ortalaması üzerinde
etkili olan en önemli değişkenler sırasıyla cinsiyet, bölüm şube ve doğum yeridir.Bu
değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir.
Şekle göre çalışmaya katılan öğrencilerin not ortalaması 0 ile 1 arasında olanların oranı %
11,933, not ortalaması 1 ile 2 arasında olanların oranı % 36,630, not ortalaması 2 ile 3
arasında olanların oranı %45,072 ve not ortalaması 3 ile 4 arasında olanların oranı ise
%6,304’dir. Not ortalaması üzerindeki en önemli değişken cinsiyet olarak belirlenmiştir.
Cinsiyete göre düğümler (nodes) incelendiğinde kızların not ortalamasının en yüksek
olduğu aralık 2 ile 3 arası ve % 50,700 iken, erkeklerin not ortalamasının en yüksek olduğu
aralık 1 ile 2 arası ve % 42,810 olduğu görülür. Kız öğrencilerin not ortalaması üzerindeki
en önemli değişken okuduğu bölümdür. Şekle göre biyoloji ve istatistik bölümünde okuyan
kız öğrencilerin not ortalaması 2 ile 3 arasında yer alanların oranı %53,068 iken fizik ve
matematik bölümünde okuyan öğrencilerinnot ortalaması 2 ile 3 arasında olanların oranı
%49,420 olarak hesaplanmıştır. Kimya bölümünde okuyan kız öğrencilerden not
ortalaması 2 ile 3 arasında olanların oranı da %47,185’ dir.
Kız öğrencilerden biyoloji ve istatistik bölümü okuyanların Normal ve ikinci
öğretim(Şube) ayrımı yapıldığında normal öğretim öğrencilerinde not ortalaması 2 ile 3
arasında yer alanların oranı %56,344 iken ikinci öğretim öğrencilerinin not ortalaması 2
ile 3 arasında olanların oranı %49,398 olduğu görülmektedir. Kız öğrencilerdenfizik ve
matematik bölümü okuyanların Normal ve ikinci öğretim(Şube) ayrımı yapıldığında
47
normal öğretim öğrencilerinde not ortalaması 2 ile 3 arasında yer alanların oranı %52,568
iken ikinci öğretim öğrencilerinin not ortalaması 2 ile 3 arasında olanların oranı %45,588
olduğu görülmektedir. Yine kız öğrencilerden kimya bölümünde okuyanlar için en önemli
değişken doğum yeri olmuştur. Doğum yeri Ankara olan ve not ortalaması 2 ile 3 arasında
olan kimya bölümü öğrencilerinin oranı %45,181 iken doğum yeri Ankara dışı olanların
oranı ise %48,792 olarak belirlenmiştir.
Erkek öğrencilerin not ortalaması üzerinde de en önemli değişkenin bölüm olduğu
görülmektedir. Şekle göre biyoloji ve istatistik bölümünde okuyanerkek öğrencilerin not
ortalaması 1 ile 2 arasında yer alanların oranı %48,253 fizik, kimya ve matematik
bölümünde okuyan ve not ortalaması 1 ile 2 arasında olanların oranı ise %37,220’ dir.
Biyoloji ve istatistik bölümünde okuyan erkek öğrencilerin not ortalaması üzerinde en
önemli değişken şube, fizik, kimya ve matematik bölümünde okuyan öğrencilerin not
ortalaması üzerinde en önemli değişken Lise türüdür. Şekilden de görüldüğü gibi normal
eğitimde okuyan erkek öğrencilerin not ortalaması 2 ile 3 arası olanların oranı %45 iken
ikinci eğitimde okuyan erkek öğrencilerin 1 ile 2 arası not ortalaması oranı %54,264
olmuştur. Normal öğretimde okuyan erkek öğrencilerin not ortalaması üzerinde en önemli
değişken ise doğum yeridir. Ankara’da doğumlu öğrencilerin 2 ile 3 arası not ortalaması
oranı %42,683 iken doğum yeri Ankara Dışı olanların not ortalaması oranı %46,610’ a
yükselmiştir.Tüm düğümler dikkate alındığında en yüksek not ortalaması oranına sahip
öğrencilerin normal öğretimde okuyan matematik bölümü kız öğrenciler olduğu
görülmektedir.Bu öğrencilerin 2 ile 3 arasında not ortalaması oranı % 58,371 olarak
bulunmuştur.
Şekil 5.16. Not ortalaması için CHAID algoritması karar ağacı örneği
48
49
Şekil 5.17. QUEST Algoritmasına göre değişkenlerin not ortalamasındaki ağırlıkları
Yukarıdaki şekilde de görüldüğü gibi QUEST algoritmasına göre not ortalaması üzerinde
en önemli değişken cinsiyettir.
Şekle göre çalışmaya katılan öğrencilerin en yüksek orana sahip olanları 2 ile 3 arasında
not ortalaması olan öğrencilerdir ve bu oran %45,072’ dir. Not ortalaması üzerindeki en
önemli değişken cinsiyet olarak belirlenmiştir. Cinsiyete göre düğümler (nodes)
incelendiğinde kızların not ortalamasından 2 ile 3 arasında olanların oranı %50,700 iken
erkeklerin not ortalamasından 1 ile 2 arasında olanların oranı ise %42,810 olduğu
görülür.Erkek öğrencilerin not ortalaması üzerinde en önemli değişken okuduğu bölümdür.
Şekle göre biyoloji ve istatistik bölümünde okuyan erkek öğrencilerin not ortalaması 1 ile 2
arasında yer alanların oranı %48,253 iken fizik, kimya ve matematik bölümünde okuyan
öğrencilerinnot ortalaması 1 ile 2 arasında olanların oranı %37,220 olarak hesaplanmıştır.
Erkek öğrencilerden biyoloji ve istatistik bölümü okuyanların Normal ve ikinci
öğretim(Şube) ayrımı yapıldığında normal öğretim öğrencilerinde not ortalaması 2 ile 3
arasında yer alanların oranı %45 iken ikinci öğretim öğrencilerinin not ortalaması 2 ile 3
arasında olanların oranı %54,264 olduğu görülmektedir. Fizik, kimya ve matematik
bölümünde okuyan erkek öğrenciler üzerinde en önemli değişken mezun oldukları
lisedir.Bu öğrenciler anadolu lisesi ile düz lise bir düğüm, özel lise ve diğer lise türleri bir
düğüm olmak üzere ayrılmıştır. Düz lise ve anadolu liselerinden mezun olan erkek
öğrencilerden ortalaması 1 ile 2 arasında olanların oranı %39,773 özel lise ve diğer lise
türlerinden mezun olan erkek öğrencilerden ortalaması 2 ile 3 arasında olanların oranı ise
%42,553’dür.
50
Tüm düğümler dikkate alındığında en yüksek not ortalaması ikinci öğretim ve biyoloji,
istatistik bölümünde okuyan erkek öğrencilerin oranıdır. Bu oran not ortalaması 1 ile 2
arasında olanlar için %54,264 olarak bulunmuştur.
Şekil 5.18. Not ortalaması için QUEST algoritması karar ağacı örneği
Bu bölümde öğrencilerin eğitim gördüğü bölüm değişkeni hedef değişken olmak üzere
C5.0, CHAID, C&RT ve QUEST algoritmalarına ilişkin sonuçlar yer almaktadır.
Algoritmalarda kullanılan değişkenler aşağıdaki şekilde verildiği gibidir.
51
Tercih
Sırası
Cinsiyeti
Doğum
Yeri
Nüfusa
kayıtlı
olduğu il
Lise Türü
Bölüm
Ösym
Puanı
Şekil 5.19. Bölüm değişkeni için modellerde kullanılan değişkenler
Bu değişkenler kullanılarak oluşturulan veri madenciliği algoritmalarından karar
ağaçlarının analiz sonuçları aşağıda yer almaktadır.
Şekil 5.20. C5.0 Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları
Yukarıdaki şekilde de görüldüğü gibi C5.0 algoritmasına göre bölüm değişkeni üzerinde en
önemli iki değişken sırasıyla ösym puanı ve lise türüdür.Bu değişkenlere göre elde edilen
karar ağacı aşağıda şekilde verilmiştir.
Şekle göre çalışmaya katılan öğrencilerden %28,623’ ü istatistik bölümü, %19,746’ sı
matematik bölümü %19,855’ i biyoloji bölümü, %19,601’ i kimya bölümü ve %12,174’ ü
52
fizik bölümünde okumaktadır. Bölüm değişkeni üzerinde en önemli değişken ösym
puanıdır. Ösym puanı 170 ile 250 arasında olan öğrenciler, 250 ile 350 arasında puan alan
öğrenciler, 350 ile 450 arasında puan alan öğrenciler ve daha yüksek puan alan öğrenciler
olmak üzere 4 düğüme ayrılmıştır. Ösym puanı 170 ile 250 arasında olan öğrencilerin
%34,717’ si biyoloji, %20’ si fizik, %8,302’ si istatistik, %33,585’ i kimya ve %3,396’ sı
matematik bölümüne yerleşmiştir. Ösym puanı 250 ile 350 arasında olan öğrencilerin
%20,744’ ü biyoloji, %20,651’ i kimya, %12.977’ si fizik, %14.651’ i matematik ve
%30,977’ si istatistik bölümüne yerleşmişlerdir.Ösym puanı 350 ile 450 arasında olan
öğrencilerin %2,915’ i biyoloji, %1,166’ sı fizik, %29,738’ i istatistik, %2,332’ si kimya
ve %63,848’ i matematik bölümüne yerleşmiştir. Son olarak ösym puanı 450’ den yüksek
olan öğrencilerin tamamı tercihini matematik bölümünden yana kullanmışlardır.
Şekil 5.21. Bölüm değişkeni için c5.0 algoritması karar ağacı örneği
53
Şekil 5.22. C&RT Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları
Yukarıdaki şekilde görüldüğü gibi C&RT algoritmasına göre bölüm değişkeni üzerinde
önemli dört değişken sırasıyla ösym puanı, lise türü, tercih sırasıdır. Bu değişkenlere göre
elde edilen karar ağacı aşağıda şekilde verilmiştir.
Şekle göre çalışmaya katılan öğrencilerinden %28,623’ ü istatistik bölümü, %19,746’ sı
matematik bölümü, %19,855’ i biyoloji bölümü, %19,601’ i kimya bölümü ve %12,174’ ü
fizik bölümünde okumaktadır. Bölüm üzerindeki en önemli değişken ösym puanı olarak
belirlenmiştir. Ösym puanına göre düğümler incelendiğinde puanı 170 ile 350 arasında
olan öğrencilerin %28,489’ u istatistik bölümünde, puanı 350’ den yüksek olan
öğrencilerin %64,058’ i matematik bölümünü seçmiştir. Ösym puanı 170 ile 250 arasında
olan ve biyoloji bölümü okuyan öğrenciler üzerinde en etkili değişken cinsiyettir.Ösym
puanı 250 ile 350 arasında olan ve istatistik bölümü okuyan öğrenciler üzerinde en önemli
değişken ise lise türüdür.Ösym puanı 350 ile 450 arasında olan ve 450’ den daha yüksek
puan alan ve matematik bölümü okuyan öğrenciler üzerinde en önemli değişken tercih
sırasıdır. Tercih sırası ilk 14 olan öğrencilerin % 70,260’ ı matematik bölümü öğrencileri
diğer tercih sırasını yapan öğrencilerin %51,316’ sı
istatistik bölümünü seçen
öğrencilerdir. Bu şekilde tercih yapan istatistik bölümü öğrencilerin seçimlerinde de
doğum yeri önemli olmuştur. Doğum yeri Ankara olanların %64,516’ sı istatisitk, doğum
yeri Ankara dışı olanların %51,111’ i matematik bölümünü tercih etmiştir.
Tüm düğümler dikkate alındığında en yüksek orana sahip düğüm , ösym puanı 350 ile 450
arası ve 450’ den daha yüksek ve ilk 14. sırada tercih yapan öğrencilerdir. Bu öğrencilerin
%70,260’ ı matematik bölümüne yerleşmiştir.
Şekil 5.23. Bölüm değişkeni için c&rt algoritması karar ağacı örneği
54
55
Şekil 5.24. CHAID Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları
Yukarıdaki şekilde görüldüğü gibi CHAID algoritmasına göre bölüm değişkeni üzerinde
önemli üç değişken sırasıyla Ösym puanı, lise türü ve cinsiyettir. Nüfusa kayıtlı olduğu il
ve doğum yeri değişkenlerinin de etkili olduğu görülmektedir. Bu değişkenlere göre elde
edilen karar ağacı aşağıda şekilde verilmiştir.
Şekle göre çalışmaya katılan öğrencilerinden %28,623’ ü istatistik bölümü, %19,746’ sı
matematik bölümü, %19,855’ i biyoloji bölümü, %19,601’ i kimya bölümü ve %12,174’ ü
fizik bölümünde okumaktadır.Bölüm üzerindeki en önemli değişken ösym puanı olarak
belirlenmiştir. Ösym puanına göre düğümler incelendiğinde puanı 170 ile 250 arasında
olan öğrencilerin %34,717’ si biyoloji bölümünde, puanı 250 ile 350 arasında olan
öğrencilerin %30,977’ si istatistik bölümünü, puanı 350 ile 450 arasında olan ve 450’ den
daha yüksek puan almış öğrencilerin %64,058’ i matematik bölümünü seçmiştir. Ösym
puanı 170 ile 250 arasında olan ve biyoloji bölümü okuyan öğrenciler üzerinde en önemli
değişken cinsiyettir.Ösym puanı 250 ile 350 arasında olan ve istatistik bölümünde okuyan
öğrenciler üzerinde en önemli değişken ise lise türüdür.Ösym puanı 350 ile 450 arasında
olan ve 450’ den daha yüksek puan alan ve istatistik bölümünde okuyan öğrenciler
üzerinde en önemli değişken tercih sırasıdır. Karar Ağacı ösym puanı 250 ile 350 arasında
olan ve istatistik bölümü okuyan öğrencilerin mezun olduğu liselere göre dallara
ayrılmıştır.
Tüm düğümler dikkate alındığında en yüksek oran ösym puanı 350 ile 450 arasında ve
450’den daha yüksek olan öğrencilerinden ilk 14. sıradaki tercihine yerleşen, matematik
bölümü öğrencileridir. Bu oran %70,260 olarak hesaplanmıştır.
Şekil 5.25. Bölüm değişkeni için CHAID algoritması karar ağacı örneği
56
57
Şekil 5.26.QUEST algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları
Yukarıdaki şekilde görüldüğü gibi QUEST algoritmasına göre bölüm değişkeni üzerinde
önemli üç değişken sırasıyla ösym puanı lise türü ve cinsiyet değişkenleridir.Bu
değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir.
Şekle göre çalışmaya katılan öğrencilerinden %28,623’ ü istatistik bölümü, %19,746’ sı
matematik bölümü %19,855’ i biyoloji bölümü, %19,601’ i kimya bölümü ve %12,174’ ü
fizik bölümünde okumaktadır.Bölüm üzerindeki en önemli değişken ösym puanı olarak
belirlenmiştir.Ösym puanına göre düğümler incelendiğinde puanı 350 ile 450 arasında olan
öğrencilerin %63,848’ i matematik bölümünde, diğer öğrencilerin %28,465’ i istatistik
bölümünü seçmiştir. Matematik bölümünü seçen öğrencileri etkileyen en önemli değişken
tercih sırasıdır. İlk 16 tercihinde matematik bölümüne yerleşen öğrencilerin oranı %69,231
iken son 16 tercihinde öğrencilerin %54,386’ sı istatistik bölümüne yerleşmiştir.Diğer
ösym puanına sahip öğrencilerin seçiminde önemli olan değişken ise mezun oldukları lise
türüdür.Anadolu lisesi ve diğer lise türleri olarak iki kola ayrılmıştır.Anadolu lisesi mezunu
öğrencilerin %36,881’ i istatistik bölümüne yerleşirken diğer lise türü mezunlarının
%26,015’ i yine istatistik bölümüne yerleşmiştir.Bu seçimlerinde cinsiyetinde önemli
olduğu şekilde görülmektedir. Tüm düğümler dikkate alındığında ösym puanı 350 ile 450
arasında olan ve ilk 16 tercihi arasında matematik bölümüne yerleşen öğrencilerin oranının
%69,231 olduğu görülmektedir.
58
Şekil 5.27. Bölüm değişkeni için QUEST algoritması karar ağacı örneği
59
5.4. Sonuçların Karşılaştırılması
Uygulama bölümündenki veri de yer alan değişkenlerden not ortalaması ve bölüm
değişkenleri üzerinde önemli olan değişkenler veri madenciliği algoritmaları kullanarak
yorumlanmıştır. Hemen hemen her algoritma aynı sonuçlara ulaşmıştır. Öğrencilerin not
ortalaması üzerinde önemli olan değişkenler incelendiğinde bütün veri madenciliği
algoritmalarında öğrencilerin not ortalamaları üzerinde en önemli değişken cinsiyet olarak
görülmektedir. Tüm algoritmaların karşılaştırılması aşağıdaki şekilde verildiği gibidir.
C5.0
Cinsiyet
QUEST
Bölüm
Şube
Doğum Yeri
C&RT
Lise Türü
İl
CHAID
0%
20%
40%
60%
80%
100%
Şekil 5.28. Algoritmalara göre değişkenlerin not ortalaması üzerine olan ağırlıkları
C5.0 ve C&RT algoritmalarında not ortalması üzerinde en önemli değişkenler sırasıyla
cinsiyet, bölüm, şube, doğum yeri, lise türü ve nüfusa kayıtlı olduğu ildir.
CHAID algoritmasının sonuçları diğer algoritmalardan farklı olarak not ortalaması
üzerinde en önemli değişkenler arasına nüfusa kayıtlı olunan ili almamıştır.
QUEST algoritması ise not ortalaması üzerinde en önemli değişkenler öncelik yine cinsiyet
ancak sonrasında şube, bölüm, lise türü, doğum yeri ve nüfusa kayıtlı olunan il olarak
belirlenmiştir.
Tüm algoritmalara bakıldığında en yüksek not ortalamasına sahip öğrenci profili farklılık
göstermektedir. Öncelikle C5.0 algoritmasının sonucunda elde edilen en yüksek not
60
ortalamasına sahip öğrenci profilinin Özel lise mezunu, nüfusa kayıtlı olduğu il Ankara dışı
olan ve Kimya bölümünde okuyan erkek öğrenciler olduğu görülmektedir. C&RT
algoritması sonucu en yüksek not ortalamasına sahip öğrenci profili yine Özel lise mezunu
ve normal öğretimde eğitim gören biyoloji ve istatistik bölümlerinde okuyan erkek
öğrenciler olduğu görülmektedir. CHAID algoritmasının en yüksek not ortalamasına sahip
öğrenci profili ise normal öğretimde eğitim gören matematik bölümü kız öğrenciler olduğu
saptanmıştır. Son olarak QUEST algoritmasının not ortalaması en yüksek olan öğrenci
profili, ikinci öğretim biyoloji ve istatistik bölümlerinde eğitim alan erkek öğrenciler
olarak belirlenmiştir.
Bir diğer bağımlı değişken olan bölüm değişkeni üzerinde en önemli değişkenler Ösym
puanı ve Lise türü değişkenleridir ve tüm algoritmalar aynı sonuca ulaşmıştır. Bölüm
değişkeni üzerinde önemli değişkenler incelensin. Aşağıdaki şekilde tüm algoritmaların
karşılaştırılması yer almaktadır.
C5.0
Ösym Puanı
Lise Türü
QUEST
Cinsiyet
Tercih sırası
C&RT
İl
Doğum Yeri
CHAID
0%
20%
40%
60%
80%
100%
Şekil 5.29. Değişkenlerin algoritmalara göre bölüm üzerinde olan ağırlıkları
C5.0 algoritmasına göre bölüm üzerinde bu değişkenlerin önem sıralaması Ösym Puanı,
lise türü, cinsiyet, tercih sırası, nüfusa kayıtlı olduğu il ve doğum yeri değişkenleri etkin
çıkmıştır.
C&RT algoritmasında ise sıralama Ösym Puanı, lise türü, tercih sırası, doğum yeri,
cinsiyet ve nüfusa kayıtlı olduğu il olarak gerçekleşmiştir.
61
CHAID algoritmasında bu sıralama Ösym Puanı, lise türü, cinsiyet, tercih sırası, nüfusa
kayıtlı olduğu il ve doğum yeri değişkenleridir.
QUEST algoritmasının sonuçları diğer algoritmalara göre daha farklıdır. Bölüm değişkeni
üzerinde en önemli değişkenler Ösym puanı, lise türü ve cinsiyet olarak belirlenmiştir.
Tüm algoritmalara bakıldığında en yüksek orana sahip öğrenci profilleri değişiklik
göstermektedir. C5.0 algoritmasının sonucunda en yüksek orana sahip düğüm Ösym puanı
450’ den yüksek olan öğrencilerinin tümünün matematik bölümüne yerleşmesi sonucudur.
C&RT algoritması ise Ösym puanı 350 ile 450 arasında olan puanı 450’ den yüksek olan
öğrencilerin ilk 14. tercihlerinde matematik bölümüne yerleştikleri sonucuna ulaşmıştır.
CHAID algoritması sonucunda ise enyüksek orana sahip düğüm Ösym puanı 350 ile 450
arasında olan ve puanı 450’ den yüksek olan öğrencilerin ilk 14. Tercihlerinde matematik
bölümüne yerleşen öğrenciler olduğu sonucuna varılmıştır. Bu sonuca göre CHAID ve
C&RT algoritması aynı sonuca ulaşmıştır. Son olarak QUEST algoritmasının sonuçlarına
bakıldığında Ösym puanı 350 ile 450 arasında olan öğrenciler ilk 16. Tercihlerinde
matematik bölümüne yerleşmektedir. Genel anlamda CHAID, C&RT ve QUEST hemen
hemen yakın sonuçlara varmışlardır.
62
63
5. SONUÇ VE TARTIŞMA
Bu tez çalışmasının amacı Fen Fakültesi bölümlerinde okuyan öğrencilerin demografik
özelliklerine göre profillerini belirlemek ve bu açılardan bölümler arasındaki öğrenci
farklılıklarını ortaya koyabilmektir.
Bu çalışmada Gazi Üniversitesi Fen Fakültesi öğrenci verileri kullanılmıştır. Gazi
Üniversitesi öğrenci işlerinden temin edilen veriye göre 2010 yılı Fen Fakültesinde eğitim
gören öğrenci sayısı 2953’ tür. Bilgileri eksik veya hatalı olan öğrenciler veritabanından
çıkarılmış ve gözlem sayısı 2760 olarak belirlenmiştir.
Çalışmada elde edilen bulgular ışığında aşağıda ki sonuçlara ulaşılmıştır.
2010 yılı Fen Fakültesinde eğitim gören öğrencilerin 1856’ sı kız öğrenci 904’ ü ise erkek
öğrencidir. Öğrencilerin sınıf dağılımına göre 4. Sınıfta okuyan öğrenci sayısı çoğunlukta
olup 776’ dır. Gazi Üniversitesi Fen Fakültesi öğrencilerinin 2197’ si Ankara dışından
gelmektedir. Öğrencilerin ÖSYM puanına bakıldığında Ösym puanı ortalama 300’ dür.
Öğrenciler bölüm tercihlerinde yaklaşık %12 gibi bir oranla 1. tercihlerine yerleşmektedir.
İlk tercihine yerleşen öğrenciler çoğunluktadır. Fen Fakültesi bölümlerinde okuyan
öğrencilerin %25,55’ normal öğretim İstatistik bölümü öğrencileriyken %32,06’ sı ikinci
öğrentim yine istatistik bölümü öğrencileridir. Bunun sonucu olarak İstatistik bölümü diğer
bölümlerden daha yüksek bir orana sahiptir. Öğrencilerin not ortalaması istatistiklerine
bakıldığında ortalama 2 civarındadır. Son olarak öğrencilerin mezun oldukları lise türleri
arasında en yüksek orana sahip lise türü düz lisedir. Bu oran %55.36 olup tüm öğrencilerin
yarısından fazlasının düz lise mezunu olduğunu göstermektedir.
2009 ve 2013 yılları arasında Fen Fakültelerine yerleşen öğrenci sayılarına bakıldığında
tüm bölümlere yerleşen öğrenci sayısı azalma gösterirken istatistik bölümüne yerleşen
öğrenci sayıları hemen hemen her yıl artış göstermektedir. Bunun sonucu olarak her geçen
yıl öğrencilerin Fen Fakültesi bölümlerine olan ilgisinin azaldığı, tercih edilebilirlik
oranlarının azaldığı söylenilebilir.
64
Çalışmanın uygulama bölümünde elde edilen sonuçlara göre ise öğrencilerin not
ortalamasını ve tercih ettikleri bölüm üzerinde seçilen bazı değişkenlerin önemleri
(ağırlıkları) belirlenmiştir.
Analiz sonuçları not ortalaması açısından incelendiğinde bu değişkeni üzerinde en önemli
değişkenin cinsiyet olduğu ortaya çıkmıştır. Üstelik bu sonuca, çalışmada kullanılan tüm
veri madenciliği algoritmaları tarafından ulaşılmıştır.
Analiz sonuçları bölüm değişkeni açısından incelendiğinde ise bu değişkeni üzerinde en
önemli değişkenlerin Ösym puanı ve öğrencilerin mezun oldukları lise türü olduğu ortaya
çıkmıştır. Yine, bu sonuca tüm veri madenciliği algoritmaları tarafından ulaşılmıştır.
65
KAYNAKLAR
Ataseven, S. (2008).Üniversitelerin adaylar tarafından tercih edilme desenlerini veri
madenciliği yöntemleri ile belirleyen bir model önerisi.Yüksek Lisans Tezi, Kültür
Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
Arık, M. (2009). Gazi üniversitesi gazi eğitim fakültesi ortaöğretim fen ve matematik
alanları eğitimi bölümü kimya eğitimi anabilim dalı öğrenci profili. Yüksek Lisans
Tezi, Eğitim Bilimleri Enstitüsü Kimya Eğitimi Anabilim Dalı, Ankara.
Aydın, S. (2007).Veri madenciliği ve anadolu üniversitesi uzaktan eğitim sisteminde bir
uygulama. Doktara Tezi, Eskişehir Anadolu Üniversitesi Sosyal Bilimler Enstitüsü
İşletme Anabilim Dalı, Eskişehir.
Aynekin, G. (2006). İnternet içerik madenciliğinde yapay sinir ağları ve bir uygulama.
Yüksek Lisans Tezi, Endüstri Mühendisligi Anabilim Dalı, Bursa.
Bakır, M. A. ve Aydın, C. (2010). İstatistik.(3. Baskı), Ankara: Nobel Yayın Dağıtım.
Biggs, D., B. De Ville, ve E. Suen (1991). A method of choosing multi- way partitions for
classication and decision trees.Journal of Applied Statistic, 18(1), 49-62.
Brachman, R. J., Khabaza, T., Kloesgen, W., Piatetsky-Shapiro, G. ve Simoudis, E. (1996).
Mining business databases. Communications of the ACM, 39(11), 42-48.
Bozkır, A. S, Sezer, E. ve Gök, B. (2009). Öğrenci seçme sınavında (ÖSS) öğrenci
başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti.5. Uluslar
arası İleri Teknolojiler Sempozyumu, Karabük.
Dunham, M. H. (2003).Data mining ıntroductory and advanced topics, New Jersey:
Prentice Hall, Pearson Education.
Eker,
H.
Veri
madenciliği
veya
bilgi
keşfi.
URL:
http://www.bilgiyonetimi.org/cm/pages/mkl_gos.php?nt=538 (Son Erişim Tarihi :
05.05.2004).
Emel, G. G., Taşkın, Ç. ve Tok, A. (2005). Pazarla stratejilerinin oluşturulmasında bir
karar destek aracı: birliktelik kuralı madenciliği. Dokuz Eylül Üniversitesi Sosyal
Bilimler Enstitüsü Dergisi,7(3),30-59.
Frawley, W., Piatetsky, G., S ve Matheus, C. (1992). Knowledge discovery in databases:
an overview. AI Magazine,13(3),57-70.
66
Gürgen, G. (2008). Birliktelik kuralları ve sepet analizi ve bir uygulaması.Yüksek Lisans
Tezi, Marmara Üniversitesi Sosyal Bilimler Enstitüsü Ekonometri Anabilim Dalı,
İstanbul.
Kass, Gordon V. (1980). An exploratory technique for ınvestigating large quantities of
categorical data, Applied Statistics, 29(2), 119-127.
Keskin, N., Koraltan, A. ve Öztürk, Ö. (2010). Pamukkale üniversitesi buldan MYO
öğrenci profili.Ulusal Meslek Yüksekokulları Öğrenci Sempozyumu, Düzce.
Kim, S. B., Jitpitaklert, W., Park, S.K., ve Hwang, S.J. (2011). Data mining model-based
control charts for multivariate and autocorrelated processes.Expert Systems with
Applications, 39(2), 2073-2081.
Koncuk, İ. (2012). Fen-Edebiyat fakülteleri ve formasyon programı (öğretmen yetiştirme).
21. Yüzyılda Eğitim ve Toplum (Eğitim Bilimleri ve Sosyal Araştırmalar Dergisi),
1(2),97-104.
Koyuncugil, A. S, ve Özgülbaş, N. (2009). Veri madenciliği: tıp ve sağlık hizmetlerinde
kullanımı ve uygulamaları. Bilişim Teknolojileri Dergisi, 2(2), 21-32.
Koyuncugil, A. S (2007). Veri madenciliği ve sermaye piyasalarına uygulanması. Sermaye
Piyasası Kurulu Araştırma Raporu,Sermaye Piyasası Kurulu Araştırma Dairesi,
Ankara.
Kumar, N., Krovi, R. ve Rajagopalan, B (1997). Financial decision support with hybrid
genetic and neural based modeling tools. European Journal of Operational
Research, 103(2), 339-349.
Kurt, Ç. ve Erdem, A. (2012). Öğrenci başarısını etkileyen faktörlerin veri madenciliği
yöntemleriyle incelenmesi. Politeknik Dergisi, 15(2), 111-116.
Lee, K, C, Han, I, ve Kwon, Y. (1996). Hybrid neural network models for bankruptcy
predictions.Decision Support Systems, 18(1), 63-73.
Magnusson, C., Arppe, A., Eklund, T., ve Back, B. (2005). The language of quarterly
reports as an ındicator of change in the company’s financial status. Information
&Management, 42(4), 561-570.
Nazem, S ve Shin, B(1999). Data mining: new arsenal for strategic decision making.
Journal of Database Management, 10(1), 39-42.
67
Owen F. K., Kepir D. D, Özdemir S., Ulaş Ö. ve Yılmaz O. (2012). Üniversite
öğrencilerinin bölüm seçme nedenleri, Mersin Üniversitesi Eğitim Fakültesi
Dergisi, 8(3),135-151.
Öğüt, S. (2005). Veri madenciliği kavramı ve gelişim süreci.Veri Madenciliği Paneli,
İstanbul.
Pang, S., and Gong, J. (2009). C5.0 Classification Algorithm and application on ındividual
credit evaluation of banks. System Engineering-Theory&Practice, 29(12), 94-104.
Rexer, K. 2013 data miner survey highlights. Boston:Predictive Analytics World,
URL:http://agiltools.com/blogsp/wp-content/uploads/2013/12/2013-Rexer-DMSurvey-PAW Deck.pdf (Son Erişim Tarihi:05.08.2013).
Silahtaroğlu, G. (2013).Veri Madenciliği: Kavram ve Algoritmaları.İstanbul: Papatya
Yayıncılık,75.
Swift, R. (2001).Accelerating customer relationship. Prentice Hall PTR.
Şimşek, U. T. (2006).Veri madenciliği ve müşteri ilişkileri yönetiminde (CRM) bir
uygulama. Basılmamış Doktora Tezi, İstanbul Üniversitesi Sosyal Bilimler
Enstitüsü, İstanbul.
Timor, M. ve Şimşek, T. (2008). Veri madenciliğinde sepet analizi ile tüketici davranışı
modellemesi. Yönetim Dergisi, Sayı 59,1-10.
Topaloğlu, F. (2007). Veri madenciliği ile meteorolojik parametrelerin analizi ve ziraî
meteoroloji haritasının çıkarılması. Yüksek lisans Tezi, Bilgisayar Mühendisliği
Anabilim Dalı, Elazığ.
Yıldırım, P., Uludağ, M. ve Görür, A. (2007). Hastane bilgi sistemlerinde veri madenciliği.
Çanakkale: Akademik Bilişim Bildiri,Çanakkale On Sekiz Mart Üniversitesi.
İnternet: Bülent Ecevit Üniversitesi 8. FEFKON Fen, Edebiyat, Fen-Edebiyat, Dil ve
Tarih-Coğrafya, İnsan ve Toplum Bilimi Fakülteleri Dekanlar Toplantısı “ 2013
Fen Edebiyat Fakülteleri Kapasitelerinin Etkin kullanımı”
http://fefkon.beun.edu.tr/Sonuc_raporlari/Paneller.pdf (Son Erişim
Tarihi:05.08.2014).
68
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, Adı
: AKÇA, Ferda
Uyruğu
: T.C
Doğum Tarihi ve yer
: 07.02.1988 Erzurum
Medeni Hal
: Bekar
Telefon
: 0 (505) 509 46 46
Faks
:-
e-mail
: [email protected]
Eğitim Derece
Eğitim Birimi
Mezuniyet Tarihi
Yüksek Lisans
Gazi Üniversitesi/İstatistik
Devam ediyor
Lisans
Gazi Üniversitesi/İstatistik
2010
Lise
Başkent Lisesi
2005
Yıl
Yer
Görev
2012
2013
Gazi Üniversitesi
Sosyal Güvenlik Kurumu
Veri Denetciliği
Denetmenlik
İş Deneyimi
Yabancı Dil
İngilizce
Hobiler
Yüzmek, dans etmek, bulmaca çözmek
Download