tez yazım kılavuzu - Ulusal Tez Merkezi

advertisement
VERİ MADENCİLİĞİ TEKNİKLERİ İLE ÜSTÜN YETENEKLİ
ÖĞRENCİLERİN İLGİ ALANLARININ ANALİZİ
Özgün ÇÖLLÜOĞLU GÜLEN
DOKTORA TEZİ
YÖNETİM BİLİŞİM SİSTEMLERİ ANA BİLİM DALI
GAZİ ÜNİVERSİTESİ
BİLİŞİM ENSTİTÜSÜ
NİSAN 2014
Özgün ÇÖLLÜOĞLU GÜLEN tarafından hazırlanan “Veri Madenciliği Teknikleri İle
Üstün Yetenekli Öğrencilerin İlgi Alanlarının Analizi” adlı tez çalışması aşağıdaki jüri
tarafından OY BİRLİĞİ / OY ÇOKLUĞU ile Gazi Üniversitesi Yönetim Bilişim
Sistemleri Anabilim Dalında DOKTORA TEZİ olarak kabul edilmiştir.
Danışman : Doç. Dr. Selçuk ÖZDEMİR
Bilgisayar ve Öğretim Teknolojileri Eğitimi, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum
Başkan : Prof. Dr. Arif ALTUN
Bilgisayar ve Öğretim Teknolojileri Eğitimi, Hacettepe Üniversitesi
Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum
Üye : Doç. Dr. Tolga GÜYER
Bilgisayar ve Öğretim Teknolojileri Eğitimi, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum
Üye : Doç. Dr. Uğur ÖZCAN
Endüstri Mühendisliği, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum
Üye : Doç. Dr. Alptekin SÖKMEN
İşletme, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum
Tez Savunma Tarihi: 25/04/2014
Jüri tarafından kabul edilen bu tezin Doktora Tezi olması için gerekli şartları yerine
getirdiğini onaylıyorum.
Doç. Dr. Nurettin TOPALOĞLU
Bilişim Enstitüsü Müdürü
ETİK BEYAN
Gazi Üniversitesi Bilişim Enstitüsü Tez Yazım Kurallarına uygun olarak hazırladığım bu
tez çalışmasında;

Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar
çerçevesinde elde ettiğimi,

Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun
olarak sunduğumu,

Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak
gösterdiğimi,

Kullanılan verilerde herhangi bir değişiklik yapmadığımı,

Bu tezde sunduğum çalışmanın özgün olduğunu,
bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan
ederim.
Özgün ÇÖLLÜOĞLU GÜLEN
25/04/2014
iv
VERİ MADENCİLİĞİ TEKNİKLERİ İLE ÜSTÜN YETENEKLİ ÖĞRENCİLERİN İLGİ
ALANLARININ ANALİZİ
(Doktora Tezi)
Özgün ÇÖLLÜOĞLU GÜLEN
GAZİ ÜNİVERSİTESİ
BİLİŞİM ENSTİTÜSÜ
Nisan 2014
ÖZET
Bu çalışmanın amacı eğitimsel veri madenciliği yöntemlerinden sınıflandırma analizi ile üstün
yetenekli öğrencilerin ilgi alanlarını tahmin etmek ve birliktelik analizi ile bu öğrencilerin sıklıkla
bir arada ilgi duydukları alanları belirlemektir. Araştırmanın çalışma grubunu Ankara’da yer alan
Yasemin Karakaya Bilim ve Sanat Merkezi’nde öğrenim gören yaşları 12 ve daha büyük üstün
yetenekli öğrenciler oluşturmaktadır. Bu öğrencilerden veriler Akademik Benlik Kavramı Ölçeği,
araştırmacı tarafından geliştirilmiş olan Boş Zamanları Değerlendirme Anketi ve Ebeveyn Veri
Toplama Formu ile toplanmıştır. Ayrıca öğrencilerin WISC-R testi ve Temel Kabiliyetler Testi 711 sonuçları da araştırma kapsamında kullanılmıştır. Birliktelik ve sınıflandırma analizleri,
Waikato Environment for Knowledge Analysis veri madenciliği yazılımı kullanılarak yapılmıştır.
Üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek için 10 sınıflandırma algoritması seçilmiş
ve bu algoritmaların çıktıları karşılaştırılarak problem tanımı için en uygun olan algoritma JRip
olarak belirlenmiştir. JRip algoritmasının ilgi alanını tahmin etmedeki %85,8 doğruluğu,
oluşturulan eğitimsel veri madenciliği sınıflandırma modelinin başarılı bir model olduğunu
göstermektedir. Seçilen sınıflandırma algoritmasının çıktılarından yararlanarak ilgi alanları
üzerinde etkili olan nitelikler ortaya çıkarılmıştır. Tez kapsamında ayrıca eğitimcilerin
kullanabilmesi amacıyla, ilgi alanı bilinmeyen üstün yetenekli öğrencilerin ilgi alanlarını
saptamayabilmek için web tabanlı ilgi alanı analiz sistemi geliştirilmiştir. Üstün yetenekli
öğrencilerin sıklıkla bir arada ilgi duydukları alanlar ise Apriori birliktelik algoritması ile tespit
edilmiştir. Çalışmada elde edilen eğitimsel veri madenciliği bulguları Bilim ve Sanat
Merkezlerinde üstün yetenekli eğitiminin bireysel ihtiyaçlara göre farklılaştırılması ve ders
programlarının daha etkin düzenlenmesi gibi konularda pek çok fayda sağlayacaktır. Öğrencilerin
sıklıkla birlikte ilgi duydukları alanlara ilişkin dersler aynı saatlerde yapılmaz ise öğrenciler tüm
ilgi alanlarına ait derslere katılma imkânı bulurlar. İlgili tezde geliştirilen model ve ilgi alanı analiz
sistemi, Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’de yer alan üstün
yetenekli eğitiminde tek tip uygulamalar yerine bireylerin ilgilerine göre farklılaştırılmış
programların uygulanması hedefinin gerçekleştirilmesi için sistematik ve bilimsel bir yöntem
sunmaktadır.
Bilim Kodu
: 1146.1.014
Anahtar Kelimeler
: Eğitimsel veri madenciliği, üstün yetenekli öğrenciler, ilgi alanı
Sayfa Adedi
: 160
Danışman
: Doç. Dr. Selçuk ÖZDEMİR
v
ANALYSIS OF GIFTED STUDENTS’ INTEREST AREAS USING DATA MINING
TECHNIQUES
(Ph.D. Thesis)
Özgün ÇÖLLÜOĞLU GÜLEN
GAZİ UNIVERSITY
INFORMATICS INSTITUTE
April 2014
ABSTRACT
The purpose of this study is to predict interest areas of gifted students and discover relationships
between these areas by using educational data mining methods. The sample of the research
included gifted students who are studying in Yasemin Karakaya Science and Art Center and 12
years old or older. Data are collected from Academic Self Concept Scale outputs, Spare Time
Activities Survey answers, Parental Information Retrieval Form answers, and Basic Capabilities
Test 7-11 and WISC-R results of students. To predict interest areas of gifted students, classification
analyses are performed and to identify relationships between these areas, association analysis is
executed. For classification and association analyses, Waikato Environment for Knowledge
Analysis data mining software is used. 10 classification algorithms are selected to predict interest
areas of gifted students. Outputs of these algorithms are compared and JRip is selected as the most
suitable algorithm for discussed problem in this study. The 85,8% accuracy rate of JRip algorithm
for predicting interest areas of gifted students shows that the model constructed by JRip rules is
proven to be successful. By making use of JRip classification algorithm outputs, attributes which
are effective on interest areas of gifted students are explored. Also in this study, web based interest
area analysis system is developed for educators. By using this software, they can identify interest
areas of gifted students whose interest areas are not known. Area pairs in which gifted students are
frequently interested together are detected by running Apriori association algorithm. Results
obtained from this study will provide many benefits to science and art centers such as giving
differentiated instruction by meeting individual needs, organizing course programs more
effectively. If students are known to be frequently interested together in some areas and timetables
of lectures related to these areas do not conflict, gifted students will have the possibility of
attending lectures belonging to all their interest areas. Classification model and interest area
analysis system developed in this study provide systematic method, which helps to reach “in gifted
education, instead of uniform practices, application of differentiated program by taking into
account of individuals’ interest areas” goal stated in Gifted Individuals Strategy and Application
Plan 2013-2017.
Science Code
: 1146.1.014
Key Words
: Educational data mining, gifted students, interest area
Page Number
: 160
Supervisor
: Assoc. Prof. Dr. Selçuk ÖZDEMİR
vi
TEŞEKKÜR
Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren, akademik açıdan
her türlü desteği veren danışmanım Sayın Doç.Dr. Selçuk ÖZDEMİR’e, beni yetiştirip bu
günlere getiren fakat şimdi beni gökyüzünden izleyen canım babam Osman
ÇÖLLÜOĞLU’na, manevi destekleriyle beni hiçbir zaman yalnız bırakmayan sevgili eşim
Özhan GÜLEN’e ve varlığı ile beni motive eden bir tanecik kızım Irmak GÜLEN’e
teşekkürü bir borç bilirim.
vii
İÇİNDEKİLER
Sayfa
ÖZET ............................................................................................................................... iv
ABSTRACT ..................................................................................................................... v
TEŞEKKÜR .................................................................................................................... vi
İÇİNDEKİLER ............................................................................................................... vii
ÇİZELGELERİN LİSTESİ .............................................................................................. ix
ŞEKİLLERİN LİSTESİ .................................................................................................... x
RESİMLERİN LİSTESİ................................................................................................... xi
KISALTMALAR ............................................................................................................ xii
1. GİRİŞ ......................................................................................................................... 1
2. TEMEL KAVRAMLAR ........................................................................................ 5
2.1. Üstün Yetenekli Eğitimi ........................................................................................ 5
2.2. Veri Madenciliği...................................................................................................13
2.3. Eğitimsel Veri Madenciliği ...................................................................................29
3. YÖNTEM .................................................................................................................39
3.1. Çalışma Grubu ......................................................................................................39
3.2. Veri Toplama Araçları ..........................................................................................39
3.3. Verilerin Toplanması ve Analizi ...........................................................................42
4. BULGULAR ............................................................................................................53
5. İLGİ ALANI ANALİZ SİSTEMİ ........................................................................73
6. SONUÇ VE ÖNERİLER ......................................................................................79
KAYNAKLAR ................................................................................................................83
EKLER ............................................................................................................................89
viii
Sayfa
EK-1. Boş zamanları değerlendirme anketi .......................................................................90
EK-2. Ebeveyn veri toplama formu ..................................................................................95
EK-3. WEKA analizlerinde kullanılan tabloların oluşturma SQL’leri ............................. 100
EK-4. Part algoritması sınıflandırma analizi çıktısı ......................................................... 103
EK-5. Ridor algoritması sınıflandırma analizi çıktısı ...................................................... 109
EK-6. DecisionTable algoritması sınıflandırma analizi çıktısı.........................................113
EK-7. JRip algoritması sınıflandırma analizi çıktısı ........................................................ 117
EK-8. BFTree algoritması sınıflandırma analizi çıktısı ................................................... 122
EK-9. FT algoritması sınıflandırma analizi çıktısı .......................................................... 127
EK-10. J48 algoritması sınıflandırma analizi çıktısı ........................................................ 134
EK-11. LADTree algoritması sınıflandırma analizi çıktısı ..............................................139
EK-12. SimpleCart algoritması sınıflandırma analizi çıktısı............................................145
EK-13. NaiveBayes algoritması sınıflandırma analizi çıktısı ..........................................150
EK-14. Apriori algoritması birliktelik analizi çıktısı ....................................................... 154
EK-15. İlgi alanı analiz sistemi tabloları oluşturma SQL’leri ..........................................156
EK-16. İlgi alanı analiz sistemi kodları (CD) ..................................................................159
ÖZGEÇMİŞ ................................................................................................................... 160
ix
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 3.1. Öğrenci ilgi alanı istatistikleri .......................................................................41
Çizelge 4.1. Sınıflandırma algoritmaları doğruluk karşılaştırması .....................................59
Çizelge 4.2. JRip ve SimpleCart algoritmalarının doğru pozitif oranları, yanlış pozitif
oranları, kesinlikleri, F-Ölçütleri, ROC alanları ve kappa istatistikleri .........60
Çizelge 4.3. JRip ve SimpleCart hata metrikleri ...............................................................60
Çizelge 4.4. JRip kural açıklamaları .................................................................................67
Çizelge 4.5. Niteliklerin ilgi alanlarına etkisi ....................................................................69
Çizelge 4.6. Apriori birliktelik analizi sonuçları ...............................................................72
x
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 2.1. KDD adımları temel akışı .................................................................................14
Şekil 2.2. Veri madenciliği modelleri ve işlevleri .............................................................16
Şekil 2.3. Karar ağacı örneği ............................................................................................25
Şekil 2.4. Dendrogram örneği ...........................................................................................27
Şekil 4.1. K-fold cross validation .....................................................................................55
Şekil 4.2. RIPPER algoritması taslak kodu .......................................................................65
Şekil 4.3. JRip algoritma kuralları ....................................................................................66
Şekil 4.4. Apriori algoritması taslak kodu .........................................................................70
xi
RESİMLERİN LİSTESİ
Resim
Sayfa
Resim 3.1. WEKA GUI seçim ekranı ...............................................................................43
Resim 3.2. WEKA gezgin ekranı ......................................................................................43
Resim 3.3. WEKA SQL görüntüleyici ekranı ...................................................................44
Resim 3.4. Veri tabanı bağlantı parametreleri ekranı ........................................................45
Resim 3.5. WEKA gezgin ekranı-sınıflandırma analizi sekmesi .......................................46
Resim 3.6. Sınıflandırma algoritması seçim ekranı ...........................................................47
Resim 3.7. J48 sınıflandırma algoritması parametre ekranı ...............................................48
Resim 3.8. WEKA gezgin ekranı-birliktelik analizi sekmesi .............................................49
Resim 3.9. Birliktelik algoritması seçim ekranı ................................................................50
Resim 3.10. Apriori birliktelik algoritması parametre ekranı.............................................51
Resim 4.1. Örnek WEKA sınıflandırma çıktısı .................................................................56
Resim 5.1. İlgi alanı analiz sistemi işlem menüsü öğeleri .................................................75
Resim 5.2. Yeni öğrenci kayıt ekranı ................................................................................76
Resim 5.3. 4.Soru şık seçim ekranı (örnek) ......................................................................76
Resim 5.4. Mevcut öğrenci sorgulama ve silme ekranı .....................................................77
xii
KISALTMALAR
Bu çalışmada kullanılmış bazı kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur.
Eğer kullanılan terimin İngilizcesinin baş harflerinden oluşan kısaltma literatürde yaygın
olarak kullanılıyorsa, çalışmada ilgili terimin İngilizce kısaltması tercih edilmiştir.
Kısaltmalar
Açıklama
ABD
Amerika Birleşik Devletleri
ABKÖ
Akademik Benlik Kavramı Ölçeği
AJAX
Asynchronous JavaScript and XML
API
Application Programming Interface
ASF
Apache Software Foundation
AUC
Area Under Curve
Eğri Altındaki Alan
BİLSEM
Bilim ve Sanat Merkezi
BZDA
Boş Zamanları Değerlendirme Anketi
EVTF
Ebeveyn Veri Toplama Formu
FP
False Positive
Yanlış Pozitif
GUI
Graphical User Interface
Grafiksel Kullanıcı Arayüzü
HTML
Hyper Text Markup Language
IG
Information Gain
Bilgi Kazanım
IQ
Intelligence Quotient
Zekâ Katsayısı
IREP
Incremental Reduced Error Pruning
ITS
Intelligent Tutoring Systems
Zeki Özel Ders Sistemleri
JAR
Java Archive
JSF
JavaServer Faces
xiii
Kısaltmalar
Açıklama
KDD
Knowledge Discovery from Data
Veriden Bilgi Keşfi
KKP
Kurumsal Kaynak Planlama
LCA
Latent Class Analysis
Gizli Sınıf Analizi
MDL
Minimum Description Length
Minimum Tanım Uzunluğu
ODTÜ
Orta Doğu Teknik Üniversitesi
OLAP
On-line Analytical Processing
Çevrimiçi Analitik İşleme
ÖSYM
Ölçme, Seçme ve Yerleştirme Merkezi
RFR
Random Forest Regression
RIPPER
Repeated Incremental Pruning to Produce Error Reduction
ROC
Receiver Operating Characteristics
Alıcı İşletme Karakteristikleri
SQL
Structured Query Language
Yapılandırılmış Sorgu Dili
TBMM
Türkiye Büyük Millet Meclisi
TKT
Temel Kabiliyetler Testi
TP
True Positive
Doğru Pozitif
URL
Uniform Resource Locator
Tekdüzen Kaynak Bulucu
VTYS
Veri Tabanı Yönetim Sistemi
WEKA
Waikato Environment for Knowledge Analysis
WISC-R
Weschler Intelligence Scale for Children-Revised
1
1. GİRİŞ
Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’ye göre üstün yetenekli
bireyler toplumların yaklaşık %2’sini oluşturmaktadır [1]. İlgili planda üstün yetenekli
bireylerin çeşitli özellikleri ve yetenekleri ile toplumlara yön veren, gelişmeyi ve
değişmeyi hızlandıran bireyler olduğu, bu nedenle onların üretken hale getirilmeleri ve
potansiyellerini toplumsal gelişme için kullanmaları için eğitilmelerinin toplumun geleceği
için büyük önem arz ettiği belirtilmiştir.
Türkiye’de üstün yetenekli öğrencilerin eğitimi, Milli Eğitim Bakanlığı Özel Eğitim ve
Rehberlik Hizmetleri Genel Müdürlüğü bünyesinde yer alan Bilim ve Sanat Merkezlerinde
(BİLSEM) yürütülmektedir. Bu öğrenciler örgün eğitim kurumlarına devam etmektedir.
Ancak okul dışı saatlerde BİLSEM’lerde eğitimlerini sürdürmektedir.
BİLSEM Yönergesine göre şu anda BİLSEM’lerde eğitim art arda devam eden 5
programda verilmektedir: uyum programı, destek eğitimi, bireysel yetenekleri fark ettirme,
özel yetenekleri geliştirme ve proje üretimi/yönetimi [2]. Yönergeye göre destek eğitimi ve
bireysel yetenekleri fark ettirme programlarının sonlarında öğrencilerin ilgi alanları
belirlenmeli ve daha sonraki aşamadaki programlarda öğrencilerin yönlendirilmesi bu
alanlara göre yapılmalıdır. Ancak ilgi alanlarını belirlemek için sistematik bir yöntem
yoktur, dolayısıyla bu ilgi alanlarını doğru olarak belirlemede bir takım problemler
mevcuttur. Örneğin ilgi alanları sadece öğretmen görüşleri ile belirlenmekte veya eğitimde
ilgi alanlarına göre farklılaştırılmış uygulamalar yerine tek tip uygulamalar geçerli
olmaktadır. Sarı BİLSEM’lerdeki önemli sorunlardan bir tanesinin üstün yeteneklilere
yönelik “Bireyselleştirilmiş Eğitim Programı” geliştirilmesi olduğunu belirtmiştir [3]. Bu
problemler Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’de ele
alınmıştır [1]. Planda üstün yetenekli bireylerin tanılanması, eğitimleri,
eğitim
ortamlarının düzenlenmesi gibi konularda yapılacak çalışmalar yer almakta, ayrıca üstün
yetenekli birey eğitiminde tek tip uygulamalar yerine bireyin ilgi ve yeteneğine göre
farklılaştırılmış,
bireyselleştirilmiş,
zenginleştirilmiş,
hızlandırılmış
modeller
önerilmektedir. Böylece üstün yetenekli eğitiminde yeni bir dönemin başlaması
hedeflenmektedir. Planda mevcut sürecin zayıf yönlerinden birisi üstün yeteneklilerin
2
eğitimine yönelik farklılaştırılmış eğitim modellerinin ve programlarının olmaması olarak
belirtilmiştir. Bu sorunu çözmek için plana aşağıdaki hedefler konmuştur [1]:


“Hedef 1.3.1: Öğrencilerin yetenek alan/alanlarına yönelik farklılaştırılmış eğitim
programları geliştirmek ve uygulamak.”
“Hedef 1.3.2: Farklılaştırılmış eğitim programlarına yönelik etkinlik ve öğretim
materyalleri oluşturmak.”
Bu hedeflere ulaşmanın ön koşulu olan üstün yetenekli öğrencilerin ilgi alanlarının doğru
belirlenmesi için sistematik ve bilimsel bir yönteme ihtiyaç duyulduğu açıktır. İlgi
alanlarının belirlenmesi üstün yetenekli eğitimiyle ilgilenen eğitim kurumlarının ve
eğitimcilerin yanı sıra velilere de pek çok fayda sağlayacaktır. Veliler çocuklarına ilgi
alanları doğrultusunda daha fazla destek sağlayabilecektir.
Kuzgun’a göre meslek seçimini etkileyen faktörlerin başında yetenek ve ilgi gelmektedir
[4]. Kuzgun ayrıca bir kişinin bir işi yapmaktan hoşlanması için o işi iyi yapması
gerektiğini, bunun da yetenekle mümkün olduğunu, bu nedenle insanların yetenekli
oldukları alanlara ilgi duyacaklarının kabul edildiğini belirtmiştir [4]. Dolayısıyla üstün
yetenekli öğrencilerin ilgi alanının belirlenmesi ile bu öğrencilerin meslek yönlendirmeleri
de yapılabilecektir.
Kuzgun özellikle üstün yetenekli öğrencilerin birden fazla ilgi alanı olduğunu, Leonardo
da Vinci gibi dehaların birçok farklı alanda üstün kalitede ürün ortaya çıkardığını
belirtmiştir [5]. Bu nedenle bir alana öncelikli ilgisi belirlenen üstün yetenekli bir
öğrencinin ilgi duyduğu diğer alanlar da belirlenmelidir. Öğrencilerin ilgi duydukları tüm
alanların belirlenmesi BİLSEM’lerde ders programlarının düzenlenmesinde yardımcı
olacaktır. Bir öğrencinin ilgi alanlarına ait dersler aynı saatlerde yapılmaz ise bu öğrenci
tüm ilgi alanlarıyla ilgili derslere katılma imkânı bulacaktır.
Verilen bu bilgiler ışığında üstün yetenekli öğrencilerin ilgi alanlarının analiz edilmesi bu
tez araştırmasının problemidir. Araştırmanın alt problemleri ise şunlardır:

Üstün yetenekli öğrencilerin ilgi alanlarının tahmin edilmesi.

Üstün yetenekli öğrencilerin bir arada ilgi duydukları alanların belirlenmesi.
3
Çalışma kapsamında üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek ve bu
öğrencilerin hangi alanlara bir arada ilgi duyduklarını belirlemek için eğitimsel veri
madenciliği teknikleri kullanılmıştır.
Han ve Kamber’e göre veri madenciliği, büyük veri yığınlarından bilginin (ilginç
desenlerin) çıkarılmasıdır [6]. Han ve Kamber veri madenciliğinin, veri tabanı sistemleri,
istatistik, makine öğrenimi, veri görselleştirme gibi farklı alanlardaki teknikleri kullanan
disiplinler arası bir konu olduğunu ve veri madenciliği tekniklerinin finans, bankacılık,
sigortacılık, telekomünikasyon ve tıp gibi pek çok sektörde kullanılabileceğini
belirtmişlerdir.
Sachin ve Vijay, eğitim alanında veri madenciliği tekniklerini kullanmak için artan bir
araştırma ilgisi bulunduğunu ifade etmişlerdir [7].
Onlara göre “Eğitimsel Veri
Madenciliği” olarak adlandırılan bu yeni gelişen alan, eğitim ortamından gelen veriden
bilgi keşfedecek metotlar geliştirmekle ilgilenmektedir.
Eğitimsel veri madenciliği “International Educational Data Mining Society” tarafından,
eğitimsel bağlamdan gelen özgün tipte veriyi keşfetmek için metotlar geliştirmekle
ilgilenen ve bu metotları öğrencileri daha iyi anlamak için kullanan, gelişmekte olan bir
disiplin olarak tanımlanmıştır [8].
Eğitimsel veri madenciliği teknikleri, geleneksel veri madenciliği tekniklerinden eğitim
verisinin hiyerarşisindeki birçok seviyeyi kullanmasıyla farklılaşmaktadır [7].
Kumar ve Chadha veri madenciliğinde kullanılan bazı teknikleri şu şekilde açıklamıştır
[9]:
Sınıflandırma analizi
Sınıflandırma analizi ile sınıfları bilinen nesnelerden hareket ederek sınıfları bilinmeyen
nesnelerin sınıflarını tahmin etmek için modeller kurulmaktadır. Elde edilen modeller “if
then” kuralları, karar ağaçları, matematiksel modeller ve sinir ağları şeklinde olabilir.
Örneğin “if yaş=genç ve öğrenci=evet then bilgisayar_alır=evet” şeklindeki bir “if then”
kuralı, genç olan ve öğrenci olan bir kişinin bilgisayar alacağını göstermektedir.
4
Birliktelik analizi
Birliktelik analizi, bir veri setinde sıklıkla birlikte görülen nitelik-değer çiftlerini gösteren
birliktelik kurallarını keşfetmektir. Birliktelik analizi genellikle market sepeti analizi için
kullanılmaktadır. X=>Y şeklindeki bir birliktelik kuralı, X’teki koşulları sağlayan verilerin
aynı zamanda Y’deki koşulları sağladığını göstermektedir.
Kümeleme analizi
Kümeleme, mümkün olan tüm sınıf değerlerinin analiz başında bilindiği sınıflandırma
tekniklerinden farklılık göstermektedir. Kümeleme analizinde ilk başta sınıf değerlerinin
ne olacağı bilinmemektedir. Analiz sonucunda nesneler küme içi benzerliği maksimize
etmek ve kümeler arası benzerliği minimize etmek prensibine göre çeşitli gruplara
ayrılırlar. Oluşturulan bu kümelere isim verilerek sınıf değerleri böylelikle atanmış olur.
Tez çalışmasında veri madenciliği teknikleri eğitim alanına uygulandığından ilgili çalışma
bir eğitimsel veri madenciliği araştırmasıdır. Veri madenciliği alanındaki bilgi birikimi
kullanılarak eğitim ortamlarındaki verilerin analiz edilmesi, eğitim alanında ihtiyaç
duyulan tahminlerin yapılmasına, öngörülemeyen desenlerin keşfedilmesine, beklenmedik
soruların, sorunların ve çözümlerin tanımlanmasına yardımcı olabilecektir.
Sınırlılıklar
Üstün yetenekli öğrencilerin tahmin edilen ilgi alanları, Akademik Benlik Kavramı Ölçeği
(ABKÖ) ile ölçülebilen ilgi alanları kümesi içerisinden olabilmektedir. Bu öğrencilerin ilgi
alanlarını tahmin etmek için kullanılan nitelikler, tez kapsamında kullanılan veri toplama
araçları ile edinilen verilerle sınırlıdır. Ayrıca tezde ulaşılan eğitimsel veri madenciliği
sonuçları ilgili çalışma grubu üzerinden elde edilmiştir.
5
2. TEMEL KAVRAMLAR
2.1. Üstün Yetenekli Eğitimi
Üstün yetenekli kavramı için yapılan pek çok tanım mevcuttur.
Marland Raporu’na göre üstün yetenekli çocuklar aşağıdaki alanların bir veya daha
fazlasında yüksek performans gösteren çocuklar olarak tanımlanmıştır [10]:
a. Genel zihinsel yetenek
b. Özel akademik yetenek
c. Yaratıcı veya üretici düşünme yeteneği
d. Liderlik yeteneği
e. Görsel ve performans sanatlarda yetenek
f. Psiko-motor yetenek.
İlgili rapora göre üstün yetenekli çocuklar profesyonel olarak yetkin kişiler tarafından
tespit edilebilen ve kendilerine ve topluma katkı sağlayabilmek için standart okul
programının ötesinde farklılaştırılmış eğitim programlarına ve servislerine ihtiyaç duyan
çocuklardır.
Marland Raporu Amerika Birleşik Devletleri’nde (ABD) federal hükümetin üstün
yeteneklilerle ilgili politikasını belirlemek amacıyla 1972 tarihinde basılmış ve o tarihten
bu yana ABD’de pek çok eyalette üstün yetenekli uygulamalarının asgari standartları
olarak kabul edilmiştir [11, 12].
Günümüzde Renzulli’nin yapmış olduğu tanım kabul görmektedir. Renzulli’nin geliştirdiği
Üçlü Çember Modeli’ne (Three-Ring Model) göre tek bir kriter üstün yetenekli kişileri
tanımlamak için yeterli değildir [13]. Bunun yerine üstün yeteneklilik 3 adet iç içe geçmiş
özellik kümesinden oluşmaktadır. Bu kümeler şunlardır:

Olağan üstü olmasına gerek olmamakla birlikte ortalamanın üzerinde bir genel yetenek

İşe bağlılık
6

Yaratıcılık
Renzulli’ye göre kendi başına tek bir küme değil bu kümeler arası etkileşimler üstün
yetenekliliği ortaya çıkarmaktadır.
Özel Eğitim Hizmetleri Yönetmeliği’ne göre ise zekâ, yaratıcılık, sanat, spor, liderlik
kapasitesi veya özel akademik alanlarda yaşıtlarına göre daha iyi performans gösteren
bireyler üstün yetenekli bireylerdir [14].
İnsanlar arasında bireysel yetenek farklılıkları mevcuttur ve bu farklı yeteneklerin ortaya
çıkarılıp geliştirilmesi için bireylere verilecek eğitimlerin farklılaştırılması gerekir [12].
Eğitimde fırsat eşitliği yasalarla güvence altına alınmıştır [11]. Fakat eğitimde eşitlik
kavramı, farklı olanların farklılıklarını dikkate alan, onlara ilgi ve yetenekleri
doğrultusunda eğitim verilmesini savunan bir anlayış olduğundan üstün yetenekli
öğrenciler için sağlanacak özel eğitim, eğitimde eşitlik ilkesini bozmamaktadır [11].
Ataman üstün yeteneklilere özel eğitim verilmesi gerektiğini belirtmiş ve bunun
gerekçelerini şöyle açıklamıştır [15]: İlköğrenim ve ortaöğrenim programları öncelikle orta
seviyede yetenekli çocukların gereksinmelerine uygun olarak düzenlenmiştir. Bu nedenle
üstün yetenekliler, yetenek düzeylerinin tümünü kullanmalarına gerek olmadan başarılı
olabilmektedirler. Bunun sonucu olarak, üstün yetenekliler eğitim programlarına ilgisiz
kalmakta, edindikleri bilgiler yeteneklerinin imkân verebileceğinden daha düşük
olmaktadır. Üstün yeteneklilerin erken tanılanamamaları ve gereksinmelerine uygun eğitim
alalamaları, sahip oldukları yeteneklerin ortalama yetenek yığını içinde kaybolmasına
neden olmaktadır.
Üstün yetenekli çocukların iki önemli ihtiyacı vardır: zorlayıcı ve motive edici etkinlikler;
doğuştan sahip oldukları potansiyellerinin geliştirilmesi [11]. Bu nedenle, üstün yetenekli
çocuklara bilişsel potansiyellerini geliştirebilecekleri ve mevcut kapasitelerini en iyi
derecede ortaya koyabilecekleri öğrenme ortamları sağlanmalıdır [11].
Üstün yetenekli bireyler ait oldukları toplumun her alanda gelişmesini sağlayacak beyin
gücü hazinesi ve potansiyelidir ve bu potansiyelden yararlanmanın tek yolu onlara
sağlanacak özel eğitimdir [16].
7
Özel Eğitim Hizmetleri Yönetmeliği’nde de üstün yetenekli öğrencilerin özel eğitim
hizmeti alması gerektiği yer almaktadır [14].
Yukarıda belirtilen tüm bu gerekçelerden dolayı üstün yetenekli öğrencilerin özel eğitim
alma ihtiyacı mevcuttur. Bu durum tarih boyunca Türkiye ve tüm dünya tarafından fark
edilmiş ve üstün yetenekli eğitimi konusunda birçok çalışma yapılmasına sebep olmuştur.
Üstün yetenekli eğitiminin dünyadaki ilk örneği Osmanlı İmparatorluğu döneminde
kurulan Enderun Okulu’dur [17].
Enç dünyadaki üstün yetenekli eğitimi tarihi ile ilgili şu bilgileri aktarmıştır [18]: Üstün
yeteneklilerle ilgili olarak yirminci yüzyılın başlarında denemeler yapılmaya başlanmıştır.
Bu konuda öncülüğü ABD ve Almanya yapmıştır. ABD’nin çeşitli eyaletlerinde ilk olarak
üstün yeteneklilere “hızlı ilerleme” olanakları sağlanmıştır. Birinci Dünya Savaşı’ndan
önceki dönemde İngiltere, Fransa ve Almanya okullarında, üstün yetenekli öğrencilere
daha hızlı ilerleme imkânı verilmiştir. Literatür bilgileri İkinci Dünya Savaşı’na kadar olan
dönemde üstün yetenekli çocukların özel eğitimi konusunda Almanya’nın önde olduğunu
göstermektedir.
Dünya çapında üstün yetenekliler ile ilgili çalışma yapan bazı kuruluşlar şunlardır [19]:
Üstün Yetenekli Çocuklar için Dünya Konseyi (World Council For Gifted
And Talented Children), Avrupa Üstün Yetenekliler Konseyi (Europan Council for High
Ability), Uluslar Arası Eğitimde Yenilik Merkezi (The International Cente
for Innovation in Education), Üstün Yetenekli Çocukları Destekleme Derneği (National
Association for Gifted Children).
Ataman’ın Türkiye Cumhuriyeti’nde üstün yetenekli eğitiminin tarihçesiyle ilgili verdiği
bilgiler şunlardır [20]: 1948 yılında 5245 sayılı İdil Biret ve Suna Kan yasasının yürürlüğe
girmesi ile üstün yetenekli çocukların yetiştirilmesine ilişkin ilk yasal önlem alınmıştır.
Daha sonra bu yasanın kapsamı genişletilerek 1956’da 6660 sayılı yasaya dönüştürülmüş
ve müzik, resim ve plastik sanatlarda olağan üstü yetenek gösteren çocukların yurt içinde
ve yurt dışında eğitilmelerine olanak sağlayan kapsama kavuşturulmuştur. Örgün eğitim
içinde özel eğitimin sistematik olarak ele alınması 1960’lı yılları bulmuştur. Modern fen
programlarının geliştirilmesi ve teknolojideki ilerlemelerin etkisi ile 1964-1972 yılları
8
arasında üstün yetenekli çocuklar için eğitim alanında bir dizi uygulama yürürlüğe
koyulmaya başlanmıştır. Milli Eğitim Bakanlığı’nın ilköğretimde üstün yeteneklilere
yönelik yapılanmayı sağlayamamış olması, bazı özel girişimcilerin üstün yetenekli
eğitimiyle ilgilenmelerine neden olmuştur. İstanbul’da kurulan Yeni Ufuklar Okulu 1980’li
yılların ikinci yarısında bu konuda uygulamalara başlamıştır. Ortaöğretim üstün yetenekli
eğitimine daha elverişli durumdadır. 1964’te açılan Ankara Fen Lisesi’nde ve daha sonra
kurulan fen liselerinde, matematik ve fen alanında üstün yetenekli çocuklara eğitim
verilmektedir. Belirli kriterlere göre seçerek öğrenci alan, Anadolu Liseleri, Anadolu
Güzel Sanat Liseleri, Süper Liseler ve Özel Kolejler, orta öğretim düzeyinde ayrı eğitim
olanakları sunan kurumlar olarak kabul edilebilir.
Türkiye’deki bu ilk uygulamalardan sonra okul öncesi, ilköğretim ve ortaöğretim
çağındaki üstün yetenekli öğrencilerin yeteneklerini geliştirerek onların üretken, problem
çözen bireyler haline gelmelerini ve çeşitli öğrenme fırsatları ve özel eğitim aktiviteleri ile
bu öğrencilerin potansiyellerinin farkına varmalarını ve potansiyellerini kullanmalarını
sağlamak amacıyla Milli Eğitim Bakanlığı tarafından BİLSEM’ler açılmıştır [21].
Türkiye’deki ilk BİLSEM olan Yasemin Karakaya BİLSEM, 1993 yılında Milli Eğitim
Bakanlığı Özel Eğitim Rehberlik ve Danışma Hizmetleri Genel Müdürlüğü Üstün
Yeteneklilerin Eğitimi Şubesi’nin açılmasının hemen ardından Ankara’da 1994 yılında
eğitim faaliyetlerine başlamıştır.
Üstün yetenekli eğitimi alanında Türkiye tarihinde geçmişten günümüze BİLSEM’ler de
dahil olmak üzere Enderun okulları dışında başarılı bir uygulama sergilenemediği,
ülkemizin çağdaş gelişmeleri yakalayamadığı BİLSEM Süreci İç Denetim Raporu’nda
ifade edilmiştir [22].
Üstün yetenekli eğitiminde tüm dünyada çeşitli yöntemler uygulanmaktadır. Uygulanan bu
yöntemler ayrı eğitim ve birlikte eğitim olmak üzere iki ana gruba ayrılmaktadır [23].
Ayrı eğitim
Bu uygulamada üstün yetenekli çocuklar seviyelerine ve çeşitli özelliklerine göre
gruplanırlar. Daha sonra grupların özelliklerine ve gereksinmelerine göre özel eğitim
programları geliştirilir ve uygulanır. Ayrı eğitimin başlıca alt tipleri şunlardır:
9
Özel okul
Üstün yetenekli çocukların ayrı okullarda eğitilmesine verilen isimdir. Türkiye’de Fen
Liseleri, Anadolu Güzel Sanatlar Liseleri bu okullara örnektir. Üstün yetenekli eğitimini
özel okulda ilk başlatan devlet Enderun’u kuran Osmanlı İmparatorluğu’dur.
Özel sınıf
Özel sınıflar, üstün yetenekli öğrencilerin eğitimi için büyük yerleşim merkezlerindeki
büyük okullarda kurulan ayrı sınıflardır. Türkiye’de 1964 - 1971 yılları arasında Ankara,
İstanbul, Eskişehir ve Bursa’da uygulanmıştır. Daha sonra bu uygulamaya son verilmiştir.
Birlikte eğitim
Üstün yetenekli çocukların akranlarıyla aynı eğitim ortamında, birlikte eğitilmesidir.
Hızlandırma ve zenginleştirme türleri vardır.
Hızlandırma
Hızlandırmanın iki farklı uygulaması bulunmaktadır:
Okula erken başlatma
Üstün yetenekli olduğu erken yaşlarda tespit edilen çocukların okula başlama yaşlarından
bir ya da iki yıl erken okula gönderilmesidir. Birçok ülkede bu yöntem uygulanmaktadır.
Ülkemizde okula erken başlamaya olanak vardır.
Sınıf atlatma:
Üstün yetenekli öğrenci okula başladıktan sonra, başarısına, uzman görüşlerine ve
psikometrik ölçüm sonuçlarına göre, öğrenim ve zekâ düzeyine uygun bir ya da iki üst
sınıfa geçiş yapabilmesidir. Bu yöntemle üstün yetenekli çocuğun öğrenme hızıyla uyumlu
olarak
akademik
gelişmesi
uygulanabilmektedir.
sağlanabilir.
Ülkemizde
sınırlı
olarak
ilköğretimde
10
Zenginleştirme
Üstün yetenekli çocukların kendi yaşıtları arasında ve normal sınıflarında, fakat eğitim
programlarının bu çocukların gereksinmelerine yanıt verecek şekilde çeşitlendirilerek ve
zenginleştirilerek eğitilmeleridir. Okullarda uygulanmakta olan ilgi kümesi çalışmaları bu
modele örnektir. Fakat öğretmenlerin bu konuda yetiştirilmemiş olması, sınıf sayılarının
fazlalığı uygulama olanağını kısıtlamaktadır.
Bu modellerin her birinin çeşitli avantajları ve dezavantajları mevcuttur.
Türkiye’de BİLSEM’ler üstün yetenekli öğrencilere en yaygın eğitim veren kurumlardır
[24]. Şu an ülkemizde 67 BİLSEM bulunmaktadır [3]. BİLSEM Yönergesine göre
BİLSEM’lerin amacı, Türk milli eğitiminin genel amaçlarına ve temel ilkelerine uygun
olarak üstün yetenekli öğrencilerin; ulusal ve evrensel değerleri tanımalarını,
benimsemelerini ve bu değerlere saygı duymalarını, liderlik, yaratıcı ve üretici düşünce
yeteneklerini ülke kalkınmasına katkıda bulunacak şekilde geliştirmelerini, bireysel
yeteneklerinin farkında olmalarını ve kapasitelerini geliştirerek en üst düzeyde
kullanmalarını, bilimsel düşünce ve davranışlarla estetik değerleri birleştiren, üretken,
sorun çözen kendini gerçekleştirmiş bireyler olarak yetişmelerini, iş alanlarındaki ihtiyaca
yönelik
yeni
düşünceler
önerebilmelerini,
teknik
buluş
ve
çağdaş
araçlar
geliştirebilmelerini sağlamaktır [2].
BİLSEM Yönergesinde, üstün yetenekli çocukların BİLSEM’lere yerleştirme süreci şu
şekilde açıklanmıştır [2]: BİLSEM’lerde eğitim tanılama ile başlar. BİLSEM’lerde eğitim
görecek üstün yetenekli çocukların belirlenmesi amacıyla okul öncesi eğitimi çağındaki
çocuklar için veliler veya öğretmenler, ilköğretim ve ortaöğretim öğrencileri için
öğretmenler üstün yeteneğe sahip olduklarını gözlemledikleri çocuklar/öğrenciler için
gözlem formlarını doldurarak aday gösterme işlemini tamamlarlar. Çocuk/öğrencilerin
gözlem formlarının tanılama komisyonunca ön değerlendirmesi yapılır ve değerlendirme
sonucuna göre grup taramasına alınacak çocuk/öğrenci listeleri okullarına veya velisine
bildirilir.
Grup taramasında başarılı olan öğrenciler bireysel incelemeye alınırlar.
Öğrenciler bireysel inceleme sonuçlarına göre sıralanırlar ve uygun bulunan listedeki
öğrencilerin BİLSEM’e kaydı yapılır. BİLSEM’lerde okul öncesi eğitimi çağındaki
çocuklar tam gün eğitim görürler. İlköğretim ve ortaöğretim çağındaki öğrenciler; örgün
11
eğitimlerine kayıtlı oldukları okullarında devam eder. Okul dışı zamanlarda BİLSEM’lerde
eğitim görürler.
BİLSEM Yönergesine göre kayıtları yapılan öğrenciler merkezlerde aşağıda düzenlenmiş
alanlarda eğitim programlarına alınırlar [2]:
a. Uyum
b. Destek Eğitimi
c. Bireysel Yetenekleri Fark Ettirme
d. Özel Yetenekleri Geliştirme
e. Proje Üretimi/Yönetimi
Bu programların içerikleri, ilgili yönerge tarafından aşağıdaki şekilde tanımlanmıştır [2]:
Uyum programı kapsamında çocuklara/öğrencilere ve velilerine merkezin misyon ve
vizyonu anlatılır. Uyum dönemi etkinlikleri öğrencilerin sosyal ve duyuşsal gelişimleri,
ilgileri ve yetenekleri değerlendirilerek gruplar halinde yapılır. Programda öğrencilerin
kişisel, sosyal ve psikolojik gelişimleri hakkında bilgi toplamayı amaçlayan etkinlikler
yapılır. Uyum süreci içerisinde öğretmenler öğrencileri gözlemlerler ve sonuçlarını yazılı
olarak not ederler. Uyum süreci sonunda elde edilen geri bildirimler velilerle paylaşılır.
Destek eğitim programında öğrenciler, uyum programındaki performanslarına göre
gruplara ayrılırlar. Gruplara ayrılan öğrencilere, destek eğitim programının alt program
dalları olan iletişim becerileri, grupla çalışma teknikleri, öğrenme yöntemleri, problem
çözme teknikleri, bilimsel araştırma teknikleri, fen bilimleri, matematik, dil sanatları,
sosyal bilimler, resim, müzik ve benzeri alanlarında eğitim verilir. Tüm öğrenciler yabancı
dil ve bilgisayar derslerine katılırlar. Destek eğitim programı sürecinde öğrenciler
gözlemlenir ve geri bildirimler alınır. Destek eğitim programı sonunda öğrencilerin gözlem
sonuçları ve alınan geri bildirimler değerlendirilerek her öğrencinin ilgi ve yetenek alanları
belirlenir.
Bireysel yetenekleri fark ettirici program için öğrencilerin bilişsel, duyuşsal, sosyal ve
devinişsel kapasiteleri ve destek eğitimi programı sonunda belirlenen bireysel yetenek
alanları dikkate alınarak öğrenci grupları oluşturulur. Bu program kapsamında, öğrencilere
12
sahip oldukları bireysel yeteneklerini fark ettirebilmek amacıyla bu öğrencilerin
yaratıcılıklarını ön plana çıkaran ve bireysel farklılıklarını dikkate alan içerikler hazırlanır
ve uygulanır. Bireysel yetenekleri fark ettirici dönemde disiplinler arası ilişkiler dikkate
alınarak proje üretim çalışmaları yapılır. Bireysel yetenekleri fark ettirici program sonunda,
öğrencilerin gözlem sonuçları ve geri bildirimleri değerlendirilerek her öğrencinin ilgi ve
yetenek alanları belirlenir.
Özel yetenekleri geliştirici programda, öğrenci merkezli eğitim anlayışına uygun olarak
disiplinler arası modüler yapıda eğitim mevcuttur. Bu programda disiplinler ve aralarındaki
ilişkiler değerlendirilerek, öğrencilerin herhangi bir disiplinde ileri düzeyde bilgi, beceri ve
davranış kazanmaları sağlanır. Bu dönemde öğrencilere, bireysel ilgi ve yeteneklerinin
farkında olmalarını, kapasitelerini geliştirerek en üst düzeyde kullanmalarını sağlayacak
eğitim verilir. Öğrenciler, özel yetenekleri geliştirici program sürecinde daha çok özel
yetenek alanlarına yönelik proje üretim çalışmaları yaparlar.
BİLSEM’lerdeki tüm etkinliklerin temelinde proje üretme ve geliştirme çalışmaları yer
alır. Proje üretimi/yönetimi programı kapsamında öğrenciler danışman öğretmenlerin
rehberliğinde proje konuları belirlerler. Proje geliştirme sürecinde yöntem olarak
öğrencilere tek taraflı bilgi aktarılmaz, öğrenciler kendi seçtikleri projeler için çalışırlar,
uygulamalar yaparak bu sayede öğrenirler. Öğrenciler ilgi, yetenek ve tercihlerine göre
gerek grup gerekse bireysel proje üretme çalışmalarına katılırlar. Proje konularının
belirlenmesi ve projelerin geliştirilmesinde çevredeki iş yeri, yerel yönetimler, gönüllü
kurum ve kuruluşlar, üniversiteler ve uzman kişilerden destek alınır. Bu program ile
öğrencilerin planlama, uygulama ve değerlendirme aşamalarını uygulayarak öğrenen,
üreten, sorun çözen, yaratıcı düşünebilen, çevresi ile iletişim kurabilen, bilimsel araştırma
ve buluş yapabilen bireyler olarak yetiştirilmeleri hedeflenmektedir.
Bu eğitim programlarının süresi her öğrenci için ilgili öğrencinin gelişimine göre
merkezlerce belirlenir. Her bir programın süreci içinde ve süreci sonunda öğretmenler
tarafından öğrencilerin değerlendirmeleri yapılır ve değerlendirme raporları hazırlanır.
BİLSEM Yönergesinde, Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 20132017’de ve Türkiye Büyük Millet Meclisi (TBMM) Meclis Araştırması Komisyonu
13
Raporu’nda üstün yetenekli öğrencilere ilgi alanları doğrultusunda eğitim verilmesi
gerektiği belirtilmiştir [1, 2, 12].
İlgi için yapılan pek çok tanım mevcuttur:
Schiefele’ye göre ilgi yönlendirici güçtür ve öğrencilerin yüksek performans göstermek ve
motivasyon sergilemek için seçtikleri alanları açıklar [25]. Belirli konularla veya
aktivitelerle ilişkilidir ve diğer davranış güdüleri gibi bir karakter özelliği değildir [25].
İlgi bazı işlerden hoşlanma ve o işleri yapma isteği duyma davranışlarıyla kendisini
gösteren bir iç uyarıcıdır [4]. Kuzgun bazı ilgi türlerini doğal bilim, sosyal bilim, iş-ticaret,
iş ayrıntıları, açık hava, ziraat olarak tanımlamıştır [4].
Milli Eğitim Bakanlığı’na bağlı BİLSEM’lerin bir amacı okul öncesi, ilköğretim ve
ortaöğretim kurumlarına devam eden üstün yetenekli öğrencilerin örgün eğitim dışındaki
zamanlarda ilgi alanları doğrultusunda eğitim almalarıdır [11]. Ancak BİLSEM Süreci İç
Denetim Raporu Bulgu-10’da BİLSEM öğretmenlerinin yararlanabileceği zenginleştirilmiş
alternatif programlar oluşturulmadığı ve daha da önemlisi öğrencilerin bireysel alanlarının
belirlenebilmesi için objektif, geçerlilik ve güvenirlik çalışması yapılmış ölçekler mevcut
olmadığı
için
üstün
yetenekli
öğrencilerin
ilgi
alanları
doğrultusunda
eğitilemeyebilecekleri belirtilmiştir [22]. Bu sorunun çözümü için raporda öneriler
sunulmuştur. Sorunun çözülerek üstün yetenekli öğrencileri durumları belli olduğu andan
itibaren ilgi alanları doğrultusunda yönlendirmek, öğrencilerin beyin güçlerini fonksiyonel
hale getirilecek, öğrencileri tatmin edecek ve bundan tüm ülke yarar görecektir [16].
2.2. Veri Madenciliği
Dunham, veri tabanlarındaki ve bilgisayar dosyalarındaki verilerin çok hızlı büyüdüğünü,
aynı zamanda bu verinin kullanıcılarının veriden daha karmaşık bilgi beklediğini
belirtmiştir [26]. Fakat Dunham yapısal sorgu dillerinin (Structured Query Language,
SQL) artan bu bilgi talebini karşılamakta yetersiz kaldığını da ifade etmiştir.
Veri
madenciliği, veri tabanındaki gizli bilgilerin ortaya çıkarılması olarak tanımlanır [26].
Diğer bir tanım da şöyledir: veri madenciliği veriden desenlerin seçilip çıkarılması için
özel algoritmaların uygulanmasıdır [27].
14
Veri madenciliği teriminin Veriden Bilgi Keşfi (Knowledge Discovery from Data, KDD)
terimi ile eş zamanlı kullanıldığı durumlar mevcuttur [6]. Fakat KDD veriden kullanışlı
bilginin keşfi için tüm süreci ifade ederken, veri madenciliği bu süreçteki bir adımdır [27].
Fayyad, Piatetsky-Shapiro, ve Smyth KDD’yi şöyle tanımlamıştır [27]: KDD verilerin
nasıl saklandığı, verilere nasıl erişildiği, algoritmaların büyük veriler üzerinde verimli
çalışmaları için nasıl ölçeklendirilmeleri gerektiği, sonuçların nasıl yorumlanıp
görselleştirildiği gibi konuların tümünü içermekte ve veriden bilgi keşfinin sürecinin
tümüne odaklanmaktadır. KDD disiplinler arası bir aktivite olarak görülebilir. Herhangi bir
özel disiplinin kapsamının ötesindeki teknikleri barındırmaktadır.
Şekil 2.1. KDD adımları temel akışı [27]
KDD adımlarının temel akışı Şekil 2.1’de verilmiş ve aşağıdaki gibi tanımlanmıştır [27]:
Seçme adımında üzerinde keşif gerçekleştirilecek değişken alt kümesine odaklanılır ve
üzerinde çalışılacak hedef veri seti seçilir.
Ön işleme adımında temel olarak veri temizleme işlemi yapılır. Bu adımda gürültüler
uzaklaştırılır, eksik verileri ele almak için stratejilere karar verilir.
Dönüştürme adımında veri indirgemesi yapılır ve verinin iz düşümü alınır. Bu adımda
amaca bağlı olarak veriyi temsil eden kullanışlı nitelikler bulunur. Boyut indirgeme ve
dönüştürme metotları ile gözden geçirilmekte olan değişkenlerin sayısı azaltılabilir.
15
Veri madenciliği adımında sınıflandırma, kümeleme, birliktelik ve benzeri metotların
kullanılıp algoritmaların uygulanmasıyla ilgi duyulan desenler araştırılır. Daha önceki
adımların başarısı bu adımın başarısını da etkilemektedir.
Yorumlama/değerlendirme adımında keşfedilen desenler yorumlanır. Bu adım çıkartılan
desenlerin ve modellerin görselleştirilmesini içermektedir.
Dunham veri madenciliği modellerini ikiye ayırmıştır [26]:
Tahmin edici model
Tahmin edici model, farklı verilerden elde edilen bilinen sonuçlardan yararlanarak yeni
verinin değerleri hakkında tahminde bulunur. Örneğin banka müşterilerin kredi geri
ödememe riskleri tahmin edilebilir.
Tanımlayıcı model
Tanımlayıcı model, verideki desenleri ve ilişkileri tespit eder. Tahmin edici modelin
tersine tanımlayıcı model yeni özellikleri tahmin etmez, üzerinde çalışılan verinin
özelliklerini keşfetmek için yollar sunar.
16
Şekil 2.2. Veri madenciliği modelleri ve işlevleri [26]
Dunham bu modellerin altında yer alan işlevleri Şekil 2.2’de belirtmiş ve bu işlevler için
aşağıdaki tanımlamaları vermiştir [26]:
Sınıflandırma
Sınıflandırma, veriyi önceden tanımlı sınıflara veya gruplara eşlemektedir. Veri
incelenmeden önce mümkün olan sınıflara karar verildiğinden, sınıflandırma denetimli
öğrenimdir. Kredi riskini tespit etmek ve banka kredisi verip vermemeye karar vermek
sınıflandırmaya iki örnektir. Sınıflandırma algoritmalarının çalışması için sınıfların veri
nitelik değerleri üzerine kurulu olarak tanımlanmaları gerekir. Bu algoritmalar, hali hazırda
ilgili sınıflara ait olan verilerin karakteristiklerine bakarak o sınıfları tanımlarlar.
Sınıflandırma yapmak için tüm yaklaşımlar veri üzerinde bilgiye ihtiyaç duyarlar.
Sınıflandırma tekniği tarafından ihtiyaç duyulan parametreleri geliştirmek için genellikle
eğitim seti kullanılır. Eğitim verisi örnek girdi verisinin yanı sıra verinin sınıf atamalarını
da içerir.
17
Sınıflandırma, veri tabanını sınıf setine eşler. Sınıflar önceden tanımlıdır, çakışmazlar ve
tüm veri tabanını bölümlere ayırırlar. Veri tabanındaki her kayıt sadece bir sınıfa aittir.
Sınıflandırma iki fazda gerçekleştirilir:

Eğitim verisi değerlendirilerek sınıflandırma modeli oluşturulur. Bu adımın girdisi
eğitim verisi (her kayıt için ait olduğu sınıfı da içeren) çıktısı ise geliştirilen modeldir.
Geliştirilen model eğitim verisini mümkün olduğunca doğru sınıflandırmaktadır.

İlk adımda kurulan model, hedef veri tabanındaki sınıfları bilinmeyen kayıtları
sınıflandırmak için uygulanır.
Sınıflandırmanın aslında ikinci adım ile yapılmasına rağmen bu adımın uygulanması basit
olduğu için, araştırmaların çoğu birinci adımla ilgilidir.
Sınıflandırma algoritmalarının performansı genellikle sınıflandırma doğruluğu ile ölçülür.
Sınıflandırma doğruluğu ise çoğunlukla doğru sınıflara atanan kayıtların yüzdesi olarak
hesaplanır. Sınıflandırma kurallarının doğruluğu test verisi üzerinde ölçülür. Eğer elde
edilen doğruluk kabul edilebilir olarak değerlendirilirse bu kurallar sınıfları bilinmeyen
kayıtların sınıflarını bulmak için kullanılabilir.
Regresyon
Regresyon bir veri öğesini, gerçek değerli tahmin değişkenine eşlemek için kullanılır ve
eşleme yapan fonksiyonun öğrenilmesini kapsar. Regresyonda varsayım hedef verinin
bilinen bir fonksiyon tipine (lineer, lojistik) uymasıdır. Regresyon daha sonra verilen veriyi
en iyi modelleyen fonksiyona karar verir. Hata analizi hangi fonksiyonun en iyi olduğuna
karar vermede kullanılır.
Zaman serisi analizi
Zaman serisi analizinde bir niteliğin zaman içinde değişen değerleri incelenir. Değerler
genellikle saatlik, günlük, haftalık gibi eşit zaman aralıklarında ölçülür. Zaman serilerini
modellemek için zaman serisi çizelgesi (time series plot) kullanılabilir. Zaman serisi
analizinde 3 tip fonksiyon gerçekleştirilebilir. Birinci durumda uzaklık ölçümleri, farklı
zaman serileri arasındaki benzerliği bulmak için kullanılabilir. İkinci durumda zaman serisi
18
çizelgesi çizgisinin yapısı davranışına karar vermek için incelenebilir. Üçüncü durumda ise
tarihsel zaman serisi çizelgesi gelecek zaman değerlerini tahmin etmek için kullanılabilir.
Tahmin etme
Pek çok gerçek dünya veri madenciliği uygulaması, verinin gelecek zamandaki durumunu,
geçmiş ve şimdiki zamandaki durumundan tahmin ederler. Tahmin etme sınıflandırmanın
alt tipi olarak düşünülebilir. Aradaki fark tahmin etmenin verinin şu anki durumundan çok
gelecek zamandaki durumunu tahmin ediyor olmasıdır.
Burada veri madenciliği
modelleme yaklaşımı tipinden çok bir uygulama tipi kastedilmektedir. Tahmin
uygulamaları, konuşma tanıma, makine öğrenimi, desen tanıma tekniklerini içermektedir.
Gelecek zaman değerleri regresyon teknikleri ve zaman serisi analizi ile tahmin edilebilir
olmakla birlikte, bu yaklaşım da kullanılabilmektedir.
Kümeleme
Kümeleme, grupların (mümkün sınıf değerlerinin) önceden tanımlanmamış olması dışında
sınıflandırmaya benzemektedir. Bu grupların ne olacağı veri üzerinde belli olmaktadır.
Kümeleme denetimsiz öğrenimdir ve verinin çeşitli gruplara bölünmesi olarak
tanımlanabilir. Önceden tanımlı nitelikler üzerinde veriler arasındaki benzerliklere karar
verilmesi ile kümeleme gerçekleştirilir. Birbirine en çok benzeyen veriler bir kümede
gruplanır. Kümeler önceden tanımlı olmadığı için oluşan kümelerin anlamını yorumlamak
için uzman görüşü gerekmektedir.
Özetleme
Özetleme, veriyi ilgili basit açıklamalarla alt kümelere eşlemektedir. Özetleme, genelleme
veya nitelendirme olarak ta isimlendirilmektedir. Veri tabanı hakkındaki temsil edici
bilgiyi çıkarmaktadır. Bu işlem verinin çeşitli parçalarına ulaşılarak yapılabilir. Alternatif
olarak veriden özet tipli bir bilgi (örneğin numerik değerler için ortalama) çıkarılabilir.
Özetleme veri tabanı içeriğini kısa olarak nitelendirir.
19
Birliktelik kuralları
Birliktelik analizi veri içerisindeki ilişkilerin açığa çıkarılmasıdır. Bu tip uygulamanın en
iyi örneği birliktelik kurallarına karar verilmesidir. Bir birliktelik kuralı verideki bir
birliktelik ilişkisini ortaya çıkaran bir modeldir. Birliktelik kuralları sıklıkla satış
sektöründe birlikte alınan ürünleri belirlemek için kullanılır. Örneğin makarna ve peynir
alan bir müşterinin %75 olasılıkla ekmek alması bu tip bir kuraldır. Bu alan, market sepeti
analizi
olarak
adlandırılır.
Birliktelik
kuralları,
telekomünikasyon anahtarlarının
arızalanma durumlarını tahmin etme gibi başka birçok uygulamada da kullanılmaktadır.
Birliktelik kuralları verideki ilişkilerin nedensel açıklamasını vermemektedir. Bu kurallar
gerçek dünyadaki verinin yapısında bulunan ilişkileri temsil etmemektedir. Bu
birlikteliklerin gelecekte geçerli olması da garanti değildir.
Sıralama analizi (Sequential analysis)
Sıralama analizi, verideki sıralı desenleri ortaya çıkarmak için kullanılır. Bu desenler
faaliyetlerin zaman sıraları üzerinde kurulmuştur. İlgili desenler birliktelik kurallarına
benzerler, fakat ilişkilerin temeli zamandır. Öğelerin aynı zamanda alındığı market sepeti
analizinden farklı olarak, sıralama analizinde öğeler zaman içinde belli bir sırada satın
alınırlar. Örneğin CD oynatıcı alan kişilerin çoğunun bir hafta içinde CD satın alacağının
bulunması bu tip bir analizdir. Geçici birliktelik kuralları bu kategoriye girmektedir.
Han ve Kamber’e göre veri madenciliği model ve işlevleri aşağıdaki veri depoları üzerinde
uygulanabilmektedir [6]:
İlişkisel veri tabanları
İlişkisel veri tabanı, her birinin ismi özgün olan tabloların birleşiminden oluşur. Her tablo
çeşitli kolonlardan oluşmakta ve çeşitli kayıtları (satırları) saklamaktadır. Tablodaki bir
kaydın nitelik değerlerine tablonun özgün anahtarı ile erişilebilir.
Veri Tabanı Yönetim Sistemi (VTYS) ise bir veri tabanından ve veri tabanındaki veriye
erişmek ve veriyi yönetmek için yazılım programlarından oluşmaktadır.
20
İlişkisel veri tabanlarında yer alan verilere, SQL gibi ilişkisel sorgu dillerinde yazılan veri
tabanı sorguları veya grafiksel kullanıcı ara yüzleri (Graphical User Interfaces, GUI)
aracılığı ile erişilebilir.
Veri madenciliği ilişkisel veri tabanlarına uygulandığında eğilimler ve veri desenleri
araştırılabilir. Örneğin yeni bir müşterinin yaşı, geliri ve daha önceki kredi bilgileri
kullanılarak bu müşterinin kredi riski tahmin edilebilir. Veri madenciliği sistemleri ile
satışları bir önceki yılla karşılaştırılınca sapma gösteren ürünler belirlenebilir. Bu
sapmaların nedenleri araştırılabilir.
İlişkisel veri tabanları en çok kullanılan zengin bilgi depolarından biridir. Dolayısı ile veri
madenciliğinde yaygın olarak kullanılmaktadır.
Veri ambarları (Data warehouses)
Veri ambarı, birden fazla kaynaktan toplanan bilgilerin saklandığı depodur. Bu depo
genellikle tek bir konumda yer almakta ve birleşik bir şema altında saklanmaktadır. Veri
ambarları, veri temizleme, veri entegrasyonu, veri dönüşümü, veri yüklemesi ve periyodik
veri yenilemesi işlemleri ile kurulmaktadır.
Veri ambarları genellikle çok boyutlu veri tabanı yapısı ile modellenmektedir. Bu yapıda
her boyut bir niteliğe veya nitelik setine karşılık gelmektedir. Her hücre sayım sonucu gibi
toplam ölçüm (aggregate measure) değerini saklamaktadır. Veri ambarlarının gerçek
fiziksel yapısı ilişkisel veri deposu veya çok boyutlu veri küpü olabilir. Veri küpleri
verinin çok boyutlu görünümünü sunmakta ve özet verinin ön hesaplamasına ve hızlı
erişimine imkân sağlamaktadır.
Çok boyutlu veri görünümleri sunmasıyla ve özet verinin ön hesaplanmasına olanak
sağlamasıyla veri ambarları, çevrimiçi analitik işleme (on-line analytical processing,
OLAP) için çok uygundur. OLAP işlemleri, veriyi farklı soyutlama seviyelerinde sunmak
için üzerinde çalışılan veriyle ilgili alan bilgisini kullanır. OLAP işlemlerine örnek olarak
kullanıcının veriyi farklı özet derecelerinde görüntülemesini sağlayan yukarı yuvarla (rollup) ve detaya in (drill-down) verilebilir. Örneğin kullanıcı çeyreklerle özetlenmiş satışların
21
detayına inerek aylık satışlara erişebilir veya şehir bazındaki satışları ülke bazında
özetlenmiş satışları göstermesi için yukarıya yuvarlayabilir.
İşlemsel (Transactional) veri tabanları
İşlemsel veri tabanı bir dosyadan oluşur. Bu dosyadaki her kayıt bir işlemi temsil eder. Her
işlem özgün bir işlem kimlik numarasını ve bu numaraya ait öğelerin listesini (örneğin bir
mağazadan satın alınan ürünler) içerir.
Bir markette hangi ürünlerin beraber satıldığını bulmak çok önemlidir. Böyle bir market
sepeti analizi sayesinde satış artırma stratejisi olarak birlikte alınan ürünler gruplanabilir
(fiziksel olarak veya internet üzerinde). Alışılmış veri okuma sistemleri böyle ihtiyaçlara
cevap veremezler. Fakat işlemsel veri üzerinde çalışan veri madenciliği ile birlikte sık
görülen öğe setleri (örneğin birlikte satılan ürünler) bulunabilir.
Bu veri depoları dışında aşağıdaki gelişmiş veri sistem ve uygulamaları üzerinde de veri
madenciliği uygulanmaktadır:

Nesne ilişkisel veri modeli üzerine kurulu nesne ilişkisel (object relational) veri
tabanları

Geçici (temporal) veri tabanları: Zaman ilişkili nitelikleri içeren ilişkisel veriyi
saklayan veri tabanlarıdır.

Sıralama (sequence) veri tabanları: somut zamanları dikkate alarak veya almadan, sıralı
olayların sıralarını saklayan veri tabanlarıdır.

Zaman serisi (time series) veri tabanları: Belli zamanlarla (saatlik, günlük, haftalık)
tekrarlanan ölçümlerle elde edilen değerleri saklayan veri tabanlarıdır.

Uzamsal (spatial) veri tabanları: Harita gibi uzamsal veriyi içeren veri tabanlarıdır.

Metin (text) veri tabanları: Nesnelerin kelime tanımlarını içeren veri tabanlarıdır.

Multimedya veri tabanları: İmajları, ses ve video kayıtlarını saklamaktadır.

Heterojen veri tabanları: Tümü kendi kendini yöneten, birbirleriyle bağlantılı veri
tabanlarından oluşmaktadır.
22

Miras (legacy) veri tabanları: İlişkisel veri tabanları, nesne tabanlı veri tabanları,
hiyerarşik veri tabanları, ağ veri tabanları, multimedya veri tabanları, dosya sistemleri
gibi farklı veri sistemlerini birleştiren heterojen veri tabanları grubudur.

Veri akımları (Data streams): Verinin gözlem platformundan içeri ve dışarı dinamik
olarak aktığı sistemlerdir.

İnternet
Han ve Kamber gerçek dünyada veri tabanlarının çok büyük olmasından ve verilerin
birden fazla heterojen kaynaktan gelmesinden dolayı, veri tabanlarının gürültülü, eksik ve
tutarsız verileri içermeye yatkın olduğunu belirtmiştir [6]. Han ve Kamber aynı zamanda,
düşük kaliteli verinin düşük kaliteli veri madenciliği sonuçlarını doğuracağını da ifade
etmişlerdir. Han ve Kamber’e göre verideki bu sorunların nedenleri şunlardır:
Eksik veri

Bazı veriler veri giriş zamanında önemli bulunmadığı için girilmemiş olabilir.

Yanlış anlama veya veri giriş sistemindeki hatalardan dolayı ilgili veriler kayıt
edilmemiş olabilir.

Diğer kayıt edilmiş verilerle tutarlı olmayan veriler silinmiş olabilir veya verilerin
tarihsel gelişimi ve güncellemeleri dikkate alınmamış olabilir.
Gürültülü veri (Yanlış nitelik değerleri olan veri)

Veri toplama araçları hatalı olabilir.

Veri giriş zamanında bilgisayar veya kullanıcı hatası olmuş olabilir.

Veri iletiminde hata olmuş olabilir.

Veri iletiminde, limitli arabellek boyutu gibi teknoloji kısıtlarından dolayı hata oluşmuş
olabilir.

İsimlendirme kuralları, veri kodları veya giriş alanları (örneğin tarih için) için tutarsız
formatlar yanlış veriye sebep vermiş olabilir.
Han ve Kamber bu nedenlerden dolayı veri madenciliği yapılmadan önce, verinin ön
işlemesinin yapılması gerektiğini belirterek, ön işleme yöntemlerini aşağıdaki gibi
tanımlamıştır [6]:
23
Veri temizleme
Veri temizleme işlevleri kayıp verileri doldurur, gürültülü veriyi yumuşatır, sıra dışı
değerleri (verinin modeli ve genel davranışı ile uyumlu olmayan veriler) saptar, sistemden
çıkarır ve tutarsızlıkları çözer. Eğer veri kirli ise veri madenciliğinin çıktısı güvenilir
olmayacaktır. Veri madenciliği rutinlerinin pek çoğu eksik ve gürültülü verileri ele almak
için prosedürler içerse de bunlar her zaman sağlıklı değildir. Dolayısıyla veri temizleme ön
işleme aşamasının veri madenciliğinden önce uygulanması gerekmektedir.
Veri entegrasyon ve dönüşümü
Veri entegrasyonu, farklı kaynaklardan gelen verileri, veri ambarı gibi tutarlı bir veri
deposu altında birleştirmektedir. Bu farklı kaynaklar çeşitli veri tabanları, veri küpleri veya
dosyalar olabilir.
Normalizasyon ve toplama (aggregation) gibi veri dönüşüm işlemlerin yapıldığı ve veri
madenciliği başarısına katkısı olan süreç ise veri dönüşümü sürecidir.
Veri indirgeme
Veri indirgeme ile veri çok daha küçük, fakat neredeyse aynı veri madenciliği sonuçlarını
üreten hale getirilir.
Veri kesikleştirme
Veri kesikleştirme teknikleri ile sürekli değer alabilen niteliklerin değerleri aralıklara
bölünerek bu niteliklerin sahip olabilecekleri değerlerin sayıları azaltılır.
Dunham sınıflandırma, kümeleme ve birliktelik algoritmalarının çeşitlerini aşağıdaki gibi
tanımlamıştır [26]:
24
Sınıflandırma algoritmaları
İstatistiksel algoritmalar
Regresyon ve Bayesian algoritmaları istatistiksel algoritmalardır.
Uzaklık tabanlı algoritmalar
Bu yaklaşımda aynı sınıfa dahil edilen öğeler birbirlerine, diğer sınıflarda yer alan öğelere
benzediklerinden daha çok benzemektedirler.
Uzaklık ölçümleri farklı öğelerin
benzerliğini tanımlamak için kullanılabilir. K en yakın komşu (K Nearest Neighbors)
algoritması uzaklık tabanlı bir algoritmadır.
Karar ağacı algoritmaları
Karar ağacı yaklaşımı sınıflandırma problemleri için en kullanışlı yaklaşımdır. Bu teknikte
sınıflandırma sürecini modellemek için bir ağaç oluşturulur. Ağaç kurulduktan sonra yeni
veri üzerinde uygulanır, böylelikle yeni veri sınıflandırılmış olur. Yani bu teknikte 2 temel
adım vardır: ağacın oluşturulması ve sınıflandırma yapmak için ağacın yeni veri üzerinde
uygulanması. Uygulama süreci basit olduğu için çalışmaların çoğu ağaçları verimli şekilde
oluşturmaya odaklanmıştır. ID3, C4.5, C5.0 ve CART algoritmaları karar ağacı
algoritmalarıdır. Şekil 2.3 bir karar ağacı örneğini göstermektedir:
25
Şekil 2.3. Karar ağacı örneği
Kural tabanlı algoritmalar
Sınıflandırma yapmanın diğer bir yolu tüm sınıfları kapsayan “if then” kuralları
oluşturmaktır. Örneğin sınav notlarını sınıflandırmak için aşağıdaki kurallar kullanılabilir:
If not>=90, then sınıf=A
If not>=80 and not<90, then sınıf=B
If not>=70 and not<80, then sınıf=C
If not>=60 and not<70, then sınıf=D
If not<60, then sınıf=F
R=<a,c> şeklindeki bir sınıflandırma kuralında “a” atayı (if bölümünü), “c” ise sonucu
(then bölümünü) temsil etmektedir. Sınıflandırmak istenen her yeni veri için bir kuralın
“if” kısmı test edildiğinde ya “doğru” ya da “yanlış” değeri elde edilir. Eğer “doğru”
sonucu çıkar ise yeni veri ilgili kuralın sınıf değerine (then bölümündeki sınıf) atanır. Eğer
“yanlış” sonucu çıkar ise diğer kurallar test edilmeye devam edilir.
Kurallar karar ağacından oluşturulabilir veya hiçbir karar ağacı olmadan da kuralların
oluşturulması mümkündür. Karar ağacı olmadan kural oluşturma teknikleri, belirli sınıfları
tam olarak kapsayan kurallar oluşturmaya çalıştıkları için “kapsama” algoritmaları olarak
isimlendirilirler. 1R ve Prism bu algoritmalara örnektir.
26
Bu algoritmalar dışında çeşitli sinir ağı tabanlı sınıflandırma algoritmaları mevcuttur.
Kümeleme algoritmaları
Temel prensip bir kümede yer alan bir öğenin, o kümedeki diğer öğelere diğer kümelerdeki
üyelere benzediğinden daha çok benzemesidir. Bu benzerliği ölçmek için benzerlik ve
uzaklık ölçütleri kullanılmaktadır. Kümeleme algoritmaları hiyerarşik ve bölümlemeli
algoritmalar olarak ikiye ayrılır.
Hiyerarşik algoritmalar
Hiyerarşik kümeleme algoritmaları küme setleri oluşturmaktadır. Dendrogram adı verilen
ağaç yapısı hiyerarşik kümeleme ile oluşan kümeleri göstermek için kullanılabilir. Şekil
2.4’de bir dendrogram örneği verilmiştir. Dendrogram ağacının kökü tüm elemanların
birlikte olduğu bir kümeyi temsil etmektedir. Dendrogramın yaprakları tek elemandan
oluşan kümelerdir.
Dendogramdaki bir iç düğüm ise bu düğümün çocukları olan
kümelerin birleşmesinden oluşan kümedir.
Agglomerative algoritmalar ve bölücü (divisive) kümeleme hiyerarşik kümeleme
yaklaşımlarıdır.
27
Şekil 2.4. Dendrogram örneği
Bölümlemeli (Partitional) algoritmalar
Hiyerarşik olmayan veya bölümlemeli kümeleme, kümeleri tek adımda oluşturmaktadır.
Bu yöntemde sadece bir küme seti oluşturulduğu için kullanıcı kaç adet küme istediğini (k)
belirtmelidir. Ayrıca önerilen yöntemin başarısını ölçmek için bir takım metrikler ya da
fonksiyonlar kullanılır. Kümeler arası averaj uzaklık bu kalite metriğine örnektir.
Minimum Kapsama Ağacı (Minimum Spanning Tree), Hata Karesi (Squared Error), KOrtalamalar (K-Means), En Yakın Komşu (Nearest Neighbor), Bağ Enerji (Bond Energy)
algoritmaları bölümlemeli algoritmalara örnektir.
Bu algoritmalar dışında genetik algoritmalarla ve sinir ağları ile bölümlemeli kümeleme
yapılabilir.
28
Birliktelik algoritmaları
Temel algoritmalar
Apriori, örnekleme (sampling) algoritması ve bölme (partition) algoritması bu tipe örnek
teşkil ederler. Apriori en çok bilinen birliktelik algoritmasıdır ve ticari uygulamaların çoğu
tarafından kullanılmaktadır. Büyük öğe seti özelliğini kullanmaktadır. Bu özellik “büyük
bir öğe setinin herhangi bir alt kümesi de büyük olmalıdır” şeklinde ifade edilebilir.
Paralel ve dağıtık algoritmalar
Bu algoritmaların çoğu ya veriyi paralel hale getirirler (veri paralelleştirme) veya adayları
paralel hale getirirler (görev paralelleştirme). Sayım Dağılımı Algoritması (Count
Distribution Algorithm) bir veri paralelleştirme algoritmasıdır. Veri Dağılımı Algoritması
(Data Distribution Algorithm) ise görev paralelleştirmeye bir örnektir.
Bu algoritmalar dışında Hızlı Güncelleme (Fast Update) gibi Apriori üzerine kurulu artımlı
yaklaşımlar mevcuttur.
Han ve Kamber veri madenciliğinin yaygın uygulama sahalarını ve bu sahalarda veri
madenciliğinin hangi amaçlarla kullanılabileceğini aşağıdaki şekilde tanımlamıştır [6]:
Finansal veri analizi

Kredi geri ödeme tahmini ve müşteri kredi politikası analizi yapılabilir.

Pazarlama hedefleri için müşteriler sınıflandırılabilir ve kümelenebilir.

Kara para aklama ve diğer finansal suçlar ortaya çıkarılabilir.
Perakende ticaret sektörü

Satışların, müşterilerin, ürünlerin, bölgelerin ve zamanın çok boyutlu analizi
yapılabilir.

Satış kampanyalarının etkinlik analizi gerçekleştirilebilir.
29

Müşteri sadakat analizi yapılabilir.

Ürün tavsiyesi ve ürünler arası çapraz referans verme imkânı sağlanabilir.(market
sepeti analizi kullanılarak)
Telekomünikasyon sektörü

Telekomünikasyon verisinin çok boyutlu analizi yapılabilir.

Yolsuzluk desen analizi yapılabilir ve sıra dışı desenler ortaya çıkarılabilir.

Çok boyutlu birliktelik ve sıralı desen analizleri yapılabilir.
İzinsiz giriş saptama (Bilgisayar sistemleri için)

Birliktelik ve korelasyon analizleri ile izinsiz giriş saptamada kullanılabilecek ayırt
edici nitelikler seçilebilir.

İzinsiz giriş ve saldırıların geçici ve dinamik yapısı göz önüne alındığında veri akımları
(data stream) üzerinde izinsiz giriş saptaması yapılabilmesi çok önemlidir.

İzinsiz girişler farklı lokasyonlardan aynı anda başlatılabileceği için dağıtık veri
madenciliği uygulanabilir.
Bu sektörler yanında veri madenciliği biyolojik veri analizinde yaygın olarak
kullanılmaktadır. Biyolojik veri madenciliği yeni bir araştırma alanı olan biyoinformatiğin
gerekli bir parçası haline gelmiştir.
2.3. Eğitimsel Veri Madenciliği
Eğitimsel veri madenciliği alanında yapılan pek çok çalışma mevcuttur. Bu bölümde bu
konuda yapılan literatür araştırmasının özeti verilmektedir.
Kelley-Winstead aynı öğretim yılını tekrar edecek öğrencileri tahmin eden bir çalışma
gerçekleştirmiştir [28]. Çalışma 1570’i aynı sınıfı tekrar eden 10 140 öğrenci üzerinde
gerçekleştirilmiştir. Araştırmada aynı öğretim yılını tekrar etme durumu üzerinde etkili
sosyo demografik, ailesel geçmiş ve okulla ilgili faktörler ortaya çıkarılmıştır. İlgili
çalışmada yöntem olarak sınıflandırma ağaçları ve lojistik regresyon kullanılmıştır.
30
Şen, Uçar ve Delen orta öğretim yerleştirme testi skorunu tahmin eden bir model
geliştirerek başarı üzerinde etkili olan faktörleri saptamışlardır [29]. Tahmin edilecek
yerleştirme testi sonucu çok yüksekten çok düşüğe kadar 5 değer içerir. Bu çalışmada
Türkiye’deki orta öğretime geçiş sisteminden geniş bir veri seti kullanılmıştır. C5 karar
ağacı algoritması en iyi tahmin edici çıkmıştır. C5 algoritmasını doğruluk olarak Destek
Vektör Makineleri (Support Vector Machines) ve Yapay Sinir Ağları takip etmektedir.
Çalışmada tahmin için kullanılan bazı genel nitelikler şunlardır: cinsiyet, kardeş sayısı,
özür durumu, çalışma durumu, burs durumu, özel ders durumu, ebeveynlerin
yaşama/boşanma durumu, özel/devlet okulu durumu. Çalışma daha önceki test
deneyiminin, öğrencinin burs durumunun, kardeş sayısının, bir önceki yılların ortalama
notunun tahmini etkileyen en önemli nitelikler arasında olduğunu göstermektedir. Cinsiyet,
çalışma durumu, ebeveynlerin evlilik durumu diğer nitelikler kadar önemli çıkmamıştır. Bu
nitelikleri ortaya çıkarmak başarıyı artırmak ile ilgilenen öğrencilere, öğretmenlere ve
ailelere yardımcı olacaktır. Ayrıca bu tür analizler, standart okul giriş testlerin yapısını
anlama ve daha efektif ve eşit değerlendirme araçları tasarlama açısından da faydalı
olacaktır.
Şen ve Uçar veri madenciliği yöntemleri ile Karabük Üniversitesi Bilgisayar Mühendisliği
Bölümü öğrencilerinin başarılarını yaş, cinsiyet, mezun olunan lise tipi, uzaktan/örgün
eğitim durumu gibi kriterleri kullanarak karşılaştırmışlardır [30]. Çalışmada Karabük
Üniversitesi
Bilgisayar
Mühendisliği
Bölümü’nden
3047
öğrencinin
kayıtları
kullanılmıştır. İlgili araştırmada iki sınıflandırma metodundan yararlanılmıştır: yapay sinir
ağları, karar ağaçları. Verideki öğrencilerin yaşları 18-38 arasında değişmektedir. Sonuçlar
başarının artan yaşla azaldığını göstermiştir. Araştırma sonuçları ayrıca uzaktan eğitimde
örgün eğitime göre başarı oranının düştüğünü göstermektedir.
Yadav, Bharadwaj ve Pal yükseköğrenimde okula yeni gelen öğrencilerin bilgilerini
kullanarak, okuldan ayrılabilecek öğrencilerin listesini üreten tahmin edici bir model
geliştirmişlerdir [31]. Bu öğrenciler okulda tutma programından en çok yararlanma ihtiyacı
olan öğrencilerdir. Son araştırmalar bu müdahale programların özellikle ilk yıl için ayrılma
üzerinde önemli etkileri olduğunu göstermiştir. Öğrencilerin ayrılma oranını tahmin etmek
için kurulan modeller kişisel, sosyal, psikolojik ve çevresel değişkenleri içermelidir.
Öğrencilerin okulu bırakma nedenlerini bilmek öğretmenlere ve yöneticilere gerekli
önlemleri almaları için yardımcı olabilir, bu sayede başarı oranı iyileştirilebilir.
31
Araştırmada kullanılan veri, öğrencilerin üniversiteye girişte doldurdukları formlardan elde
edilmiştir. Öğrencilerin demografik bilgileri, geçmiş performans bilgileri, adres ve irtibat
numaraları bu formlarda yer almaktadır. Çalışma, Waikato Environment for Knowledge
Analysis (WEKA) yazılımı üzerinde ID3, C4.5 and ADT karar ağacı algoritmaları
kullanılarak gerçekleştirilmiştir.
Jormanainen ve Sutinen öğrencilerin robot derslerinde robot programlaması için
müdahaleye ihtiyaç duyup duymadıklarını tahmin eden bir model geliştirmişlerdir [32].
Robot sınıflarında öğrencilerin ilerleyişini izlemek zordur, çünkü öğrenciler problem
çözmede farklı ve tahmin edilemez yollar izlemektedirler. Çalışmada öğretmenlerin doğru
zamanda müdahale etmelerini sağlamak için öğrenme sürecinin izlenebileceği bir ortam
geliştirilmiştir. Araştırma için Güney Afrika’da 12 öğrenci ve 4 öğretmenin çalıştığı bir
robot projesinden veri toplanmıştır. Bu çalışmada öğrenciler “Lego Mindstorms RCX”
robot kitlerini kullanmışlardır. Öğrencilerin robot konusunda daha önceden aşinalıkları
yoktur. Öğrencilere tekerlekli robot verilmiş ve robotu 5 saniye ileri gidecek şekilde ve
daha sonra geri başladığı yere gelecek şekilde programlamaları istenmiştir. Bu görevi
tamamlamak için öğrenciler tekli komutları bilmeli, bu komutlardan doğru sırayla
programı oluşturmalı ve robota programı yüklemelidir. Amaç öğrencinin robot
programlaması ilerlemesini otomatik olarak aşağıdaki sınıflara atayarak müdahale
gerekiyorsa doğru zamanda müdahale etmektir:

Beyaz: Öğrenci henüz ilerlememekte, problem yaşamamaktadır. (nötür durum)

Yeşil: Öğrenci sorunsuz ilerlemektedir.

Sarı: Öğrenci problem yaşamaktadır. Yakında müdahale gerekebilir.

Kırmızı: Öğrenci müdahale gerektiren problemler yaşamaktadır.
Ayesha, Mustafa, Sattar ve Khan’ın çalışmasında öğrenci bilgilerinden final sınav notları
tahmin edilmiştir [33]. Araştırmada 120 öğrencinin verileri kullanılmıştır. Önerilen model,
final sınavından önce bu sınavda başarı durumu zayıf olabilecek öğrencileri, ilgili
öğrencileri ciddi hasardan korumak amacıyla tespit etmektedir. Bu sayede öğretmenler
öğrencilerin performansını artırmak için doğru zamanda gerekli önlemleri alabilirler.
Ayrıca ilgili araştırmada öğrenciler karakteristiklerine göre k-ortalamalar kümeleme
yöntemi ile çeşitli kümelere ayrılmışlardır.
32
Baradwaj ve Pal bilgisayar uygulamaları dersindeki akademik başarıyı tahmin etmişler,
ayrıca başarı üzerinde etkili faktörleri saptamışlardır [34]. Çalışma Hindistan’da yer alan
Purvanchal üniversitesinin Bilgisayar Uygulamaları Bölümü’nde gerçekleştirilmiştir. 50
öğrenci verisi mevcuttur. Öğrenci veri tabanından ders katılım bilgileri, test sonucu,
seminer ve ödev sonucu gibi veriler dönem sonundaki öğrenci performansını tahmin etmek
için kullanılmıştır. Sınıflandırma yöntemi olarak karar ağaçları uygulanmıştır. Çalışma
sonuçları öğrencinin başarısını iyileştirmek için öğrencilere ve öğretmenlere yardımcı
olacaktır. Sonuçlar ile başarısızlık oranını azaltmak için özel ilgi gerektiren öğrencilere
ulaşılabilecektir.
C-F. Tsai, C-T. Tsai, Hung ve Hwang bilgisayar yeterlilik sınavından kalacak öğrencileri
tahmin etmişlerdir [35]. Çalışma Tayvan’da ulusal bir üniversitede gerçekleştirilmiştir. İlk
önce öğrenciler kümelere ayrılmıştır. Öğrencileri kümelere ayırmak için k-ortalamalar, iki
adımlı kümeleme, öz düzenleme haritaları (self-organising maps) kümeleme teknikleri
kullanılmıştır. En iyi kümeleme sonucu bulunduktan sonra karar ağacı algoritması,
tanımlanmış kümelerden kuraları çıkarmak için kullanılmıştır. Bu kurallar testten kalma
olasılığı yüksek olan öğrencileri uyarmak için kullanılabilir.
Dejaeger, Goethals, Giangreco, Mola ve Baesens öğrencilerin memnuniyetleri üzerinde bir
veri madenciliği çalışması gerçekleştirmişlerdir [36]. Eğitim sektöründeki rekabetin
sonucu olarak eğitim enstitülerinin yönetimleri öğrenci memnuniyetini sağlayan faktörler
konusunda bilgi toplamaya çalışmaktadırlar. İlgili çalışmada öğrenci memnuniyetini
etkileyen ana faktörleri tanımlamak için veri madenciliği tekniklerinin uygulanabilirliği
araştırılmıştır.
Oluşturulan modeller
yönetim
tarafından karar
verme sürecinde
kullanılabilir. Çalışma Fransa ve İtalya’daki iki üniversitede gerçekleştirilmiştir.
Çalışmadaki problem tahmin problemidir. Tahmin edilecek değişken yeni açılması
düşünülen bir dersin öğrenciler tarafından beğenilip beğenilmeyeceğidir. Veriler
öğrencilere yapılan bir anket ile toplanmıştır. Bu anketle öğrencilerin dersle ilgili olarak,
eğitim faydaları, öğrenim kolaylığı, öğrenim etkinliği, eğitici performansı algıları
ölçülmüştür. Öğrencilerin kişisel tercihleri değil dersler değerlendirilmek istendiğinden,
bu anket sonuçlarının averajları veri olarak kullanılmıştır. Öğrencilerden anket ile toplanan
verilerin yanı sıra ders ve eğitmen hakkındaki, ders kredisi, ders dili, sınıf büyüklüğü,
eğitmen cinsiyeti, eğitmen yaşı, eğitmen doktora durumu, eğitmen deneyim yılı, eğitmen
yayın sayısı, eğitmen medeni durumu, eğitmen çocuk sayısı, eğitmen milliyeti verileri de
33
tahminleme için kullanılmıştır. Veri madenciliği teknikleri olarak iki karar ağacı
algoritması, toplu lojistik regresyon ve iki lineer olmayan veri madenciliği tekniği
kullanılmıştır. Toplu lojistik regresyon tekniğinin performansı en iyi olmakla birlikte,
anlaşılır olması açısından üniversite yönetimleri karar ağacını tercih etmiştir.
Thomas ve Galambos yukarıdaki çalışmaya benzer şekilde öğrencilerin memnuniyetleri
üzerinde bir veri madenciliği çalışması yapmışlardır [37]. Çalışmada kolejden genel
memnuniyet, eğitim kalitesinden memnuniyet ve kolejin tekrar seçilip seçilmeyeceği
olmak üzere üç adet farklı memnuniyet ölçütü kullanılmıştır. Araştırma verileri anket
çalışması sonucunda toplanmıştır. Anketlerin uygulanması neticesinde öğrencilerin
karakteristikleri, deneyimleri, planları, kampüs ortamından memnuniyetleri, servis ve
olanaklardan memnuniyetleri, gelişim algıları, kolej seçim gerekçeleri elde edilmiş ve bu
bilgilerin öğrenci memnuniyeti üzerindeki etkileri veri madenciliği ile araştırılmıştır.
Araştırma kapsamında CHAID karar ağacı algoritması ve regresyon analizi kullanılmış, bu
yöntemlerin sonuçları karşılaştırılmıştır. Üç adet farklı memnuniyet ölçütünün tahmin edici
nitelikleri farklı çıkmıştır. Öğrenci memnuniyetinin tahmin edici niteliklerini araştıran bu
çalışmada elde edilen bazı genel sonuçlar şunlardır:

Akademik deneyimler memnuniyet üzerinde etkilidir.

Fakültenin hazırlık durumu memnuniyetin başlıca belirleyicilerindendir.

Sosyal entegrasyon önemlidir.

Kampüs servisleri ve olanaklarının memnuniyet üzerinde sınırlı etkisi vardır.

Demografik özellikler önemli belirleyiciler arasında değildir.

Akademik çalışma ile daha az uğraşan öğrencilerin memnuniyetleri üzerinde sosyal
entegrasyon daha fazla etkilidir.
Im, Kim, Bae ve Park veri madenciliği ile üstün yetenekli öğrenciler üzerinde bir çalışma
yapmışlardır [38]. Günümüzde üstün yetenekliliğin derecesini ölçmek için kullanılan zekâ
katsayısı (Intelligence Quotient, IQ) yeterli değildir. Bu nedenle araştırmacılar
tasarladıkları bir anket ile üstün yetenekli öğrencilerin bilimsel davranış, liderlik, başarma
motivasyonu, ahlak-etik, yaratıcılık, zorluklara meydan okuma ve genel yetenek
kabiliyetlerini ölçmüşlerdir. Daha sonra bu ölçüm sonuçları üzerinde k-ortalamalar
kümeleme yöntemi ile kümeleme yapılmıştır. Kümeleme sonucunda sekiz yetenek türü
34
ortaya çıkarılmıştır. Bu yetenek türlerinin her biri farklı kabiliyet seviyeleri içerir.
Böylelikle her bir kümede yer alan öğrencilere özel öğrenim desteği sağlanabilir. Ayrıca
çalışmada C4.5. sınıflandırma algoritması kullanılarak her kümenin karakteristikleri
tanımlanmıştır.
Erdoğan ve Timor çalışmalarında üniversite giriş sınav puanı ile üniversite dersleri başarısı
arasındaki ilişkiyi kümeleme
analizi ve k-ortalamalar algoritma teknikleri ile
araştırmışlardır [39]. Çalışmada Maltepe Üniversitesi’nden 722 öğrencinin verileri
kullanılmıştır. Araştırmada çeşitli fakültelerin öğrencilerinden oluşan beş öğrenci kümesi
elde edilmiş, bu kümelerin üniversite giriş sınavı ve üniversite dersleri başarıları
incelenmiş ve başarı durumlarının sebepleri bulunmaya çalışılmıştır.
Amershi ve Conati bilgisayar tabanlı bir öğrenme ortamında öğrencileri kümelere
ayırmışlardır [40]. Çalışmada kullanılan bilgisayar tabanlı öğrenme ortamında bir takım
mekanizmalar mevcuttur. Öğrenciler bu mekanizmaları kullanmalarına göre k-ortalamalar
algoritması kullanılarak kümelere ayrılmıştır. Her küme ayırt edici sistem etkileşim
desenine sahiptir ve aynı kümenin elemanları öğrenme ortamında benzer ilerlemeler
göstermektedir. Bu çalışma sayesinde her öğrenci kümesine bilgisayar tabanlı öğrenme
ortamında uyarlanabilir destek sağlanabilecektir.
Tissera, Athauda ve Fernando çalışmalarında birliktelik analizlerini kullanarak güçlü bir
şekilde ilişkili olan derslerin saptanabileceğini göstermişlerdir [41]. Ders programların
organizasyonu genellikle öğretmenlerin elverişliliği, uzman görüş ve deneyimleri dikkate
alınarak yapılmaktadır. Fakat bu organizasyon metodu öğrencilerin öğrenme kapasitesini
artırmayabilmektedir. Derslerin ilişkilerinin ortaya çıkarılması ders programlarının
düzenlenmesine yardımcı olabilecektir. Araştırma öğrencilerin ilişkili derslerden benzer
notları alacağı varsayımı üzerine kurulmuştur. Veri madenciliği çalışması Sri Lanka’da bir
eğitim kurumunda uygulanmıştır.
Leong, Lee ve Mak öğrencilerin cep telefonu mesajları üzerinde metin madenciliği
tekniklerini uygulayarak ders ve öğretmen değerlendirmesi yapmışlardır [42]. Eğitimde
ders yılı sonunda öğrencilerin öğretmenleri ve derslerin içeriğini değerlendirmeleri
yaygındır. Bu değerlendirme genelde likert ölçeği ile yapılmaktadır. Cep telefonu ve SMS
ile bu değerlendirmenin yapılması, öğrencilere bu değerlendirmenin hemen dersten sonra
35
yapılması imkânını vermektedir. Bu durumda öğretmenlere hızlı geri dönüş yapılır ve
öğretmen gerekli önlemleri alabilir.
Kumar ve Chadha makalelerinde, eğitimsel veri madenciliğinin aşağıdaki alanlarda
kullanılabileceğini belirtmişlerdir [9]:

Birliktelik kuralları ile güçlü bir şekilde ilişkili dersler ortaya çıkarılıp ders programları
daha etkin düzenlenebilir. Örneğin Veri Tabanı Yönetim Sistemi dersini alan
öğrencilerin %50’sinin İleri Veri Tabanı Yönetim Sistemi dersini de alacak olması bu
tarz bir birliktelik kuralıdır.

Tahmin yöntemleri ile eğitim programlarına kaç bayan ve kaç erkek öğrencinin
katılacağını tahmin edilebilir.

Öğrencilerinin performansları öngörülebilir.

Kümeleme teknikleri ile benzer davranışı gösteren öğrenciler aynı sınıflarda
toplanabilir.

Öğrencilerin sınav kâğıtlarındaki anormal değerler tespit edilebilir. Bu anormal
değerler yazılım hatası, veri giriş hatası veya öğrencinin belirli bir konudaki sıra dışı
performansından kaynaklanabilir.

Çevrimiçi eğitim ortamında kopya çekme durumları tespit edilip önlenebilir.
Akçapınar, Coşgun ve Altun çalışmalarında çevrim içi öğrenme ortamında Random Forest
Regression (RFR) veri madenciliği yöntemi ile öğrencilerin algılanan yön duygusu yitirme
durumunun tahmini için iki model önermişlerdir [43]. Birinci modelde açıklayıcı
değişkenler olarak günlük bazlı metrikler kullanılmıştır. İkinci modelde ise günlük bazlı
metrikler, göz metrikleri, kendini raporlama metrikleri kullanılmıştır. Her iki model de
algılanan yön duygusu yitirme durumunu yüksek doğrulukla tahmin etmektedir. Sonuçlar
göz metriklerinin ve kendini raporlama metriklerinin eklenmesinin tahminleme
performansını artırdığını göstermiştir.
Zengin, Esgi, Erginer ve Aksoy bilgisayar kullanımı ile ilgili bir veri madenciliği çalışması
gerçekleştirmişlerdir [44]. Çalışma kapsamında Gaziosmanpaşa Üniversitesi eğitim
fakültesinde öğrenim gören 531 öğrenci üzerinde likert tipi bilgisayar öz yeterlilik ölçeği
uygulanmıştır. Veriler, tanımlayıcı istatistikler ve karar ağacı, bağımlılık ağları ve
36
kümeleme veri madenciliği teknikleri ile analiz edilmiştir. Çalışma sonucunda istatistiksel
tekniklerle elde edilemeyen ancak veri madenciliği metotları ile elde edilebilen aşağıdaki
bulgulara ulaşılmıştır:

Bilgisayar terimleri konusunda ehil olduklarını düşünenler, bilgisayar kullanımında
özel yeteneğe sahip olduklarına inanmaktadırlar.

Bilgisayar kullanımı konusunda özel yeteneğe sahip olduklarına inananlar, bilgisayarı
kendi vücutlarının parçası olarak hissetmektedirler.

Bilgisayarı altı yıldan fazla kullananlar, bilgisayar kullanımında özel yeteneğe sahip
olduklarına inanmaktadırlar.
Bhardwaj ve Pal çalışmalarında, öğrencilerin bir takım bilgilerinden bilgisayar
uygulamaları dersindeki başarılarını sınıflandırma analizi ile tahmin etmişlerdir [45].
Araştırmada Bilgisayar Uygulamaları Bölümü’nde ilgili dersi alan 300 öğrencinin verileri
kullanılmıştır. Sınıflandırma yöntemi olarak Bayesian kullanılmıştır. Çalışma sonucunda
öğrencilerin akademik performansının sadece kendi çalışmalarına bağlı olmadığı
anlaşılmıştır. İlgili araştırma ile öğrencilerin ders başarısı üzerinde etkili olan yaşama yeri,
eğitim ortamı, anne nitelikleri, öğrenci alışkanlıkları, aile yıllık geliri, aile statüsü gibi
değişkenler ortaya çıkarılmıştır.
Yongqiang ve Shunli çalışmalarında öğrencinin kalite değerlendirmesiyle öğrencinin ahlak
eğitimi, entelektüel eğitimi, kabiliyetleri ve kişisel gelişimi arasındaki ilişkileri
araştırmışlardır
[46].
gerçekleştirilmiştir.
Araştırma
300
öğrenci
üzerinde
birliktelik
kuralları
ile
Çalışma sonucunda yüksek seviyede entelektüel eğitimi olan
öğrencilerin kalite değerlendirmesi daha yüksek çıkmıştır. Benzer şekilde yüksek seviyede
kabiliyete sahip öğrencilerin kalite değerlendirmesi daha yüksek çıkmıştır. Bu nedenle
öğrencilerin kabiliyetleri artırılmaya, entelektüel eğitimleri geliştirilmeye çalışılmalıdır.
Aydın, tez çalışmasında Anadolu Üniversitesi Uzaktan Eğitim Sistemi üzerinde eğitimsel
veri madenciliği çalışması gerçekleştirmiştir [47]. Çalışmada öğrencilerin sistemdeki
performansını tahmin etmek için bir model geliştirilmiştir. Bu modelin geliştirilmesi için
SPSS Clementine veri madenciliği yazılımı üzerinde C5.0, Logistic Regression, Neural
Net, C&RT, CHAID ve QUEST algoritmaları kullanılmıştır. C5.0 doğruluk oranı en
yüksek çıkan algoritma olmuştur. İlgili araştırmada ayrıca mezun öğrenciler k-ortalamalar
37
kümeleme analizi ile kümelenmiştir. Bu sayede mezuniyet süresi üzerinde etkili faktörler
saptanmıştır.
Xu tez çalışmasında, çevrim içi kaynakların kullanılmasına imkân sağlayarak
öğretmenlerin eğitim aktivitelerini destekleyen eğitsel dijital kütüphane servisi üzerinde
veri madenciliği çalışması gerçekleştirmiştir [48]. İlgili araştırmada öğretmenler kümelere
ayrılmıştır. Kümeleme yöntemi olarak gizli sınıf analizi (Latent Class Analysis, LCA) ve
k-ortalamalar yöntemleri kullanılmış ve bu yöntemler karşılaştırılmıştır.
Öğretmenler
eğitsel dijital kütüphane servisi üzerinde projeler oluşturmaktadır. Kümeleme oluşturulan
bu projelerle ilgili maksimum öğrenci ziyaret sayısı, maksimum iş arkadaşı ziyaret sayısı,
oluşturulan proje sayısı, kopyalanan proje sayısı, ortalama proje içeriği büyüklüğü, her
proje başına averaj kaynak sayısı gibi nitelikler kullanılarak gerçekleştirilmiştir. Kümeler
oluşturulduktan sonra her bir kümenin elemanlarının eğitsel dijital kütüphane servisini
etkin kullanıp kullanmadığı belirlenmiştir. Öğretmenlerin deneyimleri ve teknolojiye
yatkınlıkları sistemi etkin biçimde kullanma durumlarını açıklamak için kullanılmıştır.
Stamper tezinde Zeki Özel Ders Sistemleri (ITS, Intelligent Tutoring Systems) üzerinde
eğitimsel veri madenciliği çalışması gerçekleştirmiştir [49]. ITS’ler öğrencilerin bireysel
ihtiyaçlarına cevap verdiği için geleneksel bilgisayar tabanlı sistemlerden daha fazla
avantaja sahiptir. Fakat ITC’lerin sınıflara uyarlanması zordur ve çok zaman almaktadır.
İlgili tezde “geçmiş öğrenci bilgileri üzerinde eğitimsel veri madenciliği tekniklerinin
uygulanarak otomatik olarak ITS yetenekleri oluşturulması” hipotezi test edilmiştir. ITS
üzerinde, bir adımda bir öğrenciye özel ipuçları oluşturmak için öncelikle geçmiş bilgilerin
tutulduğu veri tabanından problem üzerinde ilgili öğrenci ile ilgili adıma kadar aynı yolla
çalışan öğrencilerin bilgilerine ulaşılır. Daha sonra bu bilgilerden yararlanarak hangi
gelecek adımların en fazla olasılıkla çözüme ulaştırılacağı yine veri tabanından bulunur ve
bu adımlar öğrencinin yönlendirilebilmesi için kapsama özel ipuçları oluşturmak amacıyla
kullanılır.
Mazman tez çalışmasında Hacettepe Üniversitesi, Ankara Üniversitesi ve Gazi
Üniversitesi’nde öğrenim gören Bilgisayar ve Öğretim Teknolojileri Öğretmenliği bölümü
öğrencilerinden “Programlama Dilleri-I” dersine kayıt olan toplam 129 lisans öğrencisinin
verileri üzerinde yaptığı analizde veri madenciliği yöntemlerini kullanmıştır [50]. Bu
çalışmanın amacı bilişsel tabanlı bireysel farklılıkların (uzamsal beceri, çalışma belleği) ve
38
demografik özelliklerin (cinsiyet, ön deneyim ve üniversite) programlama performansının
ne kadarını yordadığının belirlenmesi ve programlama performansına etki eden
değişkenlerin önem sıralarının ortaya konmasıdır. Verilerin analizi için veri madenciliğine
dayalı “Artırılmış Regresyon Ağaçları” ve “Rastgele Ormanlar” teknikleri kullanılmıştır.
Programlama performansının bilişsel ve demografik değişkenler kullanılarak tahmin
edilmesine ilişkin kurulan model her iki yöntemle analiz edilmiş, böylelikle değişkenlerin
önem sıraları ve programlama performansının tahmin edilme oranı iki yöntem için
karşılaştırılmıştır.
39
3. YÖNTEM
Araştırma kapsamında üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek için veri
madenciliği sınıflandırma analizi uygulanmıştır. Tahmin edilen sınıf değişkeni öğrenci ilgi
alanıdır. Sınıflandırma analizi çeşitli algoritmalar aracılığı ile gerçekleştirilmektedir.
Sınıflandırma analizi için sınıfları bilinen veri kümesi eğitim ve test kümesi olarak ikiye
ayrılır. Sınıflandırma algoritmaları, eğitim kümesi üzerinde eğitilerek sınıflandırma
modellerini oluştururlar. Kurulan modeller test kümesi üzerinde denenerek doğrulukları
hesaplanır. Bu teknik gereksinimlerden dolayı çalışmada ilgi alanı tespit edilen üstün
yetenekli öğrencilerin verileri eğitim ve test kümesi olarak kullanılmıştır. Sınıflandırma
algoritması olarak birden fazla algoritma seçilmiş ve bu algoritmaların doğrulukları ve
diğer çıktıları karşılaştırılarak problem tanımı için en uygun algoritma belirlenmiştir. Bu
aşamadan sonra ilgi alanı bilinmeyen bir öğrenci üzerinde seçilen algoritmanın çıktıları
uygulanarak bu öğrencinin ilgi alanı tahmin edilebilecektir.
Üstün yetenekli öğrencilerin bir arada ilgi duydukları alanları belirlemek için birliktelik
analizi yapılmıştır. Bu kapsamda birliktelik analizi algoritması olarak Apriori seçilmiştir.
Apriori aday oluşturma yöntemi ile birlikte sık görülen öğelerin setlerini bulan bir
algoritmadır [51].
3.1. Çalışma Grubu
Araştırmanın çalışma grubunu, Ankara’da yer alan Yasemin Karakaya BİLSEM’de 20122013 eğitim öğretim yılının 2. döneminde öğrenim gören, yaşları 12 ve daha büyük olan
toplam 113 üstün yetenekli öğrenci oluşturmaktadır. Yasemin Karakaya BİLSEM’de ilgili
çalışmayı yürütmek için gerekli olan doktora araştırma izni Ankara İl Milli Eğitim
Müdürlüğü’nden alınmıştır.
3.2. Veri Toplama Araçları
Çalışmada veri toplama aracı olarak araştırmacı tarafından geliştirilmiş olan Boş Zamanları
Değerlendirme Anketi (BZDA) ve Ebeveyn Veri Toplama Formu (EVTF) kullanılmıştır.
BZDA EK-1’de, EVTF EK-2’de yer almaktadır. BZDA ve EVTF için herhangi bir
40
puanlama yapılmamaktadır. Form ve söz konusu anket, çeşitli bilgileri toplamak ve
toplanan
bu
bilgileri
ilgili
veri
madenciliği
çalışmasında
kullanmak
üzere
geliştirilmişlerdir. BZDA öğrencilerin okul dışı zamanlarını değerlendirme alışkanlıklarını
belirleme amacıyla öğrenciler tarafından cevaplandırılmak üzere hazırlanmıştır. Anket,
değişken sayıda şıkları olan toplam 11 sorudan oluşmaktadır. Her soru için kaç şık
işaretlenebileceği ilgili sorunun açıklamasında belirtilmiştir. EVTF ise öğrenciler ve
öğrencilerin ebeveynleri hakkında bazı bilgileri toplamak için hazırlanmıştır. İlgili form
öğrencilerin ebeveynleri tarafından cevaplandırılmak üzere değişken sayıda şıkları olan
toplam 16 soru içermektedir. Her soru için tek şık işaretlenebilmektedir. BZDA ve
EVTF’nin geliştirilmesi sürecinde Yasemin Karakaya BİLSEM’de görev yapan rehber
öğretmenlerin görüşleri alınmıştır. Aynı zamanda bir öğrenci grubu üzerinde pilot çalışma
yapılmıştır. Böylece formların anlaşılırlığı değerlendirilmiştir. Rehber öğretmenin
görüşleri ve pilot çalışmanın sonuçları gözetilerek formlara son hali verilmiştir.
Ayrıca üstün yetenekli öğrencilerin BİLSEM’lere kabulleri aşamasında uygulanan TKT 711 (Temel Kabiliyetler Testi 7-11) ve WISC-R (Weschler Intelligence Scale for ChildrenRevised) testlerinin sonuçlarının üstün yetenekli öğrencilerin ilgi alanlarına etkisi olup
olmadığını saptamak için bu testlerin sonuçları da ilgili araştırmada kullanılmıştır.
Üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek amacıyla kurulacak veri
madenciliği modelinin eğitilmesi için öncelikle eğitim setindeki öğrencilerin ilgi
alanlarının atanması gerekmektedir. Bu nedenle araştırma kapsamında BZDA, EVTF, TKT
7-11 sonuçları ve WISC-R sonuçları dışında Kuzgun tarafından geliştirilen ABKÖ
kullanılmıştır [52]. Öğrenciler tarafından doldurulan 4 dereceli likert tipindeki bu ölçek
170 olumlu cümleden oluşmaktadır. ABKÖ ile öğrencilerin Fen Bilimleri, Sosyal Bilimler,
Ziraat, Mekanik, Ticaret, Edebiyat, Yabancı Dil, Sanat, İkna, Müzik, İş Ayrıntıları, Sosyal
Yardım olmak üzere toplam 12 alandaki ilgileri ölçülmektedir. Yasemin Karakaya
BİLSEM’de öğrenciler ilgili ölçeği optik formlar üzerinde doldurmuşlardır. Doldurulan
formların optik okuyucu ile okutulması neticesinde her bir öğrencinin en çok ilgili olduğu
3 alan öncelik sırasıyla elde edilmiştir. Öğrencilerin ilgili oldukları alanlarla ilgili
istatistikler Çizelge 3.1’de yer almaktadır.
41
Çizelge 3.1. Öğrenci ilgi alanı istatistikleri
Alan İsmi
1.
2.
3.
İLGİ ALANI
İLGİ ALANI
İLGİ ALANI
İlgili Öğrenci Sayısı
Fen Bilimleri
36
Sosyal Bilimler
11
Ziraat
5
Mekanik
8
Ticaret
17
Edebiyat
2
Yabancı Dil
12
Sanat
7
İkna
2
Müzik
6
İş Ayrıntıları
2
Sosyal Yardım
5
Fen Bilimleri
17
Sosyal Bilimler
8
Ziraat
4
Mekanik
10
Ticaret
10
Edebiyat
8
Yabancı Dil
17
Sanat
11
İkna
2
Müzik
7
İş Ayrıntıları
10
Sosyal Yardım
9
Fen Bilimleri
6
Sosyal Bilimler
13
Ziraat
8
Mekanik
8
Ticaret
5
Edebiyat
17
Yabancı Dil
16
Sanat
6
İkna
7
Müzik
9
İş Ayrıntıları
7
Sosyal Yardım
11
42
3.3. Verilerin Toplanması ve Analizi
Yasemin Karakaya BİLSEM’de öğrenim gören 113 öğrenci BZDA’yı kâğıt ortamında,
ABKÖ’yü ise optik form üzerinde sınıflarda doldurmuşlardır. Bu formların doldurulması
sırasında öğrencilerin sorularına cevap verebilecek öğretmenler sınıflarda bulunmuşlardır.
Bu öğrencilerin ebeveynleri ise EVTF’yi evlerinde doldurmuşlardır. BZDA’daki
öğrencilerin okulda katıldıkları kulübü soran 10. soru, anket cevaplarında bazı öğrencilerin
ilgili kulübe kendi istekleri ile katılmadıklarını belirttiklerinden dolayı değerlendirme dışı
bırakılmıştır. Benzer şekilde EVTF’de ebeveynlerin birliktelik durumunu soran 10. soru,
cevapların çok büyük bir kısmı aynı olduğundan değerlendirmede dikkate alınmamıştır.
BZDA ve EVTF sorularının şıklarına formların cevaplarının daha kolay ve hızlı girilmesini
sağlamak için çeşitli nümerik kodlar atanmıştır. Öğrencilerin TKT 7-11 ve WISC-R testi
sonuçları Yasemin Karakaya BİLSEM yetkililerinden Excel ortamında alınmıştır.
Öğrencilerin bu testlerinin sonuçlarına ait oldukları aralıklara göre kodlar atanmıştır.
Doldurulan BZDA ve EVTF formlarının cevaplarının kodları, öğrencilerin TKT 7-11 ve
WISC-R
testlerinin
sonuçlarının
kodları
ve
ABKÖ’lerin
optik
okuyucu
ile
değerlendirilmesi sonucunda elde edilen her öğrencinin öncelik sırasıyla en çok ilgili
olduğu 3 alan Excel 2010 uygulamasında tek bir sayfaya girilmiştir.
Üstün yetenekli öğrencilerin ilgi alanları üzerinde birliktelik ve sınıflandırma analizlerinin
yapılabilmesi için WEKA (Versiyon 3.6.9) veri madenciliği yazılımı kullanılmıştır.
WEKA, Yeni Zelanda’da yer alan Waikato Üniversitesi tarafından Java programlama dili
ile geliştirilmiş açık kaynak kodlu bir yazılımdır ve bünyesinde pek çok sınıflandırma,
kümeleme ve birliktelik algoritması barındırmaktadır [53]. Bu yazılım veri kaynağı olarak
çeşitli VTYS’ler ile çalışabilmektedir. Araştırma kapsamında VTYS olarak yine açık
kaynak kodlu olan MySQL (Versiyon 5.6) kullanılmıştır. MySQL’de “studentdata” şeması
ve bu şema içerisinde öğrencilerin araştırma kapsamında kullanılan verilerini tutmak için
çeşitli tablolar oluşturulmuştur. Excel 2010’da girilmiş olan veriler, oluşturulan SQL’ler ile
MySQL veri tabanında yer alan ve öğrencilerin BZDA cevaplarını, WISC-R ve TKT 7-11
sonuçlarını, ABKÖ ile belirlenen ilgi alanlarını ve ebeveynlerin EVTF cevaplarını tutan
tablolara aktarılmıştır. WEKA ile MySQL üzerindeki ilgili şemaya bağlanılarak
sınıflandırma ve birliktelik analizleri gerçekleştirilmiştir.
43
WEKA yazılımı ilk çalıştırıldığında Resim 3.1’deki WEKA GUI seçim ekranı
açılmaktadır.
Resim 3.1. WEKA GUI seçim ekranı
Analizlere başlamak için WEKA GUI Seçim sayfasından “Explorer” düğmesine basılarak
Resim 3.2’deki WEKA gezgin ekranı açılır.
Resim 3.2. WEKA gezgin ekranı
44
Analizleri yapabilmek için öncelikle MySQL veri tabanına bağlantı kurulması
gerekmektedir. Bunun için WEKA gezgin ekranından “Open DB” düğmesine basılır.
Resim 3.3’teki WEKA SQL görüntüleyici ekranı açılır.
Resim 3.3. WEKA SQL görüntüleyici ekranı
Bu ekrandan bağlanılmak istenen şemayı da içeren tekdüzen kaynak bulucu (Uniform
Resource Locator, URL) bilgisi girildikten sonra veri tabanı kullanıcısı bilgilerini girmek
için “User” düğmesine basılarak Resim 3.4’teki veri tabanı bağlantı parametreleri ekranı
açılır.
45
Resim 3.4. Veri tabanı bağlantı parametreleri ekranı
Ekrandan yetkili veri tabanı kullanıcısının adı ve şifresi girilerek “OK” düğmesine basılır.
Daha sonra WEKA SQL görüntüleyici ekranında (Bkz. Resim 3.3) “Connect” düğmesine
basılır. WEKA SQL görüntüleyici ekranının bilgi (Info) bölümüne veri tabanı bağlantısının
başarılı olduğunu bildiren bir mesaj gelir. Ekranın sorgu (Query) bölümüne, üzerinde veri
madenciliği yapılmak istenen verilerin getirilmesi için bir SQL cümlesi girilir ve
“Execute” düğmesine basılır. WEKA SQL görüntüleyici ekranının sonuç (Result)
bölümüne girilen SQL için veri tabanından yapılan sorgunun sonuçları gelir. Ekrandaki
“OK” düğmesine basılır.
Bu işlemlerden sonra, WEKA gezgin ekranının (Bkz. Resim 3.2) nitelikler (Attributes)
bölümüne veri tabanından sorgulanan kolonların isimleri gelir gelir. Veri madenciliği
çalışmasında kullanılmak istenmeyen kolonlar listeden “Remove” düğmesi ile çıkarılabilir.
Sınıflandırma analizi yapmak için WEKA gezgin ekranından (Bkz. Resim 3.2) “Classify”
düğmesine basılarak Resim 3.5’deki sınıflandırma analizi sekmesi açılır.
46
Resim 3.5. WEKA gezgin ekranı-sınıflandırma analizi sekmesi
Bu sekmeden “Choose” düğmesine basılınca açılan Resim 3.6’daki sınıflandırma
algoritması seçim ekranından sınıflandırma analizi için kullanılmak istenilen algoritma
seçilir.
47
Resim 3.6. Sınıflandırma algoritması seçim ekranı
Algoritma
seçildikten
değiştirilebilmektedir.
sonra
Örneğin
ilgili
Resim
algoritmanın
3.7’de
J48
varsayılan
parametreleri
sınıflandırma
algoritmasının
parametrelerinin görüntülenip değiştirilebildiği ekran yer almaktadır.
48
Resim 3.7. J48 sınıflandırma algoritması parametre ekranı
Sınıflandırma analizi sekmesinden (Bkz. Resim 3.5) test yöntemi belirlenir (Test options
kısmından), tahmin edilmek istenen değişken seçilir ve “Start” düğmesine basılır.
Çalıştırılan sınıflandırma algoritmasının sonuçları sekmenin sınıflandırıcı çıktısı (Classifier
output) bölümünde yer almaktadır.
Birliktelik analizine başlamak için WEKA gezgin ekranından (Bkz. Resim 3.2)
“Associate” düğmesine basılarak Resim 3.8’deki birliktelik analizi sekmesi açılır.
49
Resim 3.8. WEKA gezgin ekranı-birliktelik analizi sekmesi
Bu sekmeden “Choose” düğmesine basılınca açılan Resim 3.9’daki birliktelik algoritması
seçim ekranından birliktelik analizi için kullanılmak istenen algoritma seçilir.
50
Resim 3.9. Birliktelik algoritması seçim ekranı
Algoritma
seçildikten
değiştirilebilmektedir.
sonra
Örneğin
ilgili
Resim
algoritmanın
3.10’da
Apriori
varsayılan
parametreleri
birliktelik
algoritmasının
parametrelerinin görüntülenip değiştirilebildiği ekran yer almaktadır.
Daha sonra birliktelik analizi sekmesinden (Bkz. Resim 3.8) “Start” düğmesine basılır.
Çalıştırılan birliktelik algoritmasının sonuçları sekmenin birliktelik çıktısı (Associator
output) bölümünde yer almaktadır.
51
Resim 3.10. Apriori birliktelik algoritması parametre ekranı
52
53
4. BULGULAR
Üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek amacıyla WEKA yazılımında yer
alan 10 sınıflandırma algoritması kullanılmıştır. Araştırma kapsamında kural tabanlı
algoritmalar olan Part, Ridor, DecisionTable ve JRip algoritmaları, karar ağacı
algoritmaları olan BFTree, FT, J48, LADTree, SimpleCart algoritmaları ve Bayes
algoritması olan NaiveBayes kullanılmıştır. Öğrenci verileri içerisinde eksiklikler olduğu
için boş nitelikleri ele alabilen algoritmalar seçilmiştir. Algoritmalar çalıştırılırken tüm
parametrelerin varsayılan değerleri kullanılmıştır. Sınıflandırma algoritmaları, MySQL
VTYS’de oluşturulmuş olan studentdata şemasında yer alan ogrenciilgi tablosu üzerinde
çalıştırılmıştır. Bu nedenle algoritmalar çalıştırılmadan önce WEKA SQL görüntüleyici
ekranının (Bkz. Resim 3.3) sorgu (Query) bölümüne “select * from ogrenciilgi” girilmiştir.
ogrenciilgi tablosunun oluşturma SQL’i EK-3’te verilmiştir.
WEKA yazılımında sınıflandırma algoritmalarını test etmek için 4 yöntem mevcuttur:
1. Eğitim setini test için de kullanma (Use training set)
2. Sağlanan ayrı bir test setini kullanma (Supplied test set)
3. Eğitim verisinin bir kısmını test için kullanma (Percentage split)
4. K-fold cross validation
Çok spesifik kurallar eğitim verisi üzerinde yüksek doğruluğa sahip olma eğiliminde iken,
görmedikleri veri üzerinde iyi performans vermeyip güvenilir olmayabilirler. Bu durum
aşırı uyum (overfitting) olarak isimlendirilir [54].
Eğer bir algoritmanın testi, algoritmanın eğitildiği veri üzerinde yapılırsa doğruluk yüksek
çıkacaktır. Çünkü algoritma tarafından oluşturulan model, eğitim verisine uygun
kurulduğundan dolayı aynı set üzerinde yapılan testler yüksek performans sergileyecektir.
Ancak eğitim setinden farklı bir veri üzerinde test yapılmadığı için aşırı uyum durumu var
ise saptanamayacaktır. Bu nedenle test yöntemi olarak birinci seçenek tercih edilmemiştir.
İlgili tez kapsamında 113 öğrencinin verilerine ulaşılmıştır. Bu verilerin dışında test için
ayrı bir veri toplanmamıştır. Bu nedenle test için ikinci seçenek te kullanılmamıştır.
54
Üçüncü seçenek için WEKA yazılımına bir oran girmek gerekmekledir. Varsayılan değer
%66’dır. Bu durumda WEKA yüklenen verinin %66’sını eğitim için %34’ünü ise test için
kullanmaktadır. Bu yöntem ile ayrı bir set üzerinden test yapıldığı için aşırı uyum durumu
saptanabilecektir. Ama verinin bir kısmı sadece test için ayrıldığından, veri etkin olarak
kullanılmamaktadır. Bu nedenle test için üçüncü seçenek tercih edilmemiştir.
Bu tezde seçilen algoritmaların doğruluklarını test etmek amacıyla yöntem olarak son
seçenek olan “k-fold cross validation” uygulanmıştır. K-fold cross validation yönteminde
hem veri etkin olarak kullanılmakta hem de aşırı uyum durumu tespit edilebilmektedir. Bu
yöntemde tüm veri hem eğitim için hem de test için kullanıldığı için veriden etkin bir
şekilde yararlanılmaktadır. Fakat bir çalıştırma (run) esnasında aynı veri hem eğitim hem
de test için kullanılmadığı için aşırı uyum durumu tespit edilebilmektedir. K-fold cross
validation yönteminde orijinal veri rastgele k eşit alt kümeye ayrılır. K değeri kullanıcı
tarafından belirlenebilir. (WEKA yazılımında k’nın varsayılan değeri 10’dur ve ilgili
çalışmada k değeri 10 olarak kabul edilmiştir.) İlk çalıştırmada k adet alt kümeden 1 tanesi
test verisi olarak, geri kalan k-1 adet alt küme ise eğitim verisi olarak kullanılır. İkinci
çalıştırmada k alt kümeden birinci çalıştırmada seçilenden farklı bir tanesi test verisi
olarak, kalan k-1 adet alt küme eğitim verisi olarak kullanılır. Böylelikle cross-validation
süreci k kez, her defasında başka test verileri seçilecek şekilde tekrarlanır. Her alt küme,
test verisi olarak sadece bir kez kullanılır. Yöntem Şekil 4.1’de özetlenmiştir. Bu şekilde k
değeri 3 olarak belirlenmiş ve süreç 3 kez tekrarlanmıştır. K-fold cross validation
yönteminde, k tekrardan elde edilen bazı sonuçlar birleştirilir, bazı sonuçların averajı alınır
ve böylelikle tek çıktı üretilir.
55
Şekil 4.1. K-fold cross validation
K-fold cross validation yönteminde, algoritmanın bir veri üzerinde eğitilmede ve daha
sonra önceden karşılaşmadığı veri üzerinde tahmin yapmada ne kadar başarılı olduğu test
edilmektedir. Şekil 4.1’de görüldüğü gibi modeller algoritma tarafından koyu gri veri
üzerinde eğitilerek oluşturulur. Daha sonra bu modeller açık gri veri üzerinde test
edilmektedir. K-fold cross validation sonuçları kullanılarak performansı en iyi algoritma
problem tanımı için en uygun algoritma olarak seçilir. Fakat veri madenciliği yazılımının
çıktı olarak verdiği nihai model, tüm veri üzerinden eğitilen modeldir. Yani K-fold cross
fold validation testleri sırasında oluşturulan modeller nihai tahmin edici modelde
kullanılmamakta, sadece test için kullanılmaktadır.
Sınıflandırma algoritmalarının performansları genellikle sınıflandırma doğruluklarının
ölçülmesi ile değerlendirilir [26]. Sınıflandırma doğruluğu ise, ilgili algoritma aracılığıyla
doğru olarak sınıflandırılan örneklerin toplam örnek sayısına oranıdır [26]. Bu çalışmada
kullanılan algoritmalar için WEKA yazılımı çıktıları EK-4’ten EK-13’e kadar sunulmuştur.
Bu çıktıların yorumlanma biçimini açıklamak için Resim 4.1’de örnek bir WEKA
sınıflandırma çıktısı verilmiştir.
56
Resim 4.1. Örnek WEKA sınıflandırma çıktısı
Bu örnekte 100 kayıt sınıflandırılmıştır (Total Number of Instances). “0” ve “1” olmak
üzere toplam 2 mümkün sınıf değeri vardır. Hata matrisi (confusion matrix) test verisi
üzerinde yapılan testler sonucunda, gerçekte belirli sınıflara ait kayıtların algoritma
tarafından hangi sınıflara atandıkları ile ilgili ayrıntılı bilgileri vermektedir. “0” sınıfına ait
kayıtlardan 59 tanesi doğru olarak “0” sınıfına atanmıştır (“0” için doğru pozitif). “0”
sınıfına ait kayıtlardan 2 tanesi yanlışlıkla “1” sınıfına atanmıştır (1 için yanlış pozitif). “1”
sınıfına ait kayıtlardan 12 tanesi doğru olarak “1” sınıfına atanmıştır (“1” için doğru
pozitif). “1” sınıfına ait kayıtlardan 27 tanesi yanlışlıkla “0” sınıfına atanmıştır (“0” için
yanlış pozitif).
Bu bilgilerden her sınıf için doğru pozitif oranı (true positive rate, TP Rate) ve yanlış
pozitif oranı (false positive rate, FP Rate ) hesaplanır.
57
X sınıfı için doğru pozitif oranı, gerçekten X sınıfına ait olup ta algoritma tarafından X
sınıfına atanan kayıtların X sınıfındaki toplam kayıt sayısına oranıdır. Geri çağırma (recall)
değerine eşittir. Hata matrisinde ilgili sınıfın köşegen değerinin (matristeki X ve X’in
kesişim değeri) ilgili sınıfın satır değerlerinin toplamına bölünmesi ile elde edilir. Örneğin
“0” sınıfı için doğru pozitif oranı: 59/(59+2) = 0,967’dir.
X sınıfı için yanlış pozitif oranı, başka sınıfa ait olup ta algoritma tarafından X sınıfına
atanan kayıtların X sınıfına ait olmayan kayıtlara oranıdır. Hata matrisinde X sınıfının
kolon değerleri toplamından köşegen değerinin çıkarılması ile elde edilen sayının diğer
sınıfların satır toplamlarının toplamına bölünmesiyle bulunur. Örneğin “0” sınıfı için yanlış
pozitif oranı: 27/(27+12) = 0,692’dir.
Kesinlik (precision), X sınıfına ait olup ta algoritma tarafından X sınıfına atanan kayıtların
X sınıfına atanan tüm kayıtların sayısına oranıdır. Hata matrisinde köşegen değerinin ilgili
sınıfın kolon değerlerinin toplamına bölünmesi ile bulunur. Örneğin “0” sınıfı için kesinlik
değeri: 59/(59+27) = 0,686’dır. Kesinliğin büyük değerler alması daha iyidir.
F-Ölçütü, kesinlik (precision) ve geri çağırma (recall) için birleştirilmiş bir ölçüttür. Değeri
Eş. 4.1’deki formül ile hesaplanır. F-Ölçütünün büyük değer alması daha iyidir.
F-Measure = 2*Precision*Recall/(Precision+Recall)
(4.1)
Alıcı işletme karakteristikleri alanı (Receiver Operating Characteristics Area, ROC Area),
eğri altındaki alan (Area Under Curve, AUC) olarak da bilinir.
Bir sınıflandırıcının AUC değeri ilgili sınıflandırıcının rastgele seçilmiş pozitif bir örneğe
rastgele seçilmiş bir negatif örnekten daha yüksek sıra verme olasılığıdır [55].
Güvenir ve Kurtcephe sıralamayı gerçekleştiren sıralama fonksiyonu hakkında şu bilgileri
aktarmıştır [56]:
Sıralama problemi, ikili (binary) sınıflandırma problemi olarak
düşünülebilir. Bu ikili sınıflandırma problemine etiketli eğitim seti olarak z =
((x1,y1),.....,(xn,yn))
verilir. Xi’ler X uzayından örneklerdir. Yi’ler ise Y={p,n}
kümesinden etiketlerdir (p pozitifi, n negatifi temsil eder). Amaç h:XY olmak üzere
gelecek örneklerin etiketini doğru tahmin eden bir fonksiyonun öğrenilmesidir. Özetle X
58
örnek uzayından D eğitim veri seti verilir ve bu setteki örnekler {p, n} ile temsil edilen
pozitif ve negatif olmak üzere iki kategoriye aittir. Amaç D’yi kullanarak gelecek pozitif
örneklere negatif örneklerden daha yüksek sıra veren r: XIR sıralama fonksiyonunun
öğrenilmesidir. Diğer bir deyişle r sıralama fonksiyonunun pozitif örneklere negatif
örneklerden daha yüksek değerler ataması beklenir.
Daha sonra örnekler sıralama
fonksiyonunun verdiği değerler kullanılarak sıralanabilir.
AUC’un alabileceği en iyi değer 1, en kötü değer 0’dır [55]. Rastgele tahmin 0,5 AUC
değerini üreteceğinden gerçekçi bir sınıflandırma aracı 0,5 değerinden daha küçük bir
AUC değerine sahip olmamalıdır [55].
Doğru sınıflandırılan örnekler (Correctly Classified Instances) test verisi üzerinde doğru
olarak sınıflandırılan kayıtların sayısıdır. Hata matrisindeki köşegen değerlerinin tümünün
toplamına eşittir. Bu örnek için 59+12 = 71’dir. Bu rakamın yanındaki oran doğru
sınıflandırılan örneklerin tüm örnek sayısına oranıdır. (71/100 = %71). Bu oran
sınıflandırma algoritmasının doğruluğudur.
Yanlış sınıflandırılan örnekler (Incorrectly Classified Instances) test verisi üzerinde doğru
olarak sınıflandırılamayan kayıtların sayısıdır. Hata matrisindeki köşegen değerlerinin
dışındaki değerlerin tümünün toplamına eşittir. Bu örnek için 27+2 = 29’dir. Bu rakamın
yanındaki oran yanlış sınıflandırılan örneklerin tüm örnek sayısına oranıdır. (29/100 =
%29)
Meenakshi ve Geetika kappa istatistiğini şans uzlaşması için normalize edilmiş uzlaşma
ölçütü olarak tanımlamış ve formülü Eş. 4.2’de vermiştir [57]. P(A) uzlaşma yüzdesi
(sınıflandırıcı ve gerçeklik arasında), P(E) ise şans uzlaşmasıdır. Yazarlar 1 kappa
değerinin mükemmel uzlaşmayı, 0 değerinin ise şans uzlaşmasını ifade ettiğini belirtmiştir.
Yazarlar ayrıca WEKA hata metriklerini şu şekilde tanımlamıştır: Ortalama mutlak hata,
Eş. 4.3’teki formül ile hesaplanır. Bağıl Karesel Hata Karekökü, Ortalama Karesel Hata
Karekökü değerinin hedef değerlerin ortalamasını tahmin ederek elde edilen Ortalama
Karesel Hata Kareköküne bölünmesi ve daha sonra elde edilen değerin 100 ile çarpılması
sonucu bulunur. Bu hata metriklerinin küçük değerler alması daha iyidir.
K=P (A)-P (E)/1-P (E)
(4.2)
59
Ortalama Mutlak Hata = toplam (örnek başına mutlak hata)
(4.3)
Bu çalışmada kullanılan algoritmalar için ayrıntılı WEKA yazılımı çıktıları EK-4’ten EK13’e kadar sunulmuştur. Üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek için en
uygun sınıflandırma algoritmasını seçmek amacıyla öncelikle bu algoritmaların
doğruluklarını karşılaştırmak gerekmektedir. Çizelge 4.1’de öğrencilerin verileri üzerinde
çalıştırılan sınıflandırma algoritmalarının doğrulukları verilmiştir.
Çizelge 4.1. Sınıflandırma algoritmaları doğruluk karşılaştırması
Algoritma
Doğruluk
Part
%81,4
Ridor
%68,1
DecisionTable
%61.9
JRip
%85,8
BFTree
%81,4
FT
%84,9
J48
%79,6
LADTree
%80,5
SimpleCart
%85,8
NaiveBayes
%49,5
Çizelge 4.1’de görüldüğü gibi üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek için
doğruluğu en yüksek çıkan algoritmalar JRip ve SimpleCart’tır.
Bu algoritmaların
doğrulukları aynı çıktığı için averaj doğru pozitif oranları, yanlış pozitif oranları,
kesinlikleri, F-Ölçütleri,
ROC alanları ayrıca hata metrikleri ve kappa istatistikleri
karşılaştırılmıştır. JRip ve SimpleCart algoritmalarının averaj doğru pozitif oranları, yanlış
pozitif oranları, kesinlikleri, F-Ölçütleri,
4.2’de verilmiştir.
ROC alanları ve kappa istatistikleri Çizelge
60
Çizelge 4.2. JRip ve SimpleCart algoritmalarının doğru pozitif oranları, yanlış pozitif
oranları, kesinlikleri, F-Ölçütleri, ROC alanları ve kappa istatistikleri
Algoritma TP Oranı FP Oranı
Kesinlik
F-Ölçütü
ROC Alanı
Kappa
JRip
0,858
0,051
0,844
0,842
0,935
0.8256
SimpleCart
0,858
0,056
0,831
0,836
0,94
0.8255
Algoritmaların hata metrikleri ise Çizelge 4.3’te karşılaştırılmıştır.
Çizelge 4.3. JRip ve SimpleCart hata metrikleri
Algoritma
Ortalama
Mutlak Hata
Ortalama Karesel Hata Bağıl Mutlak Hata Bağıl Karesel Hata
Karekökü
Karekökü
JRip
0,0317
0,1423
%22,3844
%53,6683
SimpleCart
0,0406
0,1444
%28,7168
%54,459
Çizelge 4.2’den görüleceği gibi algoritmaların TP oranı değerleri eşittir. FP oranı, kesinlik,
F-Ölçütü, kappa istatistiği bakımından JRip SimpleCart algoritmasına göre daha yüksek
performans göstermiştir. Her 2 algoritmanın ROC alanı değerleri yaklaşık olarak aynıdır.
Çizelge 4.3’te yer alan hata metrikleri incelendiğinde JRip algoritmasının hata metrik
değerlerinin daha düşük oluğu gözlemlenmektedir. Bu nedenle araştırma kapsamındaki
üstün yetenekli öğrencilerin ilgi alanlarını tahmin etme problemi için en uygun algoritma,
kural tabanlı bir algoritma olan JRip olarak belirlenmiştir. JRip, Repeated Incremental
Pruning
to
Produce
Error
Reduction
(RIPPER)
algoritmasının
WEKA
implementasyonudur.
RIPPER algoritması Cohen tarafından, Fürnkranz ve Widmer’ın geliştirmiş olduğu
Incremental Reduced Error Pruning (IREP) algoritmasının [58]
iyileştirilmiş bir hali
olarak tanıtılmıştır [59]. Cohen IREP kural öğrenme algoritmasını geniş ve çeşitli problem
kümesi üzerinde değerlendirmiştir. Kendisi, IREP algoritmasının son derece etkin
olduğunu fakat C4.5 algoritma kurallarına göre daha yüksek hata oranları ürettiğini
göstermiştir. Daha sonra Cohen, IREP algoritmasına bir takım modifikasyonlar yapmış
böylelikle hata oranları konusunda C4.5 kuralları ile rekabet edebilen ve büyük veri
üzerinde IREP algoritmasından daha verimli olan RIPPER algoritmasını önermiştir.
Cohen’in IREP algoritmasına yaptığı değişiklikler budama fazında kullanılmak üzere
alternatif bir metrik, kural setine yeni bir kural eklemenin ne zaman durdurulacağına karar
61
vermek için yeni bir yöntem ve IREP tarafından öğrenilen kuralları optimize etmek için bir
teknik olarak özetlenebilir. Aynı zamanda RIPPER algoritması çoklu sınıfları (mümkün
sınıf sayısının ikiden fazla olduğu durumlar) desteklemektedir.
IREP gibi RIPPER algoritması da ayır ve ele al (separate-and-conquer) stratejisini
kullanmaktadır. Fürnkranz ayır ve ele al ailesine ait algoritmaların çalışma şeklini şöyle
açıklamıştır [60]: Algoritma ilk önce eğitim setinin bir bölümünü açıklayan bir kural
araştırır, bu bölümdeki örnekleri ayırır ve eğitim setinde hiç bir örnek kalmayıncaya kadar
geri kalan örnekleri daha çok kural öğrenerek ele alır. Bu işlem orijinal eğitim setindeki
her kaydın en az bir kuralla kapsandığını garanti altına alır.
Algoritmanın açık adından anlaşıldığı gibi bu algoritma kapsamında budama (pruning)
uygulanmaktadır. Han ve Kamber kural budaması ile ilgili şu bilgileri vermişlerdir [6]:
Kural tabanlı algoritmalar ile oluşturulan kuralların eğitim verisine aşırı uyum sağlaması
olası bir durumdur. Bu durumda kurallar eğitim verisi üzerinde yüksek performans
gösterecek, ancak görmedikleri veri üzerinde daha az performans sergileyeceklerdir. Bu
durumu önlemek için kurallar budanabilir. Bir kural ön koşulundan bir bileşen (nitelik
testi) silinerek budanır. Eğer R kuralının budanan versiyonu eğitim verisinden bağımsız bir
veri seti üzerinde daha iyi performans sergilerse R kuralının budanması tercih edilir. Bu
bağımsız veri setine budama seti denir. (WEKA yazılımında folds parametresi ile verilerin
ne kadarının budama için ayrılacağı belirlenmektedir.) Budama için çeşitli stratejiler
kullanılabilir.
Hühn ve Hüllermeier IREP algoritması üzerine kurulan RIPPER algoritması ve temel
çalışma yöntemi hakkında aşağıdaki bilgileri vermiştir [61]:
Bir RIPPER kuralı r = <rA|rC> şeklinde gösterilir. rA kuralın öncül kısmı, rC ise sonuç
kısmıdır. rA çeşitli nitelik testlerinin birleşiminden oluşmaktadır. r = <rA|rC> kuralı x =
(x1.....xn) şeklinde bir örneği, eğer xi nitelik değerleri rA’da yer alan tüm nitelik testlerini
karşılar ise kapsar. Öğrenilen tüm kurallardan oluşan set kural seti olarak isimlendirilir.
Öğrenme süreci öncesinde, eğitim verisi sınıf frekanslarına göre artan biçimde sıralanır.
Yani eğitim verisinde en nadir görülen sınıf en başta yer alırken, en sık görülen sınıf en
62
sonda yer alır. Veride görülen toplam sınıf sayısı m ise en nadir görülen sınıftan başlayarak
sıralamada en önde yer alan m-1 sınıf için kurallar öğrenilir. RIPPER bir sınıf için kural
öğrenirken,
eğitim
verisindeki
bu sınıfa ait
örnekler
pozitif örnekler
olarak
değerlendirilirken diğer tüm sınıflara ait örnekler negatif örnekler olarak düşünülmektedir.
Bir kural oluşturulduktan sonra bu kuralla kapsanan tüm örnekler (pozitif veya negatif
olabilir) eğitim verisinden çıkarılır. Algoritma daha sonra sıralamada yer alan bir sonraki
sınıfla devam eder. Son olarak RIPPER öğrenecek daha fazla kural bulamadığında öncül
kısmı boş olan varsayılan bir kuralı, en sonda yer alan dolayısıyla en sık görülen sınıf için
ekler. ( “En sık görülen sınıf” şeklinde bir kural oluşur.)
Sınıflar için kurallar, pozitif örnek kalmayana kadar veya en son eklenen kural çok fazla
karmaşık olana kadar eklenmeye devam eder. İkinci özellik toplam tanım uzunluğu (total
description length) kullanılarak gerçekleştirilir. Her kural eklendikten sonra kural setinin
ve örneklerin toplam tanım uzunluğu hesaplanır. RIPPER algoritması bu tanım uzunluğu
şu ana kadar elde edilen en küçük tanım uzunluğundan d bit kadar büyükse veya artık
pozitif örnek kalmamışsa kural eklemeyi durdurur. Cohen denemelerinde d için 64 değerini
kullanmıştır. Daha sonra kural setindeki her kural (en son eklenen kuraldan başlanarak)
incelenerek ve toplam tanım uzunluğunu azaltmak için kurallar silinerek kural seti
basitleştirilir.
Hühn ve Hüllermeier RIPPER algoritmasının adımlarını “Bireysel Kuralların Öğrenilmesi”
ve “Kural Optimizasyonu” olarak tanımlamış ve bu adımların ayrıntılarını aşağıdaki
şekilde tanımlamıştır [61]:
Bireysel kuralların öğrenilmesi
Her bireysel kural 2 adımda öğrenilir. Herhangi bir kuralla kapsanmayan eğitim verisi
geliştirme ve budama seti olarak ikiye ayrılır. İlk adımda geliştirme seti kullanılarak
öğrenilen nitelik testleri kuralın öncül kısmına eklenerek ilgili kural özelleştirilir. Daha
sonra budama seti kullanılarak nitelik testlerinin kural öncül kısmından çıkarılması ile ilgili
kural genelleştirilir.
63
Kural geliştirme
Bu adım boş kural öncülü ile işleme başlar ve kural artık negatif örnek (hedef sınıfa bağlı
olmayan örnekler) kapsamayana dek nitelik testlerini kural öncülüne ekler. Kural öncülüne
eklenecek yeni bir nitelik testi, FOIL's bilgi kazanım kriteri (information gain criterion, IG)
değerini maksimize eden nitelik testi olarak seçilir. IG değeri, hedef sınıf için varsayılan
kural ile karşılaştırıldığında, bir kuralın sağladığı iyileştirmenin ölçütüdür ve Eş. 4.4 ile
hesaplanır.
(4.4)
Buradaki pr ve nr kuralın yeni haliyle kapsanan pozitif ve negatif örnek sayısıdır. P ve n
ise varsayılan kuralla kapsanan pozitif ve negatif örnek sayısıdır.
Kural budama
Kural geliştirme genellikle eğitim verisine aşırı uyum sağlayan kurallar üretmektedir. Bunu
engellemek ve budama verisi üzerinde performansı artırmak için bu adımda kurallar
basitleştirilir. RIPPER algoritmasında bir kural geliştirildikten sonra hemen budanır.
Budama
işlemi
için
kural
öncülündeki
nitelik
testleri,
öğrenilme
sırası
ile
değerlendirilmektedir. En son öğrenilen nitelik testi ilk önce değerlendirilir. Budama
işleminde hangi pozisyondan sonraki nitelik testlerinin kural öncülünden çıkarılacağı
belirlenmektedir. Bu pozisyonu belirlemek için V(r) metriği kullanılmaktadır. V(r) Eş.
4.5’teki formül ile hesaplanmaktadır. Buradaki pr budama setinde kuralla kapsanan pozitif
örnek sayısıdır. Nr ise budama setinde kuralla kapsanan negatif örnek sayısıdır. En son
öğrenilen nitelik testinden başlayarak kural öncülünden çıkarılması V(r) metriğini
iyileştiren tüm nitelik testleri kural öncülünden budanır.
V(r) = (pr-nr) ÷ (pr+nr)
(4.5)
64
Kural optimizasyonu
Algoritma tarafından bu adıma kadar üretilen kural seti (tüm kuralların birleşiminden
oluşan set: RS) optimizasyon süreci için başlangıç noktası olarak alınır. Bu süreç öğrenilen
tüm kuralları (ri € RS ) öğrenilme sırasına göre yeniden inceler. Her ri kuralı için 2
alternatif kural ri' ve ri'' oluşturulur. ri ' değiştirme (replacement) kuralı boş kuraldan
başlatılır ve güncellenmiş kural setinin ( (RS U { ri' }) \ {ri}) hatasını minimize edecek
şekilde geliştirilip budanır. ri'' düzeltme (revision) kuralı da benzer şekilde oluşturulur.
Fakat boş kural yerine ri’den başlatılır. Ri’nin hangi versiyonunun (orijinal, değiştirme,
düzeltme) tutulacağına karar vermek için minimum tanım uzunluğu (Minimum Description
Length, MDL) kriteri kullanılır. Bu optimizasyon “k” kez tekrar edildiğinde algoritma
RIPPERk olarak anılmaktadır.
Tüm bu işlemlerin özetlendiği Ripper algoritmasının taslak kodu Şekil 4.2’de verilmiştir.
65
Şekil 4.2. RIPPER algoritması taslak kodu [62]
JRip algoritmasının ürettiği kurallar BİLSEM’e yeni kaydolacak (veya ilgi alanı
bilinmeyen) üstün yetenekli bir öğrencinin ilgi alanını tahmin etmek amacıyla
kullanılacaktır. Bu algoritma tarafından oluşturulan kurallar (WEKA çıktısının
Türkçeleştirilmiş hali) Şekil 4.3’te yer almaktadır.
66
Şekil 4.3. JRip algoritma kuralları
Çizelge 4.4’te Şekil 4.3’te yer alan 12 JRip kuralının, kodları açık hale getirildiğinde
oluşan açıklamaları yer almaktadır.
67
Çizelge 4.4. JRip kural açıklamaları
No
Kural
1 (bzda12-2 = 1) => ilgialani1=IS AYRINTILARI
Açıklama
Boş
zamanlarında
lego/puzzle
ile
oynayan/koleksiyon yapan öğrenciler iş
ayrıntıları alanına ilgilidir.
2 (bzda7-4 = 1) ve (bzda4-8 = 1) => ilgialani1=IKNA Boş
zamanlarında
televizyonda
oturum/tartışma/münazara/panel/haber
programları izleyen VE spor/dans kursuna
giden öğrenciler ikna alanına ilgilidir.
3 (aa13c = 5) ve (bzda5c = 2) =>
ilgialani1=EDEBIYAT
Babasının mesleği gazetecilik/yazarlık olan
VE
boş
zamanlarında
polisiye/korku/macera kitapları okuyan
öğrenciler edebiyat alanına ilgilidir.
4 (bzda12-17 = 1) => ilgialani1=SOSYAL YARDIM
Boş zamanlarında sosyal yardımlaşma ve
dayanışma
faaliyetleri
gerçekleştiren
öğrenciler sosyal yardım alanına ilgilidir.
5 (bzda11c = 7) => ilgialani1=ZIRAAT
Evde ailesine bahçe/hayvan bakımında
yardımcı olan öğrenciler ziraat alanına
ilgilidir.
6 (bzda9-15 = 1) ve (bzda12-4 = 1) =>
ilgialani1=MUZIK
Boş zamanlarında müzik dinleyen/müzik
aleti çalan VE ekstrem sporlarla vakit
geçiren öğrenciler müzik alanına ilgilidir.
7 (bzda3-5 = 1) ve (bzda5c = 9) => ilgialani1=SANAT Boş
zamanlarında
fotoğrafçılık
malzemeleri/seramik/kil/hamur/ahşap/cam/
kâğıt/yün-ip/resim malzemeleri ile vakit
geçiren VE güzel sanatlar kitapları okuyan
öğrenciler sanat alanına ilgilidir.
8 (bzda6c = 9) => ilgialani1=MEKANIK
Boş zamanlarında araba dergisi okuyan
öğrenciler mekanik alanına ilgilidir.
9 (bzda7-5 = 1) => ilgialani1=SOSYAL BILIMLER
Boş zamanlarında
programı
izleyen
bilimlere ilgilidir.
10 (aa7c = 4) => ilgialani1=YABANCI DIL
Ailenin öğrencinin en çok başarılı olduğunu
düşündüğü ders yabancı dil ise öğrenci
yabancı dile ilgilidir.
11 (bzda7-12 = 1) => ilgialani1=TICARET
Televizyonda
reklamları
izleyen
öğrencilerin ticaret alanına ilgisi vardır.
12 => ilgialani1=FEN BILIMLERI
Yukarıdaki 11 kurala uymayan öğrenciler
fen bilimleri alanına ilgilidir.
televizyonda tarih
öğrenciler
sosyal
Çizelge 4.4 incelendiğinde her bir kuralın sol tarafındaki koşulun, mantıksal olarak sağ
tarafındaki sınıf atamasını açıkladığı görülmektedir. Bazı ek açıklamalar vermek gerekirse,
ikinci kuralda yer alan spor/dans kursuna giden üstün yetenekli öğrencilerin ikna alanına
68
ilgili olmasının, bu öğrencilerin spor/dans ile sosyalleşip insanlarla daha çok etkileşimde
bulunmalarından kaynaklandığı düşünülmektedir. Üçüncü kuraldaki polisiye/korku/macera
kitapları okuyan öğrencilerin edebiyata ilgisi olmasının, bu kitapların sürükleyici olması ve
bu sayede öğrencilerin daha fazla kitap okuyarak edebiyata ilgi duymaya başlamalarından
kaynaklandığı değerlendirilmiştir.
Altıncı kuralda yer alan ekstrem sporlarla uğraşan
öğrencilerin müzik alanına ilgi duyması, ancak veri madenciliği gibi teknikler kullanılarak
ortaya çıkarılabilecek ilginç bir desendir. On ikinci kural ise diğer kurallarla ilgi alanı
belirlenemeyen üstün yetenekli öğrencilerin fen bilimlerine ilgili olduğunu göstermektedir.
Bu durum JRip algoritmasının bir özelliğidir. JRip öğrenecek kural bulamadığında, en sık
görülen sınıf değeri için sol tarafı boş olan bir kural oluşturur [61]. Dolayısıyla JRip
algoritması diğer sınıflara diğer kurallarla atanamayan verileri, son kuralla eğitim
verisindeki en fazla sayıya sahip sınıf değerine atamaktadır. Eğitim verisinde bulunan
üstün yetenekli öğrencilerin en fazla ilgi duyduğu alan (113 öğrenciden 36’sı) fen
bilimleridir.
Kurallar incelendiğinde öğrenciler için toplanan niteliklerden tümünün öğrencilerin ilgi
alanlarına etkisi bulunmadığı gözlemlenmiştir. Toplanan niteliklerin ilgi alanlarına etki
durumu Çizelge 4.5’te verilmiştir. Yeni bir öğrencinin ilgi alanının tahmin edilmesi için
sadece etkili olan niteliklerin toplanması yeterlidir.
69
Çizelge 4.5. Niteliklerin ilgi alanlarına etkisi
Nitelik Açıklama
Nitelik
TKT 7-11 Sonucu Öğrencinin TKT 7-11 testi sonucu
İlgi Alanına Etki
Etkili Değil
WISC-R Sonucu
Öğrencinin WISC-R testi sonucu
Etkili Değil
EVTF 1. soru
Öğrencinin cinsiyeti
Etkili Değil
EVTF 2. soru
Öğrencinin okula devam tutumu
Etkili Değil
EVTF 3. soru
Öğrencinin çalışma alışkanlığı
Etkili Değil
EVTF 4. soru
Öğrencinin okul türü (özel veya devlet)
Etkili Değil
EVTF 5. soru
Öğrencinin kimlerle vakit geçirdiği
Etkili Değil
EVTF 6. soru
Öğrencinin görüştüğü arkadaş sayısı
Etkili Değil
EVTF 7. soru
Öğrencinin en çok başarılı olduğu düşünülen ders
EVTF 8. soru
Öğrencinin annesinin eğitim durumu
Etkili Değil
EVTF 9. soru
Öğrencinin babasının eğitim durumu
Etkili Değil
EVTF 10. soru
Anne ve babanın birliktelik durumu
Dikkate Alınmamıştır
EVTF 11. soru
Ailenin toplam geliri
Etkili Değil
EVTF 12. soru
Anne mesleği
Etkili Değil
EVTF 13. soru
Baba mesleği
Etkili
EVTF 14. soru
Ailenin çocuk sayısı
Etkili Değil
EVTF 15. soru
Annenin çocuğa karşı tutumu
Etkili Değil
EVTF 16. soru
Babanın çocuğa karşı tutumu
Etkili Değil
BZDA 1. soru
Boş zamanları değerlendirme etkinlikleri- Genel
Etkili
BZDA 2. soru
Boş zamanları değerlendirme etkinlikleri- Detay
Etkili
BZDA 3. soru
Öğrencinin en çok vakit geçirdiği materyaller/oyuncaklar
Etkili
BZDA 4. soru
Öğrencinin katıldığı kurslar
Etkili
BZDA 5. soru
Öğrencinin en çok okuduğu kitap türü
Etkili
BZDA 6. soru
Öğrencinin en çok okuduğu dergi türü
Etkili
BZDA 7. soru
Öğrencinin televizyonda en çok izlediği programlar
Etkili
BZDA 8. soru
Öğrencinin en çok izlediği film türü
BZDA 9. soru
Öğrencinin en çok ilgilendiği spor dalları
BZDA 10. soru
Öğrencinin okulda üye olduğu kulüp
BZDA 11. soru
Öğrencinin evde ailesine en çok ne tür yardımda
bulunduğu
Etkili
Etkili Değil
Etkili
Dikkate Alınmamıştır
Etkili
70
Üstün yetenekli öğrencilerin bir arada ilgi duydukları alanları belirlemek için WEKA
üzerinde birliktelik analizi gerçekleştirilmiştir. Birliktelik algoritması olarak en çok bilinen
birliktelik algoritması olan Apriori [63] seçilmiştir.
Apriori algoritmasının kod taslağı Şekil 4.4’te verilmiştir.
Şekil 4.4. Apriori algoritması taslak kodu [6]
Han ve Kamber kod taslağı adımlarını şu şekilde açıklamıştır [6]: 1. Adım sık görülen
tekli öğe setlerini (tek öğe içeren setler) bulur. Bu setler L1 olarak isimlendirilir. 2 den
10’a kadar olan adımlarda k>=2 için Lk yı bulmak amacıyla Ck adaylarını oluşturmak için
Lk-1 kullanılır. Adım 3’te çağrılan apriori_gen prosedürü adayları oluşturur ve daha sonra
Apriori özelliğini sık olmayan alt kümeye sahip adayları elemek için kullanır. Bu prosedür
aşağıda tanımlanmaktadır. Tüm adaylar oluşturulduktan sonra adım 4’teki gibi veri tabanı
taranır. Adım 5 ile veri tabanındaki her işlem için bu işlemin aday olan tüm alt kümelerini
bulmak için bir alt küme fonksiyonu kullanılır. Adım 6 ve 7’deki gibi bu adayların her
71
birinin sayısı toplanır. Bu sayıya göre adaylardan minimum destek değerini sağlayanlar
(adım 9) sık görülen öğe setleri listesini (L) oluşturmaktadır (adım 11).
Apriori_gen prosedürü birleştirme ve budama olmak üzere 2 çeşit faaliyet yerine getirir.
Prosedürün birleştirme faaliyetinde (adım 1’den adım 4’e kadar)
potansiyel adayları
oluşturmak için Lk-1 ile Lk-1 birleştirilir. Budama faaliyeti (adım 5’ten adım 7’ye kadar)
sık olmayan alt kümeye sahip adayları elemek için Apriori özelliğini kullanır.
Has_infrequent_subset prosedürü sık görülmeyen alt kümelerin testi için kullanılmaktadır.
Bu işlemlerden sonra, sık görülen öğe setlerinden birliktelik kurallarının oluşturulması
gerekir. Veri tabanı D’de yer alan işlemlerden sık görülen öğe setleri bulunduktan sonra,
bu öğe setlerinden güçlü birliktelik kurallarının oluşturulması basittir. Güçlü birliktelik
kuralları minimum destek ve minimum güven değerlerini sağlayan kurallardır. Güven
değeri Eş. 4.6’daki gibi hesaplanır.
Güven (AB) = P(B|A) = destek_sayisi(AUB) ÷destek_sayisi(A)
(4.6)
Bu eşitlikte koşullu olasılık, öğe seti destek sayısı ile ifade edilmiştir. Destek_sayisi(AUB)
“AUB” öğe setlerini içeren veri tabanı işlemlerinin sayısıdır. Destek_sayisi(A) ise “A”
öğe setini içeren işlemlerin sayısıdır. Bu eşitliğe göre birliktelik kuralları şu şekilde
oluşturulabilir:

Her sık görülen öğe seti “l” için, l’nin boş olmayan tüm alt kümeleri oluşturulur.

l’in her boş olmayan “s” alt kümesi için “s (l-s)” şeklinde bir kural, eğer
destek_sayisi(l)÷destek_sayisi(s) sonucu min_conf değerinden (minimum güven değeri
eşiği) büyük veya eşit ise sürecin çıktısıdır.
Kurallar sık görülen öğe setlerinden oluşturulduğu için her kural zaten otomatik olarak
minimum destek değerini sağlar.
Apriori algoritması, MySQL VTYS’de oluşturulmuş olan studentdata şemasında yer alan
ilgialani tablosu üzerinde çalıştırılmıştır. Bu nedenle algoritma çalıştırılmadan önce
WEKA SQL görüntüleyici ekranının (Bkz. Resim 3.3) sorgu (Query) bölümüne “select *
from ilgialani” girilmiştir. ilgialani tablosunun oluşturma SQL’i EK-3’te verilmiştir.
WEKA yazılımında Apriori için destek değerinin varsayılan üst sınırı 1 (%100), alt sınırı
72
0,1 (%10), deltası ise 0,05’tir. Algoritma çalıştırılırken bu değerlerde değişiklik
yapılmamıştır. Metrik tipi olarak varsayılan değer olan “Güven” seçilmiştir. Minimum
güven değeri ise 0,5 (%50) olarak belirlenmiştir. Çıktıların daha ayrıntılı sunulması için
“outputItemSets” parametresi “True” yapılmıştır. Birliktelik analizi için ayrıntılı WEKA
çıktısı EK-14’te yer almaktadır. Apriori algoritması çıktı olarak güven değeri 0,5’ten
büyük olan Çizelge 4.6’daki birliktelik kurallarını vermiştir.
Çizelge 4.6. Apriori birliktelik analizi sonuçları
Kural
Güven
Değeri
mekanik=Y 26 ==> fenbilimleri=Y 17
0,65
sosyalbilimler=Y 32 ==> fenbilimleri=Y 20
0,63
sanat=Y 24 ==> yabancidil=Y 12
0,5
Her kuralın yanındaki rakamlar şöyle yorumlanmalıdır: Örneğin 1. Kuralda mekaniğe ilgisi
olan öğrenci sayısının 26 olduğu,
hem mekaniğe hem fen bilimlerine ilgisi olan
öğrencilerin sayısının ise 17 olduğu ifade edilmiştir.
Çizelge 4.6’dan anlaşıldığı gibi mekaniğe ilgisi olan üstün yetenekli öğrencilerin %65’inin
aynı zamanda fen bilimlerine, sosyal bilimlere ilgisi olan öğrencilerin %63’ünün aynı
zamanda fen bilimlerine ve sanata ilgisi olan öğrencilerin %50’sinin aynı zamanda yabancı
dile ilgileri bulunmaktadır.
73
5. İLGİ ALANI ANALİZ SİSTEMİ
Üstün yetenekli bir öğrencinin ilgi alanını tahmin etmek için kullanılacak kurallar WEKA
yazılımı tarafından oluşturulmuştur (Bkz. Şekil 4.3). İlgi alanı bilinmeyen üstün yetenekli
bir öğrenci için ilgi alanı üzerinde etkili olan baba mesleği, öğrencinin katıldığı kurslar,
öğrencinin en çok okuduğu kitap türü, öğrencinin en çok ilgilendiği spor dalları gibi
niteliklerin (Bkz. Çizelge 4.5) değerleri belirlendikten sonra, bu değerler ile WEKA
tarafından oluşturulan kurallar sırayla kontrol edilerek bu öğrencinin ilgi alanı tespit
edilebilir. Fakat WEKA yazılımı sadece kuralları oluşturmakta, bu kuralların yeni bir
öğrencinin verileri üzerinde kontrol edilmesi ve böylece bu öğrencinin ilgi alanının
belirlenmesi için bir imkân sunmamaktadır. Bu nedenle üstün yetenekli eğitimi ile
ilgilenen eğitimcilerin kullanabilmesi amacıyla web tabanlı bir sistem geliştirilmiştir.
Geliştirilen sistem, yeni bir üstün yetenekli öğrenci için gerekli veriler girildikten sonra
öğrencinin tahmin edilen ilgi alanını çıktı olarak eğitimcilere sunmaktadır. Ayrıca ilgili
sistem birliktelik analizi sonuçlarını kullanarak bu öğrencinin ikincil bir alana ilgisi
saptanmışsa bunu da çıktı olarak kullanıcıya vermektedir.
Daha önce de belirtildiği gibi üstün yetenekli öğrenciler için toplanan tüm nitelikler ilgi
alanları üzerinde etkili değildir. Veri madenciliği sonuçlarına göre EVTF’deki 7. ve 13.
soruların cevapları ve BZDA’daki 1., 2., 3., 4., 5., 6., 7., 9. ve 11. soruların cevapları ilgi
alanları üzerinde etkilidir. Bu nedenle EVTF ve BZDA formları sadece etkili olan soruları
kapsayacak şekilde güncellenmeli, etkisiz olan sorular zaman kaybı olmaması açısından
formlardan çıkarılmalıdır. İlgi alanı belirlenmek istenen bir öğrenciye EVTF ve BZDA
formları teslim edilmelidir. BZDA öğrenci tarafından EVTF ise öğrencinin ailesi
tarafından doldurulduktan sonra formlardaki cevaplar eğitimci tarafından sisteme girilerek
üstün yetenekli öğrenci için ilgi alanı tespit edilebilir.
İlgi alanı analiz sistemi PrimeFaces alt yapısı üzerinde geliştirilmiştir. PrimeFaces çeşitli
eklentileri olan açık kaynak kodlu JavaServer Faces (JSF) bileşen süitidir. Aşağıdaki
özelliklere sahiptir:
74

Hyper Text Markup Language (HTML) editörü, diyalog, otomatik tamamlama ve
grafikler gibi zengin bileşen setine sahiptir.

Asynchronous JavaScript and XML (Ajax) tabanlı olarak JSF 2.0 Ajax Application
Programming Interface (API) standardı üzerine kurulmuştur.

Tek Java Archive (JAR) dosyasından oluşur. Konfigürasyon gerektirmez, bağımlılığı
yoktur.

Mobil cihazlarda kullanılmak üzere web uygulamaları oluşturmak için mobil kullanıcı
arayüzü aracı içermektedir.

35’in üzerinde hazır görsel tema içerir ve yeni görsel tema tasarlamak için desteği
mevcuttur.

Geniş dokümantasyona sahiptir.
Geliştirilen web tabanlı sistem için web sunucusu olarak Apache Tomcat (versiyon 7.0.47)
kullanılmıştır. Apache Tomcat, Apache Software Foundation (ASF) tarafından geliştirilen
açık kaynak kodlu bir web sunucu ve servlet konteynırıdır (container). Java Servlet ve JSP
teknolojilerinin açık kaynak kodlu yazılım implementasyonunu sağlamaktadır. Dünyadaki
en iyi geliştiricilerin iş birliğiyle, açık ve katılımcı bir ortamda geliştirilmektedir. Tomcat
geliştiriciler tarafından kullanılan en popüler web (servlet) konteynırları arasındadır
[64,65].
İlgi alanı analiz sistemi’nde VTYS olarak MySQL (Versiyon 5.6) kullanılmıştır. Sistem
şema olarak, WEKA analizlerinin yapılabilmesi amacıyla daha önceden oluşturulmuş
studentdata
şemasını
kullanmıştır.
Bu
şema
üzerinde
siniflandirmaanalizi
ve
birliktelikanalizi tabloları oluşturulmuştur. İlgi alanı analiz sistemi bu tablolara veri
ekleyerek, tablolardan veri sorgulayarak ve veri silerek çalışmaktadır. Birliktelikanalizi
tablosu Apriori birliktelik analizi sonuçlarını (Bkz. Çizelge 4.6) yansıtmaktadır.
Siniflandirmaanalizi ve birliktelikanalizi tablolarının oluşturma SQL’leri EK-15’te
verilmiştir.
Sistemin kodları tez CD’si içerisinde EK-16’da sunulmuştur.
İlgi alanı analiz sistemi ile temelde 3 fonksiyon yerine getirilmektedir:
75
1. İlgi alanı bilinmeyen üstün yetenekli bir öğrencinin çeşitli verileri sisteme girilerek
öğrencinin birincil ilgi alanı ve varsa ikincil ilgi alanı belirlenebilmektedir.
2. Sisteme daha önceden verileri girilmiş olan üstün yetenekli öğrencilerin ilgi alanları
sorgulanabilmektedir.
3. Sistemde mevcut olan üstün yetenekli öğrencilerin verileri ve ilgi alanları sistemden
silinebilmektedir.
Sisteme
http://localhost:8080/doktoraws/kayit.xhtml
veya
http://localhost:8080/doktoraws/liste.xhtml URL adresleri ile bağlanılabilir. Bu adreslerin
herhangi bir tanesine girildiğinde gelen sayfanın üst kısmında “İşlem Menüsü”
bulunmaktadır. Bu menü seçildiğinde Resim 5.1’deki menü öğeleri görüntülenmektedir.
Resim 5.1. İlgi alanı analiz sistemi işlem menüsü öğeleri
Kayıt menü öğesiyle yukarıdaki 1. fonksiyon yerine getirilirken, liste menü öğesi
aracılığıyla 2. ve 3. fonksiyonlar gerçekleştirilmektedir.
Kullanıcı “Kayıt” menü öğesini seçtiğinde http://localhost:8080/doktoraws/kayit.xhtml
URL adresinde yer alan Resim 5.2’deki yeni öğrenci kayıt ekranı açılmaktadır.
76
Resim 5.2. Yeni öğrenci kayıt ekranı
Ekrandaki “Öğrenci Adı”, “Öğrenci Soyadı” ve “Öğrenci Baba Adı” alanları zorunludur.
Bu alanlardan herhangi bir tanesini girilmeden “İlgi Alanı Oluştur” düğmesine basılırsa
sistem hata mesajı dönmektedir. Her sorunun yanında o soru için en fazla kaç seçenek
işaretlenebileceği belirtilmiştir. Yine sorular için izin verilenden fazla seçenek girilip “İlgi
Alanı Oluştur” düğmesine basıldığı durumlarda sistem hata vermektedir. Sistemdeki
sorular, güncellenmiş EVTF ve BZDA formlarında yer alan öğrenci ilgi alanı üzerinde
etkili olan sorulardan oluşmaktadır.
Kullanıcı “Öğrenci Adı”, “Öğrenci Soyadı” ve “Öğrenci Baba Adı” alanlarına veri girer.
Daha sonra öğrencinin teslim ettiği EVTF ve BZDA formlarından cevaplandırılmış olan
soruların şıkları her sorunun yanındaki “Seçenekler” düğmelerine basılarak girilir. Resim
5.3’te örnek olarak 4. sorunun şıklarının seçim ekranı verilmiştir.
Resim 5.3. 4.Soru şık seçim ekranı (örnek)
77
Kullanıcı veri girişini bitirdikten sonra “İlgi Alanı Oluştur” düğmesine basar. Ekrandan
girilmiş olan verilerle ilgili kontroller başarılı ise sistem öğrenciye ait EVTF ve BZDA
formlarının cevaplarını, WEKA yazılımı çıktısı olan JRip algoritması kurallarını (Bkz.
Şekil 4.3) kullanarak öğrenci için tespit ettiği öncelikli ilgi alanını ve varsa MySQL
VTYS’nde yer alan birliktelikanalizi tablosunu kullanarak belirlediği ikincil ilgi alanını
uygun formatta siniflandirmaanalizi tablosuna kaydeder. Kullanıcıya da verilerin
saklandığına ilişkin bir mesaj sunulur.
Kullanıcı işlem menüsünden (Bkz. Resim 5.1) “Liste” menü öğesini seçtiğinde
http://localhost:8080/doktoraws/liste.xhtml
URL adresinde yer alan Resim 5.4’deki
mevcut öğrenci sorgulama ve silme ekranı açılmaktadır.
Resim 5.4. Mevcut öğrenci sorgulama ve silme ekranı
Ekran ilk açıldığında, MySQL VTYS’de yer alan siniflandirmaanalizi tablosuna form
cevapları ve belirlenen ilgi alanları daha önceden sistem aracılığıyla kaydedilmiş olan
üstün yetenekli öğrencilerin isimleri, soyadları, baba adları, öncelikli ve ikincil ilgi alanları
öğrenci isimlerine göre artan sırada listelenir. Bu ekrandan “Ad”, “Soyad” ve “Baba Ad”
alanlarının altındaki kutucuklara veri girilerek bu kriterlere uygun verileri aramak
mümkündür. Aynı zamanda “Ad”, “Soyad”, “Baba Ad”, “Öncelikli İlgi Alanı” ve “İkincil
İlgi Alanı” alanlarının yanındaki oklara basarak ekrandaki verilerin sıralanma biçimi
güncellenebilir.
78
Herhangi bir kayıt seçilip “Kaydı Sil” düğmesine basıldığında ilgili üstün yetenekli öğrenci
için girilmiş olan form cevap verileri ve öğrencinin tespit edilen ilgi alanları veri
tabanındaki siniflandirmaanalizi tablosundan ve ekrandaki listeden silinir.
79
6. SONUÇ VE ÖNERİLER
Eğitimsel veri madenciliği alanındaki bu tez çalışmasında sınıflandırma teknikleri ile üstün
yetenekli öğrencilerin ilgi alanlarını tahmin eden bir model geliştirilmiştir. JRip
algoritmasının ilgi alanını tahmin etmedeki %85,8 doğruluğu, üretilen eğitimsel veri
madenciliği sınıflandırma modelinin (Bkz. Şekil 4.3) başarılı bir model olduğunu
göstermektedir. Sınıflandırma analizi sonucunda üstün yetenekli öğrencilerin BİLSEM’lere
kabulleri sırasında uygulanan TKT 7-11 ve WISC-R testlerinin sonuçlarının öğrencilerin
ilgi alanı üzerinde etkili çıkmadığı saptanmıştır. EVTF’den elde edilen öğrencinin en çok
başarılı olduğu düşünülen ders ve baba mesleği verilerinin ilgi alanı üzerinde etkili olduğu
tespit edilirken, BZDA’dan toplanan boş zamanları değerlendirme etkinlikleri (genel ve
detay), öğrencinin en çok vakit geçirdiği materyaller/oyuncaklar, öğrencinin katıldığı
kurslar, öğrencinin en çok okuduğu kitap türü, öğrencinin en çok okuduğu dergi türü,
öğrencinin televizyonda en çok izlediği programlar, öğrencinin en çok ilgilendiği spor
dalları, öğrencinin evde ailesine en çok ne tür yardımda bulunduğu verilerinin üstün
yetenekli öğrencilerin ilgi alanları üzerinde etkili olduğu görülmüştür. BZDA’dan ve
EVTF’den elde edilen diğer verilerin ilgi alanları üzerinde etkisi yoktur.
Çalışmada ilgi alanlarının tahmin edilmesinin yanı sıra birliktelik analizleri ile üstün
yetenekli öğrencilerin bir arada ilgi duydukları alanlar belirlenmiştir. Birliktelik analizi
sonuçları, mekaniğe ilgili olan üstün yetenekli öğrencilerin %65’inin fen bilimlerine,
sosyal bilimlere ilgili olanların %63’ünün fen bilimlerine ve sanata ilgili olanların
%50’sinin yabancı dile ilgili olduğunu göstermiştir. Sınıflandırma analizi ile bir öğrencinin
birincil ilgi alanı atandıktan sonra, bu sonuçlar ışığında seçilen güven ve eşik değerine ait
eğer var ise öğrencinin ikincil ilgi alanı da saptanabilir. Böylelikle üstün yetenekli
öğrencilerin en çok ilgi duydukları iki alana göre eğitim almaları mümkün olacaktır.
Sınıflandırma ve birliktelik analizi sonuçları, tez kapsamında geliştirilen web tabanlı ilgi
alanı analiz sistemi sayesinde üstün yetenekli eğitimi ile ilgilenen eğitimcilerin ve
yöneticilerin kullanımına uygun hale getirilmiştir. Bu sistem ile ilgi alanı bilinmeyen üstün
yetenekli bir öğrencinin ilgi alanı (varsa ikincil ilgi alanı da) belirlenebilmekte, sistemde
mevcut üstün yetenekli öğrencilerin ilgi alanları sorgulanabilmektedir.
80
Bu tez çalışmasında eğitimsel veri madenciliği yöntemleri ilk defa üstün yetenekli
öğrencilerin ilgi alanlarının analiz edilmesi amacıyla kullanıldığından, ilgili tez çalışması
özgün niteliktedir.
Tez sonuçlarının, Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’de yer
alan farklılaştırılmış eğitim programları geliştirme ve uygulama ve farklılaştırılmış eğitim
programlarına yönelik etkinlik ve öğretim materyalleri oluşturma hedeflerinin [1]
gerçekleştirilmesine katkı sağlaması ümit edilmektedir. Çünkü üstün yetenekli eğitiminin
öğrencilerin ihtiyaçlarına göre farklılaştırılması ancak ilgi alanlarının doğru belirlenmesi
ile mümkün olabilir.
Söz konusu çalışmanın sonuçları, öğrencilerin destek eğitimi ve bireysel yetenekleri fark
ettirme programlarının son aşamalarında hangi alanlara yönlendirilmeleri gerektiğini
belirlemek için sistematik ve bilimsel bir yöntem sunmaktadır. Yapılan görüşmeler mevcut
bir sistematik yöntem bulunmadığı için üstün yetenekli öğrencilere bireysel ihtiyaçlarına
ve ilgi alanlarına göre değil tek tip eğitim verildiği durumların olduğunu göstermiştir. Bu
durum zaten BİLSEM Süreci İç Denetim Raporu’nda ele alınmış, raporun Bulgu-10’unda
öğrencilerin bireysel alanlarının belirlenebilmesi için objektif, geçerlilik ve güvenirlik
çalışması yapılmış ölçekler mevcut olmadığı için üstün yetenekli öğrencilerin ilgi alanları
doğrultusunda eğitilememeleri riskinin bulunduğu ifade edilmiştir [22]. Tez kapsamında
geliştirilen BZDA, EVTF formları ve ilgi alanı analiz sistemi öğrencilerin bireysel
alanlarının belirlenmesi ihtiyacını karşılamaktadır.
Üstün yetenekli öğrencilerin ilgi alanlarının belirlenmesi BİLSEM’lere, öğretmenlere ve
velilere birçok fayda sağlayacaktır. BİLSEM’lerde üstün yetenekli öğrencilere verilecek
dersler, bu çocuklar ile yapılacak etkinlikler öğrencilerin belirlenen ilgi alanlarına göre
şekillendirilebilecektir. Öğrenciler tüm alanları tanımaları için yine ilgi alanları dışındaki
derslere de katılabilir, fakat ders saatlerinin uzunlukları ilgi alanlarına göre ayarlanabilir.
Üstün yetenekli öğrencilerin ilgilerinin belirlenmesi ile veliler de çocuklarına bu alanlar
doğrultusunda daha fazla destek sağlayabileceklerdir. İlgi alanı meslek seçiminde çok
önemli bir faktör olduğu için üstün yetenekli öğrencilerin ilgi alanının belirlenmesi
sayesinde bu öğrencilerin meslek yönlendirmeleri de yapılabilecektir.
81
Çalışmadan elde edilen birliktelik analizi sonuçları BİLSEM’lerde ders programlarının
düzenlenmesinde kullanılabilir. Öğrencilerin sıklıkla birlikte ilgi duydukları alanlara ilişkin
dersler aynı saatlerde yapılmaz ise öğrenciler hem birincil hem de ikincil ilgi alanlarıyla
ilgili derslere katılma imkânı bulurlar.
Tez kapsamında geliştirilen web tabanlı ilgi alanı analiz sisteminin öncelikle Yasemin
Karakaya BİLSEM’de kurulup kullanıma açılması hedeflenmektedir. Milli Eğitim
Bakanlığı bünyesinde, bu sistemin yaygınlaştırılması amacıyla bir komisyon kurulması
önerilmektedir. İlgili sistem web tabanlı olduğu için her BİLSEM’e ayrı ayrı kurulmasına
gerek yoktur. Tek bir merkeze kurulması ile Türkiye’deki tüm BİLSEM’ler ilgili sistemi
kullanabilirler. Dolayısı ile ilgili sistemin Yasemin Karakaya BİLSEM’de prototip olarak
uygulanmasının ardından hızlıca yaygınlaştırılması mümkündür. Bu sistem, Üstün
Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’deki bazı hedeflerin
gerçekleştirilmesi için kullanılabilecek bir araç niteliğindedir.
İleriki aşamalarda bir BİLSEM’de eğitim gören üstün yetenekli öğrenciler, seçilecek
niteliklere göre veri madenciliği kümeleme teknikleri kullanılarak kümelere ayrılabilir.
Böylelikle küme içi homojen fakat kümeler arası heterojen olan üstün yetenekli öğrenci
kümeleri oluşmuş olacaktır. Bu sayede BİLSEM’lerde sınıflar bu kümelerden
oluşturulabilir ve üstün yetenekli öğrencilere verilen eğitim her öğrenci kümesinin
ihtiyacına göre özelleştirilebilir.
Tez kapsamında sınıflandırma algoritmalarının eğitilmesi amacıyla eğitim setindeki
öğrencilerin ilgi alanlarının atanması için ABKÖ kullanılmıştır. ABKÖ ile öğrencilerin
Fen Bilimleri, Sosyal Bilimler, Ziraat, Mekanik, Ticaret, Edebiyat, Yabancı Dil, Sanat,
İkna, Müzik, İş Ayrıntıları, Sosyal Yardım olmak üzere toplam 12 alandaki ilgileri
ölçüldüğünden [52] ilgili tez çalışmasında tahmin edilen ilgi alanları da bu alanlar
içerisinden olabilmektedir. Günümüz dünyası bilişim çağını yaşamakta, bilişim
teknolojileri baş döndürücü bir hızla ilerlemektedir. Dünya üzerindeki gelişmiş ülkeler
bilişim teknolojilerine çok fazla önem vermekte ve bu alanda yeterlilik sahibi pek çok
insana gereksinim duyulmaktadır. Üstün yetenekli bireylerin toplumlara yön veren,
gelişmeyi ve değişmeyi hızlandıran bireyler olduğu göz önüne alındığında bilişim
teknolojilerine sağlayacakları katkı çok büyük olacaktır. Bu nedenle daha sonra yapılacak
82
çalışmalar ile üstün yetenekli öğrencilerin tahmin edilen ilgi alanları arasına “bilgi
teknolojileri” alanının eklenmesi önerilmektedir.
83
KAYNAKLAR
1. İnternet: Milli Eğitim Bakanlığı Özel Eğitim ve Rehberlik Hizmetleri Genel
Müdürlüğü. Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017. URL:
http://www.webcitation.org/query?url=http%3A%2F%2Forgm.meb.gov.tr%2Fmeb_iy
s_dosyalar%2F2013_10%2F25043741_zelyeteneklibireylerstratejiveuygulamaplan201
32017.pdf&date=2014-05-06, Son Erişim Tarihi: 06.05.2014.
2. İnternet: Milli Eğitim Bakanlığı. Bilim ve Sanat Merkezleri Yönergesi. URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fmevzuat.meb.gov.tr%2Fhtml
%2F2593_0.html&date=2014-05-06, Son Erişim Tarihi: 06.05.2014.
3. Sarı, H. (2013). Türkiye’de üstün yetenekli çocukların eğitim gördüğü bilim ve sanat
merkezleri için öneriler-editöre mektup. Journal of Gifted Education Research, 1 (2),
146-149.
4. Kuzgun, Y. (1994). Çağdaş insanın en önemli kararı meslek seçimi. Bilim ve Teknik
Dergisi, 325, 50-54.
5. İnternet: Öğrenci Seçme ve Yerleştirme Merkezi. Meslek Seçiminde Bilinmesi
Gerekenler.
URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.osym.gov.tr%2Fbelge
%2F1-8337%2Fmeslek-seciminde-bilinmesigerekenler.html%3Fvurgu%3Ds%25C4%25B1nav%2Bsistemi&date=2014-05-06,
Son Erişim Tarihi: 06.05.2014.
6. Han, J. and Kamber, M. (2006). Data mining: Concepts and techniques (Second
edition). San Francisco: Morgan Kaufmann, XXI, XXV, 5, 10, 12-20, 47-49, 67, 86,
327, 649-654, 658-659.
7. Sachin, R. B. and Vijay, M. S. (2012, January 7-8). A survey and future vision of data
mining in educational field. Paper presented at the Second International Conference on
Advanced Computing & Communication Technologies, Rohtak, India.
8. İnternet: International Educational Data Mining Society. Educational Data Mining.
URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.educationaldatamining.
org&date=2014-05-06, Son Erişim Tarihi: 06.05.2014.
9. Kumar, V. and Chadha, A. (2011). An empirical study of the applications of data
mining techniques in higher education. International Journal of Advanced Computer
Science and Applications, 2 (3), 80-84.
10. Marland Jr, S. P. (1971). Education of the gifted and talented-Volume 1: Report to the
congress of the United States by the US Commissioner of Education. U.S. Department
of Health, Education & Welfare, Office of Education.Washington D.C.. 8.
11. Levent, F. (2011). Üstün yetenekli çocukların hakları el kitabı anne baba ve
öğretmenler için. İstanbul: Çocuk Vakfı Yayınları, 16, 21,26, 37.
84
12. İncekara, H. (2012). TBMM üstün yetenekli çocukların keşfi, eğitimleriyle ilgili
sorunların tespiti ve ülkemizin gelişimine katkı sağlayacak etkin istihdamlarının
sağlanması amacıyla kurulan meclis araştırması komisyonu raporu. Meclis Araştırması
Komisyonu. Ankara. 99, 213, 336.
13. Renzulli, J. S. (1978). What makes giftedness? Reexamining a definition. Phi Delta
Kappan, 60 (3), 180-184.
14. İnternet: Milli Eğitim Bakanlığı. Özel Eğitim Hizmetleri Yönetmeliği. URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fmevzuat.meb.gov.tr%2Fhtml
%2F26184_0.html&date=2014-05-06, Son Erişim Tarihi: 06.05.2014.
15. Ataman, A. (2004). Üstün zekalı ve üstün özel yetenekli çocuklar., M. R. Şirin, A.
Kulaksızoğlu ve A. E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş makaleler
kitabı. İstanbul. Çocuk Vakfı Yayınları, 155-168.
16. Çağlar, D. (2004). Üstün zekalı çocukların eğitim modelleri., M. R. Şirin, A.
Kulaksızoğlu ve A. E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş makaleler
kitabı. İstanbul. Çocuk Vakfı Yayınları, 317-334.
17. Kulaksızoğlu, A. (2007, 6-9 Aralık). Özel eğitimin Türkiye’deki tarihçesi. Özürlüler’07
Kongresinde sunuldu, İstanbul.
18. Enç, M. (2004). Özel eğitimin tarihçesi., M. R. Şirin, A. Kulaksızoğlu ve A. E. Bilgili
(Editörler). Üstün yetenekli çocuklar seçilmiş makaleler kitabı. İstanbul. Çocuk Vakfı
Yayınları, 15-35.
19. Yıldız, H. (2010). Üstün Yeteneklilerin Eğitiminde Bir Model Olan Bilim ve Sanat
Merkezleri (Bilsemler) Üzerine Bir Araştırma, Yüksek Lisans Tezi, Gazi Üniversitesi
Eğitim Bilimleri Enstitüsü, Ankara, 25-27.
20. Ataman, A. (2004). Üstün zekalılar için ilköğretimde uygulanabilir bir model., M. R.
Şirin, A. Kulaksızoğlu ve A. E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş
makaleler kitabı. İstanbul. Çocuk Vakfı Yayınları, 335-342.
21. Bildiren, A. ve Türkkanı, B. (2013). Üstün yetenekli öğrencilerin perspektifinden bilim
ve sanat merkezlerinin hoş ve hoş olmayan özellikleri ve değişiklik talepleri. Journal
of Gifted Education Research, 1 (2), 128-135.
22. Demirci, M. D. (2010). Bilim ve Sanat Merkezleri süreci iç denetim raporu. Milli
Eğitim Bakanlığı İç Denetim Birimi Başkanlığı. Ankara. 33,71.
23. Akkanat, H. (2004). Üstün veya özel yetenekliler., M. R. Şirin, A. Kulaksızoğlu ve A.
E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş makaleler kitabı. İstanbul.
Çocuk Vakfı Yayınları, 169-193.
24. Akar, İ. ve Uluman, M. (2013). Sınıf öğretmenlerinin üstün yetenekli öğrencileri doğru
aday gösterme durumları. Journal of Gifted Education Research, 1 (3), 199-212.
25. Schiefele, U. (1991). Interest, learning, and motivation. Educational Psychologist, 26
(3-4), 299-323.
85
26. Dunham, M. H. (2003). Data mining introductory and advanced topics. New Jersey:
Prentice Hall, 3, 5-9, 76, 78- 80, 86, 89-90, 92, 97, 100, 102-103, 114, 116-117, 129,
131-132, 138-140, 142, 146-147, 169, 173, 177-180, 184.
27. Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From data mining to
knowledge discovery in databases. AI Magazine, 17 (3), 37-54.
28. Kelley-Winstead, D. (2010). New Directions in Education Research: Using Data
Mining Techniques To Explore Predictors of Grade Retention, Doktora Tezi, George
Mason University Education, Fairfax, VA, 1-5.
29. Şen, B., Uçar, E., and Delen, D. (2012). Predicting and analyzing secondary education
placement-test scores: A data mining approach. Expert Systems with Applications, 39
(10), 9468-9476.
30. Şen, B. and Uçar, E. (2012). Evaluating the achievements of computer engineering
department of distance education students with data mining methods. Procedia
Technology, 1, 262-267.
31. Yadav, S. K., Bharadwaj, B., and Pal, S. (2012). Mining education data to predict
student's retention. International Journal of Computer Science and Information
Security, 10 (2), 113-117.
32. Jormanainen, I. and Sutinen, E. (2012, March 27-30). Using data mining to support
teacher's intervention in a robotics class. Paper presented at the Fourth IEEE
International Conference On Digital Game And Intelligent Toy Enhanced Learning,
Takamatsu, Japan.
33. Ayesha, S., Mustafa, T., Sattar, A. R., and Khan, M. I. (2010). Data mining model for
higher education system. Europen Journal of Scientific Research, 43 (1), 24-29.
34. Baradwaj, B. K. and Pal, S. (2011). Mining educational data to analyze students'
performance. International Journal of Advanced Computer Science and
Applications, 2 (6), 63-69.
35. Tsai, C. F., Tsai, C. T., Hung, C. S., and Hwang, P. S. (2011). Data mining techniques
for identifying students at risk of failing a computer proficiency test required for
graduation. Australasian Journal of Educational Technology, 27 (3), 481-498.
36. Dejaeger, K., Goethals, F., Giangreco, A., Mola, L., and Baesens, B. (2012). Gaining
insight into student satisfaction using comprehensible data mining techniques.
European Journal of Operational Research, 218 (2), 548-562.
37. Thomas, E. H. and Galambos, N. (2004). What satisfies students? Mining studentopinion data with regression and decision tree analysis. Research in Higher
Education, 45 (3), 251-269.
38. Im, K. H., Kim, T. H., Bae, S., and Park, S. C. (2005, August 27-29). Conceptual
modeling with neural network for giftedness identification and education. Paper
presented at the First International Conference on Advances in Natural Computation,
Changsha, China.
86
39. Erdoğan, Ş. Z. and Timor, M. (2005). A data mining application in a student database.
Journal of Aeronautics and Space Technologies, 2 (2), 53-57.
40. Amershi, S. and Conati, C. (2006, June 26-30). Automatic recognition of learner
groups in exploratory learning environments. Paper presented at the Eighth
International Conference on Intelligent Tutoring Systems, Jhongli, Taiwan.
41. Tissera, W. M. R., Athauda, R. I., and Fernando, H. C. (2006, December 15-17).
Discovery of strongly related subjects in the undergraduate syllabi using data mining.
Paper presented at the International Conference on Information and Automation,
Colombo, Sri Lanka.
42. Leong, C. K., Lee, Y. H., and Mak, W. K. (2012). Mining sentiments in SMS texts for
teaching evaluation. Expert Systems with Applications, 39 (3), 2584-2589.
43. Akçapınar, G., Coşgun, E., and Altun, A. (2011, July 6-8). Prediction of perceived
disorientation in online learning environment with random forest regression. Paper
presented at the Fouth International Conference on Educational Data Mining,
Eindhoven, Netherlands.
44. Zengin, K., Esgi, N., Erginer, E., and Aksoy, M. E. (2011). A sample study on
applying data mining research techniques in educational science: Developing a more
meaning of data. Procedia-Social and Behavioral Sciences, 15, 4028-4032.
45. Bhardwaj, B. K. and Pal, S. (2011). Data Mining: A prediction for performance
improvement using classification. International Journal of Computer Science and
Information Security, 9 (4), 136-140.
46. Yongqiang, H. and Shunli, Z. (2011, May 28-29). Application of data mining on
students' quality evaluation. Paper presented at the Third International Workshop on
Intelligent Systems and Applications, Wuhan, China.
47. Aydın, S. (2007). Veri Madenciliği ve Anadolu Üniversitesi Uzaktan Eğitim
Sisteminde Bir Uygulama, Doktora Tezi, Anadolu Üniversitesi Sosyal Bilimler
Enstitüsü, Eskişehir, 2, 110, 121, 139.
48. Xu, B. (2011). Clustering Educational Digital Library Usage Data: Comparisons of
Latent Class Analysis and K-Means Algorithms, Yüksek Lisans Tezi, Utah State
University Computer Science, Utah, 2-3, 15-19, 20, 22, 35, 39, 41-46.
49. Stamper, J. C. (2010). Automatic Generation of Intelligent Tutoring Capabilities Via
Educational Data Mining, Doktora Tezi, The University of North Carolina
Information Technology, Charlotte, 1-3.
50. Mazman, S. G. (2013). Programlama Performansını Etkileyen Faktörlerin Bilişsel
Tabanlı Bireysel Farklılıklar Temelinde Modellenmesi, Doktora Tezi, Hacettepe
Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara, 6, 34, 56-71.
51. Agrawal, R. and Srikant, R. (1994, September 12-15). Fast algorithms for mining
association rules. Paper presented at the 20th Int. Conf. Very Large Data Bases,
Santiago de Chile, Chile.
87
52. Kuzgun, Y. (2011). Akademik benlik kavramı ölçeği el kitabı (Üçüncü Baskı). Ankara:
Nobel Yayın Dağıtım, 1- 23.
53. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H.
(2009). The WEKA data mining software: an update. ACM SIGKDD Explorations
Newsletter, 11 (1), 10-18.
54. Geng, L. and Hamilton, H. J. (2006). Interestingness measures for data mining: A
survey. ACM Computing Surveys, 38 (3), 9.
55. Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27
(8), 861–874.
56. Güvenir, H. A. and Kurtcephe, M. (2013). Ranking instances by maximizing the area
under ROC curve. IEEE Transactions on Knowledge and Data Engineering, 25 (10),
2356–2366.
57. Meenakshi, M. and Geetika, G. (2014). Survey on classification methods using
WEKA. International Journal of Computer Applications, 86 (18), 16–19.
58. Fürnkranz, J. and Widmer, G. (1994, July 10-13). Incremental reduced error pruning.
Paper presented at the Eleventh International Conference on Machine Learning, New
Brunswick, New Jersey.
59. Cohen, W. W. (1995, July 9-12). Fast effective rule induction. Paper presented at the
Twelfth International Conference on Machine Learning, Tahoe City, California.
60. Fürnkranz, J. (1999). Separate-and-Conquer rule learning. Artificial Intelligence
Review, 13 (1), 3-54.
61. Hühn, J. and Hüllermeier, E. (2009). FURIA: an algorithm for unordered fuzzy rule
induction. Data Mining and Knowledge Discovery, 19 (3), 293-319.
62. Alpaydın, E. (2004). Introduction to machine learning. London: The MIT Press, 188.
63. Koh, Y. S. and Rountree, N. (2005, May 18-20). Finding sporadic rules using aprioriinverse. Paper presented at the Ninth Pacific-Asia conference on Advances in
Knowledge Discovery and Data Mining, Hanoi, Vietnam.
64. Oliveira, R. A., Laranjeiro, N., and Vieira, M. (2012, June 24-29). Experimental
evaluation of web service frameworks in the presence of security attacks. Paper
presented at the IEEE Ninth International Conference on Services Computing,
Honolulu, Hawaii.
65. Mohamed, M., Yangui, S., Moalla, S., and Tata, S. (2011, 27-29 June). Web service
micro-container for service-based applications in cloud environments. Paper presented
at the 20th IEEE International Workshops on Enabling Technologies: Infrastructure for
Collaborative Enterprises, Paris.
88
89
EKLER
90
EK-1. Boş zamanları değerlendirme anketi
Adınız, Soyadınız
:
Devam Ettiğiniz Okul
:
Kod Numarası
:
Açıklama:
Bu anket sizin boş zamanlarınızı nasıl değerlendirdiğinizi belirlemek için yapılmaktadır.
Lütfen her soruyu ve ilgili soru için kaç seçenek işaretlemeniz gerektiğini dikkatlice
okuyunuz. Cevaplardan hangi seçeneğin/seçeneklerin size en uygun veya en yaklaşık
olduğunu kararlaştırınız. Kararınızı verdikten sonra her soru için soruda belirtilen adet
kadar seçeneğin solundaki parantezin içine bir çarpı işareti koyunuz. Anketteki tüm
soruları cevapladıktan sonra anketi uygulayan kişiye iade ediniz. Cevaplarınızın gerçeğe
uygun olmasına dikkat ediniz. Göstermiş olduğunuz hassasiyete şimdiden teşekkür ederiz.
1. İlgilendiğiniz boş zaman etkinlikleri en çok hangi alanda toplanır? (Lütfen en
fazla 2 seçeneği işaretleyiniz.)
(
(
(
(
(
(
(
(
(
(
(
) Eğitim/Araştırma Yapmak/Kişisel Gelişim
) Çeşitli eğlenceler (müzik dinleme, televizyon izleme, oyun oynama vb.)
) Güzel sanatlar (edebiyat, resim, müzik, heykel, seramik vb.)
) Arkadaşlarla birlikte zaman geçirme
) Bilgisayar/İnternet
) Genel kültür (sinema, tiyatro, kitap/dergi/gazete okuma vb.)
) Spor/Dans
) Aile ile zaman geçirme/Aileye yardım etme
) El işleri (maket, dikiş, nakış, örgü, dokuma, tamir vb.)
) Sosyal yardımlaşma ve dayanışma
) Diğer (Yazınız…………………………………………….....…………...….…)
2. Aşağıdaki faaliyetlerden hangisiyle/hangileriyle en fazla ilgileniyorsunuz? (Lütfen
en çok 3 seçeneği işaretleyiniz.)
(
(
(
(
(
) Bilgisayar/Bilgisayar Oyunları/İnternet
) Lego/Puzzle
) Go oyunu
) Robot yapımı ve programlaması
) Zeka oyunları
(
(
(
(
(
) Bulmaca/Su doku çözmek
) Mental aritmetik
) Satranç
) Kimya/Biyoloji deneyleri
) Resim yapmak
91
EK-1. (devam) Boş zamanları değerlendirme anketi
( ) Kitap/Dergi/Gazete okumak
( ) Şiir/Hikaye/Öykü/Makale/Fıkra yazmak
( ) Müzik dinlemek
( ) Müzik aleti çalmak
( ) Televizyon izlemek
( ) Sinema/Tiyatro/Film izlemek
( ) Arkadaşlar ile vakit geçirmek
( ) Aile ile vakit geçirmek
( ) Spor yapmak/Dans
( ) Tiyatro oynamak
( ) Oyun oynamak
( ) Seyahat/İzcilik
( ) Ders çalışmak/Araştırma yapmak
( ) Koleksiyon yapmak
( ) Uçurtma
( ) Yemek yapmak
( ) Gökbilim
( ) Fotoğrafçılık
( ) Grafiti yapmak
( ) Kuş gözlemi
( ) Evcil hayvan/Bitki bakımı/Bahçe işleri
( ) Müze gezmek
( ) Sosyal yardımlaşma ve dayanışma faaliyetleri
( ) Çeşitli el sanatları ve el işleri (maket, origami, seramik, heykel, dikiş, nakış, örgü,
dokuma, takı, ahşap/cam sanatı vb.)
( ) Diğer (Yazınız………………………………………….………………...……. )
3. Üzerinde en çok vakit harcadığınız materyal/oyuncak hangisidir? (Lütfen en fazla
2 seçeneği işaretleyiniz.)
(
(
(
(
(
(
(
(
(
(
(
) Deney setleri
( ) Kazı setleri
) Lego/Puzzle
( ) Teleskop
) Müzik aletleri
( ) Mikroskop
) Maket setleri
( ) Resim malzemeleri
) Bulmaca/Su doku
( ) Koleksiyon malzemeleri
) Kitaplar/Dergiler/Gazeteler
( ) Satranç/Go malzemeleri
) Bilgisayar
( ) Robot malzemeleri
) Spor malzemeleri
( ) Bitki/Bahçe bakım malzemeleri
) Fotoğrafçılık malzemeleri
( ) Evcil hayvan
) Seramik/Kil/Hamur/Ahşap/Cam/Kağıt/Yün-İp
) Diğer (Yazınız…………………………………………………………………..)
4. Okul dışı zamanlarda en çok vaktinizi geçirdiğiniz kurs hangisidir? (Lütfen en
fazla 2 seçeneği işaretleyiniz.)
(
(
(
(
(
(
(
) Mental aritmetik
) Müzik
) Satranç/Go
) Drama/Tiyatro
) Bilgisayar
) Seramik/Heykelcilik/Ahşap
) Dershane/Özel ders (okul dersleriyle ilgili)
(
(
(
(
(
(
) Spor/Dans
) Resim
) Robot
) Fotoğrafçılık
) Diğer (Yazınız.......................)
) Kursa gitmem
92
EK-1. (devam) Boş zamanları değerlendirme anketi
5. En çok ne tür kitaplar okursunuz? (Lütfen tek seçenek işaretleyiniz.)
(
(
(
(
(
(
) Roman
) Polisiye/Korku/Macera
) Bilimsel/Bilim Kurgu
) Spor
) Seyahat
) Mizah
(
(
(
(
(
) Biyografik
) Çocuk kitapları
) Güzel sanatlar
) Diğer (Yazınız……...………)
) Kitap okumuyorum
6. En çok ne tür dergi okursunuz? (Lütfen tek seçenek işaretleyiniz.)
(
(
(
(
(
(
) Fotoroman/Mizah
) Spor
) Moda/Magazin
) Çocuk dergileri
) Müzik/Resim/Sanat
) Seyahat
(
(
(
(
(
(
) Bilim Teknik
) Bilgisayar
) Araba
) Dekorasyon/Bahçe bakımı
) Diğer (Yazınız…………..….)
) Dergi okumuyorum
7. Televizyonda en çok hangi programı izliyorsunuz? (Lütfen en fazla 2 seçenek
işaretleyiniz.)
(
(
(
(
(
(
(
) Eğlence
) Müzik
) Spor
) Moda
) Ekonomi
) Oturum/Tartışma/Münazara/Panel
) Tarih
(
(
(
(
(
(
(
) Çocuk Programları/Çizgi filmler
) Sinema/Dizi/Tiyatro
) Haber Programları
) Belgesel
) Reklamlar
) Diğer (Yazınız…………..…….)
) TV izlemiyorum
8. En çok ne tür filmlerden hoşlanırsınız? (Lütfen tek seçenek işaretleyiniz.)
(
(
(
(
(
) Bilim kurgu
) Polisiye/Korku/Macera
) Dram/Psikolojik
) Biyografik
) Komedi
(
(
(
(
(
) Aşk
) Çizgi filmler/Animasyon
) Romantik komedi
) Diğer (Yazınız……………...)
) Film izlemiyorum
93
EK-1. (devam) Boş zamanları değerlendirme anketi
9. En çok hangi spor dalı ile uğraşırsınız? (Lütfen en fazla 2 seçeneği işaretleyiniz.)
( ) Futbol
( ) Atletizm
( ) Basketbol
( ) Bale/Dans/Jimnastik/Su balesi
( ) Yüzme
( ) Karate/Tekvando/Judo/Aikido/Kung Fu
( ) Güreş
( ) Paten/Buz pateni
( ) Step/Aerobik/Yoga/Pilates
( ) Ata binme
( ) Voleybol
( ) Beyzbol/Kriket
( ) Atıcılık
( ) Bilardo
( ) Bisiklet
( ) Boks/Kick Boks
( ) Bowling
( ) Buz hokeyi
( ) Eskrim
( ) Dart
( ) Golf
( ) Hentbol
( ) Kürek
( ) Tenis/Masa Tenisi
( ) Okçuluk
( ) Oryantiring
( ) Su topu
( ) Paintball
( ) Çeşitli ekstrem sporlar (dağcılık, tırmanma, dalgıçlık/dalış, kayak, kaykay, serbest
paraşüt, yamaç paraşütü, yelken, sörf, rüzgar sörfü, rafting, snowboarding, kızak, bungee
jumping, motor sporları)
( ) Diğer (Yazınız………………………………………………………...……)
( ) Spor yapmıyorum
10. Okulda hangi öğrenci kulübüne katılıyorsunuz? (Lütfen tek seçenek işaretleyiniz.)
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
) Kültür ve Edebiyat Kulübü
( ) Yayın ve İletişim Kulübü
) Müzik Kulübü
( ) Resim/Görsel Sanatlar Kulübü
) Bilişim ve İnternet Kulübü
( ) Halk Oyunları Kulübü
) Tiyatro Kulübü
( ) Kütüphanecilik Kulübü
) Sivil Savunma Kulübü
( ) Gezi, Tanıtma ve Turizm Kulübü
) Çevre Koruma Kulübü
( ) Satranç Kulübü
) Hayvanları Sevme ve Koruma Kulübü
( ) Yeşili Koruma Kulübü
) Spor Kulübü
( ) Havacılık Kulübü
) Bilim-Fen ve Teknoloji Kulübü
( )Trafik Güvenliği ve İlkyardım Kulübü
) Fotoğrafçılık Kulübü
( ) İzcilik Kulübü
) Bilinçli Tüketici Kulübü
( ) Kooperatifçilik Kulübü
) Meslek Tanıtma Kulübü
( ) Engellilerle Dayanışma Kulübü
) Çocuk Hakları Kulübü
( )Felsefe veya Düşünce Eğitimi Kulübü
) Denizcilik Kulübü
( ) Pulculuk Kulübü
) Sağlık, Temizlik, Beslenme ve Yeşilay Kulübü
) Demokrasi, İnsan Hakları ve Yurttaşlık Kulübü
) Sosyal Dayanışma ve Yardımlaşma, Çocuk Esirgeme, Kızılay ve Benzeri Kulüpler
) Kültür ve Tabiat Varlıklarını Koruma ve Okul Müzesi Kulübü
) Diğer (Yazınız.............................................................................................)
94
EK-1. (devam) Boş zamanları değerlendirme anketi
11. Evde ailenize en çok ne tür yardımlarda bulunursunuz? (Lütfen tek seçenek
işaretleyiniz.)
( ) Temizlik/Çamaşır/Bulaşık/Yemek/Ütü
( ) Kardeşlerinize bakmak
( ) Tamir işleri
( ) Alış-veriş yapmak
( ) Diğer (Yazınız………...……)
( ) Hiçbir yardımda bulunmam.
95
EK-2. Ebeveyn veri toplama formu
Adınız, Soyadınız
:
Çocuğunuzun Adı, Soyadı
:
Çocuğunuzun Devam Ettiği Okul :
Kod Numarası
:
Açıklama:
Sayın velimiz;
Bu anket siz (anne ve baba) ve çocuğunuz hakkında bir takım bilgileri toplamak için
yapılmaktadır. Anketin sonuçları, çocuğunuzun ilgi alanlarını tespit etmemizde bizlere
yardımcı olacaktır. Anketi anne, baba veya her ikisi birlikte doldurabilir. (Anne ve babanın
olmaması durumunda çocuğun velisi doldurmalıdır.) Lütfen her soruyu dikkatlice
okuyunuz. Cevaplardan hangi seçeneğin size en uygun veya en yakın olduğunu
kararlaştırınız. Kararınızı verdikten sonra yalnız bir seçeneğin solundaki parantezin içine
bir çarpı işareti koyunuz. Anketteki tüm soruları cevapladıktan sonra anketi uygulayan
kişiye iade ediniz. Cevaplarınızın gerçeğe uygun olmasına dikkat ediniz.
olduğunuz hassasiyete şimdiden teşekkür ederiz.
1. Çocuğunuzun cinsiyeti nedir?
( ) Kız
( ) Erkek
2. Çocuğunuzun okula devam konusundaki tutumu nasıldır?
( ) Okula devam konusunda isteklidir.
( ) Okula devam etmesi için kendisini takip etmem gerekir.
3. Çocuğunuzun çalışma alışkanlığı nasıldır?
( ) Düzenli çalışır, ödevlerini kendiliğinden yapar.
( ) Ödevlerini yapması ve ders çalışması için kendisini takip etmem gerekir.
4. Çocuğunuz özel okula mı devlet okuluna mı devam ediyor?
( ) Özel
( ) Devlet
Göstermiş
96
EK-2. (devam) Ebeveyn veri toplama formu
5. Çocuğunuz kimlerle vakit geçirmeyi tercih eder?
( ) Arkadaşlarıyla
( ) Kendi başına vakit geçirmekten hoşlanır.
( ) Aile bireyleriyle
6. Çocuğunuzun düzenli görüştüğü arkadaşlarının sayısı aşağıdaki aralıklardan
hangisine girmektedir?
( ) 1-2
( ) 5’ten fazla
( ) 3-5
( ) Düzenli görüştüğü arkadaşı yoktur.
7. Çocuğunuzun, en çok başarılı olduğunu düşündüğünüz ders aşağıdakilerden
hangisidir? (Lütfen tek madde işaretleyiniz.)
(
(
(
(
(
) Türkçe
) Sosyal Bilgiler
) Fen Bilimleri
) Yabancı Dil
) Beden Eğitimi ve Spor
(
(
(
(
) Matematik
) Müzik
) Resim/Heykel/El Sanatları
) Diğer (Yazınız……………...)
8. Çocuğun annesinin eğitim durumu aşağıdakilerden hangisidir?
( ) İlkokul
( ) Ortaokul
( ) Lise
( ) Üniversite (Lisans)/Yüksekokul
( ) Yüksek Lisans/Doktora
( ) Okula gidilmedi
9. Çocuğun babasının eğitim durumu aşağıdakilerden hangisidir?
( ) İlkokul
( ) Ortaokul
( ) Lise
( ) Üniversite (Lisans)/Yüksekokul
( ) Yüksek Lisans/Doktora
( ) Okula gidilmedi
10. Çocuğun anne ve babasının birliktelik durumu aşağıdakilerden hangisidir?
( ) Evli
( ) Anne Vefat
( ) Anne ve Baba Vefat
( ) Ayrılmış/Ayrı Yaşıyor
( ) Baba Vefat
97
EK-2. (devam) Ebeveyn veri toplama formu
11. Ailenin toplam geliri aşağıdaki aralıklardan hangisine girmektedir?
(
(
(
(
(
) 1000 TL ve aşağısı
) 1001-2000 TL arası
) 2001-3000 TL arası
) 3001-4000 TL arası
) 4001-5000 TL arası
(
(
(
(
(
) 5001-6000 TL arası
) 6001-7000 TL arası
) 7001-8000 TL arası
) 8001-9000 TL arası
) 9001 TL’den fazla
12. Çocuğun annesinin mesleği aşağıdakilerden hangisidir? (Anne emekli ise çalışılan
döneme ait mesleği işaretleyiniz.)
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
) Doktor/Diş Doktoru
( ) İşletmeci/İktisatçı/Bankacı
) Mimar
( ) Yönetici
) Psikolog
( ) İlahiyatçı
) Diplomat
( ) Halkla İlişkiler Uzmanı
) Siyasetçi
( ) Satış/Pazarlama/Tanıtım Elemanı
) Gazeteci
( ) Oyuncu/Sanatçı
) Müteahhit
( ) Eczacı
) Mühendis
( ) Çevirmen/Turizm Rehberi
) Öğretmen/Öğretim Üyesi
( ) Yazar
) Şoför
( ) İş Yeri Sahibi/Emlakçı
) Avukat/Savcı/Hâkim
( ) İşçi/Madenci
) Polis
( ) Sporcu
) Asker
( ) Büro Elemanı
) Müşteri Hizmetleri Personeli
( ) Kuaför/Berber/Güzellik Uzmanı
) Koruma
( ) Model/Manken
) Muhtar
( ) Bilişim Personeli
) Üretim Personeli
( ) Hizmet Personeli
) İnsan Kaynakları Sorumlusu
) Hemşire/Ebe/Hasta Bakıcı/Tıbbi Teknisyen/Sağlık Personeli
) Mali ve İdari İşler Personeli/Muhasebeci
) Fizik/Matematik/Kimya/İstatistik Bilimci
) El Sanatları Mesleği (Terzi, Marangoz, Çini sanatı, Hattatlık, Metal işleme vb. )
) Tarım/Hayvancılık/Avcılık/Ormancılık/Su Ürünleri Çalışanı
) Makine-Taşıt Operatörü/Montajcı
) Ev Hanımı
) Diğer (Yazınız………………………………………...……………………….)
98
EK-2. (devam) Ebeveyn veri toplama formu
13. Çocuğun babasının mesleği aşağıdakilerden hangisidir? (Baba emekli ise çalışılan
döneme ait mesleği işaretleyiniz.)
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
) Doktor/Diş Doktoru
( ) İşletmeci/İktisatçı/Bankacı
) Mimar
( ) Yönetici
) Psikolog
( ) İlahiyatçı
) Diplomat
( ) Halkla İlişkiler Uzmanı
) Siyasetçi
( ) Satış/Pazarlama/Tanıtım Elemanı
) Gazeteci
( ) Oyuncu/Sanatçı
) Müteahhit
( ) Eczacı
) Mühendis
( ) Çevirmen/Turizm Rehberi
) Öğretmen/Öğretim Üyesi
( ) Yazar
) Şoför
( ) İş Yeri Sahibi/Emlakçı
) Avukat/Savcı/Hâkim
( ) İşçi/Madenci
) Polis
( ) Sporcu
) Asker
( ) Büro Elemanı
) Müşteri Hizmetleri Personeli
( ) Kuaför/Berber/Güzellik Uzmanı
) Koruma
( ) Model/Manken
) Muhtar
( ) Bilişim Personeli
) Üretim Personeli
( ) Hizmet Personeli
) İnsan Kaynakları Sorumlusu
( ) İş Adamı
) Hemşire/Ebe/Hasta Bakıcı/Tıbbi Teknisyen/Sağlık Personeli
) Mali ve İdari İşler Personeli/Muhasebeci
) Fizik/Matematik/Kimya/İstatistik Bilimci
) El Sanatları Mesleği (Terzi, Marangoz, Çini sanatı, Hattatlık, Metal işleme vb. )
) Tarım/Hayvancılık/Avcılık/Ormancılık/Su Ürünleri Çalışanı
) Makine-Taşıt Operatörü/Montajcı
) Çalışmıyor
) Diğer (Yazınız…………………………………...…………………………….)
14. Kaç çocuğunuz var?
( )1
( )2
( )3
( )4
( )5
( ) 5’ten fazla
15. Annenin çocuğa karşı tutumu genellikle aşağıdakilerden hangi sınıfa girmektedir?
(
(
(
(
) Otoriter
) Aşırı koruyucu
) Aşırı hoşgörülü
) Kararsız
( ) İlgisiz
( ) Mükemmeliyetçi
( ) Demokratik
99
EK-2. (devam) Ebeveyn veri toplama formu
16. Babanın çocuğa karşı tutumu genellikle aşağıdakilerden hangi sınıfa girmektedir?
(
(
(
(
) Otoriter
) Aşırı koruyucu
) Aşırı hoşgörülü
) Kararsız
( ) İlgisiz
( ) Mükemmeliyetçi
( ) Demokratik
100
EK-3. WEKA analizlerinde kullanılan tabloların oluşturma SQL’leri
CREATE TABLE `ogrenciilgi` (
`id` int(11) NOT NULL,
`aa1` varchar(2) DEFAULT NULL,
`aa2` varchar(2) DEFAULT NULL,
`aa3` varchar(2) DEFAULT NULL,
`aa4` varchar(2) DEFAULT NULL,
`aa5` varchar(2) DEFAULT NULL,
`aa6` varchar(2) DEFAULT NULL,
`aa8` varchar(2) DEFAULT NULL,
`aa9` varchar(2) DEFAULT NULL,
`aa14` varchar(2) DEFAULT NULL,
`aa15` varchar(2) DEFAULT NULL,
`aa16` varchar(2) DEFAULT NULL,
`ilgialani1` varchar(70) DEFAULT NULL,
`tktc` varchar(1) DEFAULT NULL,
`wiscrc` varchar(1) DEFAULT NULL,
`aa7c` varchar(2) DEFAULT NULL,
`aa11c` varchar(2) DEFAULT NULL,
`aa12c` varchar(2) DEFAULT NULL,
`aa13c` varchar(2) DEFAULT NULL,
`bzda5c` varchar(2) DEFAULT NULL,
`bzda6c` varchar(2) DEFAULT NULL,
`bzda8c` varchar(2) DEFAULT NULL,
`bzda11c` varchar(2) DEFAULT NULL,
`aagosterge` int(11) DEFAULT NULL,
`bzdagosterge` int(11) DEFAULT NULL,
`bzda12-1` varchar(1) DEFAULT NULL,
`bzda12-2` varchar(1) DEFAULT NULL,
`bzda12-3` varchar(1) DEFAULT NULL,
`bzda12-4` varchar(1) DEFAULT NULL,
`bzda12-5` varchar(1) DEFAULT NULL,
`bzda12-6` varchar(1) DEFAULT NULL,
101
EK-3. (devam) WEKA analizlerinde kullanılan tabloların oluşturma SQL’leri
`bzda12-7` varchar(1) DEFAULT NULL,
`bzda12-12` varchar(1) DEFAULT NULL,
`bzda12-16` varchar(1) DEFAULT NULL,
`bzda12-17` varchar(1) DEFAULT NULL,
`bzda12-19` varchar(1) DEFAULT NULL,
`bzda3-1` varchar(1) DEFAULT NULL,
`bzda3-2` varchar(1) DEFAULT NULL,
`bzda3-3` varchar(1) DEFAULT NULL,
`bzda3-4` varchar(1) DEFAULT NULL,
`bzda3-5` varchar(1) DEFAULT NULL,
`bzda3-6` varchar(1) DEFAULT NULL,
`bzda3-7` varchar(1) DEFAULT NULL,
`bzda3-8` varchar(1) DEFAULT NULL,
`bzda3-11` varchar(1) DEFAULT NULL,
`bzda3-12` varchar(1) DEFAULT NULL,
`bzda3-21` varchar(1) DEFAULT NULL,
`bzda4-1` varchar(1) DEFAULT NULL,
`bzda4-2` varchar(1) DEFAULT NULL,
`bzda4-3` varchar(1) DEFAULT NULL,
`bzda4-4` varchar(1) DEFAULT NULL,
`bzda4-7` varchar(1) DEFAULT NULL,
`bzda4-8` varchar(1) DEFAULT NULL,
`bzda4-12` varchar(1) DEFAULT NULL,
`bzda4-13` varchar(1) DEFAULT NULL,
`bzda4-14` varchar(1) DEFAULT NULL,
`bzda7-1` varchar(1) DEFAULT NULL,
`bzda7-2` varchar(1) DEFAULT NULL,
`bzda7-3` varchar(1) DEFAULT NULL,
`bzda7-4` varchar(1) DEFAULT NULL,
`bzda7-5` varchar(1) DEFAULT NULL,
`bzda7-6` varchar(1) DEFAULT NULL,
`bzda7-7` varchar(1) DEFAULT NULL,
102
EK-3. (devam) WEKA analizlerinde kullanılan tabloların oluşturma SQL’leri
`bzda7-12` varchar(1) DEFAULT NULL,
`bzda7-13` varchar(1) DEFAULT NULL,
`bzda7-14` varchar(1) DEFAULT NULL,
`bzda7-17` varchar(1) DEFAULT NULL,
`bzda9-1` varchar(1) DEFAULT NULL,
`bzda9-2` varchar(1) DEFAULT NULL,
`bzda9-3` varchar(1) DEFAULT NULL,
`bzda9-15` varchar(1) DEFAULT NULL,
`bzda9-16` varchar(1) DEFAULT NULL,
`bzda9-17` varchar(1) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8$$
CREATE TABLE `ilgialani` (
`ilgialani1` varchar(70) DEFAULT NULL,
`ilgialani2` varchar(70) DEFAULT NULL,
`ilgialani3` varchar(70) DEFAULT NULL,
`yabancidil` varchar(1) DEFAULT NULL,
`fenbilimleri` varchar(1) DEFAULT NULL,
`mekanik` varchar(1) DEFAULT NULL,
`sosyalbilimler` varchar(1) DEFAULT NULL,
`ticaret` varchar(1) DEFAULT NULL,
`ikna` varchar(1) DEFAULT NULL,
`muzik` varchar(1) DEFAULT NULL,
`sanat` varchar(1) DEFAULT NULL,
`isayrintilari` varchar(1) DEFAULT NULL,
`sosyalyardim` varchar(1) DEFAULT NULL,
`ziraat` varchar(1) DEFAULT NULL,
`edebiyat` varchar(1) DEFAULT NULL,
`id` int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8$$
103
EK-4. Part algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.rules.PART -M 2 -C 0.25 -Q 1
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
104
EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı
bzda12-5
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
105
EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı
bzda7-6
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
PART decision list
------------------
bzda7-12 = 1: TICARET (17.15/0.15)
bzda7-5 = 1: SOSYAL BILIMLER (11.1/0.1)
bzda12-17 = 0 AND
bzda9-15 = 1 AND
bzda12-4 = 1: MUZIK (6.05/0.05)
bzda12-17 = 0 AND
bzda12-2 = 0 AND
aa7c = 4: YABANCI DIL (14.41/4.01)
bzda12-17 = 0 AND
bzda12-2 = 0 AND
106
EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı
bzda3-5 = 1 AND
bzda12-1 = 0: FEN BILIMLERI (7.68/2.8)
bzda12-17 = 0 AND
bzda3-5 = 0 AND
bzda12-2 = 0 AND
bzda6c = 2: FEN BILIMLERI (17.14/1.18)
bzda12-17 = 0 AND
bzda3-5 = 0 AND
bzda12-2 = 0 AND
bzda7-4 = 0 AND
bzda6c = 1 AND
bzda3-6 = 0: FEN BILIMLERI (10.59/1.34)
bzda12-17 = 0 AND
bzda3-5 = 0 AND
bzda12-2 = 0 AND
bzda7-4 = 0 AND
bzda6c = 9: MEKANIK (7.16/0.36)
bzda12-17 = 0 AND
bzda3-5 = 0 AND
bzda12-2 = 0 AND
bzda3-4 = 0 AND
bzda12-1 = 1: FEN BILIMLERI (5.8/1.8)
bzda12-17 = 1: SOSYAL YARDIM (5.05/0.05)
bzda3-5 = 1: SANAT (4.65/0.05)
bzda12-2 = 0 AND
107
EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı
bzda3-4 = 0: EDEBIYAT (2.16/0.16)
aa8 = 4: IS AYRINTILARI (2.04/0.04)
: ZIRAAT (2.0)
Number of Rules :
14
Time taken to build model: 0.03 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
92
81.4159 %
Incorrectly Classified Instances
21
18.5841 %
Kappa statistic
0.7704
Mean absolute error
0.0435
Root mean squared error
0.1634
Relative absolute error
30.7428 %
Root relative squared error
61.6353 %
Total Number of Instances
113
108
EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı
Resim 4.1. Part algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
109
EK-5. Ridor algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.rules.Ridor -F 3 -S 1 -N 2.0
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
110
EK-5. (devam) Ridor algoritması sınıflandırma analizi çıktısı
bzda12-5
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
111
EK-5. (devam) Ridor algoritması sınıflandırma analizi çıktısı
bzda7-6
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
RIpple DOwn Rule Learner(Ridor) rules
--------------------------------------
ilgialani1 = SOSYAL BILIMLER (113.0/102.0)
Except (bzda7-5 = 0) => ilgialani1 = TICARET (67.0/0.0) [34.0/0.0]
Except (bzda7-12 = 0) => ilgialani1 = SOSYAL YARDIM (56.0/0.0) [28.0/0.0]
Except (bzda12-17 = 0) => ilgialani1 = MUZIK (53.0/0.0) [26.0/0.0]
Except (bzda9-15 = 0) => ilgialani1 = SANAT (46.0/0.0) [24.0/0.0]
Except (bzda3-5 = 0) => ilgialani1 = FEN BILIMLERI (38.0/0.0) [18.0/0.0]
Except (bzda9-3 = 1) and (bzda7-6 = 0) and (bzda12-1 = 0) => ilgialani1 =
YABANCI DIL (7.0/0.0) [4.0/2.0]
Except (aa7c = 4) => ilgialani1 = YABANCI DIL (5.0/0.0) [2.0/0.0]
Except (bzda5c = 2) => ilgialani1 = FEN BILIMLERI (4.0/0.0) [1.0/0.0]
Total number of rules (incl. the default rule): 9
Time taken to build model: 0.05 seconds
112
EK-5. (devam) Ridor algoritması sınıflandırma analizi çıktısı
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
77
68.1416 %
Incorrectly Classified Instances
36
31.8584 %
Kappa statistic
0.6137
Mean absolute error
0.0531
Root mean squared error
0.2304
Relative absolute error
37.5429 %
Root relative squared error
86.9321 %
Total Number of Instances
113
Resim 5.1. Ridor algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
113
EK-6. DecisionTable algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.rules.DecisionTable -X 1 -S "weka.attributeSelection.BestFirst -D
1 -N 5"
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
114
EK-6. (devam) DecisionTable algoritması sınıflandırma analizi çıktısı
bzda12-4
bzda12-5
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
115
EK-6. (devam) DecisionTable algoritması sınıflandırma analizi çıktısı
bzda7-5
bzda7-6
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
Decision Table:
Number of training instances: 113
Number of Rules : 23
Non matches covered by Majority class.
Best first.
Start set: no attributes
Search direction: forward
Stale search after 5 node expansions
Total number of subsets evaluated: 651
Merit of best subset found: 65.487
Evaluation (for feature selection): CV (leave one out)
Feature set: 15,32,55,58,61,12
Time taken to build model: 0.75 seconds
116
EK-6. (devam) DecisionTable algoritması sınıflandırma analizi çıktısı
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
70
61.9469 %
Incorrectly Classified Instances
43
38.0531 %
Kappa statistic
0.5027
Mean absolute error
0.1228
Root mean squared error
0.2346
Relative absolute error
86.7957 %
Root relative squared error
88.5039 %
Total Number of Instances
113
Resim 6.1. DecisionTable algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
117
EK-7. JRip algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
118
EK-7. (devam) JRip algoritması sınıflandırma analizi çıktısı
bzda12-5
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
119
EK-7. (devam) JRip algoritması sınıflandırma analizi çıktısı
bzda7-6
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
JRIP rules:
===========
(bzda12-2 = 1) => ilgialani1=IS AYRINTILARI (2.0/0.0)
(bzda7-4 = 1) and (bzda4-8 = 1) => ilgialani1=IKNA (2.0/0.0)
(aa13c = 5) and (bzda5c = 2) => ilgialani1=EDEBIYAT (2.0/0.0)
(bzda12-17 = 1) => ilgialani1=SOSYAL YARDIM (5.0/0.0)
(bzda11c = 7) => ilgialani1=ZIRAAT (5.0/0.0)
(bzda9-15 = 1) and (bzda12-4 = 1) => ilgialani1=MUZIK (6.0/0.0)
(bzda3-5 = 1) and (bzda5c = 9) => ilgialani1=SANAT (4.0/0.0)
(bzda6c = 9) => ilgialani1=MEKANIK (8.0/0.0)
(bzda7-5 = 1) => ilgialani1=SOSYAL BILIMLER (11.0/0.0)
(aa7c = 4) => ilgialani1=YABANCI DIL (10.0/0.0)
(bzda7-12 = 1) => ilgialani1=TICARET (17.0/0.0)
=> ilgialani1=FEN BILIMLERI (41.0/5.0)
120
EK-7. (devam) JRip algoritması sınıflandırma analizi çıktısı
Number of Rules : 12
Time taken to build model: 0.17 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
97
85.8407 %
Incorrectly Classified Instances
16
14.1593 %
Kappa statistic
0.8256
Mean absolute error
0.0317
Root mean squared error
0.1423
Relative absolute error
22.3844 %
Root relative squared error
53.6683 %
Total Number of Instances
113
121
EK-7. (devam) JRip algoritması sınıflandırma analizi çıktısı
Resim 7.1. JRip algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
122
EK-8. BFTree algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.trees.BFTree -S 1 -M 2 -N 5 -C 1.0 -P POSTPRUNED
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
123
EK-8. (devam) BFTree algoritması sınıflandırma analizi çıktısı
bzda12-5
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
124
EK-8. (devam) BFTree algoritması sınıflandırma analizi çıktısı
bzda7-6
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
Best-First Decision Tree
bzda7-12=(1): TICARET(17.0/0.15)
bzda7-12!=(1)
| bzda7-5=(1): SOSYAL BILIMLER(11.0/0.1)
| bzda7-5!=(1)
| | bzda6c=(9)
| | | bzda11c=(7)|(2): ZIRAAT(0.2/0.21)
| | | bzda11c!=(7)|(2): MEKANIK(8.0/0.17)
| | bzda6c!=(9)
| | | aa7c=(4)
| | | | aa13c=(1)|(12)|(6)|(2)|(4)|(10)|(13)|(8)|(46)|(3)|(26): YABANCI DIL(10.32/1.72)
| | | | aa13c!=(1)|(12)|(6)|(2)|(4)|(10)|(13)|(8)|(46)|(3)|(26): ZIRAAT(0.9/0.18)
| | | aa7c!=(4)
| | | | bzda12-17=(1): SOSYAL YARDIM(5.0/0.05)
| | | | bzda12-17!=(1)
125
EK-8. (devam) BFTree algoritması sınıflandırma analizi çıktısı
| | | | | bzda5c=(9)|(4): SANAT(4.89/0.21)
| | | | | bzda5c!=(9)|(4)
| | | | | | bzda11c=(7): ZIRAAT(3.9/0.18)
| | | | | | bzda11c!=(7)
| | | | | | | bzda9-15=(1)
| | | | | | | | bzda12-4=(1): MUZIK(5.66/0.06)
| | | | | | | | bzda12-4!=(1): FEN BILIMLERI(2.02/0.0)
| | | | | | | bzda9-15!=(1)
| | | | | | | | bzda12-2=(1): IS AYRINTILARI(1.82/0.02)
| | | | | | | | bzda12-2!=(1)
| | | | | | | | | aa13c=(3)|(26)|(1)|(12)|(2)|(6)|(4)|(46)|(10)|(13)|(8): FEN
BILIMLERI(31.67/4.95)
| | | | | | | | | aa13c!=(3)|(26)|(1)|(12)|(2)|(6)|(4)|(46)|(10)|(13)|(8): EDEBIYAT(2.0/0.6)
Size of the Tree: 27
Number of Leaf Nodes: 14
Time taken to build model: 2.79 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
92
81.4159 %
Incorrectly Classified Instances
21
18.5841 %
Kappa statistic
0.7712
Mean absolute error
0.0401
Root mean squared error
0.1575
Relative absolute error
28.3773 %
Root relative squared error
59.4176 %
Total Number of Instances
113
126
EK-8. (devam) BFTree algoritması sınıflandırma analizi çıktısı
Resim 8.1. BFTree algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
127
EK-9. FT algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.trees.FT -I 15 -F 0 -M 15 -W 0.0
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
128
EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı
bzda12-5
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
129
EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı
bzda7-6
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
FT tree
-----------------: FT_1:15/15 (113)
Number of Leaves : 1
Size of the Tree :
FT_1:
Class 0 :
-3.96 +
[tktc=a] * 2.8 +
[tktc=d] * 3.47 +
[aa7c=4] * 10.21 +
[aa13c=1] * 1.61 +
[bzda8c=3] * 2.52 +
[bzda4-7] * 1.22 +
1
130
EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı
[bzda7-6] * -1.27 +
[bzda7-7] * -1.26
Class 1 :
3.1 +
[tktc=b] * 0.69 +
[tktc=d] * -1.35 +
[aa7c=4] * -3.84 +
[aa12c=25] * -1.59 +
[aa12c=1] * 0.99 +
[bzda5c=1] * 1.01 +
[bzda11c=2] * -0.93 +
[bzda3-1] * 0.94 +
[bzda3-5] * -1.67 +
[bzda4-1] * -1.01 +
[bzda7-12] * -2.65
Class 2 :
-13.88 +
[bzda6c=9] * 30.52
Class 3 :
-13.88 +
[bzda7-5] * 30.26
Class 4 :
-13.88 +
[bzda7-12] * 29.92
Class 5 :
-12.08 +
[aa8=2] * 5.09 +
131
EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı
[tktc=c] * 1.94 +
[bzda5c=1] * -1.54 +
[bzda4-8] * 4.27 +
[bzda7-4] * 10.15 +
[bzda9-3] * 2.87
Class 6 :
-9.11 +
[aa13c=1] * -1.54 +
[bzda5c=2] * -1.42 +
[bzda8c=4] * 1.33 +
[bzda12-4] * 6.87 +
[bzda3-3] * 1.3 +
[bzda7-2] * -1.62 +
[bzda9-15] * 10.38
Class 7 :
-3.33 +
[aa6=1] * 2.16 +
[bzda5c=9] * 7.43 +
[bzda6c=2] * 0.99 +
[bzda11c=1] * -1.18 +
[bzda12-12] * -1.45 +
[bzda3-5] * 5.23 +
[bzda4-2] * -3.94 +
[bzda4-3] * 1.46
Class 8 :
-13.88 +
[bzda12-2] * 30.22
Class 9 :
132
EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı
-13.88 +
[bzda12-17] * 30.21
Class 10 :
-13.88 +
[bzda11c=7] * 30.63
Class 11 :
-10.5 +
[aa9=4] * -1.57 +
[aa9=2] * 2.6 +
[aa12c=25] * 1.64 +
[aa13c=5] * 14.38 +
[bzda8c=7] * 3.17 +
[bzda12-6] * -1.48 +
[bzda3-6] * 3.17
Time taken to build model: 1.5 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
96
84.9558 %
Incorrectly Classified Instances
17
15.0442 %
Kappa statistic
0.8174
Mean absolute error
0.0283
Root mean squared error
0.1529
Relative absolute error
20.006 %
Root relative squared error
57.6816 %
Total Number of Instances
113
133
EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı
Resim 9.1. FT algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
134
EK-10. J48 algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
135
EK-10. (devam) J48 algoritması sınıflandırma analizi çıktısı
bzda12-5
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
136
EK-10. (devam) J48 algoritması sınıflandırma analizi çıktısı
bzda7-6
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
J48 pruned tree
------------------
bzda7-12 = 0
| bzda7-5 = 0
| | bzda12-17 = 0
| | | bzda9-15 = 0
| | | | bzda12-2 = 0
| | | | | aa7c = 4: YABANCI DIL (13.33/2.94)
| | | | | aa7c = 3
| | | | | | bzda3-5 = 0
| | | | | | | bzda6c = 2: FEN BILIMLERI (16.93/1.16)
| | | | | | | bzda6c = 9: MEKANIK (6.11/0.41)
| | | | | | | bzda6c = 1: FEN BILIMLERI (10.07/2.97)
| | | | | | | bzda6c = 14: FEN BILIMLERI (0.0)
| | | | | | | bzda6c = 12: FEN BILIMLERI (2.89/1.08)
137
EK-10. (devam) J48 algoritması sınıflandırma analizi çıktısı
| | | | | | | bzda6c = 5: FEN BILIMLERI (1.07/0.03)
| | | | | | | bzda6c = 10: FEN BILIMLERI (0.0)
| | | | | | bzda3-5 = 1
| | | | | | | bzda12-1 = 1: SANAT (4.46/0.06)
| | | | | | | bzda12-1 = 0
| | | | | | | | bzda12-4 = 0: FEN BILIMLERI (3.04)
| | | | | | | | bzda12-4 = 1: SANAT (3.44/1.44)
| | | | | aa7c = 7: MEKANIK (2.42/1.39)
| | | | | aa7c = 8: FEN BILIMLERI (2.42/1.21)
| | | | | aa7c = 2: FEN BILIMLERI (1.21/0.11)
| | | | | aa7c = 1: EDEBIYAT (1.21/0.21)
| | | | bzda12-2 = 1: IS AYRINTILARI (2.02/0.02)
| | | bzda9-15 = 1
| | | | bzda12-4 = 0: FEN BILIMLERI (3.03/1.0)
| | | | bzda12-4 = 1: MUZIK (6.05/0.05)
| | bzda12-17 = 1: SOSYAL YARDIM (5.04/0.04)
| bzda7-5 = 1: SOSYAL BILIMLER (11.1/0.1)
bzda7-12 = 1: TICARET (17.15/0.15)
Number of Leaves : 21
Size of the tree :
32
Time taken to build model: 0.27 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
90
79.646 %
Incorrectly Classified Instances
23
20.354 %
Kappa statistic
0.7499
Mean absolute error
0.0488
138
EK-10. (devam) J48 algoritması sınıflandırma analizi çıktısı
Root mean squared error
0.1703
Relative absolute error
34.4989 %
Root relative squared error
64.2665 %
Total Number of Instances
113
Resim 10.1. J48 algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
139
EK-11. LADTree algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.trees.LADTree -B 10
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
140
EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı
bzda12-5
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
141
EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı
bzda7-6
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
weka.classifiers.trees.LADTree:
: 0,0,0,0,0,0,0,0,0,0,0,0
| (1)bzda7-12 = 0: 0.531,2.089,0.128,0.435,-0.881,-0.598,-0.096,0.018,-0.598,-0.214,0.214,-0.598
| | (7)bzda9-15 = 0: 0.28,0.362,0.047,0.414,-0.846,0.297,-0.915,0.277,0.296,0.012,0.518,0.293
| | (7)bzda9-15 = 1: -0.57,-0.8,0.844,0.357,-0.475,-0.485,3.6,-0.569,-0.48,-0.465,-0.475,0.482
| | (8)bzda3-5 = 0: 0.033,0.489,0.32,0.305,-0.864,0.445,-0.956,0.961,0.431,0.249,0.079,0.43
| | (8)bzda3-5 = 1: 0.804,-0.623,-0.465,0.415,-0.457,-0.482,-0.036,2.719,-0.479,-0.458,0.46,-0.479
| | | (10)bzda5c = 2: 2.219,3.25,-0.338,-0.34,-0.339,-0.344,-0.347,-2.399,-0.345,-0.337,0.338,-0.342
142
EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı
| | | (10)bzda5c != 2: -0.411,0.214,-0.361,0.647,-0.362,-0.366,0.893,1.198,-0.371,-0.36,0.361,-0.361
| (1)bzda7-12 = 1: -0.389,-0.389,-0.389,-0.389,4.278,-0.389,-0.389,-0.389,-0.389,-0.389,0.389,-0.389
| (2)bzda7-5 = 0: 0.405,-0.115,0.366,-0.998,-0.089,-0.208,0.285,0.333,0.208,0.218,0.218,-0.208
| | (4)bzda6c = 9: -1.286,-1.132,4.4,-0.201,-0.2,-0.199,-0.238,-0.252,-0.206,-0.246,0.233,-0.206
| | (4)bzda6c != 9: -0.102,0.246,-0.931,-0.87,0.275,0.539,0.498,0.299,-0.272,0.212,0.096,0.202
| | (5)bzda12-17 = 0: -0.138,0.176,-0.476,-0.847,0.151,0.208,0.193,0.332,0.577,0.9,0.544,0.179
| | (5)bzda12-17 = 1: -0.28,-1.494,-0.276,-0.255,-0.269,-0.271,-0.328,-0.33,-0.265,4.334,0.29,-0.274
| (2)bzda7-5 = 1: -0.378,-1.023,-0.344,4.301,-0.304,-0.311,-0.331,-0.337,-0.311,-0.325,0.325,-0.311
| (3)aa7c = 4: 3.662,-1.041,0.409,-0.477,-0.467,-0.47,-0.512,-0.524,-0.47,-0.5,0.859,-0.47
| (3)aa7c != 4: -1.019,0.474,0.118,-0.433,0.078,0.277,0.017,0.075,0.211,0.379,0.166,0.211
| (6)bzda11c = 7: -1.973,-1.352,-0.122,-0.098,-0.113,-0.115,-0.17,-0.187,-0.122,0.117,4.489,-0.119
| (6)bzda11c != 7: 0.234,0.075,-0.074,0.74,0.058,0.125,0.132,0.139,0.144,-0.717,0.969,0.113
| (9)aa13c = 5: -0.539,-2.463,-0.511,-0.501,-0.499,-0.522,1.653,-0.522,-0.523,0.503,0.994,3.934
| (9)aa13c != 5: 0.071,0.356,0.15,0.26,0.749,-0.122,-0.187,-0.763,0.336,-0.002,0.058,0.906
Legend: YABANCI DIL, FEN BILIMLERI, MEKANIK, SOSYAL BILIMLER,
TICARET, IKNA, MUZIK, SANAT, IS AYRINTILARI, SOSYAL YARDIM, ZIRAAT,
EDEBIYAT
#Tree size (total): 31
#Tree size (number of predictor nodes): 21
143
EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı
#Leaves (number of predictor nodes): 17
#Expanded nodes: 100
#Processed examples: 5750
#Ratio e/n: 57.5
Time taken to build model: 1.01 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
91
80.531 %
Incorrectly Classified Instances
22
19.469 %
Kappa statistic
0.7627
Mean absolute error
0.0468
Root mean squared error
0.1588
Relative absolute error
33.0774 %
Root relative squared error
59.9024 %
Total Number of Instances
113
144
EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı
Resim 11.1. LADTree algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
145
EK-12. SimpleCart algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.trees.SimpleCart -S 1 -M 2.0 -N 5 -C 1.0
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
bzda12-5
146
EK-12. (devam) SimpleCart algoritması sınıflandırma analizi çıktısı
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
bzda7-6
147
EK-12. (devam) SimpleCart algoritması sınıflandırma analizi çıktısı
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
CART Decision Tree
bzda7-12=(1): TICARET(17.0/0.15)
bzda7-12!=(1)
| bzda7-5=(1): SOSYAL BILIMLER(11.0/0.09)
| bzda7-5!=(1)
| | bzda6c=(9): MEKANIK(8.0/0.58)
| | bzda6c!=(9)
| | | aa7c=(4): YABANCI DIL(10.34/2.77)
| | | aa7c!=(4)
| | | | bzda12-17=(1): SOSYAL YARDIM(5.0/0.05)
| | | | bzda12-17!=(1)
| | | | | bzda5c=(9)|(4): SANAT(4.89/0.21)
| | | | | bzda5c!=(9)|(4)
| | | | | | bzda11c=(7): ZIRAAT(3.89/0.18)
| | | | | | bzda11c!=(7)
| | | | | | | bzda9-15=(1): MUZIK(5.65/2.08)
148
EK-12. (devam) SimpleCart algoritması sınıflandırma analizi çıktısı
| | | | | | | bzda9-15!=(1): FEN BILIMLERI(32.08/8.98)
Number of Leaf Nodes: 9
Size of the Tree: 17
Time taken to build model: 0.97 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
97
85.8407 %
Incorrectly Classified Instances
16
14.1593 %
Kappa statistic
0.8255
Mean absolute error
0.0406
Root mean squared error
0.1444
Relative absolute error
28.7168 %
Root relative squared error
54.459 %
Total Number of Instances
113
149
EK-12. (devam) SimpleCart algoritması sınıflandırma analizi çıktısı
Resim 12.1. SimpleCart algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
150
EK-13. NaiveBayes algoritması sınıflandırma analizi çıktısı
=== Run information ===
Scheme:weka.classifiers.bayes.NaiveBayes
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25
Instances:
113
Attributes: 70
aa1
aa2
aa3
aa4
aa5
aa6
aa8
aa9
aa14
aa15
aa16
ilgialani1
tktc
wiscrc
aa7c
aa11c
aa12c
aa13c
bzda5c
bzda6c
bzda8c
bzda11c
bzda12-1
bzda12-2
bzda12-3
bzda12-4
bzda12-5
151
EK-13. (devam) NaiveBayes algoritması sınıflandırma analizi çıktısı
bzda12-6
bzda12-7
bzda12-12
bzda12-16
bzda12-17
bzda12-19
bzda3-1
bzda3-2
bzda3-3
bzda3-4
bzda3-5
bzda3-6
bzda3-7
bzda3-8
bzda3-11
bzda3-12
bzda3-21
bzda4-1
bzda4-2
bzda4-3
bzda4-4
bzda4-7
bzda4-8
bzda4-12
bzda4-13
bzda4-14
bzda7-1
bzda7-2
bzda7-3
bzda7-4
bzda7-5
bzda7-6
152
EK-13. (devam) NaiveBayes algoritması sınıflandırma analizi çıktısı
bzda7-7
bzda7-12
bzda7-13
bzda7-14
bzda7-17
bzda9-1
bzda9-2
bzda9-3
bzda9-15
bzda9-16
bzda9-17
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
Naive Bayes Classifier
Time taken to build model: 0.06 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
56
49.5575 %
Incorrectly Classified Instances
57
50.4425 %
Kappa statistic
0.3167
Mean absolute error
0.0924
Root mean squared error
0.2643
Relative absolute error
65.3112 %
Root relative squared error
99.6997 %
Total Number of Instances
113
153
EK-13. (devam) NaiveBayes algoritması sınıflandırma analizi çıktısı
Resim 13.1. NaiveBayes algoritması için sınıf bazında detaylı doğruluk ve hata matrisi
154
EK-14. Apriori algoritması birliktelik analizi çıktısı
=== Run information ===
Scheme:
weka.associations.Apriori -I -N 10 -T 0 -C 0.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -
c -1
Relation:
QueryResult-weka.filters.unsupervised.attribute.Remove-R1-3,16
Instances:
113
Attributes: 12
yabancidil
fenbilimleri
mekanik
sosyalbilimler
ticaret
ikna
muzik
sanat
isayrintilari
sosyalyardim
ziraat
edebiyat
=== Associator model (full training set) ===
Apriori
=======
Minimum support: 0.1 (11 instances)
Minimum metric <confidence>: 0.5
Number of cycles performed: 18
Generated sets of large itemsets:
Size of set of large itemsets L(1): 12
Large Itemsets L(1):
155
EK-14. (devam) Apriori algoritması birliktelik analizi çıktısı
yabancidil=Y 45
fenbilimleri=Y 59
mekanik=Y 26
sosyalbilimler=Y 32
ticaret=Y 32
ikna=Y 11
muzik=Y 22
sanat=Y 24
isayrintilari=Y 19
sosyalyardim=Y 25
ziraat=Y 17
edebiyat=Y 27
Size of set of large itemsets L(2): 6
Large Itemsets L(2):
yabancidil=Y fenbilimleri=Y 19
yabancidil=Y sanat=Y 12
fenbilimleri=Y mekanik=Y 17
fenbilimleri=Y sosyalbilimler=Y 20
fenbilimleri=Y ticaret=Y 11
ticaret=Y edebiyat=Y 11
Best rules found:
1. mekanik=Y 26 ==> fenbilimleri=Y 17
conf:(0.65)
2. sosyalbilimler=Y 32 ==> fenbilimleri=Y 20
3. sanat=Y 24 ==> yabancidil=Y 12
conf:(0.5)
conf:(0.63)
156
EK-15. İlgi alanı analiz sistemi tabloları oluşturma SQL’leri
CREATE TABLE `siniflandirmaanalizi` (
`ad` varchar(70) NOT NULL,
`soyad` varchar(100) NOT NULL,
`babaadi` varchar(70) NOT NULL,
`ilgialani1` varchar(70) DEFAULT NULL,
`ilgialani2` varchar(70) DEFAULT NULL,
`aa7c` varchar(2) DEFAULT NULL,
`aa13c` varchar(2) DEFAULT NULL,
`bzda5c` varchar(2) DEFAULT NULL,
`bzda6c` varchar(2) DEFAULT NULL,
`bzda11c` varchar(2) DEFAULT NULL,
`bzda12-1` varchar(1) DEFAULT NULL,
`bzda12-2` varchar(1) DEFAULT NULL,
`bzda12-3` varchar(1) DEFAULT NULL,
`bzda12-4` varchar(1) DEFAULT NULL,
`bzda12-5` varchar(1) DEFAULT NULL,
`bzda12-6` varchar(1) DEFAULT NULL,
`bzda12-7` varchar(1) DEFAULT NULL,
`bzda12-12` varchar(1) DEFAULT NULL,
`bzda12-16` varchar(1) DEFAULT NULL,
`bzda12-17` varchar(1) DEFAULT NULL,
`bzda12-19` varchar(1) DEFAULT NULL,
`bzda3-1` varchar(1) DEFAULT NULL,
`bzda3-2` varchar(1) DEFAULT NULL,
`bzda3-3` varchar(1) DEFAULT NULL,
`bzda3-4` varchar(1) DEFAULT NULL,
`bzda3-5` varchar(1) DEFAULT NULL,
`bzda3-6` varchar(1) DEFAULT NULL,
`bzda3-7` varchar(1) DEFAULT NULL,
`bzda3-8` varchar(1) DEFAULT NULL,
`bzda3-11` varchar(1) DEFAULT NULL,
`bzda3-12` varchar(1) DEFAULT NULL,
157
EK-15. (devam) İlgi alanı analiz sistemi tabloları oluşturma SQL’leri
`bzda3-21` varchar(1) DEFAULT NULL,
`bzda4-1` varchar(1) DEFAULT NULL,
`bzda4-2` varchar(1) DEFAULT NULL,
`bzda4-3` varchar(1) DEFAULT NULL,
`bzda4-4` varchar(1) DEFAULT NULL,
`bzda4-7` varchar(1) DEFAULT NULL,
`bzda4-8` varchar(1) DEFAULT NULL,
`bzda4-12` varchar(1) DEFAULT NULL,
`bzda4-13` varchar(1) DEFAULT NULL,
`bzda4-14` varchar(1) DEFAULT NULL,
`bzda7-1` varchar(1) DEFAULT NULL,
`bzda7-2` varchar(1) DEFAULT NULL,
`bzda7-3` varchar(1) DEFAULT NULL,
`bzda7-4` varchar(1) DEFAULT NULL,
`bzda7-5` varchar(1) DEFAULT NULL,
`bzda7-6` varchar(1) DEFAULT NULL,
`bzda7-7` varchar(1) DEFAULT NULL,
`bzda7-12` varchar(1) DEFAULT NULL,
`bzda7-13` varchar(1) DEFAULT NULL,
`bzda7-14` varchar(1) DEFAULT NULL,
`bzda7-17` varchar(1) DEFAULT NULL,
`bzda9-1` varchar(1) DEFAULT NULL,
`bzda9-2` varchar(1) DEFAULT NULL,
`bzda9-3` varchar(1) DEFAULT NULL,
`bzda9-15` varchar(1) DEFAULT NULL,
`bzda9-16` varchar(1) DEFAULT NULL,
`bzda9-17` varchar(1) DEFAULT NULL,
PRIMARY KEY (`ad`,`soyad`,`babaadi`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8$$
158
EK-15. (devam) İlgi alanı analiz sistemi tabloları oluşturma SQL’leri
CREATE TABLE `birliktelikanalizi` (
`birincililgialani` varchar(70) NOT NULL,
`ikincililgialani` varchar(70) DEFAULT NULL,
PRIMARY KEY (`birincililgialani`)
)
ENGINE=InnoDB
DEFAULT
CHARSET=utf8$$
159
EK-16. İlgi alanı analiz sistemi kodları
Tez CD’si içerisinde sunulmuştur.
160
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, adı
: ÇÖLLÜOĞLU GÜLEN, Özgün
Uyruğu
: T.C.
Doğum tarihi ve yeri
: 27/11/1977 Aydın
Medeni hali
: Evli
Telefon
: 0 (532) 516 50 32
e-mail
: [email protected]
Eğitim Derecesi
Okul/Program
Mezuniyet yılı
Yüksek Lisans
ODTÜ /Bilgisayar Mühendisliği
2002
Lisans
ODTÜ /Bilgisayar Mühendisliği
1999
Lise
Aydın Lisesi
1994
İş Deneyimi, Yıl
Çalıştığı Yer
Görev
2010- devam ediyor
Başbakanlık
KKP Yazılım Sorumlusu
2005-2010
EES
Proje Yöneticisi
2002-2005
Aselsan
Takım Lideri
2002-2002
Şekerbank
Yazılım Uzmanı
1999-2002
MilSOFT
Yazılım Uzmanı
1999-1999
Ericsson
Yazılım Uzmanı
Yabancı Dili
İngilizce
Yayınlar
1. Çöllüoğlu Gülen, Ö., Özdemir, S. (2013). Veri Madenciliği Teknikleri İle Üstün
Yetenekli Öğrencilerin İlgi Alanlarının Analizi Üstün Yetenekliler Eğitimi
Araştırmaları Dergisi /Journal of Gifted Education Research. 1 (3).
Hobiler
Kitap okumak, akupresür
GAZİ GELECEKTİR….
Download