VERİ MADENCİLİĞİ TEKNİKLERİ İLE ÜSTÜN YETENEKLİ ÖĞRENCİLERİN İLGİ ALANLARININ ANALİZİ Özgün ÇÖLLÜOĞLU GÜLEN DOKTORA TEZİ YÖNETİM BİLİŞİM SİSTEMLERİ ANA BİLİM DALI GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ NİSAN 2014 Özgün ÇÖLLÜOĞLU GÜLEN tarafından hazırlanan “Veri Madenciliği Teknikleri İle Üstün Yetenekli Öğrencilerin İlgi Alanlarının Analizi” adlı tez çalışması aşağıdaki jüri tarafından OY BİRLİĞİ / OY ÇOKLUĞU ile Gazi Üniversitesi Yönetim Bilişim Sistemleri Anabilim Dalında DOKTORA TEZİ olarak kabul edilmiştir. Danışman : Doç. Dr. Selçuk ÖZDEMİR Bilgisayar ve Öğretim Teknolojileri Eğitimi, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum Başkan : Prof. Dr. Arif ALTUN Bilgisayar ve Öğretim Teknolojileri Eğitimi, Hacettepe Üniversitesi Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum Üye : Doç. Dr. Tolga GÜYER Bilgisayar ve Öğretim Teknolojileri Eğitimi, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum Üye : Doç. Dr. Uğur ÖZCAN Endüstri Mühendisliği, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum Üye : Doç. Dr. Alptekin SÖKMEN İşletme, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Doktora Tezi olduğunu onaylıyorum/onaylamıyorum Tez Savunma Tarihi: 25/04/2014 Jüri tarafından kabul edilen bu tezin Doktora Tezi olması için gerekli şartları yerine getirdiğini onaylıyorum. Doç. Dr. Nurettin TOPALOĞLU Bilişim Enstitüsü Müdürü ETİK BEYAN Gazi Üniversitesi Bilişim Enstitüsü Tez Yazım Kurallarına uygun olarak hazırladığım bu tez çalışmasında; Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar çerçevesinde elde ettiğimi, Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun olarak sunduğumu, Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak gösterdiğimi, Kullanılan verilerde herhangi bir değişiklik yapmadığımı, Bu tezde sunduğum çalışmanın özgün olduğunu, bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan ederim. Özgün ÇÖLLÜOĞLU GÜLEN 25/04/2014 iv VERİ MADENCİLİĞİ TEKNİKLERİ İLE ÜSTÜN YETENEKLİ ÖĞRENCİLERİN İLGİ ALANLARININ ANALİZİ (Doktora Tezi) Özgün ÇÖLLÜOĞLU GÜLEN GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ Nisan 2014 ÖZET Bu çalışmanın amacı eğitimsel veri madenciliği yöntemlerinden sınıflandırma analizi ile üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek ve birliktelik analizi ile bu öğrencilerin sıklıkla bir arada ilgi duydukları alanları belirlemektir. Araştırmanın çalışma grubunu Ankara’da yer alan Yasemin Karakaya Bilim ve Sanat Merkezi’nde öğrenim gören yaşları 12 ve daha büyük üstün yetenekli öğrenciler oluşturmaktadır. Bu öğrencilerden veriler Akademik Benlik Kavramı Ölçeği, araştırmacı tarafından geliştirilmiş olan Boş Zamanları Değerlendirme Anketi ve Ebeveyn Veri Toplama Formu ile toplanmıştır. Ayrıca öğrencilerin WISC-R testi ve Temel Kabiliyetler Testi 711 sonuçları da araştırma kapsamında kullanılmıştır. Birliktelik ve sınıflandırma analizleri, Waikato Environment for Knowledge Analysis veri madenciliği yazılımı kullanılarak yapılmıştır. Üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek için 10 sınıflandırma algoritması seçilmiş ve bu algoritmaların çıktıları karşılaştırılarak problem tanımı için en uygun olan algoritma JRip olarak belirlenmiştir. JRip algoritmasının ilgi alanını tahmin etmedeki %85,8 doğruluğu, oluşturulan eğitimsel veri madenciliği sınıflandırma modelinin başarılı bir model olduğunu göstermektedir. Seçilen sınıflandırma algoritmasının çıktılarından yararlanarak ilgi alanları üzerinde etkili olan nitelikler ortaya çıkarılmıştır. Tez kapsamında ayrıca eğitimcilerin kullanabilmesi amacıyla, ilgi alanı bilinmeyen üstün yetenekli öğrencilerin ilgi alanlarını saptamayabilmek için web tabanlı ilgi alanı analiz sistemi geliştirilmiştir. Üstün yetenekli öğrencilerin sıklıkla bir arada ilgi duydukları alanlar ise Apriori birliktelik algoritması ile tespit edilmiştir. Çalışmada elde edilen eğitimsel veri madenciliği bulguları Bilim ve Sanat Merkezlerinde üstün yetenekli eğitiminin bireysel ihtiyaçlara göre farklılaştırılması ve ders programlarının daha etkin düzenlenmesi gibi konularda pek çok fayda sağlayacaktır. Öğrencilerin sıklıkla birlikte ilgi duydukları alanlara ilişkin dersler aynı saatlerde yapılmaz ise öğrenciler tüm ilgi alanlarına ait derslere katılma imkânı bulurlar. İlgili tezde geliştirilen model ve ilgi alanı analiz sistemi, Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’de yer alan üstün yetenekli eğitiminde tek tip uygulamalar yerine bireylerin ilgilerine göre farklılaştırılmış programların uygulanması hedefinin gerçekleştirilmesi için sistematik ve bilimsel bir yöntem sunmaktadır. Bilim Kodu : 1146.1.014 Anahtar Kelimeler : Eğitimsel veri madenciliği, üstün yetenekli öğrenciler, ilgi alanı Sayfa Adedi : 160 Danışman : Doç. Dr. Selçuk ÖZDEMİR v ANALYSIS OF GIFTED STUDENTS’ INTEREST AREAS USING DATA MINING TECHNIQUES (Ph.D. Thesis) Özgün ÇÖLLÜOĞLU GÜLEN GAZİ UNIVERSITY INFORMATICS INSTITUTE April 2014 ABSTRACT The purpose of this study is to predict interest areas of gifted students and discover relationships between these areas by using educational data mining methods. The sample of the research included gifted students who are studying in Yasemin Karakaya Science and Art Center and 12 years old or older. Data are collected from Academic Self Concept Scale outputs, Spare Time Activities Survey answers, Parental Information Retrieval Form answers, and Basic Capabilities Test 7-11 and WISC-R results of students. To predict interest areas of gifted students, classification analyses are performed and to identify relationships between these areas, association analysis is executed. For classification and association analyses, Waikato Environment for Knowledge Analysis data mining software is used. 10 classification algorithms are selected to predict interest areas of gifted students. Outputs of these algorithms are compared and JRip is selected as the most suitable algorithm for discussed problem in this study. The 85,8% accuracy rate of JRip algorithm for predicting interest areas of gifted students shows that the model constructed by JRip rules is proven to be successful. By making use of JRip classification algorithm outputs, attributes which are effective on interest areas of gifted students are explored. Also in this study, web based interest area analysis system is developed for educators. By using this software, they can identify interest areas of gifted students whose interest areas are not known. Area pairs in which gifted students are frequently interested together are detected by running Apriori association algorithm. Results obtained from this study will provide many benefits to science and art centers such as giving differentiated instruction by meeting individual needs, organizing course programs more effectively. If students are known to be frequently interested together in some areas and timetables of lectures related to these areas do not conflict, gifted students will have the possibility of attending lectures belonging to all their interest areas. Classification model and interest area analysis system developed in this study provide systematic method, which helps to reach “in gifted education, instead of uniform practices, application of differentiated program by taking into account of individuals’ interest areas” goal stated in Gifted Individuals Strategy and Application Plan 2013-2017. Science Code : 1146.1.014 Key Words : Educational data mining, gifted students, interest area Page Number : 160 Supervisor : Assoc. Prof. Dr. Selçuk ÖZDEMİR vi TEŞEKKÜR Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren, akademik açıdan her türlü desteği veren danışmanım Sayın Doç.Dr. Selçuk ÖZDEMİR’e, beni yetiştirip bu günlere getiren fakat şimdi beni gökyüzünden izleyen canım babam Osman ÇÖLLÜOĞLU’na, manevi destekleriyle beni hiçbir zaman yalnız bırakmayan sevgili eşim Özhan GÜLEN’e ve varlığı ile beni motive eden bir tanecik kızım Irmak GÜLEN’e teşekkürü bir borç bilirim. vii İÇİNDEKİLER Sayfa ÖZET ............................................................................................................................... iv ABSTRACT ..................................................................................................................... v TEŞEKKÜR .................................................................................................................... vi İÇİNDEKİLER ............................................................................................................... vii ÇİZELGELERİN LİSTESİ .............................................................................................. ix ŞEKİLLERİN LİSTESİ .................................................................................................... x RESİMLERİN LİSTESİ................................................................................................... xi KISALTMALAR ............................................................................................................ xii 1. GİRİŞ ......................................................................................................................... 1 2. TEMEL KAVRAMLAR ........................................................................................ 5 2.1. Üstün Yetenekli Eğitimi ........................................................................................ 5 2.2. Veri Madenciliği...................................................................................................13 2.3. Eğitimsel Veri Madenciliği ...................................................................................29 3. YÖNTEM .................................................................................................................39 3.1. Çalışma Grubu ......................................................................................................39 3.2. Veri Toplama Araçları ..........................................................................................39 3.3. Verilerin Toplanması ve Analizi ...........................................................................42 4. BULGULAR ............................................................................................................53 5. İLGİ ALANI ANALİZ SİSTEMİ ........................................................................73 6. SONUÇ VE ÖNERİLER ......................................................................................79 KAYNAKLAR ................................................................................................................83 EKLER ............................................................................................................................89 viii Sayfa EK-1. Boş zamanları değerlendirme anketi .......................................................................90 EK-2. Ebeveyn veri toplama formu ..................................................................................95 EK-3. WEKA analizlerinde kullanılan tabloların oluşturma SQL’leri ............................. 100 EK-4. Part algoritması sınıflandırma analizi çıktısı ......................................................... 103 EK-5. Ridor algoritması sınıflandırma analizi çıktısı ...................................................... 109 EK-6. DecisionTable algoritması sınıflandırma analizi çıktısı.........................................113 EK-7. JRip algoritması sınıflandırma analizi çıktısı ........................................................ 117 EK-8. BFTree algoritması sınıflandırma analizi çıktısı ................................................... 122 EK-9. FT algoritması sınıflandırma analizi çıktısı .......................................................... 127 EK-10. J48 algoritması sınıflandırma analizi çıktısı ........................................................ 134 EK-11. LADTree algoritması sınıflandırma analizi çıktısı ..............................................139 EK-12. SimpleCart algoritması sınıflandırma analizi çıktısı............................................145 EK-13. NaiveBayes algoritması sınıflandırma analizi çıktısı ..........................................150 EK-14. Apriori algoritması birliktelik analizi çıktısı ....................................................... 154 EK-15. İlgi alanı analiz sistemi tabloları oluşturma SQL’leri ..........................................156 EK-16. İlgi alanı analiz sistemi kodları (CD) ..................................................................159 ÖZGEÇMİŞ ................................................................................................................... 160 ix ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 3.1. Öğrenci ilgi alanı istatistikleri .......................................................................41 Çizelge 4.1. Sınıflandırma algoritmaları doğruluk karşılaştırması .....................................59 Çizelge 4.2. JRip ve SimpleCart algoritmalarının doğru pozitif oranları, yanlış pozitif oranları, kesinlikleri, F-Ölçütleri, ROC alanları ve kappa istatistikleri .........60 Çizelge 4.3. JRip ve SimpleCart hata metrikleri ...............................................................60 Çizelge 4.4. JRip kural açıklamaları .................................................................................67 Çizelge 4.5. Niteliklerin ilgi alanlarına etkisi ....................................................................69 Çizelge 4.6. Apriori birliktelik analizi sonuçları ...............................................................72 x ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 2.1. KDD adımları temel akışı .................................................................................14 Şekil 2.2. Veri madenciliği modelleri ve işlevleri .............................................................16 Şekil 2.3. Karar ağacı örneği ............................................................................................25 Şekil 2.4. Dendrogram örneği ...........................................................................................27 Şekil 4.1. K-fold cross validation .....................................................................................55 Şekil 4.2. RIPPER algoritması taslak kodu .......................................................................65 Şekil 4.3. JRip algoritma kuralları ....................................................................................66 Şekil 4.4. Apriori algoritması taslak kodu .........................................................................70 xi RESİMLERİN LİSTESİ Resim Sayfa Resim 3.1. WEKA GUI seçim ekranı ...............................................................................43 Resim 3.2. WEKA gezgin ekranı ......................................................................................43 Resim 3.3. WEKA SQL görüntüleyici ekranı ...................................................................44 Resim 3.4. Veri tabanı bağlantı parametreleri ekranı ........................................................45 Resim 3.5. WEKA gezgin ekranı-sınıflandırma analizi sekmesi .......................................46 Resim 3.6. Sınıflandırma algoritması seçim ekranı ...........................................................47 Resim 3.7. J48 sınıflandırma algoritması parametre ekranı ...............................................48 Resim 3.8. WEKA gezgin ekranı-birliktelik analizi sekmesi .............................................49 Resim 3.9. Birliktelik algoritması seçim ekranı ................................................................50 Resim 3.10. Apriori birliktelik algoritması parametre ekranı.............................................51 Resim 4.1. Örnek WEKA sınıflandırma çıktısı .................................................................56 Resim 5.1. İlgi alanı analiz sistemi işlem menüsü öğeleri .................................................75 Resim 5.2. Yeni öğrenci kayıt ekranı ................................................................................76 Resim 5.3. 4.Soru şık seçim ekranı (örnek) ......................................................................76 Resim 5.4. Mevcut öğrenci sorgulama ve silme ekranı .....................................................77 xii KISALTMALAR Bu çalışmada kullanılmış bazı kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Eğer kullanılan terimin İngilizcesinin baş harflerinden oluşan kısaltma literatürde yaygın olarak kullanılıyorsa, çalışmada ilgili terimin İngilizce kısaltması tercih edilmiştir. Kısaltmalar Açıklama ABD Amerika Birleşik Devletleri ABKÖ Akademik Benlik Kavramı Ölçeği AJAX Asynchronous JavaScript and XML API Application Programming Interface ASF Apache Software Foundation AUC Area Under Curve Eğri Altındaki Alan BİLSEM Bilim ve Sanat Merkezi BZDA Boş Zamanları Değerlendirme Anketi EVTF Ebeveyn Veri Toplama Formu FP False Positive Yanlış Pozitif GUI Graphical User Interface Grafiksel Kullanıcı Arayüzü HTML Hyper Text Markup Language IG Information Gain Bilgi Kazanım IQ Intelligence Quotient Zekâ Katsayısı IREP Incremental Reduced Error Pruning ITS Intelligent Tutoring Systems Zeki Özel Ders Sistemleri JAR Java Archive JSF JavaServer Faces xiii Kısaltmalar Açıklama KDD Knowledge Discovery from Data Veriden Bilgi Keşfi KKP Kurumsal Kaynak Planlama LCA Latent Class Analysis Gizli Sınıf Analizi MDL Minimum Description Length Minimum Tanım Uzunluğu ODTÜ Orta Doğu Teknik Üniversitesi OLAP On-line Analytical Processing Çevrimiçi Analitik İşleme ÖSYM Ölçme, Seçme ve Yerleştirme Merkezi RFR Random Forest Regression RIPPER Repeated Incremental Pruning to Produce Error Reduction ROC Receiver Operating Characteristics Alıcı İşletme Karakteristikleri SQL Structured Query Language Yapılandırılmış Sorgu Dili TBMM Türkiye Büyük Millet Meclisi TKT Temel Kabiliyetler Testi TP True Positive Doğru Pozitif URL Uniform Resource Locator Tekdüzen Kaynak Bulucu VTYS Veri Tabanı Yönetim Sistemi WEKA Waikato Environment for Knowledge Analysis WISC-R Weschler Intelligence Scale for Children-Revised 1 1. GİRİŞ Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’ye göre üstün yetenekli bireyler toplumların yaklaşık %2’sini oluşturmaktadır [1]. İlgili planda üstün yetenekli bireylerin çeşitli özellikleri ve yetenekleri ile toplumlara yön veren, gelişmeyi ve değişmeyi hızlandıran bireyler olduğu, bu nedenle onların üretken hale getirilmeleri ve potansiyellerini toplumsal gelişme için kullanmaları için eğitilmelerinin toplumun geleceği için büyük önem arz ettiği belirtilmiştir. Türkiye’de üstün yetenekli öğrencilerin eğitimi, Milli Eğitim Bakanlığı Özel Eğitim ve Rehberlik Hizmetleri Genel Müdürlüğü bünyesinde yer alan Bilim ve Sanat Merkezlerinde (BİLSEM) yürütülmektedir. Bu öğrenciler örgün eğitim kurumlarına devam etmektedir. Ancak okul dışı saatlerde BİLSEM’lerde eğitimlerini sürdürmektedir. BİLSEM Yönergesine göre şu anda BİLSEM’lerde eğitim art arda devam eden 5 programda verilmektedir: uyum programı, destek eğitimi, bireysel yetenekleri fark ettirme, özel yetenekleri geliştirme ve proje üretimi/yönetimi [2]. Yönergeye göre destek eğitimi ve bireysel yetenekleri fark ettirme programlarının sonlarında öğrencilerin ilgi alanları belirlenmeli ve daha sonraki aşamadaki programlarda öğrencilerin yönlendirilmesi bu alanlara göre yapılmalıdır. Ancak ilgi alanlarını belirlemek için sistematik bir yöntem yoktur, dolayısıyla bu ilgi alanlarını doğru olarak belirlemede bir takım problemler mevcuttur. Örneğin ilgi alanları sadece öğretmen görüşleri ile belirlenmekte veya eğitimde ilgi alanlarına göre farklılaştırılmış uygulamalar yerine tek tip uygulamalar geçerli olmaktadır. Sarı BİLSEM’lerdeki önemli sorunlardan bir tanesinin üstün yeteneklilere yönelik “Bireyselleştirilmiş Eğitim Programı” geliştirilmesi olduğunu belirtmiştir [3]. Bu problemler Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’de ele alınmıştır [1]. Planda üstün yetenekli bireylerin tanılanması, eğitimleri, eğitim ortamlarının düzenlenmesi gibi konularda yapılacak çalışmalar yer almakta, ayrıca üstün yetenekli birey eğitiminde tek tip uygulamalar yerine bireyin ilgi ve yeteneğine göre farklılaştırılmış, bireyselleştirilmiş, zenginleştirilmiş, hızlandırılmış modeller önerilmektedir. Böylece üstün yetenekli eğitiminde yeni bir dönemin başlaması hedeflenmektedir. Planda mevcut sürecin zayıf yönlerinden birisi üstün yeteneklilerin 2 eğitimine yönelik farklılaştırılmış eğitim modellerinin ve programlarının olmaması olarak belirtilmiştir. Bu sorunu çözmek için plana aşağıdaki hedefler konmuştur [1]: “Hedef 1.3.1: Öğrencilerin yetenek alan/alanlarına yönelik farklılaştırılmış eğitim programları geliştirmek ve uygulamak.” “Hedef 1.3.2: Farklılaştırılmış eğitim programlarına yönelik etkinlik ve öğretim materyalleri oluşturmak.” Bu hedeflere ulaşmanın ön koşulu olan üstün yetenekli öğrencilerin ilgi alanlarının doğru belirlenmesi için sistematik ve bilimsel bir yönteme ihtiyaç duyulduğu açıktır. İlgi alanlarının belirlenmesi üstün yetenekli eğitimiyle ilgilenen eğitim kurumlarının ve eğitimcilerin yanı sıra velilere de pek çok fayda sağlayacaktır. Veliler çocuklarına ilgi alanları doğrultusunda daha fazla destek sağlayabilecektir. Kuzgun’a göre meslek seçimini etkileyen faktörlerin başında yetenek ve ilgi gelmektedir [4]. Kuzgun ayrıca bir kişinin bir işi yapmaktan hoşlanması için o işi iyi yapması gerektiğini, bunun da yetenekle mümkün olduğunu, bu nedenle insanların yetenekli oldukları alanlara ilgi duyacaklarının kabul edildiğini belirtmiştir [4]. Dolayısıyla üstün yetenekli öğrencilerin ilgi alanının belirlenmesi ile bu öğrencilerin meslek yönlendirmeleri de yapılabilecektir. Kuzgun özellikle üstün yetenekli öğrencilerin birden fazla ilgi alanı olduğunu, Leonardo da Vinci gibi dehaların birçok farklı alanda üstün kalitede ürün ortaya çıkardığını belirtmiştir [5]. Bu nedenle bir alana öncelikli ilgisi belirlenen üstün yetenekli bir öğrencinin ilgi duyduğu diğer alanlar da belirlenmelidir. Öğrencilerin ilgi duydukları tüm alanların belirlenmesi BİLSEM’lerde ders programlarının düzenlenmesinde yardımcı olacaktır. Bir öğrencinin ilgi alanlarına ait dersler aynı saatlerde yapılmaz ise bu öğrenci tüm ilgi alanlarıyla ilgili derslere katılma imkânı bulacaktır. Verilen bu bilgiler ışığında üstün yetenekli öğrencilerin ilgi alanlarının analiz edilmesi bu tez araştırmasının problemidir. Araştırmanın alt problemleri ise şunlardır: Üstün yetenekli öğrencilerin ilgi alanlarının tahmin edilmesi. Üstün yetenekli öğrencilerin bir arada ilgi duydukları alanların belirlenmesi. 3 Çalışma kapsamında üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek ve bu öğrencilerin hangi alanlara bir arada ilgi duyduklarını belirlemek için eğitimsel veri madenciliği teknikleri kullanılmıştır. Han ve Kamber’e göre veri madenciliği, büyük veri yığınlarından bilginin (ilginç desenlerin) çıkarılmasıdır [6]. Han ve Kamber veri madenciliğinin, veri tabanı sistemleri, istatistik, makine öğrenimi, veri görselleştirme gibi farklı alanlardaki teknikleri kullanan disiplinler arası bir konu olduğunu ve veri madenciliği tekniklerinin finans, bankacılık, sigortacılık, telekomünikasyon ve tıp gibi pek çok sektörde kullanılabileceğini belirtmişlerdir. Sachin ve Vijay, eğitim alanında veri madenciliği tekniklerini kullanmak için artan bir araştırma ilgisi bulunduğunu ifade etmişlerdir [7]. Onlara göre “Eğitimsel Veri Madenciliği” olarak adlandırılan bu yeni gelişen alan, eğitim ortamından gelen veriden bilgi keşfedecek metotlar geliştirmekle ilgilenmektedir. Eğitimsel veri madenciliği “International Educational Data Mining Society” tarafından, eğitimsel bağlamdan gelen özgün tipte veriyi keşfetmek için metotlar geliştirmekle ilgilenen ve bu metotları öğrencileri daha iyi anlamak için kullanan, gelişmekte olan bir disiplin olarak tanımlanmıştır [8]. Eğitimsel veri madenciliği teknikleri, geleneksel veri madenciliği tekniklerinden eğitim verisinin hiyerarşisindeki birçok seviyeyi kullanmasıyla farklılaşmaktadır [7]. Kumar ve Chadha veri madenciliğinde kullanılan bazı teknikleri şu şekilde açıklamıştır [9]: Sınıflandırma analizi Sınıflandırma analizi ile sınıfları bilinen nesnelerden hareket ederek sınıfları bilinmeyen nesnelerin sınıflarını tahmin etmek için modeller kurulmaktadır. Elde edilen modeller “if then” kuralları, karar ağaçları, matematiksel modeller ve sinir ağları şeklinde olabilir. Örneğin “if yaş=genç ve öğrenci=evet then bilgisayar_alır=evet” şeklindeki bir “if then” kuralı, genç olan ve öğrenci olan bir kişinin bilgisayar alacağını göstermektedir. 4 Birliktelik analizi Birliktelik analizi, bir veri setinde sıklıkla birlikte görülen nitelik-değer çiftlerini gösteren birliktelik kurallarını keşfetmektir. Birliktelik analizi genellikle market sepeti analizi için kullanılmaktadır. X=>Y şeklindeki bir birliktelik kuralı, X’teki koşulları sağlayan verilerin aynı zamanda Y’deki koşulları sağladığını göstermektedir. Kümeleme analizi Kümeleme, mümkün olan tüm sınıf değerlerinin analiz başında bilindiği sınıflandırma tekniklerinden farklılık göstermektedir. Kümeleme analizinde ilk başta sınıf değerlerinin ne olacağı bilinmemektedir. Analiz sonucunda nesneler küme içi benzerliği maksimize etmek ve kümeler arası benzerliği minimize etmek prensibine göre çeşitli gruplara ayrılırlar. Oluşturulan bu kümelere isim verilerek sınıf değerleri böylelikle atanmış olur. Tez çalışmasında veri madenciliği teknikleri eğitim alanına uygulandığından ilgili çalışma bir eğitimsel veri madenciliği araştırmasıdır. Veri madenciliği alanındaki bilgi birikimi kullanılarak eğitim ortamlarındaki verilerin analiz edilmesi, eğitim alanında ihtiyaç duyulan tahminlerin yapılmasına, öngörülemeyen desenlerin keşfedilmesine, beklenmedik soruların, sorunların ve çözümlerin tanımlanmasına yardımcı olabilecektir. Sınırlılıklar Üstün yetenekli öğrencilerin tahmin edilen ilgi alanları, Akademik Benlik Kavramı Ölçeği (ABKÖ) ile ölçülebilen ilgi alanları kümesi içerisinden olabilmektedir. Bu öğrencilerin ilgi alanlarını tahmin etmek için kullanılan nitelikler, tez kapsamında kullanılan veri toplama araçları ile edinilen verilerle sınırlıdır. Ayrıca tezde ulaşılan eğitimsel veri madenciliği sonuçları ilgili çalışma grubu üzerinden elde edilmiştir. 5 2. TEMEL KAVRAMLAR 2.1. Üstün Yetenekli Eğitimi Üstün yetenekli kavramı için yapılan pek çok tanım mevcuttur. Marland Raporu’na göre üstün yetenekli çocuklar aşağıdaki alanların bir veya daha fazlasında yüksek performans gösteren çocuklar olarak tanımlanmıştır [10]: a. Genel zihinsel yetenek b. Özel akademik yetenek c. Yaratıcı veya üretici düşünme yeteneği d. Liderlik yeteneği e. Görsel ve performans sanatlarda yetenek f. Psiko-motor yetenek. İlgili rapora göre üstün yetenekli çocuklar profesyonel olarak yetkin kişiler tarafından tespit edilebilen ve kendilerine ve topluma katkı sağlayabilmek için standart okul programının ötesinde farklılaştırılmış eğitim programlarına ve servislerine ihtiyaç duyan çocuklardır. Marland Raporu Amerika Birleşik Devletleri’nde (ABD) federal hükümetin üstün yeteneklilerle ilgili politikasını belirlemek amacıyla 1972 tarihinde basılmış ve o tarihten bu yana ABD’de pek çok eyalette üstün yetenekli uygulamalarının asgari standartları olarak kabul edilmiştir [11, 12]. Günümüzde Renzulli’nin yapmış olduğu tanım kabul görmektedir. Renzulli’nin geliştirdiği Üçlü Çember Modeli’ne (Three-Ring Model) göre tek bir kriter üstün yetenekli kişileri tanımlamak için yeterli değildir [13]. Bunun yerine üstün yeteneklilik 3 adet iç içe geçmiş özellik kümesinden oluşmaktadır. Bu kümeler şunlardır: Olağan üstü olmasına gerek olmamakla birlikte ortalamanın üzerinde bir genel yetenek İşe bağlılık 6 Yaratıcılık Renzulli’ye göre kendi başına tek bir küme değil bu kümeler arası etkileşimler üstün yetenekliliği ortaya çıkarmaktadır. Özel Eğitim Hizmetleri Yönetmeliği’ne göre ise zekâ, yaratıcılık, sanat, spor, liderlik kapasitesi veya özel akademik alanlarda yaşıtlarına göre daha iyi performans gösteren bireyler üstün yetenekli bireylerdir [14]. İnsanlar arasında bireysel yetenek farklılıkları mevcuttur ve bu farklı yeteneklerin ortaya çıkarılıp geliştirilmesi için bireylere verilecek eğitimlerin farklılaştırılması gerekir [12]. Eğitimde fırsat eşitliği yasalarla güvence altına alınmıştır [11]. Fakat eğitimde eşitlik kavramı, farklı olanların farklılıklarını dikkate alan, onlara ilgi ve yetenekleri doğrultusunda eğitim verilmesini savunan bir anlayış olduğundan üstün yetenekli öğrenciler için sağlanacak özel eğitim, eğitimde eşitlik ilkesini bozmamaktadır [11]. Ataman üstün yeteneklilere özel eğitim verilmesi gerektiğini belirtmiş ve bunun gerekçelerini şöyle açıklamıştır [15]: İlköğrenim ve ortaöğrenim programları öncelikle orta seviyede yetenekli çocukların gereksinmelerine uygun olarak düzenlenmiştir. Bu nedenle üstün yetenekliler, yetenek düzeylerinin tümünü kullanmalarına gerek olmadan başarılı olabilmektedirler. Bunun sonucu olarak, üstün yetenekliler eğitim programlarına ilgisiz kalmakta, edindikleri bilgiler yeteneklerinin imkân verebileceğinden daha düşük olmaktadır. Üstün yeteneklilerin erken tanılanamamaları ve gereksinmelerine uygun eğitim alalamaları, sahip oldukları yeteneklerin ortalama yetenek yığını içinde kaybolmasına neden olmaktadır. Üstün yetenekli çocukların iki önemli ihtiyacı vardır: zorlayıcı ve motive edici etkinlikler; doğuştan sahip oldukları potansiyellerinin geliştirilmesi [11]. Bu nedenle, üstün yetenekli çocuklara bilişsel potansiyellerini geliştirebilecekleri ve mevcut kapasitelerini en iyi derecede ortaya koyabilecekleri öğrenme ortamları sağlanmalıdır [11]. Üstün yetenekli bireyler ait oldukları toplumun her alanda gelişmesini sağlayacak beyin gücü hazinesi ve potansiyelidir ve bu potansiyelden yararlanmanın tek yolu onlara sağlanacak özel eğitimdir [16]. 7 Özel Eğitim Hizmetleri Yönetmeliği’nde de üstün yetenekli öğrencilerin özel eğitim hizmeti alması gerektiği yer almaktadır [14]. Yukarıda belirtilen tüm bu gerekçelerden dolayı üstün yetenekli öğrencilerin özel eğitim alma ihtiyacı mevcuttur. Bu durum tarih boyunca Türkiye ve tüm dünya tarafından fark edilmiş ve üstün yetenekli eğitimi konusunda birçok çalışma yapılmasına sebep olmuştur. Üstün yetenekli eğitiminin dünyadaki ilk örneği Osmanlı İmparatorluğu döneminde kurulan Enderun Okulu’dur [17]. Enç dünyadaki üstün yetenekli eğitimi tarihi ile ilgili şu bilgileri aktarmıştır [18]: Üstün yeteneklilerle ilgili olarak yirminci yüzyılın başlarında denemeler yapılmaya başlanmıştır. Bu konuda öncülüğü ABD ve Almanya yapmıştır. ABD’nin çeşitli eyaletlerinde ilk olarak üstün yeteneklilere “hızlı ilerleme” olanakları sağlanmıştır. Birinci Dünya Savaşı’ndan önceki dönemde İngiltere, Fransa ve Almanya okullarında, üstün yetenekli öğrencilere daha hızlı ilerleme imkânı verilmiştir. Literatür bilgileri İkinci Dünya Savaşı’na kadar olan dönemde üstün yetenekli çocukların özel eğitimi konusunda Almanya’nın önde olduğunu göstermektedir. Dünya çapında üstün yetenekliler ile ilgili çalışma yapan bazı kuruluşlar şunlardır [19]: Üstün Yetenekli Çocuklar için Dünya Konseyi (World Council For Gifted And Talented Children), Avrupa Üstün Yetenekliler Konseyi (Europan Council for High Ability), Uluslar Arası Eğitimde Yenilik Merkezi (The International Cente for Innovation in Education), Üstün Yetenekli Çocukları Destekleme Derneği (National Association for Gifted Children). Ataman’ın Türkiye Cumhuriyeti’nde üstün yetenekli eğitiminin tarihçesiyle ilgili verdiği bilgiler şunlardır [20]: 1948 yılında 5245 sayılı İdil Biret ve Suna Kan yasasının yürürlüğe girmesi ile üstün yetenekli çocukların yetiştirilmesine ilişkin ilk yasal önlem alınmıştır. Daha sonra bu yasanın kapsamı genişletilerek 1956’da 6660 sayılı yasaya dönüştürülmüş ve müzik, resim ve plastik sanatlarda olağan üstü yetenek gösteren çocukların yurt içinde ve yurt dışında eğitilmelerine olanak sağlayan kapsama kavuşturulmuştur. Örgün eğitim içinde özel eğitimin sistematik olarak ele alınması 1960’lı yılları bulmuştur. Modern fen programlarının geliştirilmesi ve teknolojideki ilerlemelerin etkisi ile 1964-1972 yılları 8 arasında üstün yetenekli çocuklar için eğitim alanında bir dizi uygulama yürürlüğe koyulmaya başlanmıştır. Milli Eğitim Bakanlığı’nın ilköğretimde üstün yeteneklilere yönelik yapılanmayı sağlayamamış olması, bazı özel girişimcilerin üstün yetenekli eğitimiyle ilgilenmelerine neden olmuştur. İstanbul’da kurulan Yeni Ufuklar Okulu 1980’li yılların ikinci yarısında bu konuda uygulamalara başlamıştır. Ortaöğretim üstün yetenekli eğitimine daha elverişli durumdadır. 1964’te açılan Ankara Fen Lisesi’nde ve daha sonra kurulan fen liselerinde, matematik ve fen alanında üstün yetenekli çocuklara eğitim verilmektedir. Belirli kriterlere göre seçerek öğrenci alan, Anadolu Liseleri, Anadolu Güzel Sanat Liseleri, Süper Liseler ve Özel Kolejler, orta öğretim düzeyinde ayrı eğitim olanakları sunan kurumlar olarak kabul edilebilir. Türkiye’deki bu ilk uygulamalardan sonra okul öncesi, ilköğretim ve ortaöğretim çağındaki üstün yetenekli öğrencilerin yeteneklerini geliştirerek onların üretken, problem çözen bireyler haline gelmelerini ve çeşitli öğrenme fırsatları ve özel eğitim aktiviteleri ile bu öğrencilerin potansiyellerinin farkına varmalarını ve potansiyellerini kullanmalarını sağlamak amacıyla Milli Eğitim Bakanlığı tarafından BİLSEM’ler açılmıştır [21]. Türkiye’deki ilk BİLSEM olan Yasemin Karakaya BİLSEM, 1993 yılında Milli Eğitim Bakanlığı Özel Eğitim Rehberlik ve Danışma Hizmetleri Genel Müdürlüğü Üstün Yeteneklilerin Eğitimi Şubesi’nin açılmasının hemen ardından Ankara’da 1994 yılında eğitim faaliyetlerine başlamıştır. Üstün yetenekli eğitimi alanında Türkiye tarihinde geçmişten günümüze BİLSEM’ler de dahil olmak üzere Enderun okulları dışında başarılı bir uygulama sergilenemediği, ülkemizin çağdaş gelişmeleri yakalayamadığı BİLSEM Süreci İç Denetim Raporu’nda ifade edilmiştir [22]. Üstün yetenekli eğitiminde tüm dünyada çeşitli yöntemler uygulanmaktadır. Uygulanan bu yöntemler ayrı eğitim ve birlikte eğitim olmak üzere iki ana gruba ayrılmaktadır [23]. Ayrı eğitim Bu uygulamada üstün yetenekli çocuklar seviyelerine ve çeşitli özelliklerine göre gruplanırlar. Daha sonra grupların özelliklerine ve gereksinmelerine göre özel eğitim programları geliştirilir ve uygulanır. Ayrı eğitimin başlıca alt tipleri şunlardır: 9 Özel okul Üstün yetenekli çocukların ayrı okullarda eğitilmesine verilen isimdir. Türkiye’de Fen Liseleri, Anadolu Güzel Sanatlar Liseleri bu okullara örnektir. Üstün yetenekli eğitimini özel okulda ilk başlatan devlet Enderun’u kuran Osmanlı İmparatorluğu’dur. Özel sınıf Özel sınıflar, üstün yetenekli öğrencilerin eğitimi için büyük yerleşim merkezlerindeki büyük okullarda kurulan ayrı sınıflardır. Türkiye’de 1964 - 1971 yılları arasında Ankara, İstanbul, Eskişehir ve Bursa’da uygulanmıştır. Daha sonra bu uygulamaya son verilmiştir. Birlikte eğitim Üstün yetenekli çocukların akranlarıyla aynı eğitim ortamında, birlikte eğitilmesidir. Hızlandırma ve zenginleştirme türleri vardır. Hızlandırma Hızlandırmanın iki farklı uygulaması bulunmaktadır: Okula erken başlatma Üstün yetenekli olduğu erken yaşlarda tespit edilen çocukların okula başlama yaşlarından bir ya da iki yıl erken okula gönderilmesidir. Birçok ülkede bu yöntem uygulanmaktadır. Ülkemizde okula erken başlamaya olanak vardır. Sınıf atlatma: Üstün yetenekli öğrenci okula başladıktan sonra, başarısına, uzman görüşlerine ve psikometrik ölçüm sonuçlarına göre, öğrenim ve zekâ düzeyine uygun bir ya da iki üst sınıfa geçiş yapabilmesidir. Bu yöntemle üstün yetenekli çocuğun öğrenme hızıyla uyumlu olarak akademik gelişmesi uygulanabilmektedir. sağlanabilir. Ülkemizde sınırlı olarak ilköğretimde 10 Zenginleştirme Üstün yetenekli çocukların kendi yaşıtları arasında ve normal sınıflarında, fakat eğitim programlarının bu çocukların gereksinmelerine yanıt verecek şekilde çeşitlendirilerek ve zenginleştirilerek eğitilmeleridir. Okullarda uygulanmakta olan ilgi kümesi çalışmaları bu modele örnektir. Fakat öğretmenlerin bu konuda yetiştirilmemiş olması, sınıf sayılarının fazlalığı uygulama olanağını kısıtlamaktadır. Bu modellerin her birinin çeşitli avantajları ve dezavantajları mevcuttur. Türkiye’de BİLSEM’ler üstün yetenekli öğrencilere en yaygın eğitim veren kurumlardır [24]. Şu an ülkemizde 67 BİLSEM bulunmaktadır [3]. BİLSEM Yönergesine göre BİLSEM’lerin amacı, Türk milli eğitiminin genel amaçlarına ve temel ilkelerine uygun olarak üstün yetenekli öğrencilerin; ulusal ve evrensel değerleri tanımalarını, benimsemelerini ve bu değerlere saygı duymalarını, liderlik, yaratıcı ve üretici düşünce yeteneklerini ülke kalkınmasına katkıda bulunacak şekilde geliştirmelerini, bireysel yeteneklerinin farkında olmalarını ve kapasitelerini geliştirerek en üst düzeyde kullanmalarını, bilimsel düşünce ve davranışlarla estetik değerleri birleştiren, üretken, sorun çözen kendini gerçekleştirmiş bireyler olarak yetişmelerini, iş alanlarındaki ihtiyaca yönelik yeni düşünceler önerebilmelerini, teknik buluş ve çağdaş araçlar geliştirebilmelerini sağlamaktır [2]. BİLSEM Yönergesinde, üstün yetenekli çocukların BİLSEM’lere yerleştirme süreci şu şekilde açıklanmıştır [2]: BİLSEM’lerde eğitim tanılama ile başlar. BİLSEM’lerde eğitim görecek üstün yetenekli çocukların belirlenmesi amacıyla okul öncesi eğitimi çağındaki çocuklar için veliler veya öğretmenler, ilköğretim ve ortaöğretim öğrencileri için öğretmenler üstün yeteneğe sahip olduklarını gözlemledikleri çocuklar/öğrenciler için gözlem formlarını doldurarak aday gösterme işlemini tamamlarlar. Çocuk/öğrencilerin gözlem formlarının tanılama komisyonunca ön değerlendirmesi yapılır ve değerlendirme sonucuna göre grup taramasına alınacak çocuk/öğrenci listeleri okullarına veya velisine bildirilir. Grup taramasında başarılı olan öğrenciler bireysel incelemeye alınırlar. Öğrenciler bireysel inceleme sonuçlarına göre sıralanırlar ve uygun bulunan listedeki öğrencilerin BİLSEM’e kaydı yapılır. BİLSEM’lerde okul öncesi eğitimi çağındaki çocuklar tam gün eğitim görürler. İlköğretim ve ortaöğretim çağındaki öğrenciler; örgün 11 eğitimlerine kayıtlı oldukları okullarında devam eder. Okul dışı zamanlarda BİLSEM’lerde eğitim görürler. BİLSEM Yönergesine göre kayıtları yapılan öğrenciler merkezlerde aşağıda düzenlenmiş alanlarda eğitim programlarına alınırlar [2]: a. Uyum b. Destek Eğitimi c. Bireysel Yetenekleri Fark Ettirme d. Özel Yetenekleri Geliştirme e. Proje Üretimi/Yönetimi Bu programların içerikleri, ilgili yönerge tarafından aşağıdaki şekilde tanımlanmıştır [2]: Uyum programı kapsamında çocuklara/öğrencilere ve velilerine merkezin misyon ve vizyonu anlatılır. Uyum dönemi etkinlikleri öğrencilerin sosyal ve duyuşsal gelişimleri, ilgileri ve yetenekleri değerlendirilerek gruplar halinde yapılır. Programda öğrencilerin kişisel, sosyal ve psikolojik gelişimleri hakkında bilgi toplamayı amaçlayan etkinlikler yapılır. Uyum süreci içerisinde öğretmenler öğrencileri gözlemlerler ve sonuçlarını yazılı olarak not ederler. Uyum süreci sonunda elde edilen geri bildirimler velilerle paylaşılır. Destek eğitim programında öğrenciler, uyum programındaki performanslarına göre gruplara ayrılırlar. Gruplara ayrılan öğrencilere, destek eğitim programının alt program dalları olan iletişim becerileri, grupla çalışma teknikleri, öğrenme yöntemleri, problem çözme teknikleri, bilimsel araştırma teknikleri, fen bilimleri, matematik, dil sanatları, sosyal bilimler, resim, müzik ve benzeri alanlarında eğitim verilir. Tüm öğrenciler yabancı dil ve bilgisayar derslerine katılırlar. Destek eğitim programı sürecinde öğrenciler gözlemlenir ve geri bildirimler alınır. Destek eğitim programı sonunda öğrencilerin gözlem sonuçları ve alınan geri bildirimler değerlendirilerek her öğrencinin ilgi ve yetenek alanları belirlenir. Bireysel yetenekleri fark ettirici program için öğrencilerin bilişsel, duyuşsal, sosyal ve devinişsel kapasiteleri ve destek eğitimi programı sonunda belirlenen bireysel yetenek alanları dikkate alınarak öğrenci grupları oluşturulur. Bu program kapsamında, öğrencilere 12 sahip oldukları bireysel yeteneklerini fark ettirebilmek amacıyla bu öğrencilerin yaratıcılıklarını ön plana çıkaran ve bireysel farklılıklarını dikkate alan içerikler hazırlanır ve uygulanır. Bireysel yetenekleri fark ettirici dönemde disiplinler arası ilişkiler dikkate alınarak proje üretim çalışmaları yapılır. Bireysel yetenekleri fark ettirici program sonunda, öğrencilerin gözlem sonuçları ve geri bildirimleri değerlendirilerek her öğrencinin ilgi ve yetenek alanları belirlenir. Özel yetenekleri geliştirici programda, öğrenci merkezli eğitim anlayışına uygun olarak disiplinler arası modüler yapıda eğitim mevcuttur. Bu programda disiplinler ve aralarındaki ilişkiler değerlendirilerek, öğrencilerin herhangi bir disiplinde ileri düzeyde bilgi, beceri ve davranış kazanmaları sağlanır. Bu dönemde öğrencilere, bireysel ilgi ve yeteneklerinin farkında olmalarını, kapasitelerini geliştirerek en üst düzeyde kullanmalarını sağlayacak eğitim verilir. Öğrenciler, özel yetenekleri geliştirici program sürecinde daha çok özel yetenek alanlarına yönelik proje üretim çalışmaları yaparlar. BİLSEM’lerdeki tüm etkinliklerin temelinde proje üretme ve geliştirme çalışmaları yer alır. Proje üretimi/yönetimi programı kapsamında öğrenciler danışman öğretmenlerin rehberliğinde proje konuları belirlerler. Proje geliştirme sürecinde yöntem olarak öğrencilere tek taraflı bilgi aktarılmaz, öğrenciler kendi seçtikleri projeler için çalışırlar, uygulamalar yaparak bu sayede öğrenirler. Öğrenciler ilgi, yetenek ve tercihlerine göre gerek grup gerekse bireysel proje üretme çalışmalarına katılırlar. Proje konularının belirlenmesi ve projelerin geliştirilmesinde çevredeki iş yeri, yerel yönetimler, gönüllü kurum ve kuruluşlar, üniversiteler ve uzman kişilerden destek alınır. Bu program ile öğrencilerin planlama, uygulama ve değerlendirme aşamalarını uygulayarak öğrenen, üreten, sorun çözen, yaratıcı düşünebilen, çevresi ile iletişim kurabilen, bilimsel araştırma ve buluş yapabilen bireyler olarak yetiştirilmeleri hedeflenmektedir. Bu eğitim programlarının süresi her öğrenci için ilgili öğrencinin gelişimine göre merkezlerce belirlenir. Her bir programın süreci içinde ve süreci sonunda öğretmenler tarafından öğrencilerin değerlendirmeleri yapılır ve değerlendirme raporları hazırlanır. BİLSEM Yönergesinde, Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 20132017’de ve Türkiye Büyük Millet Meclisi (TBMM) Meclis Araştırması Komisyonu 13 Raporu’nda üstün yetenekli öğrencilere ilgi alanları doğrultusunda eğitim verilmesi gerektiği belirtilmiştir [1, 2, 12]. İlgi için yapılan pek çok tanım mevcuttur: Schiefele’ye göre ilgi yönlendirici güçtür ve öğrencilerin yüksek performans göstermek ve motivasyon sergilemek için seçtikleri alanları açıklar [25]. Belirli konularla veya aktivitelerle ilişkilidir ve diğer davranış güdüleri gibi bir karakter özelliği değildir [25]. İlgi bazı işlerden hoşlanma ve o işleri yapma isteği duyma davranışlarıyla kendisini gösteren bir iç uyarıcıdır [4]. Kuzgun bazı ilgi türlerini doğal bilim, sosyal bilim, iş-ticaret, iş ayrıntıları, açık hava, ziraat olarak tanımlamıştır [4]. Milli Eğitim Bakanlığı’na bağlı BİLSEM’lerin bir amacı okul öncesi, ilköğretim ve ortaöğretim kurumlarına devam eden üstün yetenekli öğrencilerin örgün eğitim dışındaki zamanlarda ilgi alanları doğrultusunda eğitim almalarıdır [11]. Ancak BİLSEM Süreci İç Denetim Raporu Bulgu-10’da BİLSEM öğretmenlerinin yararlanabileceği zenginleştirilmiş alternatif programlar oluşturulmadığı ve daha da önemlisi öğrencilerin bireysel alanlarının belirlenebilmesi için objektif, geçerlilik ve güvenirlik çalışması yapılmış ölçekler mevcut olmadığı için üstün yetenekli öğrencilerin ilgi alanları doğrultusunda eğitilemeyebilecekleri belirtilmiştir [22]. Bu sorunun çözümü için raporda öneriler sunulmuştur. Sorunun çözülerek üstün yetenekli öğrencileri durumları belli olduğu andan itibaren ilgi alanları doğrultusunda yönlendirmek, öğrencilerin beyin güçlerini fonksiyonel hale getirilecek, öğrencileri tatmin edecek ve bundan tüm ülke yarar görecektir [16]. 2.2. Veri Madenciliği Dunham, veri tabanlarındaki ve bilgisayar dosyalarındaki verilerin çok hızlı büyüdüğünü, aynı zamanda bu verinin kullanıcılarının veriden daha karmaşık bilgi beklediğini belirtmiştir [26]. Fakat Dunham yapısal sorgu dillerinin (Structured Query Language, SQL) artan bu bilgi talebini karşılamakta yetersiz kaldığını da ifade etmiştir. Veri madenciliği, veri tabanındaki gizli bilgilerin ortaya çıkarılması olarak tanımlanır [26]. Diğer bir tanım da şöyledir: veri madenciliği veriden desenlerin seçilip çıkarılması için özel algoritmaların uygulanmasıdır [27]. 14 Veri madenciliği teriminin Veriden Bilgi Keşfi (Knowledge Discovery from Data, KDD) terimi ile eş zamanlı kullanıldığı durumlar mevcuttur [6]. Fakat KDD veriden kullanışlı bilginin keşfi için tüm süreci ifade ederken, veri madenciliği bu süreçteki bir adımdır [27]. Fayyad, Piatetsky-Shapiro, ve Smyth KDD’yi şöyle tanımlamıştır [27]: KDD verilerin nasıl saklandığı, verilere nasıl erişildiği, algoritmaların büyük veriler üzerinde verimli çalışmaları için nasıl ölçeklendirilmeleri gerektiği, sonuçların nasıl yorumlanıp görselleştirildiği gibi konuların tümünü içermekte ve veriden bilgi keşfinin sürecinin tümüne odaklanmaktadır. KDD disiplinler arası bir aktivite olarak görülebilir. Herhangi bir özel disiplinin kapsamının ötesindeki teknikleri barındırmaktadır. Şekil 2.1. KDD adımları temel akışı [27] KDD adımlarının temel akışı Şekil 2.1’de verilmiş ve aşağıdaki gibi tanımlanmıştır [27]: Seçme adımında üzerinde keşif gerçekleştirilecek değişken alt kümesine odaklanılır ve üzerinde çalışılacak hedef veri seti seçilir. Ön işleme adımında temel olarak veri temizleme işlemi yapılır. Bu adımda gürültüler uzaklaştırılır, eksik verileri ele almak için stratejilere karar verilir. Dönüştürme adımında veri indirgemesi yapılır ve verinin iz düşümü alınır. Bu adımda amaca bağlı olarak veriyi temsil eden kullanışlı nitelikler bulunur. Boyut indirgeme ve dönüştürme metotları ile gözden geçirilmekte olan değişkenlerin sayısı azaltılabilir. 15 Veri madenciliği adımında sınıflandırma, kümeleme, birliktelik ve benzeri metotların kullanılıp algoritmaların uygulanmasıyla ilgi duyulan desenler araştırılır. Daha önceki adımların başarısı bu adımın başarısını da etkilemektedir. Yorumlama/değerlendirme adımında keşfedilen desenler yorumlanır. Bu adım çıkartılan desenlerin ve modellerin görselleştirilmesini içermektedir. Dunham veri madenciliği modellerini ikiye ayırmıştır [26]: Tahmin edici model Tahmin edici model, farklı verilerden elde edilen bilinen sonuçlardan yararlanarak yeni verinin değerleri hakkında tahminde bulunur. Örneğin banka müşterilerin kredi geri ödememe riskleri tahmin edilebilir. Tanımlayıcı model Tanımlayıcı model, verideki desenleri ve ilişkileri tespit eder. Tahmin edici modelin tersine tanımlayıcı model yeni özellikleri tahmin etmez, üzerinde çalışılan verinin özelliklerini keşfetmek için yollar sunar. 16 Şekil 2.2. Veri madenciliği modelleri ve işlevleri [26] Dunham bu modellerin altında yer alan işlevleri Şekil 2.2’de belirtmiş ve bu işlevler için aşağıdaki tanımlamaları vermiştir [26]: Sınıflandırma Sınıflandırma, veriyi önceden tanımlı sınıflara veya gruplara eşlemektedir. Veri incelenmeden önce mümkün olan sınıflara karar verildiğinden, sınıflandırma denetimli öğrenimdir. Kredi riskini tespit etmek ve banka kredisi verip vermemeye karar vermek sınıflandırmaya iki örnektir. Sınıflandırma algoritmalarının çalışması için sınıfların veri nitelik değerleri üzerine kurulu olarak tanımlanmaları gerekir. Bu algoritmalar, hali hazırda ilgili sınıflara ait olan verilerin karakteristiklerine bakarak o sınıfları tanımlarlar. Sınıflandırma yapmak için tüm yaklaşımlar veri üzerinde bilgiye ihtiyaç duyarlar. Sınıflandırma tekniği tarafından ihtiyaç duyulan parametreleri geliştirmek için genellikle eğitim seti kullanılır. Eğitim verisi örnek girdi verisinin yanı sıra verinin sınıf atamalarını da içerir. 17 Sınıflandırma, veri tabanını sınıf setine eşler. Sınıflar önceden tanımlıdır, çakışmazlar ve tüm veri tabanını bölümlere ayırırlar. Veri tabanındaki her kayıt sadece bir sınıfa aittir. Sınıflandırma iki fazda gerçekleştirilir: Eğitim verisi değerlendirilerek sınıflandırma modeli oluşturulur. Bu adımın girdisi eğitim verisi (her kayıt için ait olduğu sınıfı da içeren) çıktısı ise geliştirilen modeldir. Geliştirilen model eğitim verisini mümkün olduğunca doğru sınıflandırmaktadır. İlk adımda kurulan model, hedef veri tabanındaki sınıfları bilinmeyen kayıtları sınıflandırmak için uygulanır. Sınıflandırmanın aslında ikinci adım ile yapılmasına rağmen bu adımın uygulanması basit olduğu için, araştırmaların çoğu birinci adımla ilgilidir. Sınıflandırma algoritmalarının performansı genellikle sınıflandırma doğruluğu ile ölçülür. Sınıflandırma doğruluğu ise çoğunlukla doğru sınıflara atanan kayıtların yüzdesi olarak hesaplanır. Sınıflandırma kurallarının doğruluğu test verisi üzerinde ölçülür. Eğer elde edilen doğruluk kabul edilebilir olarak değerlendirilirse bu kurallar sınıfları bilinmeyen kayıtların sınıflarını bulmak için kullanılabilir. Regresyon Regresyon bir veri öğesini, gerçek değerli tahmin değişkenine eşlemek için kullanılır ve eşleme yapan fonksiyonun öğrenilmesini kapsar. Regresyonda varsayım hedef verinin bilinen bir fonksiyon tipine (lineer, lojistik) uymasıdır. Regresyon daha sonra verilen veriyi en iyi modelleyen fonksiyona karar verir. Hata analizi hangi fonksiyonun en iyi olduğuna karar vermede kullanılır. Zaman serisi analizi Zaman serisi analizinde bir niteliğin zaman içinde değişen değerleri incelenir. Değerler genellikle saatlik, günlük, haftalık gibi eşit zaman aralıklarında ölçülür. Zaman serilerini modellemek için zaman serisi çizelgesi (time series plot) kullanılabilir. Zaman serisi analizinde 3 tip fonksiyon gerçekleştirilebilir. Birinci durumda uzaklık ölçümleri, farklı zaman serileri arasındaki benzerliği bulmak için kullanılabilir. İkinci durumda zaman serisi 18 çizelgesi çizgisinin yapısı davranışına karar vermek için incelenebilir. Üçüncü durumda ise tarihsel zaman serisi çizelgesi gelecek zaman değerlerini tahmin etmek için kullanılabilir. Tahmin etme Pek çok gerçek dünya veri madenciliği uygulaması, verinin gelecek zamandaki durumunu, geçmiş ve şimdiki zamandaki durumundan tahmin ederler. Tahmin etme sınıflandırmanın alt tipi olarak düşünülebilir. Aradaki fark tahmin etmenin verinin şu anki durumundan çok gelecek zamandaki durumunu tahmin ediyor olmasıdır. Burada veri madenciliği modelleme yaklaşımı tipinden çok bir uygulama tipi kastedilmektedir. Tahmin uygulamaları, konuşma tanıma, makine öğrenimi, desen tanıma tekniklerini içermektedir. Gelecek zaman değerleri regresyon teknikleri ve zaman serisi analizi ile tahmin edilebilir olmakla birlikte, bu yaklaşım da kullanılabilmektedir. Kümeleme Kümeleme, grupların (mümkün sınıf değerlerinin) önceden tanımlanmamış olması dışında sınıflandırmaya benzemektedir. Bu grupların ne olacağı veri üzerinde belli olmaktadır. Kümeleme denetimsiz öğrenimdir ve verinin çeşitli gruplara bölünmesi olarak tanımlanabilir. Önceden tanımlı nitelikler üzerinde veriler arasındaki benzerliklere karar verilmesi ile kümeleme gerçekleştirilir. Birbirine en çok benzeyen veriler bir kümede gruplanır. Kümeler önceden tanımlı olmadığı için oluşan kümelerin anlamını yorumlamak için uzman görüşü gerekmektedir. Özetleme Özetleme, veriyi ilgili basit açıklamalarla alt kümelere eşlemektedir. Özetleme, genelleme veya nitelendirme olarak ta isimlendirilmektedir. Veri tabanı hakkındaki temsil edici bilgiyi çıkarmaktadır. Bu işlem verinin çeşitli parçalarına ulaşılarak yapılabilir. Alternatif olarak veriden özet tipli bir bilgi (örneğin numerik değerler için ortalama) çıkarılabilir. Özetleme veri tabanı içeriğini kısa olarak nitelendirir. 19 Birliktelik kuralları Birliktelik analizi veri içerisindeki ilişkilerin açığa çıkarılmasıdır. Bu tip uygulamanın en iyi örneği birliktelik kurallarına karar verilmesidir. Bir birliktelik kuralı verideki bir birliktelik ilişkisini ortaya çıkaran bir modeldir. Birliktelik kuralları sıklıkla satış sektöründe birlikte alınan ürünleri belirlemek için kullanılır. Örneğin makarna ve peynir alan bir müşterinin %75 olasılıkla ekmek alması bu tip bir kuraldır. Bu alan, market sepeti analizi olarak adlandırılır. Birliktelik kuralları, telekomünikasyon anahtarlarının arızalanma durumlarını tahmin etme gibi başka birçok uygulamada da kullanılmaktadır. Birliktelik kuralları verideki ilişkilerin nedensel açıklamasını vermemektedir. Bu kurallar gerçek dünyadaki verinin yapısında bulunan ilişkileri temsil etmemektedir. Bu birlikteliklerin gelecekte geçerli olması da garanti değildir. Sıralama analizi (Sequential analysis) Sıralama analizi, verideki sıralı desenleri ortaya çıkarmak için kullanılır. Bu desenler faaliyetlerin zaman sıraları üzerinde kurulmuştur. İlgili desenler birliktelik kurallarına benzerler, fakat ilişkilerin temeli zamandır. Öğelerin aynı zamanda alındığı market sepeti analizinden farklı olarak, sıralama analizinde öğeler zaman içinde belli bir sırada satın alınırlar. Örneğin CD oynatıcı alan kişilerin çoğunun bir hafta içinde CD satın alacağının bulunması bu tip bir analizdir. Geçici birliktelik kuralları bu kategoriye girmektedir. Han ve Kamber’e göre veri madenciliği model ve işlevleri aşağıdaki veri depoları üzerinde uygulanabilmektedir [6]: İlişkisel veri tabanları İlişkisel veri tabanı, her birinin ismi özgün olan tabloların birleşiminden oluşur. Her tablo çeşitli kolonlardan oluşmakta ve çeşitli kayıtları (satırları) saklamaktadır. Tablodaki bir kaydın nitelik değerlerine tablonun özgün anahtarı ile erişilebilir. Veri Tabanı Yönetim Sistemi (VTYS) ise bir veri tabanından ve veri tabanındaki veriye erişmek ve veriyi yönetmek için yazılım programlarından oluşmaktadır. 20 İlişkisel veri tabanlarında yer alan verilere, SQL gibi ilişkisel sorgu dillerinde yazılan veri tabanı sorguları veya grafiksel kullanıcı ara yüzleri (Graphical User Interfaces, GUI) aracılığı ile erişilebilir. Veri madenciliği ilişkisel veri tabanlarına uygulandığında eğilimler ve veri desenleri araştırılabilir. Örneğin yeni bir müşterinin yaşı, geliri ve daha önceki kredi bilgileri kullanılarak bu müşterinin kredi riski tahmin edilebilir. Veri madenciliği sistemleri ile satışları bir önceki yılla karşılaştırılınca sapma gösteren ürünler belirlenebilir. Bu sapmaların nedenleri araştırılabilir. İlişkisel veri tabanları en çok kullanılan zengin bilgi depolarından biridir. Dolayısı ile veri madenciliğinde yaygın olarak kullanılmaktadır. Veri ambarları (Data warehouses) Veri ambarı, birden fazla kaynaktan toplanan bilgilerin saklandığı depodur. Bu depo genellikle tek bir konumda yer almakta ve birleşik bir şema altında saklanmaktadır. Veri ambarları, veri temizleme, veri entegrasyonu, veri dönüşümü, veri yüklemesi ve periyodik veri yenilemesi işlemleri ile kurulmaktadır. Veri ambarları genellikle çok boyutlu veri tabanı yapısı ile modellenmektedir. Bu yapıda her boyut bir niteliğe veya nitelik setine karşılık gelmektedir. Her hücre sayım sonucu gibi toplam ölçüm (aggregate measure) değerini saklamaktadır. Veri ambarlarının gerçek fiziksel yapısı ilişkisel veri deposu veya çok boyutlu veri küpü olabilir. Veri küpleri verinin çok boyutlu görünümünü sunmakta ve özet verinin ön hesaplamasına ve hızlı erişimine imkân sağlamaktadır. Çok boyutlu veri görünümleri sunmasıyla ve özet verinin ön hesaplanmasına olanak sağlamasıyla veri ambarları, çevrimiçi analitik işleme (on-line analytical processing, OLAP) için çok uygundur. OLAP işlemleri, veriyi farklı soyutlama seviyelerinde sunmak için üzerinde çalışılan veriyle ilgili alan bilgisini kullanır. OLAP işlemlerine örnek olarak kullanıcının veriyi farklı özet derecelerinde görüntülemesini sağlayan yukarı yuvarla (rollup) ve detaya in (drill-down) verilebilir. Örneğin kullanıcı çeyreklerle özetlenmiş satışların 21 detayına inerek aylık satışlara erişebilir veya şehir bazındaki satışları ülke bazında özetlenmiş satışları göstermesi için yukarıya yuvarlayabilir. İşlemsel (Transactional) veri tabanları İşlemsel veri tabanı bir dosyadan oluşur. Bu dosyadaki her kayıt bir işlemi temsil eder. Her işlem özgün bir işlem kimlik numarasını ve bu numaraya ait öğelerin listesini (örneğin bir mağazadan satın alınan ürünler) içerir. Bir markette hangi ürünlerin beraber satıldığını bulmak çok önemlidir. Böyle bir market sepeti analizi sayesinde satış artırma stratejisi olarak birlikte alınan ürünler gruplanabilir (fiziksel olarak veya internet üzerinde). Alışılmış veri okuma sistemleri böyle ihtiyaçlara cevap veremezler. Fakat işlemsel veri üzerinde çalışan veri madenciliği ile birlikte sık görülen öğe setleri (örneğin birlikte satılan ürünler) bulunabilir. Bu veri depoları dışında aşağıdaki gelişmiş veri sistem ve uygulamaları üzerinde de veri madenciliği uygulanmaktadır: Nesne ilişkisel veri modeli üzerine kurulu nesne ilişkisel (object relational) veri tabanları Geçici (temporal) veri tabanları: Zaman ilişkili nitelikleri içeren ilişkisel veriyi saklayan veri tabanlarıdır. Sıralama (sequence) veri tabanları: somut zamanları dikkate alarak veya almadan, sıralı olayların sıralarını saklayan veri tabanlarıdır. Zaman serisi (time series) veri tabanları: Belli zamanlarla (saatlik, günlük, haftalık) tekrarlanan ölçümlerle elde edilen değerleri saklayan veri tabanlarıdır. Uzamsal (spatial) veri tabanları: Harita gibi uzamsal veriyi içeren veri tabanlarıdır. Metin (text) veri tabanları: Nesnelerin kelime tanımlarını içeren veri tabanlarıdır. Multimedya veri tabanları: İmajları, ses ve video kayıtlarını saklamaktadır. Heterojen veri tabanları: Tümü kendi kendini yöneten, birbirleriyle bağlantılı veri tabanlarından oluşmaktadır. 22 Miras (legacy) veri tabanları: İlişkisel veri tabanları, nesne tabanlı veri tabanları, hiyerarşik veri tabanları, ağ veri tabanları, multimedya veri tabanları, dosya sistemleri gibi farklı veri sistemlerini birleştiren heterojen veri tabanları grubudur. Veri akımları (Data streams): Verinin gözlem platformundan içeri ve dışarı dinamik olarak aktığı sistemlerdir. İnternet Han ve Kamber gerçek dünyada veri tabanlarının çok büyük olmasından ve verilerin birden fazla heterojen kaynaktan gelmesinden dolayı, veri tabanlarının gürültülü, eksik ve tutarsız verileri içermeye yatkın olduğunu belirtmiştir [6]. Han ve Kamber aynı zamanda, düşük kaliteli verinin düşük kaliteli veri madenciliği sonuçlarını doğuracağını da ifade etmişlerdir. Han ve Kamber’e göre verideki bu sorunların nedenleri şunlardır: Eksik veri Bazı veriler veri giriş zamanında önemli bulunmadığı için girilmemiş olabilir. Yanlış anlama veya veri giriş sistemindeki hatalardan dolayı ilgili veriler kayıt edilmemiş olabilir. Diğer kayıt edilmiş verilerle tutarlı olmayan veriler silinmiş olabilir veya verilerin tarihsel gelişimi ve güncellemeleri dikkate alınmamış olabilir. Gürültülü veri (Yanlış nitelik değerleri olan veri) Veri toplama araçları hatalı olabilir. Veri giriş zamanında bilgisayar veya kullanıcı hatası olmuş olabilir. Veri iletiminde hata olmuş olabilir. Veri iletiminde, limitli arabellek boyutu gibi teknoloji kısıtlarından dolayı hata oluşmuş olabilir. İsimlendirme kuralları, veri kodları veya giriş alanları (örneğin tarih için) için tutarsız formatlar yanlış veriye sebep vermiş olabilir. Han ve Kamber bu nedenlerden dolayı veri madenciliği yapılmadan önce, verinin ön işlemesinin yapılması gerektiğini belirterek, ön işleme yöntemlerini aşağıdaki gibi tanımlamıştır [6]: 23 Veri temizleme Veri temizleme işlevleri kayıp verileri doldurur, gürültülü veriyi yumuşatır, sıra dışı değerleri (verinin modeli ve genel davranışı ile uyumlu olmayan veriler) saptar, sistemden çıkarır ve tutarsızlıkları çözer. Eğer veri kirli ise veri madenciliğinin çıktısı güvenilir olmayacaktır. Veri madenciliği rutinlerinin pek çoğu eksik ve gürültülü verileri ele almak için prosedürler içerse de bunlar her zaman sağlıklı değildir. Dolayısıyla veri temizleme ön işleme aşamasının veri madenciliğinden önce uygulanması gerekmektedir. Veri entegrasyon ve dönüşümü Veri entegrasyonu, farklı kaynaklardan gelen verileri, veri ambarı gibi tutarlı bir veri deposu altında birleştirmektedir. Bu farklı kaynaklar çeşitli veri tabanları, veri küpleri veya dosyalar olabilir. Normalizasyon ve toplama (aggregation) gibi veri dönüşüm işlemlerin yapıldığı ve veri madenciliği başarısına katkısı olan süreç ise veri dönüşümü sürecidir. Veri indirgeme Veri indirgeme ile veri çok daha küçük, fakat neredeyse aynı veri madenciliği sonuçlarını üreten hale getirilir. Veri kesikleştirme Veri kesikleştirme teknikleri ile sürekli değer alabilen niteliklerin değerleri aralıklara bölünerek bu niteliklerin sahip olabilecekleri değerlerin sayıları azaltılır. Dunham sınıflandırma, kümeleme ve birliktelik algoritmalarının çeşitlerini aşağıdaki gibi tanımlamıştır [26]: 24 Sınıflandırma algoritmaları İstatistiksel algoritmalar Regresyon ve Bayesian algoritmaları istatistiksel algoritmalardır. Uzaklık tabanlı algoritmalar Bu yaklaşımda aynı sınıfa dahil edilen öğeler birbirlerine, diğer sınıflarda yer alan öğelere benzediklerinden daha çok benzemektedirler. Uzaklık ölçümleri farklı öğelerin benzerliğini tanımlamak için kullanılabilir. K en yakın komşu (K Nearest Neighbors) algoritması uzaklık tabanlı bir algoritmadır. Karar ağacı algoritmaları Karar ağacı yaklaşımı sınıflandırma problemleri için en kullanışlı yaklaşımdır. Bu teknikte sınıflandırma sürecini modellemek için bir ağaç oluşturulur. Ağaç kurulduktan sonra yeni veri üzerinde uygulanır, böylelikle yeni veri sınıflandırılmış olur. Yani bu teknikte 2 temel adım vardır: ağacın oluşturulması ve sınıflandırma yapmak için ağacın yeni veri üzerinde uygulanması. Uygulama süreci basit olduğu için çalışmaların çoğu ağaçları verimli şekilde oluşturmaya odaklanmıştır. ID3, C4.5, C5.0 ve CART algoritmaları karar ağacı algoritmalarıdır. Şekil 2.3 bir karar ağacı örneğini göstermektedir: 25 Şekil 2.3. Karar ağacı örneği Kural tabanlı algoritmalar Sınıflandırma yapmanın diğer bir yolu tüm sınıfları kapsayan “if then” kuralları oluşturmaktır. Örneğin sınav notlarını sınıflandırmak için aşağıdaki kurallar kullanılabilir: If not>=90, then sınıf=A If not>=80 and not<90, then sınıf=B If not>=70 and not<80, then sınıf=C If not>=60 and not<70, then sınıf=D If not<60, then sınıf=F R=<a,c> şeklindeki bir sınıflandırma kuralında “a” atayı (if bölümünü), “c” ise sonucu (then bölümünü) temsil etmektedir. Sınıflandırmak istenen her yeni veri için bir kuralın “if” kısmı test edildiğinde ya “doğru” ya da “yanlış” değeri elde edilir. Eğer “doğru” sonucu çıkar ise yeni veri ilgili kuralın sınıf değerine (then bölümündeki sınıf) atanır. Eğer “yanlış” sonucu çıkar ise diğer kurallar test edilmeye devam edilir. Kurallar karar ağacından oluşturulabilir veya hiçbir karar ağacı olmadan da kuralların oluşturulması mümkündür. Karar ağacı olmadan kural oluşturma teknikleri, belirli sınıfları tam olarak kapsayan kurallar oluşturmaya çalıştıkları için “kapsama” algoritmaları olarak isimlendirilirler. 1R ve Prism bu algoritmalara örnektir. 26 Bu algoritmalar dışında çeşitli sinir ağı tabanlı sınıflandırma algoritmaları mevcuttur. Kümeleme algoritmaları Temel prensip bir kümede yer alan bir öğenin, o kümedeki diğer öğelere diğer kümelerdeki üyelere benzediğinden daha çok benzemesidir. Bu benzerliği ölçmek için benzerlik ve uzaklık ölçütleri kullanılmaktadır. Kümeleme algoritmaları hiyerarşik ve bölümlemeli algoritmalar olarak ikiye ayrılır. Hiyerarşik algoritmalar Hiyerarşik kümeleme algoritmaları küme setleri oluşturmaktadır. Dendrogram adı verilen ağaç yapısı hiyerarşik kümeleme ile oluşan kümeleri göstermek için kullanılabilir. Şekil 2.4’de bir dendrogram örneği verilmiştir. Dendrogram ağacının kökü tüm elemanların birlikte olduğu bir kümeyi temsil etmektedir. Dendrogramın yaprakları tek elemandan oluşan kümelerdir. Dendogramdaki bir iç düğüm ise bu düğümün çocukları olan kümelerin birleşmesinden oluşan kümedir. Agglomerative algoritmalar ve bölücü (divisive) kümeleme hiyerarşik kümeleme yaklaşımlarıdır. 27 Şekil 2.4. Dendrogram örneği Bölümlemeli (Partitional) algoritmalar Hiyerarşik olmayan veya bölümlemeli kümeleme, kümeleri tek adımda oluşturmaktadır. Bu yöntemde sadece bir küme seti oluşturulduğu için kullanıcı kaç adet küme istediğini (k) belirtmelidir. Ayrıca önerilen yöntemin başarısını ölçmek için bir takım metrikler ya da fonksiyonlar kullanılır. Kümeler arası averaj uzaklık bu kalite metriğine örnektir. Minimum Kapsama Ağacı (Minimum Spanning Tree), Hata Karesi (Squared Error), KOrtalamalar (K-Means), En Yakın Komşu (Nearest Neighbor), Bağ Enerji (Bond Energy) algoritmaları bölümlemeli algoritmalara örnektir. Bu algoritmalar dışında genetik algoritmalarla ve sinir ağları ile bölümlemeli kümeleme yapılabilir. 28 Birliktelik algoritmaları Temel algoritmalar Apriori, örnekleme (sampling) algoritması ve bölme (partition) algoritması bu tipe örnek teşkil ederler. Apriori en çok bilinen birliktelik algoritmasıdır ve ticari uygulamaların çoğu tarafından kullanılmaktadır. Büyük öğe seti özelliğini kullanmaktadır. Bu özellik “büyük bir öğe setinin herhangi bir alt kümesi de büyük olmalıdır” şeklinde ifade edilebilir. Paralel ve dağıtık algoritmalar Bu algoritmaların çoğu ya veriyi paralel hale getirirler (veri paralelleştirme) veya adayları paralel hale getirirler (görev paralelleştirme). Sayım Dağılımı Algoritması (Count Distribution Algorithm) bir veri paralelleştirme algoritmasıdır. Veri Dağılımı Algoritması (Data Distribution Algorithm) ise görev paralelleştirmeye bir örnektir. Bu algoritmalar dışında Hızlı Güncelleme (Fast Update) gibi Apriori üzerine kurulu artımlı yaklaşımlar mevcuttur. Han ve Kamber veri madenciliğinin yaygın uygulama sahalarını ve bu sahalarda veri madenciliğinin hangi amaçlarla kullanılabileceğini aşağıdaki şekilde tanımlamıştır [6]: Finansal veri analizi Kredi geri ödeme tahmini ve müşteri kredi politikası analizi yapılabilir. Pazarlama hedefleri için müşteriler sınıflandırılabilir ve kümelenebilir. Kara para aklama ve diğer finansal suçlar ortaya çıkarılabilir. Perakende ticaret sektörü Satışların, müşterilerin, ürünlerin, bölgelerin ve zamanın çok boyutlu analizi yapılabilir. Satış kampanyalarının etkinlik analizi gerçekleştirilebilir. 29 Müşteri sadakat analizi yapılabilir. Ürün tavsiyesi ve ürünler arası çapraz referans verme imkânı sağlanabilir.(market sepeti analizi kullanılarak) Telekomünikasyon sektörü Telekomünikasyon verisinin çok boyutlu analizi yapılabilir. Yolsuzluk desen analizi yapılabilir ve sıra dışı desenler ortaya çıkarılabilir. Çok boyutlu birliktelik ve sıralı desen analizleri yapılabilir. İzinsiz giriş saptama (Bilgisayar sistemleri için) Birliktelik ve korelasyon analizleri ile izinsiz giriş saptamada kullanılabilecek ayırt edici nitelikler seçilebilir. İzinsiz giriş ve saldırıların geçici ve dinamik yapısı göz önüne alındığında veri akımları (data stream) üzerinde izinsiz giriş saptaması yapılabilmesi çok önemlidir. İzinsiz girişler farklı lokasyonlardan aynı anda başlatılabileceği için dağıtık veri madenciliği uygulanabilir. Bu sektörler yanında veri madenciliği biyolojik veri analizinde yaygın olarak kullanılmaktadır. Biyolojik veri madenciliği yeni bir araştırma alanı olan biyoinformatiğin gerekli bir parçası haline gelmiştir. 2.3. Eğitimsel Veri Madenciliği Eğitimsel veri madenciliği alanında yapılan pek çok çalışma mevcuttur. Bu bölümde bu konuda yapılan literatür araştırmasının özeti verilmektedir. Kelley-Winstead aynı öğretim yılını tekrar edecek öğrencileri tahmin eden bir çalışma gerçekleştirmiştir [28]. Çalışma 1570’i aynı sınıfı tekrar eden 10 140 öğrenci üzerinde gerçekleştirilmiştir. Araştırmada aynı öğretim yılını tekrar etme durumu üzerinde etkili sosyo demografik, ailesel geçmiş ve okulla ilgili faktörler ortaya çıkarılmıştır. İlgili çalışmada yöntem olarak sınıflandırma ağaçları ve lojistik regresyon kullanılmıştır. 30 Şen, Uçar ve Delen orta öğretim yerleştirme testi skorunu tahmin eden bir model geliştirerek başarı üzerinde etkili olan faktörleri saptamışlardır [29]. Tahmin edilecek yerleştirme testi sonucu çok yüksekten çok düşüğe kadar 5 değer içerir. Bu çalışmada Türkiye’deki orta öğretime geçiş sisteminden geniş bir veri seti kullanılmıştır. C5 karar ağacı algoritması en iyi tahmin edici çıkmıştır. C5 algoritmasını doğruluk olarak Destek Vektör Makineleri (Support Vector Machines) ve Yapay Sinir Ağları takip etmektedir. Çalışmada tahmin için kullanılan bazı genel nitelikler şunlardır: cinsiyet, kardeş sayısı, özür durumu, çalışma durumu, burs durumu, özel ders durumu, ebeveynlerin yaşama/boşanma durumu, özel/devlet okulu durumu. Çalışma daha önceki test deneyiminin, öğrencinin burs durumunun, kardeş sayısının, bir önceki yılların ortalama notunun tahmini etkileyen en önemli nitelikler arasında olduğunu göstermektedir. Cinsiyet, çalışma durumu, ebeveynlerin evlilik durumu diğer nitelikler kadar önemli çıkmamıştır. Bu nitelikleri ortaya çıkarmak başarıyı artırmak ile ilgilenen öğrencilere, öğretmenlere ve ailelere yardımcı olacaktır. Ayrıca bu tür analizler, standart okul giriş testlerin yapısını anlama ve daha efektif ve eşit değerlendirme araçları tasarlama açısından da faydalı olacaktır. Şen ve Uçar veri madenciliği yöntemleri ile Karabük Üniversitesi Bilgisayar Mühendisliği Bölümü öğrencilerinin başarılarını yaş, cinsiyet, mezun olunan lise tipi, uzaktan/örgün eğitim durumu gibi kriterleri kullanarak karşılaştırmışlardır [30]. Çalışmada Karabük Üniversitesi Bilgisayar Mühendisliği Bölümü’nden 3047 öğrencinin kayıtları kullanılmıştır. İlgili araştırmada iki sınıflandırma metodundan yararlanılmıştır: yapay sinir ağları, karar ağaçları. Verideki öğrencilerin yaşları 18-38 arasında değişmektedir. Sonuçlar başarının artan yaşla azaldığını göstermiştir. Araştırma sonuçları ayrıca uzaktan eğitimde örgün eğitime göre başarı oranının düştüğünü göstermektedir. Yadav, Bharadwaj ve Pal yükseköğrenimde okula yeni gelen öğrencilerin bilgilerini kullanarak, okuldan ayrılabilecek öğrencilerin listesini üreten tahmin edici bir model geliştirmişlerdir [31]. Bu öğrenciler okulda tutma programından en çok yararlanma ihtiyacı olan öğrencilerdir. Son araştırmalar bu müdahale programların özellikle ilk yıl için ayrılma üzerinde önemli etkileri olduğunu göstermiştir. Öğrencilerin ayrılma oranını tahmin etmek için kurulan modeller kişisel, sosyal, psikolojik ve çevresel değişkenleri içermelidir. Öğrencilerin okulu bırakma nedenlerini bilmek öğretmenlere ve yöneticilere gerekli önlemleri almaları için yardımcı olabilir, bu sayede başarı oranı iyileştirilebilir. 31 Araştırmada kullanılan veri, öğrencilerin üniversiteye girişte doldurdukları formlardan elde edilmiştir. Öğrencilerin demografik bilgileri, geçmiş performans bilgileri, adres ve irtibat numaraları bu formlarda yer almaktadır. Çalışma, Waikato Environment for Knowledge Analysis (WEKA) yazılımı üzerinde ID3, C4.5 and ADT karar ağacı algoritmaları kullanılarak gerçekleştirilmiştir. Jormanainen ve Sutinen öğrencilerin robot derslerinde robot programlaması için müdahaleye ihtiyaç duyup duymadıklarını tahmin eden bir model geliştirmişlerdir [32]. Robot sınıflarında öğrencilerin ilerleyişini izlemek zordur, çünkü öğrenciler problem çözmede farklı ve tahmin edilemez yollar izlemektedirler. Çalışmada öğretmenlerin doğru zamanda müdahale etmelerini sağlamak için öğrenme sürecinin izlenebileceği bir ortam geliştirilmiştir. Araştırma için Güney Afrika’da 12 öğrenci ve 4 öğretmenin çalıştığı bir robot projesinden veri toplanmıştır. Bu çalışmada öğrenciler “Lego Mindstorms RCX” robot kitlerini kullanmışlardır. Öğrencilerin robot konusunda daha önceden aşinalıkları yoktur. Öğrencilere tekerlekli robot verilmiş ve robotu 5 saniye ileri gidecek şekilde ve daha sonra geri başladığı yere gelecek şekilde programlamaları istenmiştir. Bu görevi tamamlamak için öğrenciler tekli komutları bilmeli, bu komutlardan doğru sırayla programı oluşturmalı ve robota programı yüklemelidir. Amaç öğrencinin robot programlaması ilerlemesini otomatik olarak aşağıdaki sınıflara atayarak müdahale gerekiyorsa doğru zamanda müdahale etmektir: Beyaz: Öğrenci henüz ilerlememekte, problem yaşamamaktadır. (nötür durum) Yeşil: Öğrenci sorunsuz ilerlemektedir. Sarı: Öğrenci problem yaşamaktadır. Yakında müdahale gerekebilir. Kırmızı: Öğrenci müdahale gerektiren problemler yaşamaktadır. Ayesha, Mustafa, Sattar ve Khan’ın çalışmasında öğrenci bilgilerinden final sınav notları tahmin edilmiştir [33]. Araştırmada 120 öğrencinin verileri kullanılmıştır. Önerilen model, final sınavından önce bu sınavda başarı durumu zayıf olabilecek öğrencileri, ilgili öğrencileri ciddi hasardan korumak amacıyla tespit etmektedir. Bu sayede öğretmenler öğrencilerin performansını artırmak için doğru zamanda gerekli önlemleri alabilirler. Ayrıca ilgili araştırmada öğrenciler karakteristiklerine göre k-ortalamalar kümeleme yöntemi ile çeşitli kümelere ayrılmışlardır. 32 Baradwaj ve Pal bilgisayar uygulamaları dersindeki akademik başarıyı tahmin etmişler, ayrıca başarı üzerinde etkili faktörleri saptamışlardır [34]. Çalışma Hindistan’da yer alan Purvanchal üniversitesinin Bilgisayar Uygulamaları Bölümü’nde gerçekleştirilmiştir. 50 öğrenci verisi mevcuttur. Öğrenci veri tabanından ders katılım bilgileri, test sonucu, seminer ve ödev sonucu gibi veriler dönem sonundaki öğrenci performansını tahmin etmek için kullanılmıştır. Sınıflandırma yöntemi olarak karar ağaçları uygulanmıştır. Çalışma sonuçları öğrencinin başarısını iyileştirmek için öğrencilere ve öğretmenlere yardımcı olacaktır. Sonuçlar ile başarısızlık oranını azaltmak için özel ilgi gerektiren öğrencilere ulaşılabilecektir. C-F. Tsai, C-T. Tsai, Hung ve Hwang bilgisayar yeterlilik sınavından kalacak öğrencileri tahmin etmişlerdir [35]. Çalışma Tayvan’da ulusal bir üniversitede gerçekleştirilmiştir. İlk önce öğrenciler kümelere ayrılmıştır. Öğrencileri kümelere ayırmak için k-ortalamalar, iki adımlı kümeleme, öz düzenleme haritaları (self-organising maps) kümeleme teknikleri kullanılmıştır. En iyi kümeleme sonucu bulunduktan sonra karar ağacı algoritması, tanımlanmış kümelerden kuraları çıkarmak için kullanılmıştır. Bu kurallar testten kalma olasılığı yüksek olan öğrencileri uyarmak için kullanılabilir. Dejaeger, Goethals, Giangreco, Mola ve Baesens öğrencilerin memnuniyetleri üzerinde bir veri madenciliği çalışması gerçekleştirmişlerdir [36]. Eğitim sektöründeki rekabetin sonucu olarak eğitim enstitülerinin yönetimleri öğrenci memnuniyetini sağlayan faktörler konusunda bilgi toplamaya çalışmaktadırlar. İlgili çalışmada öğrenci memnuniyetini etkileyen ana faktörleri tanımlamak için veri madenciliği tekniklerinin uygulanabilirliği araştırılmıştır. Oluşturulan modeller yönetim tarafından karar verme sürecinde kullanılabilir. Çalışma Fransa ve İtalya’daki iki üniversitede gerçekleştirilmiştir. Çalışmadaki problem tahmin problemidir. Tahmin edilecek değişken yeni açılması düşünülen bir dersin öğrenciler tarafından beğenilip beğenilmeyeceğidir. Veriler öğrencilere yapılan bir anket ile toplanmıştır. Bu anketle öğrencilerin dersle ilgili olarak, eğitim faydaları, öğrenim kolaylığı, öğrenim etkinliği, eğitici performansı algıları ölçülmüştür. Öğrencilerin kişisel tercihleri değil dersler değerlendirilmek istendiğinden, bu anket sonuçlarının averajları veri olarak kullanılmıştır. Öğrencilerden anket ile toplanan verilerin yanı sıra ders ve eğitmen hakkındaki, ders kredisi, ders dili, sınıf büyüklüğü, eğitmen cinsiyeti, eğitmen yaşı, eğitmen doktora durumu, eğitmen deneyim yılı, eğitmen yayın sayısı, eğitmen medeni durumu, eğitmen çocuk sayısı, eğitmen milliyeti verileri de 33 tahminleme için kullanılmıştır. Veri madenciliği teknikleri olarak iki karar ağacı algoritması, toplu lojistik regresyon ve iki lineer olmayan veri madenciliği tekniği kullanılmıştır. Toplu lojistik regresyon tekniğinin performansı en iyi olmakla birlikte, anlaşılır olması açısından üniversite yönetimleri karar ağacını tercih etmiştir. Thomas ve Galambos yukarıdaki çalışmaya benzer şekilde öğrencilerin memnuniyetleri üzerinde bir veri madenciliği çalışması yapmışlardır [37]. Çalışmada kolejden genel memnuniyet, eğitim kalitesinden memnuniyet ve kolejin tekrar seçilip seçilmeyeceği olmak üzere üç adet farklı memnuniyet ölçütü kullanılmıştır. Araştırma verileri anket çalışması sonucunda toplanmıştır. Anketlerin uygulanması neticesinde öğrencilerin karakteristikleri, deneyimleri, planları, kampüs ortamından memnuniyetleri, servis ve olanaklardan memnuniyetleri, gelişim algıları, kolej seçim gerekçeleri elde edilmiş ve bu bilgilerin öğrenci memnuniyeti üzerindeki etkileri veri madenciliği ile araştırılmıştır. Araştırma kapsamında CHAID karar ağacı algoritması ve regresyon analizi kullanılmış, bu yöntemlerin sonuçları karşılaştırılmıştır. Üç adet farklı memnuniyet ölçütünün tahmin edici nitelikleri farklı çıkmıştır. Öğrenci memnuniyetinin tahmin edici niteliklerini araştıran bu çalışmada elde edilen bazı genel sonuçlar şunlardır: Akademik deneyimler memnuniyet üzerinde etkilidir. Fakültenin hazırlık durumu memnuniyetin başlıca belirleyicilerindendir. Sosyal entegrasyon önemlidir. Kampüs servisleri ve olanaklarının memnuniyet üzerinde sınırlı etkisi vardır. Demografik özellikler önemli belirleyiciler arasında değildir. Akademik çalışma ile daha az uğraşan öğrencilerin memnuniyetleri üzerinde sosyal entegrasyon daha fazla etkilidir. Im, Kim, Bae ve Park veri madenciliği ile üstün yetenekli öğrenciler üzerinde bir çalışma yapmışlardır [38]. Günümüzde üstün yetenekliliğin derecesini ölçmek için kullanılan zekâ katsayısı (Intelligence Quotient, IQ) yeterli değildir. Bu nedenle araştırmacılar tasarladıkları bir anket ile üstün yetenekli öğrencilerin bilimsel davranış, liderlik, başarma motivasyonu, ahlak-etik, yaratıcılık, zorluklara meydan okuma ve genel yetenek kabiliyetlerini ölçmüşlerdir. Daha sonra bu ölçüm sonuçları üzerinde k-ortalamalar kümeleme yöntemi ile kümeleme yapılmıştır. Kümeleme sonucunda sekiz yetenek türü 34 ortaya çıkarılmıştır. Bu yetenek türlerinin her biri farklı kabiliyet seviyeleri içerir. Böylelikle her bir kümede yer alan öğrencilere özel öğrenim desteği sağlanabilir. Ayrıca çalışmada C4.5. sınıflandırma algoritması kullanılarak her kümenin karakteristikleri tanımlanmıştır. Erdoğan ve Timor çalışmalarında üniversite giriş sınav puanı ile üniversite dersleri başarısı arasındaki ilişkiyi kümeleme analizi ve k-ortalamalar algoritma teknikleri ile araştırmışlardır [39]. Çalışmada Maltepe Üniversitesi’nden 722 öğrencinin verileri kullanılmıştır. Araştırmada çeşitli fakültelerin öğrencilerinden oluşan beş öğrenci kümesi elde edilmiş, bu kümelerin üniversite giriş sınavı ve üniversite dersleri başarıları incelenmiş ve başarı durumlarının sebepleri bulunmaya çalışılmıştır. Amershi ve Conati bilgisayar tabanlı bir öğrenme ortamında öğrencileri kümelere ayırmışlardır [40]. Çalışmada kullanılan bilgisayar tabanlı öğrenme ortamında bir takım mekanizmalar mevcuttur. Öğrenciler bu mekanizmaları kullanmalarına göre k-ortalamalar algoritması kullanılarak kümelere ayrılmıştır. Her küme ayırt edici sistem etkileşim desenine sahiptir ve aynı kümenin elemanları öğrenme ortamında benzer ilerlemeler göstermektedir. Bu çalışma sayesinde her öğrenci kümesine bilgisayar tabanlı öğrenme ortamında uyarlanabilir destek sağlanabilecektir. Tissera, Athauda ve Fernando çalışmalarında birliktelik analizlerini kullanarak güçlü bir şekilde ilişkili olan derslerin saptanabileceğini göstermişlerdir [41]. Ders programların organizasyonu genellikle öğretmenlerin elverişliliği, uzman görüş ve deneyimleri dikkate alınarak yapılmaktadır. Fakat bu organizasyon metodu öğrencilerin öğrenme kapasitesini artırmayabilmektedir. Derslerin ilişkilerinin ortaya çıkarılması ders programlarının düzenlenmesine yardımcı olabilecektir. Araştırma öğrencilerin ilişkili derslerden benzer notları alacağı varsayımı üzerine kurulmuştur. Veri madenciliği çalışması Sri Lanka’da bir eğitim kurumunda uygulanmıştır. Leong, Lee ve Mak öğrencilerin cep telefonu mesajları üzerinde metin madenciliği tekniklerini uygulayarak ders ve öğretmen değerlendirmesi yapmışlardır [42]. Eğitimde ders yılı sonunda öğrencilerin öğretmenleri ve derslerin içeriğini değerlendirmeleri yaygındır. Bu değerlendirme genelde likert ölçeği ile yapılmaktadır. Cep telefonu ve SMS ile bu değerlendirmenin yapılması, öğrencilere bu değerlendirmenin hemen dersten sonra 35 yapılması imkânını vermektedir. Bu durumda öğretmenlere hızlı geri dönüş yapılır ve öğretmen gerekli önlemleri alabilir. Kumar ve Chadha makalelerinde, eğitimsel veri madenciliğinin aşağıdaki alanlarda kullanılabileceğini belirtmişlerdir [9]: Birliktelik kuralları ile güçlü bir şekilde ilişkili dersler ortaya çıkarılıp ders programları daha etkin düzenlenebilir. Örneğin Veri Tabanı Yönetim Sistemi dersini alan öğrencilerin %50’sinin İleri Veri Tabanı Yönetim Sistemi dersini de alacak olması bu tarz bir birliktelik kuralıdır. Tahmin yöntemleri ile eğitim programlarına kaç bayan ve kaç erkek öğrencinin katılacağını tahmin edilebilir. Öğrencilerinin performansları öngörülebilir. Kümeleme teknikleri ile benzer davranışı gösteren öğrenciler aynı sınıflarda toplanabilir. Öğrencilerin sınav kâğıtlarındaki anormal değerler tespit edilebilir. Bu anormal değerler yazılım hatası, veri giriş hatası veya öğrencinin belirli bir konudaki sıra dışı performansından kaynaklanabilir. Çevrimiçi eğitim ortamında kopya çekme durumları tespit edilip önlenebilir. Akçapınar, Coşgun ve Altun çalışmalarında çevrim içi öğrenme ortamında Random Forest Regression (RFR) veri madenciliği yöntemi ile öğrencilerin algılanan yön duygusu yitirme durumunun tahmini için iki model önermişlerdir [43]. Birinci modelde açıklayıcı değişkenler olarak günlük bazlı metrikler kullanılmıştır. İkinci modelde ise günlük bazlı metrikler, göz metrikleri, kendini raporlama metrikleri kullanılmıştır. Her iki model de algılanan yön duygusu yitirme durumunu yüksek doğrulukla tahmin etmektedir. Sonuçlar göz metriklerinin ve kendini raporlama metriklerinin eklenmesinin tahminleme performansını artırdığını göstermiştir. Zengin, Esgi, Erginer ve Aksoy bilgisayar kullanımı ile ilgili bir veri madenciliği çalışması gerçekleştirmişlerdir [44]. Çalışma kapsamında Gaziosmanpaşa Üniversitesi eğitim fakültesinde öğrenim gören 531 öğrenci üzerinde likert tipi bilgisayar öz yeterlilik ölçeği uygulanmıştır. Veriler, tanımlayıcı istatistikler ve karar ağacı, bağımlılık ağları ve 36 kümeleme veri madenciliği teknikleri ile analiz edilmiştir. Çalışma sonucunda istatistiksel tekniklerle elde edilemeyen ancak veri madenciliği metotları ile elde edilebilen aşağıdaki bulgulara ulaşılmıştır: Bilgisayar terimleri konusunda ehil olduklarını düşünenler, bilgisayar kullanımında özel yeteneğe sahip olduklarına inanmaktadırlar. Bilgisayar kullanımı konusunda özel yeteneğe sahip olduklarına inananlar, bilgisayarı kendi vücutlarının parçası olarak hissetmektedirler. Bilgisayarı altı yıldan fazla kullananlar, bilgisayar kullanımında özel yeteneğe sahip olduklarına inanmaktadırlar. Bhardwaj ve Pal çalışmalarında, öğrencilerin bir takım bilgilerinden bilgisayar uygulamaları dersindeki başarılarını sınıflandırma analizi ile tahmin etmişlerdir [45]. Araştırmada Bilgisayar Uygulamaları Bölümü’nde ilgili dersi alan 300 öğrencinin verileri kullanılmıştır. Sınıflandırma yöntemi olarak Bayesian kullanılmıştır. Çalışma sonucunda öğrencilerin akademik performansının sadece kendi çalışmalarına bağlı olmadığı anlaşılmıştır. İlgili araştırma ile öğrencilerin ders başarısı üzerinde etkili olan yaşama yeri, eğitim ortamı, anne nitelikleri, öğrenci alışkanlıkları, aile yıllık geliri, aile statüsü gibi değişkenler ortaya çıkarılmıştır. Yongqiang ve Shunli çalışmalarında öğrencinin kalite değerlendirmesiyle öğrencinin ahlak eğitimi, entelektüel eğitimi, kabiliyetleri ve kişisel gelişimi arasındaki ilişkileri araştırmışlardır [46]. gerçekleştirilmiştir. Araştırma 300 öğrenci üzerinde birliktelik kuralları ile Çalışma sonucunda yüksek seviyede entelektüel eğitimi olan öğrencilerin kalite değerlendirmesi daha yüksek çıkmıştır. Benzer şekilde yüksek seviyede kabiliyete sahip öğrencilerin kalite değerlendirmesi daha yüksek çıkmıştır. Bu nedenle öğrencilerin kabiliyetleri artırılmaya, entelektüel eğitimleri geliştirilmeye çalışılmalıdır. Aydın, tez çalışmasında Anadolu Üniversitesi Uzaktan Eğitim Sistemi üzerinde eğitimsel veri madenciliği çalışması gerçekleştirmiştir [47]. Çalışmada öğrencilerin sistemdeki performansını tahmin etmek için bir model geliştirilmiştir. Bu modelin geliştirilmesi için SPSS Clementine veri madenciliği yazılımı üzerinde C5.0, Logistic Regression, Neural Net, C&RT, CHAID ve QUEST algoritmaları kullanılmıştır. C5.0 doğruluk oranı en yüksek çıkan algoritma olmuştur. İlgili araştırmada ayrıca mezun öğrenciler k-ortalamalar 37 kümeleme analizi ile kümelenmiştir. Bu sayede mezuniyet süresi üzerinde etkili faktörler saptanmıştır. Xu tez çalışmasında, çevrim içi kaynakların kullanılmasına imkân sağlayarak öğretmenlerin eğitim aktivitelerini destekleyen eğitsel dijital kütüphane servisi üzerinde veri madenciliği çalışması gerçekleştirmiştir [48]. İlgili araştırmada öğretmenler kümelere ayrılmıştır. Kümeleme yöntemi olarak gizli sınıf analizi (Latent Class Analysis, LCA) ve k-ortalamalar yöntemleri kullanılmış ve bu yöntemler karşılaştırılmıştır. Öğretmenler eğitsel dijital kütüphane servisi üzerinde projeler oluşturmaktadır. Kümeleme oluşturulan bu projelerle ilgili maksimum öğrenci ziyaret sayısı, maksimum iş arkadaşı ziyaret sayısı, oluşturulan proje sayısı, kopyalanan proje sayısı, ortalama proje içeriği büyüklüğü, her proje başına averaj kaynak sayısı gibi nitelikler kullanılarak gerçekleştirilmiştir. Kümeler oluşturulduktan sonra her bir kümenin elemanlarının eğitsel dijital kütüphane servisini etkin kullanıp kullanmadığı belirlenmiştir. Öğretmenlerin deneyimleri ve teknolojiye yatkınlıkları sistemi etkin biçimde kullanma durumlarını açıklamak için kullanılmıştır. Stamper tezinde Zeki Özel Ders Sistemleri (ITS, Intelligent Tutoring Systems) üzerinde eğitimsel veri madenciliği çalışması gerçekleştirmiştir [49]. ITS’ler öğrencilerin bireysel ihtiyaçlarına cevap verdiği için geleneksel bilgisayar tabanlı sistemlerden daha fazla avantaja sahiptir. Fakat ITC’lerin sınıflara uyarlanması zordur ve çok zaman almaktadır. İlgili tezde “geçmiş öğrenci bilgileri üzerinde eğitimsel veri madenciliği tekniklerinin uygulanarak otomatik olarak ITS yetenekleri oluşturulması” hipotezi test edilmiştir. ITS üzerinde, bir adımda bir öğrenciye özel ipuçları oluşturmak için öncelikle geçmiş bilgilerin tutulduğu veri tabanından problem üzerinde ilgili öğrenci ile ilgili adıma kadar aynı yolla çalışan öğrencilerin bilgilerine ulaşılır. Daha sonra bu bilgilerden yararlanarak hangi gelecek adımların en fazla olasılıkla çözüme ulaştırılacağı yine veri tabanından bulunur ve bu adımlar öğrencinin yönlendirilebilmesi için kapsama özel ipuçları oluşturmak amacıyla kullanılır. Mazman tez çalışmasında Hacettepe Üniversitesi, Ankara Üniversitesi ve Gazi Üniversitesi’nde öğrenim gören Bilgisayar ve Öğretim Teknolojileri Öğretmenliği bölümü öğrencilerinden “Programlama Dilleri-I” dersine kayıt olan toplam 129 lisans öğrencisinin verileri üzerinde yaptığı analizde veri madenciliği yöntemlerini kullanmıştır [50]. Bu çalışmanın amacı bilişsel tabanlı bireysel farklılıkların (uzamsal beceri, çalışma belleği) ve 38 demografik özelliklerin (cinsiyet, ön deneyim ve üniversite) programlama performansının ne kadarını yordadığının belirlenmesi ve programlama performansına etki eden değişkenlerin önem sıralarının ortaya konmasıdır. Verilerin analizi için veri madenciliğine dayalı “Artırılmış Regresyon Ağaçları” ve “Rastgele Ormanlar” teknikleri kullanılmıştır. Programlama performansının bilişsel ve demografik değişkenler kullanılarak tahmin edilmesine ilişkin kurulan model her iki yöntemle analiz edilmiş, böylelikle değişkenlerin önem sıraları ve programlama performansının tahmin edilme oranı iki yöntem için karşılaştırılmıştır. 39 3. YÖNTEM Araştırma kapsamında üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek için veri madenciliği sınıflandırma analizi uygulanmıştır. Tahmin edilen sınıf değişkeni öğrenci ilgi alanıdır. Sınıflandırma analizi çeşitli algoritmalar aracılığı ile gerçekleştirilmektedir. Sınıflandırma analizi için sınıfları bilinen veri kümesi eğitim ve test kümesi olarak ikiye ayrılır. Sınıflandırma algoritmaları, eğitim kümesi üzerinde eğitilerek sınıflandırma modellerini oluştururlar. Kurulan modeller test kümesi üzerinde denenerek doğrulukları hesaplanır. Bu teknik gereksinimlerden dolayı çalışmada ilgi alanı tespit edilen üstün yetenekli öğrencilerin verileri eğitim ve test kümesi olarak kullanılmıştır. Sınıflandırma algoritması olarak birden fazla algoritma seçilmiş ve bu algoritmaların doğrulukları ve diğer çıktıları karşılaştırılarak problem tanımı için en uygun algoritma belirlenmiştir. Bu aşamadan sonra ilgi alanı bilinmeyen bir öğrenci üzerinde seçilen algoritmanın çıktıları uygulanarak bu öğrencinin ilgi alanı tahmin edilebilecektir. Üstün yetenekli öğrencilerin bir arada ilgi duydukları alanları belirlemek için birliktelik analizi yapılmıştır. Bu kapsamda birliktelik analizi algoritması olarak Apriori seçilmiştir. Apriori aday oluşturma yöntemi ile birlikte sık görülen öğelerin setlerini bulan bir algoritmadır [51]. 3.1. Çalışma Grubu Araştırmanın çalışma grubunu, Ankara’da yer alan Yasemin Karakaya BİLSEM’de 20122013 eğitim öğretim yılının 2. döneminde öğrenim gören, yaşları 12 ve daha büyük olan toplam 113 üstün yetenekli öğrenci oluşturmaktadır. Yasemin Karakaya BİLSEM’de ilgili çalışmayı yürütmek için gerekli olan doktora araştırma izni Ankara İl Milli Eğitim Müdürlüğü’nden alınmıştır. 3.2. Veri Toplama Araçları Çalışmada veri toplama aracı olarak araştırmacı tarafından geliştirilmiş olan Boş Zamanları Değerlendirme Anketi (BZDA) ve Ebeveyn Veri Toplama Formu (EVTF) kullanılmıştır. BZDA EK-1’de, EVTF EK-2’de yer almaktadır. BZDA ve EVTF için herhangi bir 40 puanlama yapılmamaktadır. Form ve söz konusu anket, çeşitli bilgileri toplamak ve toplanan bu bilgileri ilgili veri madenciliği çalışmasında kullanmak üzere geliştirilmişlerdir. BZDA öğrencilerin okul dışı zamanlarını değerlendirme alışkanlıklarını belirleme amacıyla öğrenciler tarafından cevaplandırılmak üzere hazırlanmıştır. Anket, değişken sayıda şıkları olan toplam 11 sorudan oluşmaktadır. Her soru için kaç şık işaretlenebileceği ilgili sorunun açıklamasında belirtilmiştir. EVTF ise öğrenciler ve öğrencilerin ebeveynleri hakkında bazı bilgileri toplamak için hazırlanmıştır. İlgili form öğrencilerin ebeveynleri tarafından cevaplandırılmak üzere değişken sayıda şıkları olan toplam 16 soru içermektedir. Her soru için tek şık işaretlenebilmektedir. BZDA ve EVTF’nin geliştirilmesi sürecinde Yasemin Karakaya BİLSEM’de görev yapan rehber öğretmenlerin görüşleri alınmıştır. Aynı zamanda bir öğrenci grubu üzerinde pilot çalışma yapılmıştır. Böylece formların anlaşılırlığı değerlendirilmiştir. Rehber öğretmenin görüşleri ve pilot çalışmanın sonuçları gözetilerek formlara son hali verilmiştir. Ayrıca üstün yetenekli öğrencilerin BİLSEM’lere kabulleri aşamasında uygulanan TKT 711 (Temel Kabiliyetler Testi 7-11) ve WISC-R (Weschler Intelligence Scale for ChildrenRevised) testlerinin sonuçlarının üstün yetenekli öğrencilerin ilgi alanlarına etkisi olup olmadığını saptamak için bu testlerin sonuçları da ilgili araştırmada kullanılmıştır. Üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek amacıyla kurulacak veri madenciliği modelinin eğitilmesi için öncelikle eğitim setindeki öğrencilerin ilgi alanlarının atanması gerekmektedir. Bu nedenle araştırma kapsamında BZDA, EVTF, TKT 7-11 sonuçları ve WISC-R sonuçları dışında Kuzgun tarafından geliştirilen ABKÖ kullanılmıştır [52]. Öğrenciler tarafından doldurulan 4 dereceli likert tipindeki bu ölçek 170 olumlu cümleden oluşmaktadır. ABKÖ ile öğrencilerin Fen Bilimleri, Sosyal Bilimler, Ziraat, Mekanik, Ticaret, Edebiyat, Yabancı Dil, Sanat, İkna, Müzik, İş Ayrıntıları, Sosyal Yardım olmak üzere toplam 12 alandaki ilgileri ölçülmektedir. Yasemin Karakaya BİLSEM’de öğrenciler ilgili ölçeği optik formlar üzerinde doldurmuşlardır. Doldurulan formların optik okuyucu ile okutulması neticesinde her bir öğrencinin en çok ilgili olduğu 3 alan öncelik sırasıyla elde edilmiştir. Öğrencilerin ilgili oldukları alanlarla ilgili istatistikler Çizelge 3.1’de yer almaktadır. 41 Çizelge 3.1. Öğrenci ilgi alanı istatistikleri Alan İsmi 1. 2. 3. İLGİ ALANI İLGİ ALANI İLGİ ALANI İlgili Öğrenci Sayısı Fen Bilimleri 36 Sosyal Bilimler 11 Ziraat 5 Mekanik 8 Ticaret 17 Edebiyat 2 Yabancı Dil 12 Sanat 7 İkna 2 Müzik 6 İş Ayrıntıları 2 Sosyal Yardım 5 Fen Bilimleri 17 Sosyal Bilimler 8 Ziraat 4 Mekanik 10 Ticaret 10 Edebiyat 8 Yabancı Dil 17 Sanat 11 İkna 2 Müzik 7 İş Ayrıntıları 10 Sosyal Yardım 9 Fen Bilimleri 6 Sosyal Bilimler 13 Ziraat 8 Mekanik 8 Ticaret 5 Edebiyat 17 Yabancı Dil 16 Sanat 6 İkna 7 Müzik 9 İş Ayrıntıları 7 Sosyal Yardım 11 42 3.3. Verilerin Toplanması ve Analizi Yasemin Karakaya BİLSEM’de öğrenim gören 113 öğrenci BZDA’yı kâğıt ortamında, ABKÖ’yü ise optik form üzerinde sınıflarda doldurmuşlardır. Bu formların doldurulması sırasında öğrencilerin sorularına cevap verebilecek öğretmenler sınıflarda bulunmuşlardır. Bu öğrencilerin ebeveynleri ise EVTF’yi evlerinde doldurmuşlardır. BZDA’daki öğrencilerin okulda katıldıkları kulübü soran 10. soru, anket cevaplarında bazı öğrencilerin ilgili kulübe kendi istekleri ile katılmadıklarını belirttiklerinden dolayı değerlendirme dışı bırakılmıştır. Benzer şekilde EVTF’de ebeveynlerin birliktelik durumunu soran 10. soru, cevapların çok büyük bir kısmı aynı olduğundan değerlendirmede dikkate alınmamıştır. BZDA ve EVTF sorularının şıklarına formların cevaplarının daha kolay ve hızlı girilmesini sağlamak için çeşitli nümerik kodlar atanmıştır. Öğrencilerin TKT 7-11 ve WISC-R testi sonuçları Yasemin Karakaya BİLSEM yetkililerinden Excel ortamında alınmıştır. Öğrencilerin bu testlerinin sonuçlarına ait oldukları aralıklara göre kodlar atanmıştır. Doldurulan BZDA ve EVTF formlarının cevaplarının kodları, öğrencilerin TKT 7-11 ve WISC-R testlerinin sonuçlarının kodları ve ABKÖ’lerin optik okuyucu ile değerlendirilmesi sonucunda elde edilen her öğrencinin öncelik sırasıyla en çok ilgili olduğu 3 alan Excel 2010 uygulamasında tek bir sayfaya girilmiştir. Üstün yetenekli öğrencilerin ilgi alanları üzerinde birliktelik ve sınıflandırma analizlerinin yapılabilmesi için WEKA (Versiyon 3.6.9) veri madenciliği yazılımı kullanılmıştır. WEKA, Yeni Zelanda’da yer alan Waikato Üniversitesi tarafından Java programlama dili ile geliştirilmiş açık kaynak kodlu bir yazılımdır ve bünyesinde pek çok sınıflandırma, kümeleme ve birliktelik algoritması barındırmaktadır [53]. Bu yazılım veri kaynağı olarak çeşitli VTYS’ler ile çalışabilmektedir. Araştırma kapsamında VTYS olarak yine açık kaynak kodlu olan MySQL (Versiyon 5.6) kullanılmıştır. MySQL’de “studentdata” şeması ve bu şema içerisinde öğrencilerin araştırma kapsamında kullanılan verilerini tutmak için çeşitli tablolar oluşturulmuştur. Excel 2010’da girilmiş olan veriler, oluşturulan SQL’ler ile MySQL veri tabanında yer alan ve öğrencilerin BZDA cevaplarını, WISC-R ve TKT 7-11 sonuçlarını, ABKÖ ile belirlenen ilgi alanlarını ve ebeveynlerin EVTF cevaplarını tutan tablolara aktarılmıştır. WEKA ile MySQL üzerindeki ilgili şemaya bağlanılarak sınıflandırma ve birliktelik analizleri gerçekleştirilmiştir. 43 WEKA yazılımı ilk çalıştırıldığında Resim 3.1’deki WEKA GUI seçim ekranı açılmaktadır. Resim 3.1. WEKA GUI seçim ekranı Analizlere başlamak için WEKA GUI Seçim sayfasından “Explorer” düğmesine basılarak Resim 3.2’deki WEKA gezgin ekranı açılır. Resim 3.2. WEKA gezgin ekranı 44 Analizleri yapabilmek için öncelikle MySQL veri tabanına bağlantı kurulması gerekmektedir. Bunun için WEKA gezgin ekranından “Open DB” düğmesine basılır. Resim 3.3’teki WEKA SQL görüntüleyici ekranı açılır. Resim 3.3. WEKA SQL görüntüleyici ekranı Bu ekrandan bağlanılmak istenen şemayı da içeren tekdüzen kaynak bulucu (Uniform Resource Locator, URL) bilgisi girildikten sonra veri tabanı kullanıcısı bilgilerini girmek için “User” düğmesine basılarak Resim 3.4’teki veri tabanı bağlantı parametreleri ekranı açılır. 45 Resim 3.4. Veri tabanı bağlantı parametreleri ekranı Ekrandan yetkili veri tabanı kullanıcısının adı ve şifresi girilerek “OK” düğmesine basılır. Daha sonra WEKA SQL görüntüleyici ekranında (Bkz. Resim 3.3) “Connect” düğmesine basılır. WEKA SQL görüntüleyici ekranının bilgi (Info) bölümüne veri tabanı bağlantısının başarılı olduğunu bildiren bir mesaj gelir. Ekranın sorgu (Query) bölümüne, üzerinde veri madenciliği yapılmak istenen verilerin getirilmesi için bir SQL cümlesi girilir ve “Execute” düğmesine basılır. WEKA SQL görüntüleyici ekranının sonuç (Result) bölümüne girilen SQL için veri tabanından yapılan sorgunun sonuçları gelir. Ekrandaki “OK” düğmesine basılır. Bu işlemlerden sonra, WEKA gezgin ekranının (Bkz. Resim 3.2) nitelikler (Attributes) bölümüne veri tabanından sorgulanan kolonların isimleri gelir gelir. Veri madenciliği çalışmasında kullanılmak istenmeyen kolonlar listeden “Remove” düğmesi ile çıkarılabilir. Sınıflandırma analizi yapmak için WEKA gezgin ekranından (Bkz. Resim 3.2) “Classify” düğmesine basılarak Resim 3.5’deki sınıflandırma analizi sekmesi açılır. 46 Resim 3.5. WEKA gezgin ekranı-sınıflandırma analizi sekmesi Bu sekmeden “Choose” düğmesine basılınca açılan Resim 3.6’daki sınıflandırma algoritması seçim ekranından sınıflandırma analizi için kullanılmak istenilen algoritma seçilir. 47 Resim 3.6. Sınıflandırma algoritması seçim ekranı Algoritma seçildikten değiştirilebilmektedir. sonra Örneğin ilgili Resim algoritmanın 3.7’de J48 varsayılan parametreleri sınıflandırma algoritmasının parametrelerinin görüntülenip değiştirilebildiği ekran yer almaktadır. 48 Resim 3.7. J48 sınıflandırma algoritması parametre ekranı Sınıflandırma analizi sekmesinden (Bkz. Resim 3.5) test yöntemi belirlenir (Test options kısmından), tahmin edilmek istenen değişken seçilir ve “Start” düğmesine basılır. Çalıştırılan sınıflandırma algoritmasının sonuçları sekmenin sınıflandırıcı çıktısı (Classifier output) bölümünde yer almaktadır. Birliktelik analizine başlamak için WEKA gezgin ekranından (Bkz. Resim 3.2) “Associate” düğmesine basılarak Resim 3.8’deki birliktelik analizi sekmesi açılır. 49 Resim 3.8. WEKA gezgin ekranı-birliktelik analizi sekmesi Bu sekmeden “Choose” düğmesine basılınca açılan Resim 3.9’daki birliktelik algoritması seçim ekranından birliktelik analizi için kullanılmak istenen algoritma seçilir. 50 Resim 3.9. Birliktelik algoritması seçim ekranı Algoritma seçildikten değiştirilebilmektedir. sonra Örneğin ilgili Resim algoritmanın 3.10’da Apriori varsayılan parametreleri birliktelik algoritmasının parametrelerinin görüntülenip değiştirilebildiği ekran yer almaktadır. Daha sonra birliktelik analizi sekmesinden (Bkz. Resim 3.8) “Start” düğmesine basılır. Çalıştırılan birliktelik algoritmasının sonuçları sekmenin birliktelik çıktısı (Associator output) bölümünde yer almaktadır. 51 Resim 3.10. Apriori birliktelik algoritması parametre ekranı 52 53 4. BULGULAR Üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek amacıyla WEKA yazılımında yer alan 10 sınıflandırma algoritması kullanılmıştır. Araştırma kapsamında kural tabanlı algoritmalar olan Part, Ridor, DecisionTable ve JRip algoritmaları, karar ağacı algoritmaları olan BFTree, FT, J48, LADTree, SimpleCart algoritmaları ve Bayes algoritması olan NaiveBayes kullanılmıştır. Öğrenci verileri içerisinde eksiklikler olduğu için boş nitelikleri ele alabilen algoritmalar seçilmiştir. Algoritmalar çalıştırılırken tüm parametrelerin varsayılan değerleri kullanılmıştır. Sınıflandırma algoritmaları, MySQL VTYS’de oluşturulmuş olan studentdata şemasında yer alan ogrenciilgi tablosu üzerinde çalıştırılmıştır. Bu nedenle algoritmalar çalıştırılmadan önce WEKA SQL görüntüleyici ekranının (Bkz. Resim 3.3) sorgu (Query) bölümüne “select * from ogrenciilgi” girilmiştir. ogrenciilgi tablosunun oluşturma SQL’i EK-3’te verilmiştir. WEKA yazılımında sınıflandırma algoritmalarını test etmek için 4 yöntem mevcuttur: 1. Eğitim setini test için de kullanma (Use training set) 2. Sağlanan ayrı bir test setini kullanma (Supplied test set) 3. Eğitim verisinin bir kısmını test için kullanma (Percentage split) 4. K-fold cross validation Çok spesifik kurallar eğitim verisi üzerinde yüksek doğruluğa sahip olma eğiliminde iken, görmedikleri veri üzerinde iyi performans vermeyip güvenilir olmayabilirler. Bu durum aşırı uyum (overfitting) olarak isimlendirilir [54]. Eğer bir algoritmanın testi, algoritmanın eğitildiği veri üzerinde yapılırsa doğruluk yüksek çıkacaktır. Çünkü algoritma tarafından oluşturulan model, eğitim verisine uygun kurulduğundan dolayı aynı set üzerinde yapılan testler yüksek performans sergileyecektir. Ancak eğitim setinden farklı bir veri üzerinde test yapılmadığı için aşırı uyum durumu var ise saptanamayacaktır. Bu nedenle test yöntemi olarak birinci seçenek tercih edilmemiştir. İlgili tez kapsamında 113 öğrencinin verilerine ulaşılmıştır. Bu verilerin dışında test için ayrı bir veri toplanmamıştır. Bu nedenle test için ikinci seçenek te kullanılmamıştır. 54 Üçüncü seçenek için WEKA yazılımına bir oran girmek gerekmekledir. Varsayılan değer %66’dır. Bu durumda WEKA yüklenen verinin %66’sını eğitim için %34’ünü ise test için kullanmaktadır. Bu yöntem ile ayrı bir set üzerinden test yapıldığı için aşırı uyum durumu saptanabilecektir. Ama verinin bir kısmı sadece test için ayrıldığından, veri etkin olarak kullanılmamaktadır. Bu nedenle test için üçüncü seçenek tercih edilmemiştir. Bu tezde seçilen algoritmaların doğruluklarını test etmek amacıyla yöntem olarak son seçenek olan “k-fold cross validation” uygulanmıştır. K-fold cross validation yönteminde hem veri etkin olarak kullanılmakta hem de aşırı uyum durumu tespit edilebilmektedir. Bu yöntemde tüm veri hem eğitim için hem de test için kullanıldığı için veriden etkin bir şekilde yararlanılmaktadır. Fakat bir çalıştırma (run) esnasında aynı veri hem eğitim hem de test için kullanılmadığı için aşırı uyum durumu tespit edilebilmektedir. K-fold cross validation yönteminde orijinal veri rastgele k eşit alt kümeye ayrılır. K değeri kullanıcı tarafından belirlenebilir. (WEKA yazılımında k’nın varsayılan değeri 10’dur ve ilgili çalışmada k değeri 10 olarak kabul edilmiştir.) İlk çalıştırmada k adet alt kümeden 1 tanesi test verisi olarak, geri kalan k-1 adet alt küme ise eğitim verisi olarak kullanılır. İkinci çalıştırmada k alt kümeden birinci çalıştırmada seçilenden farklı bir tanesi test verisi olarak, kalan k-1 adet alt küme eğitim verisi olarak kullanılır. Böylelikle cross-validation süreci k kez, her defasında başka test verileri seçilecek şekilde tekrarlanır. Her alt küme, test verisi olarak sadece bir kez kullanılır. Yöntem Şekil 4.1’de özetlenmiştir. Bu şekilde k değeri 3 olarak belirlenmiş ve süreç 3 kez tekrarlanmıştır. K-fold cross validation yönteminde, k tekrardan elde edilen bazı sonuçlar birleştirilir, bazı sonuçların averajı alınır ve böylelikle tek çıktı üretilir. 55 Şekil 4.1. K-fold cross validation K-fold cross validation yönteminde, algoritmanın bir veri üzerinde eğitilmede ve daha sonra önceden karşılaşmadığı veri üzerinde tahmin yapmada ne kadar başarılı olduğu test edilmektedir. Şekil 4.1’de görüldüğü gibi modeller algoritma tarafından koyu gri veri üzerinde eğitilerek oluşturulur. Daha sonra bu modeller açık gri veri üzerinde test edilmektedir. K-fold cross validation sonuçları kullanılarak performansı en iyi algoritma problem tanımı için en uygun algoritma olarak seçilir. Fakat veri madenciliği yazılımının çıktı olarak verdiği nihai model, tüm veri üzerinden eğitilen modeldir. Yani K-fold cross fold validation testleri sırasında oluşturulan modeller nihai tahmin edici modelde kullanılmamakta, sadece test için kullanılmaktadır. Sınıflandırma algoritmalarının performansları genellikle sınıflandırma doğruluklarının ölçülmesi ile değerlendirilir [26]. Sınıflandırma doğruluğu ise, ilgili algoritma aracılığıyla doğru olarak sınıflandırılan örneklerin toplam örnek sayısına oranıdır [26]. Bu çalışmada kullanılan algoritmalar için WEKA yazılımı çıktıları EK-4’ten EK-13’e kadar sunulmuştur. Bu çıktıların yorumlanma biçimini açıklamak için Resim 4.1’de örnek bir WEKA sınıflandırma çıktısı verilmiştir. 56 Resim 4.1. Örnek WEKA sınıflandırma çıktısı Bu örnekte 100 kayıt sınıflandırılmıştır (Total Number of Instances). “0” ve “1” olmak üzere toplam 2 mümkün sınıf değeri vardır. Hata matrisi (confusion matrix) test verisi üzerinde yapılan testler sonucunda, gerçekte belirli sınıflara ait kayıtların algoritma tarafından hangi sınıflara atandıkları ile ilgili ayrıntılı bilgileri vermektedir. “0” sınıfına ait kayıtlardan 59 tanesi doğru olarak “0” sınıfına atanmıştır (“0” için doğru pozitif). “0” sınıfına ait kayıtlardan 2 tanesi yanlışlıkla “1” sınıfına atanmıştır (1 için yanlış pozitif). “1” sınıfına ait kayıtlardan 12 tanesi doğru olarak “1” sınıfına atanmıştır (“1” için doğru pozitif). “1” sınıfına ait kayıtlardan 27 tanesi yanlışlıkla “0” sınıfına atanmıştır (“0” için yanlış pozitif). Bu bilgilerden her sınıf için doğru pozitif oranı (true positive rate, TP Rate) ve yanlış pozitif oranı (false positive rate, FP Rate ) hesaplanır. 57 X sınıfı için doğru pozitif oranı, gerçekten X sınıfına ait olup ta algoritma tarafından X sınıfına atanan kayıtların X sınıfındaki toplam kayıt sayısına oranıdır. Geri çağırma (recall) değerine eşittir. Hata matrisinde ilgili sınıfın köşegen değerinin (matristeki X ve X’in kesişim değeri) ilgili sınıfın satır değerlerinin toplamına bölünmesi ile elde edilir. Örneğin “0” sınıfı için doğru pozitif oranı: 59/(59+2) = 0,967’dir. X sınıfı için yanlış pozitif oranı, başka sınıfa ait olup ta algoritma tarafından X sınıfına atanan kayıtların X sınıfına ait olmayan kayıtlara oranıdır. Hata matrisinde X sınıfının kolon değerleri toplamından köşegen değerinin çıkarılması ile elde edilen sayının diğer sınıfların satır toplamlarının toplamına bölünmesiyle bulunur. Örneğin “0” sınıfı için yanlış pozitif oranı: 27/(27+12) = 0,692’dir. Kesinlik (precision), X sınıfına ait olup ta algoritma tarafından X sınıfına atanan kayıtların X sınıfına atanan tüm kayıtların sayısına oranıdır. Hata matrisinde köşegen değerinin ilgili sınıfın kolon değerlerinin toplamına bölünmesi ile bulunur. Örneğin “0” sınıfı için kesinlik değeri: 59/(59+27) = 0,686’dır. Kesinliğin büyük değerler alması daha iyidir. F-Ölçütü, kesinlik (precision) ve geri çağırma (recall) için birleştirilmiş bir ölçüttür. Değeri Eş. 4.1’deki formül ile hesaplanır. F-Ölçütünün büyük değer alması daha iyidir. F-Measure = 2*Precision*Recall/(Precision+Recall) (4.1) Alıcı işletme karakteristikleri alanı (Receiver Operating Characteristics Area, ROC Area), eğri altındaki alan (Area Under Curve, AUC) olarak da bilinir. Bir sınıflandırıcının AUC değeri ilgili sınıflandırıcının rastgele seçilmiş pozitif bir örneğe rastgele seçilmiş bir negatif örnekten daha yüksek sıra verme olasılığıdır [55]. Güvenir ve Kurtcephe sıralamayı gerçekleştiren sıralama fonksiyonu hakkında şu bilgileri aktarmıştır [56]: Sıralama problemi, ikili (binary) sınıflandırma problemi olarak düşünülebilir. Bu ikili sınıflandırma problemine etiketli eğitim seti olarak z = ((x1,y1),.....,(xn,yn)) verilir. Xi’ler X uzayından örneklerdir. Yi’ler ise Y={p,n} kümesinden etiketlerdir (p pozitifi, n negatifi temsil eder). Amaç h:XY olmak üzere gelecek örneklerin etiketini doğru tahmin eden bir fonksiyonun öğrenilmesidir. Özetle X 58 örnek uzayından D eğitim veri seti verilir ve bu setteki örnekler {p, n} ile temsil edilen pozitif ve negatif olmak üzere iki kategoriye aittir. Amaç D’yi kullanarak gelecek pozitif örneklere negatif örneklerden daha yüksek sıra veren r: XIR sıralama fonksiyonunun öğrenilmesidir. Diğer bir deyişle r sıralama fonksiyonunun pozitif örneklere negatif örneklerden daha yüksek değerler ataması beklenir. Daha sonra örnekler sıralama fonksiyonunun verdiği değerler kullanılarak sıralanabilir. AUC’un alabileceği en iyi değer 1, en kötü değer 0’dır [55]. Rastgele tahmin 0,5 AUC değerini üreteceğinden gerçekçi bir sınıflandırma aracı 0,5 değerinden daha küçük bir AUC değerine sahip olmamalıdır [55]. Doğru sınıflandırılan örnekler (Correctly Classified Instances) test verisi üzerinde doğru olarak sınıflandırılan kayıtların sayısıdır. Hata matrisindeki köşegen değerlerinin tümünün toplamına eşittir. Bu örnek için 59+12 = 71’dir. Bu rakamın yanındaki oran doğru sınıflandırılan örneklerin tüm örnek sayısına oranıdır. (71/100 = %71). Bu oran sınıflandırma algoritmasının doğruluğudur. Yanlış sınıflandırılan örnekler (Incorrectly Classified Instances) test verisi üzerinde doğru olarak sınıflandırılamayan kayıtların sayısıdır. Hata matrisindeki köşegen değerlerinin dışındaki değerlerin tümünün toplamına eşittir. Bu örnek için 27+2 = 29’dir. Bu rakamın yanındaki oran yanlış sınıflandırılan örneklerin tüm örnek sayısına oranıdır. (29/100 = %29) Meenakshi ve Geetika kappa istatistiğini şans uzlaşması için normalize edilmiş uzlaşma ölçütü olarak tanımlamış ve formülü Eş. 4.2’de vermiştir [57]. P(A) uzlaşma yüzdesi (sınıflandırıcı ve gerçeklik arasında), P(E) ise şans uzlaşmasıdır. Yazarlar 1 kappa değerinin mükemmel uzlaşmayı, 0 değerinin ise şans uzlaşmasını ifade ettiğini belirtmiştir. Yazarlar ayrıca WEKA hata metriklerini şu şekilde tanımlamıştır: Ortalama mutlak hata, Eş. 4.3’teki formül ile hesaplanır. Bağıl Karesel Hata Karekökü, Ortalama Karesel Hata Karekökü değerinin hedef değerlerin ortalamasını tahmin ederek elde edilen Ortalama Karesel Hata Kareköküne bölünmesi ve daha sonra elde edilen değerin 100 ile çarpılması sonucu bulunur. Bu hata metriklerinin küçük değerler alması daha iyidir. K=P (A)-P (E)/1-P (E) (4.2) 59 Ortalama Mutlak Hata = toplam (örnek başına mutlak hata) (4.3) Bu çalışmada kullanılan algoritmalar için ayrıntılı WEKA yazılımı çıktıları EK-4’ten EK13’e kadar sunulmuştur. Üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek için en uygun sınıflandırma algoritmasını seçmek amacıyla öncelikle bu algoritmaların doğruluklarını karşılaştırmak gerekmektedir. Çizelge 4.1’de öğrencilerin verileri üzerinde çalıştırılan sınıflandırma algoritmalarının doğrulukları verilmiştir. Çizelge 4.1. Sınıflandırma algoritmaları doğruluk karşılaştırması Algoritma Doğruluk Part %81,4 Ridor %68,1 DecisionTable %61.9 JRip %85,8 BFTree %81,4 FT %84,9 J48 %79,6 LADTree %80,5 SimpleCart %85,8 NaiveBayes %49,5 Çizelge 4.1’de görüldüğü gibi üstün yetenekli öğrencilerin ilgi alanlarını tahmin etmek için doğruluğu en yüksek çıkan algoritmalar JRip ve SimpleCart’tır. Bu algoritmaların doğrulukları aynı çıktığı için averaj doğru pozitif oranları, yanlış pozitif oranları, kesinlikleri, F-Ölçütleri, ROC alanları ayrıca hata metrikleri ve kappa istatistikleri karşılaştırılmıştır. JRip ve SimpleCart algoritmalarının averaj doğru pozitif oranları, yanlış pozitif oranları, kesinlikleri, F-Ölçütleri, 4.2’de verilmiştir. ROC alanları ve kappa istatistikleri Çizelge 60 Çizelge 4.2. JRip ve SimpleCart algoritmalarının doğru pozitif oranları, yanlış pozitif oranları, kesinlikleri, F-Ölçütleri, ROC alanları ve kappa istatistikleri Algoritma TP Oranı FP Oranı Kesinlik F-Ölçütü ROC Alanı Kappa JRip 0,858 0,051 0,844 0,842 0,935 0.8256 SimpleCart 0,858 0,056 0,831 0,836 0,94 0.8255 Algoritmaların hata metrikleri ise Çizelge 4.3’te karşılaştırılmıştır. Çizelge 4.3. JRip ve SimpleCart hata metrikleri Algoritma Ortalama Mutlak Hata Ortalama Karesel Hata Bağıl Mutlak Hata Bağıl Karesel Hata Karekökü Karekökü JRip 0,0317 0,1423 %22,3844 %53,6683 SimpleCart 0,0406 0,1444 %28,7168 %54,459 Çizelge 4.2’den görüleceği gibi algoritmaların TP oranı değerleri eşittir. FP oranı, kesinlik, F-Ölçütü, kappa istatistiği bakımından JRip SimpleCart algoritmasına göre daha yüksek performans göstermiştir. Her 2 algoritmanın ROC alanı değerleri yaklaşık olarak aynıdır. Çizelge 4.3’te yer alan hata metrikleri incelendiğinde JRip algoritmasının hata metrik değerlerinin daha düşük oluğu gözlemlenmektedir. Bu nedenle araştırma kapsamındaki üstün yetenekli öğrencilerin ilgi alanlarını tahmin etme problemi için en uygun algoritma, kural tabanlı bir algoritma olan JRip olarak belirlenmiştir. JRip, Repeated Incremental Pruning to Produce Error Reduction (RIPPER) algoritmasının WEKA implementasyonudur. RIPPER algoritması Cohen tarafından, Fürnkranz ve Widmer’ın geliştirmiş olduğu Incremental Reduced Error Pruning (IREP) algoritmasının [58] iyileştirilmiş bir hali olarak tanıtılmıştır [59]. Cohen IREP kural öğrenme algoritmasını geniş ve çeşitli problem kümesi üzerinde değerlendirmiştir. Kendisi, IREP algoritmasının son derece etkin olduğunu fakat C4.5 algoritma kurallarına göre daha yüksek hata oranları ürettiğini göstermiştir. Daha sonra Cohen, IREP algoritmasına bir takım modifikasyonlar yapmış böylelikle hata oranları konusunda C4.5 kuralları ile rekabet edebilen ve büyük veri üzerinde IREP algoritmasından daha verimli olan RIPPER algoritmasını önermiştir. Cohen’in IREP algoritmasına yaptığı değişiklikler budama fazında kullanılmak üzere alternatif bir metrik, kural setine yeni bir kural eklemenin ne zaman durdurulacağına karar 61 vermek için yeni bir yöntem ve IREP tarafından öğrenilen kuralları optimize etmek için bir teknik olarak özetlenebilir. Aynı zamanda RIPPER algoritması çoklu sınıfları (mümkün sınıf sayısının ikiden fazla olduğu durumlar) desteklemektedir. IREP gibi RIPPER algoritması da ayır ve ele al (separate-and-conquer) stratejisini kullanmaktadır. Fürnkranz ayır ve ele al ailesine ait algoritmaların çalışma şeklini şöyle açıklamıştır [60]: Algoritma ilk önce eğitim setinin bir bölümünü açıklayan bir kural araştırır, bu bölümdeki örnekleri ayırır ve eğitim setinde hiç bir örnek kalmayıncaya kadar geri kalan örnekleri daha çok kural öğrenerek ele alır. Bu işlem orijinal eğitim setindeki her kaydın en az bir kuralla kapsandığını garanti altına alır. Algoritmanın açık adından anlaşıldığı gibi bu algoritma kapsamında budama (pruning) uygulanmaktadır. Han ve Kamber kural budaması ile ilgili şu bilgileri vermişlerdir [6]: Kural tabanlı algoritmalar ile oluşturulan kuralların eğitim verisine aşırı uyum sağlaması olası bir durumdur. Bu durumda kurallar eğitim verisi üzerinde yüksek performans gösterecek, ancak görmedikleri veri üzerinde daha az performans sergileyeceklerdir. Bu durumu önlemek için kurallar budanabilir. Bir kural ön koşulundan bir bileşen (nitelik testi) silinerek budanır. Eğer R kuralının budanan versiyonu eğitim verisinden bağımsız bir veri seti üzerinde daha iyi performans sergilerse R kuralının budanması tercih edilir. Bu bağımsız veri setine budama seti denir. (WEKA yazılımında folds parametresi ile verilerin ne kadarının budama için ayrılacağı belirlenmektedir.) Budama için çeşitli stratejiler kullanılabilir. Hühn ve Hüllermeier IREP algoritması üzerine kurulan RIPPER algoritması ve temel çalışma yöntemi hakkında aşağıdaki bilgileri vermiştir [61]: Bir RIPPER kuralı r = <rA|rC> şeklinde gösterilir. rA kuralın öncül kısmı, rC ise sonuç kısmıdır. rA çeşitli nitelik testlerinin birleşiminden oluşmaktadır. r = <rA|rC> kuralı x = (x1.....xn) şeklinde bir örneği, eğer xi nitelik değerleri rA’da yer alan tüm nitelik testlerini karşılar ise kapsar. Öğrenilen tüm kurallardan oluşan set kural seti olarak isimlendirilir. Öğrenme süreci öncesinde, eğitim verisi sınıf frekanslarına göre artan biçimde sıralanır. Yani eğitim verisinde en nadir görülen sınıf en başta yer alırken, en sık görülen sınıf en 62 sonda yer alır. Veride görülen toplam sınıf sayısı m ise en nadir görülen sınıftan başlayarak sıralamada en önde yer alan m-1 sınıf için kurallar öğrenilir. RIPPER bir sınıf için kural öğrenirken, eğitim verisindeki bu sınıfa ait örnekler pozitif örnekler olarak değerlendirilirken diğer tüm sınıflara ait örnekler negatif örnekler olarak düşünülmektedir. Bir kural oluşturulduktan sonra bu kuralla kapsanan tüm örnekler (pozitif veya negatif olabilir) eğitim verisinden çıkarılır. Algoritma daha sonra sıralamada yer alan bir sonraki sınıfla devam eder. Son olarak RIPPER öğrenecek daha fazla kural bulamadığında öncül kısmı boş olan varsayılan bir kuralı, en sonda yer alan dolayısıyla en sık görülen sınıf için ekler. ( “En sık görülen sınıf” şeklinde bir kural oluşur.) Sınıflar için kurallar, pozitif örnek kalmayana kadar veya en son eklenen kural çok fazla karmaşık olana kadar eklenmeye devam eder. İkinci özellik toplam tanım uzunluğu (total description length) kullanılarak gerçekleştirilir. Her kural eklendikten sonra kural setinin ve örneklerin toplam tanım uzunluğu hesaplanır. RIPPER algoritması bu tanım uzunluğu şu ana kadar elde edilen en küçük tanım uzunluğundan d bit kadar büyükse veya artık pozitif örnek kalmamışsa kural eklemeyi durdurur. Cohen denemelerinde d için 64 değerini kullanmıştır. Daha sonra kural setindeki her kural (en son eklenen kuraldan başlanarak) incelenerek ve toplam tanım uzunluğunu azaltmak için kurallar silinerek kural seti basitleştirilir. Hühn ve Hüllermeier RIPPER algoritmasının adımlarını “Bireysel Kuralların Öğrenilmesi” ve “Kural Optimizasyonu” olarak tanımlamış ve bu adımların ayrıntılarını aşağıdaki şekilde tanımlamıştır [61]: Bireysel kuralların öğrenilmesi Her bireysel kural 2 adımda öğrenilir. Herhangi bir kuralla kapsanmayan eğitim verisi geliştirme ve budama seti olarak ikiye ayrılır. İlk adımda geliştirme seti kullanılarak öğrenilen nitelik testleri kuralın öncül kısmına eklenerek ilgili kural özelleştirilir. Daha sonra budama seti kullanılarak nitelik testlerinin kural öncül kısmından çıkarılması ile ilgili kural genelleştirilir. 63 Kural geliştirme Bu adım boş kural öncülü ile işleme başlar ve kural artık negatif örnek (hedef sınıfa bağlı olmayan örnekler) kapsamayana dek nitelik testlerini kural öncülüne ekler. Kural öncülüne eklenecek yeni bir nitelik testi, FOIL's bilgi kazanım kriteri (information gain criterion, IG) değerini maksimize eden nitelik testi olarak seçilir. IG değeri, hedef sınıf için varsayılan kural ile karşılaştırıldığında, bir kuralın sağladığı iyileştirmenin ölçütüdür ve Eş. 4.4 ile hesaplanır. (4.4) Buradaki pr ve nr kuralın yeni haliyle kapsanan pozitif ve negatif örnek sayısıdır. P ve n ise varsayılan kuralla kapsanan pozitif ve negatif örnek sayısıdır. Kural budama Kural geliştirme genellikle eğitim verisine aşırı uyum sağlayan kurallar üretmektedir. Bunu engellemek ve budama verisi üzerinde performansı artırmak için bu adımda kurallar basitleştirilir. RIPPER algoritmasında bir kural geliştirildikten sonra hemen budanır. Budama işlemi için kural öncülündeki nitelik testleri, öğrenilme sırası ile değerlendirilmektedir. En son öğrenilen nitelik testi ilk önce değerlendirilir. Budama işleminde hangi pozisyondan sonraki nitelik testlerinin kural öncülünden çıkarılacağı belirlenmektedir. Bu pozisyonu belirlemek için V(r) metriği kullanılmaktadır. V(r) Eş. 4.5’teki formül ile hesaplanmaktadır. Buradaki pr budama setinde kuralla kapsanan pozitif örnek sayısıdır. Nr ise budama setinde kuralla kapsanan negatif örnek sayısıdır. En son öğrenilen nitelik testinden başlayarak kural öncülünden çıkarılması V(r) metriğini iyileştiren tüm nitelik testleri kural öncülünden budanır. V(r) = (pr-nr) ÷ (pr+nr) (4.5) 64 Kural optimizasyonu Algoritma tarafından bu adıma kadar üretilen kural seti (tüm kuralların birleşiminden oluşan set: RS) optimizasyon süreci için başlangıç noktası olarak alınır. Bu süreç öğrenilen tüm kuralları (ri € RS ) öğrenilme sırasına göre yeniden inceler. Her ri kuralı için 2 alternatif kural ri' ve ri'' oluşturulur. ri ' değiştirme (replacement) kuralı boş kuraldan başlatılır ve güncellenmiş kural setinin ( (RS U { ri' }) \ {ri}) hatasını minimize edecek şekilde geliştirilip budanır. ri'' düzeltme (revision) kuralı da benzer şekilde oluşturulur. Fakat boş kural yerine ri’den başlatılır. Ri’nin hangi versiyonunun (orijinal, değiştirme, düzeltme) tutulacağına karar vermek için minimum tanım uzunluğu (Minimum Description Length, MDL) kriteri kullanılır. Bu optimizasyon “k” kez tekrar edildiğinde algoritma RIPPERk olarak anılmaktadır. Tüm bu işlemlerin özetlendiği Ripper algoritmasının taslak kodu Şekil 4.2’de verilmiştir. 65 Şekil 4.2. RIPPER algoritması taslak kodu [62] JRip algoritmasının ürettiği kurallar BİLSEM’e yeni kaydolacak (veya ilgi alanı bilinmeyen) üstün yetenekli bir öğrencinin ilgi alanını tahmin etmek amacıyla kullanılacaktır. Bu algoritma tarafından oluşturulan kurallar (WEKA çıktısının Türkçeleştirilmiş hali) Şekil 4.3’te yer almaktadır. 66 Şekil 4.3. JRip algoritma kuralları Çizelge 4.4’te Şekil 4.3’te yer alan 12 JRip kuralının, kodları açık hale getirildiğinde oluşan açıklamaları yer almaktadır. 67 Çizelge 4.4. JRip kural açıklamaları No Kural 1 (bzda12-2 = 1) => ilgialani1=IS AYRINTILARI Açıklama Boş zamanlarında lego/puzzle ile oynayan/koleksiyon yapan öğrenciler iş ayrıntıları alanına ilgilidir. 2 (bzda7-4 = 1) ve (bzda4-8 = 1) => ilgialani1=IKNA Boş zamanlarında televizyonda oturum/tartışma/münazara/panel/haber programları izleyen VE spor/dans kursuna giden öğrenciler ikna alanına ilgilidir. 3 (aa13c = 5) ve (bzda5c = 2) => ilgialani1=EDEBIYAT Babasının mesleği gazetecilik/yazarlık olan VE boş zamanlarında polisiye/korku/macera kitapları okuyan öğrenciler edebiyat alanına ilgilidir. 4 (bzda12-17 = 1) => ilgialani1=SOSYAL YARDIM Boş zamanlarında sosyal yardımlaşma ve dayanışma faaliyetleri gerçekleştiren öğrenciler sosyal yardım alanına ilgilidir. 5 (bzda11c = 7) => ilgialani1=ZIRAAT Evde ailesine bahçe/hayvan bakımında yardımcı olan öğrenciler ziraat alanına ilgilidir. 6 (bzda9-15 = 1) ve (bzda12-4 = 1) => ilgialani1=MUZIK Boş zamanlarında müzik dinleyen/müzik aleti çalan VE ekstrem sporlarla vakit geçiren öğrenciler müzik alanına ilgilidir. 7 (bzda3-5 = 1) ve (bzda5c = 9) => ilgialani1=SANAT Boş zamanlarında fotoğrafçılık malzemeleri/seramik/kil/hamur/ahşap/cam/ kâğıt/yün-ip/resim malzemeleri ile vakit geçiren VE güzel sanatlar kitapları okuyan öğrenciler sanat alanına ilgilidir. 8 (bzda6c = 9) => ilgialani1=MEKANIK Boş zamanlarında araba dergisi okuyan öğrenciler mekanik alanına ilgilidir. 9 (bzda7-5 = 1) => ilgialani1=SOSYAL BILIMLER Boş zamanlarında programı izleyen bilimlere ilgilidir. 10 (aa7c = 4) => ilgialani1=YABANCI DIL Ailenin öğrencinin en çok başarılı olduğunu düşündüğü ders yabancı dil ise öğrenci yabancı dile ilgilidir. 11 (bzda7-12 = 1) => ilgialani1=TICARET Televizyonda reklamları izleyen öğrencilerin ticaret alanına ilgisi vardır. 12 => ilgialani1=FEN BILIMLERI Yukarıdaki 11 kurala uymayan öğrenciler fen bilimleri alanına ilgilidir. televizyonda tarih öğrenciler sosyal Çizelge 4.4 incelendiğinde her bir kuralın sol tarafındaki koşulun, mantıksal olarak sağ tarafındaki sınıf atamasını açıkladığı görülmektedir. Bazı ek açıklamalar vermek gerekirse, ikinci kuralda yer alan spor/dans kursuna giden üstün yetenekli öğrencilerin ikna alanına 68 ilgili olmasının, bu öğrencilerin spor/dans ile sosyalleşip insanlarla daha çok etkileşimde bulunmalarından kaynaklandığı düşünülmektedir. Üçüncü kuraldaki polisiye/korku/macera kitapları okuyan öğrencilerin edebiyata ilgisi olmasının, bu kitapların sürükleyici olması ve bu sayede öğrencilerin daha fazla kitap okuyarak edebiyata ilgi duymaya başlamalarından kaynaklandığı değerlendirilmiştir. Altıncı kuralda yer alan ekstrem sporlarla uğraşan öğrencilerin müzik alanına ilgi duyması, ancak veri madenciliği gibi teknikler kullanılarak ortaya çıkarılabilecek ilginç bir desendir. On ikinci kural ise diğer kurallarla ilgi alanı belirlenemeyen üstün yetenekli öğrencilerin fen bilimlerine ilgili olduğunu göstermektedir. Bu durum JRip algoritmasının bir özelliğidir. JRip öğrenecek kural bulamadığında, en sık görülen sınıf değeri için sol tarafı boş olan bir kural oluşturur [61]. Dolayısıyla JRip algoritması diğer sınıflara diğer kurallarla atanamayan verileri, son kuralla eğitim verisindeki en fazla sayıya sahip sınıf değerine atamaktadır. Eğitim verisinde bulunan üstün yetenekli öğrencilerin en fazla ilgi duyduğu alan (113 öğrenciden 36’sı) fen bilimleridir. Kurallar incelendiğinde öğrenciler için toplanan niteliklerden tümünün öğrencilerin ilgi alanlarına etkisi bulunmadığı gözlemlenmiştir. Toplanan niteliklerin ilgi alanlarına etki durumu Çizelge 4.5’te verilmiştir. Yeni bir öğrencinin ilgi alanının tahmin edilmesi için sadece etkili olan niteliklerin toplanması yeterlidir. 69 Çizelge 4.5. Niteliklerin ilgi alanlarına etkisi Nitelik Açıklama Nitelik TKT 7-11 Sonucu Öğrencinin TKT 7-11 testi sonucu İlgi Alanına Etki Etkili Değil WISC-R Sonucu Öğrencinin WISC-R testi sonucu Etkili Değil EVTF 1. soru Öğrencinin cinsiyeti Etkili Değil EVTF 2. soru Öğrencinin okula devam tutumu Etkili Değil EVTF 3. soru Öğrencinin çalışma alışkanlığı Etkili Değil EVTF 4. soru Öğrencinin okul türü (özel veya devlet) Etkili Değil EVTF 5. soru Öğrencinin kimlerle vakit geçirdiği Etkili Değil EVTF 6. soru Öğrencinin görüştüğü arkadaş sayısı Etkili Değil EVTF 7. soru Öğrencinin en çok başarılı olduğu düşünülen ders EVTF 8. soru Öğrencinin annesinin eğitim durumu Etkili Değil EVTF 9. soru Öğrencinin babasının eğitim durumu Etkili Değil EVTF 10. soru Anne ve babanın birliktelik durumu Dikkate Alınmamıştır EVTF 11. soru Ailenin toplam geliri Etkili Değil EVTF 12. soru Anne mesleği Etkili Değil EVTF 13. soru Baba mesleği Etkili EVTF 14. soru Ailenin çocuk sayısı Etkili Değil EVTF 15. soru Annenin çocuğa karşı tutumu Etkili Değil EVTF 16. soru Babanın çocuğa karşı tutumu Etkili Değil BZDA 1. soru Boş zamanları değerlendirme etkinlikleri- Genel Etkili BZDA 2. soru Boş zamanları değerlendirme etkinlikleri- Detay Etkili BZDA 3. soru Öğrencinin en çok vakit geçirdiği materyaller/oyuncaklar Etkili BZDA 4. soru Öğrencinin katıldığı kurslar Etkili BZDA 5. soru Öğrencinin en çok okuduğu kitap türü Etkili BZDA 6. soru Öğrencinin en çok okuduğu dergi türü Etkili BZDA 7. soru Öğrencinin televizyonda en çok izlediği programlar Etkili BZDA 8. soru Öğrencinin en çok izlediği film türü BZDA 9. soru Öğrencinin en çok ilgilendiği spor dalları BZDA 10. soru Öğrencinin okulda üye olduğu kulüp BZDA 11. soru Öğrencinin evde ailesine en çok ne tür yardımda bulunduğu Etkili Etkili Değil Etkili Dikkate Alınmamıştır Etkili 70 Üstün yetenekli öğrencilerin bir arada ilgi duydukları alanları belirlemek için WEKA üzerinde birliktelik analizi gerçekleştirilmiştir. Birliktelik algoritması olarak en çok bilinen birliktelik algoritması olan Apriori [63] seçilmiştir. Apriori algoritmasının kod taslağı Şekil 4.4’te verilmiştir. Şekil 4.4. Apriori algoritması taslak kodu [6] Han ve Kamber kod taslağı adımlarını şu şekilde açıklamıştır [6]: 1. Adım sık görülen tekli öğe setlerini (tek öğe içeren setler) bulur. Bu setler L1 olarak isimlendirilir. 2 den 10’a kadar olan adımlarda k>=2 için Lk yı bulmak amacıyla Ck adaylarını oluşturmak için Lk-1 kullanılır. Adım 3’te çağrılan apriori_gen prosedürü adayları oluşturur ve daha sonra Apriori özelliğini sık olmayan alt kümeye sahip adayları elemek için kullanır. Bu prosedür aşağıda tanımlanmaktadır. Tüm adaylar oluşturulduktan sonra adım 4’teki gibi veri tabanı taranır. Adım 5 ile veri tabanındaki her işlem için bu işlemin aday olan tüm alt kümelerini bulmak için bir alt küme fonksiyonu kullanılır. Adım 6 ve 7’deki gibi bu adayların her 71 birinin sayısı toplanır. Bu sayıya göre adaylardan minimum destek değerini sağlayanlar (adım 9) sık görülen öğe setleri listesini (L) oluşturmaktadır (adım 11). Apriori_gen prosedürü birleştirme ve budama olmak üzere 2 çeşit faaliyet yerine getirir. Prosedürün birleştirme faaliyetinde (adım 1’den adım 4’e kadar) potansiyel adayları oluşturmak için Lk-1 ile Lk-1 birleştirilir. Budama faaliyeti (adım 5’ten adım 7’ye kadar) sık olmayan alt kümeye sahip adayları elemek için Apriori özelliğini kullanır. Has_infrequent_subset prosedürü sık görülmeyen alt kümelerin testi için kullanılmaktadır. Bu işlemlerden sonra, sık görülen öğe setlerinden birliktelik kurallarının oluşturulması gerekir. Veri tabanı D’de yer alan işlemlerden sık görülen öğe setleri bulunduktan sonra, bu öğe setlerinden güçlü birliktelik kurallarının oluşturulması basittir. Güçlü birliktelik kuralları minimum destek ve minimum güven değerlerini sağlayan kurallardır. Güven değeri Eş. 4.6’daki gibi hesaplanır. Güven (AB) = P(B|A) = destek_sayisi(AUB) ÷destek_sayisi(A) (4.6) Bu eşitlikte koşullu olasılık, öğe seti destek sayısı ile ifade edilmiştir. Destek_sayisi(AUB) “AUB” öğe setlerini içeren veri tabanı işlemlerinin sayısıdır. Destek_sayisi(A) ise “A” öğe setini içeren işlemlerin sayısıdır. Bu eşitliğe göre birliktelik kuralları şu şekilde oluşturulabilir: Her sık görülen öğe seti “l” için, l’nin boş olmayan tüm alt kümeleri oluşturulur. l’in her boş olmayan “s” alt kümesi için “s (l-s)” şeklinde bir kural, eğer destek_sayisi(l)÷destek_sayisi(s) sonucu min_conf değerinden (minimum güven değeri eşiği) büyük veya eşit ise sürecin çıktısıdır. Kurallar sık görülen öğe setlerinden oluşturulduğu için her kural zaten otomatik olarak minimum destek değerini sağlar. Apriori algoritması, MySQL VTYS’de oluşturulmuş olan studentdata şemasında yer alan ilgialani tablosu üzerinde çalıştırılmıştır. Bu nedenle algoritma çalıştırılmadan önce WEKA SQL görüntüleyici ekranının (Bkz. Resim 3.3) sorgu (Query) bölümüne “select * from ilgialani” girilmiştir. ilgialani tablosunun oluşturma SQL’i EK-3’te verilmiştir. WEKA yazılımında Apriori için destek değerinin varsayılan üst sınırı 1 (%100), alt sınırı 72 0,1 (%10), deltası ise 0,05’tir. Algoritma çalıştırılırken bu değerlerde değişiklik yapılmamıştır. Metrik tipi olarak varsayılan değer olan “Güven” seçilmiştir. Minimum güven değeri ise 0,5 (%50) olarak belirlenmiştir. Çıktıların daha ayrıntılı sunulması için “outputItemSets” parametresi “True” yapılmıştır. Birliktelik analizi için ayrıntılı WEKA çıktısı EK-14’te yer almaktadır. Apriori algoritması çıktı olarak güven değeri 0,5’ten büyük olan Çizelge 4.6’daki birliktelik kurallarını vermiştir. Çizelge 4.6. Apriori birliktelik analizi sonuçları Kural Güven Değeri mekanik=Y 26 ==> fenbilimleri=Y 17 0,65 sosyalbilimler=Y 32 ==> fenbilimleri=Y 20 0,63 sanat=Y 24 ==> yabancidil=Y 12 0,5 Her kuralın yanındaki rakamlar şöyle yorumlanmalıdır: Örneğin 1. Kuralda mekaniğe ilgisi olan öğrenci sayısının 26 olduğu, hem mekaniğe hem fen bilimlerine ilgisi olan öğrencilerin sayısının ise 17 olduğu ifade edilmiştir. Çizelge 4.6’dan anlaşıldığı gibi mekaniğe ilgisi olan üstün yetenekli öğrencilerin %65’inin aynı zamanda fen bilimlerine, sosyal bilimlere ilgisi olan öğrencilerin %63’ünün aynı zamanda fen bilimlerine ve sanata ilgisi olan öğrencilerin %50’sinin aynı zamanda yabancı dile ilgileri bulunmaktadır. 73 5. İLGİ ALANI ANALİZ SİSTEMİ Üstün yetenekli bir öğrencinin ilgi alanını tahmin etmek için kullanılacak kurallar WEKA yazılımı tarafından oluşturulmuştur (Bkz. Şekil 4.3). İlgi alanı bilinmeyen üstün yetenekli bir öğrenci için ilgi alanı üzerinde etkili olan baba mesleği, öğrencinin katıldığı kurslar, öğrencinin en çok okuduğu kitap türü, öğrencinin en çok ilgilendiği spor dalları gibi niteliklerin (Bkz. Çizelge 4.5) değerleri belirlendikten sonra, bu değerler ile WEKA tarafından oluşturulan kurallar sırayla kontrol edilerek bu öğrencinin ilgi alanı tespit edilebilir. Fakat WEKA yazılımı sadece kuralları oluşturmakta, bu kuralların yeni bir öğrencinin verileri üzerinde kontrol edilmesi ve böylece bu öğrencinin ilgi alanının belirlenmesi için bir imkân sunmamaktadır. Bu nedenle üstün yetenekli eğitimi ile ilgilenen eğitimcilerin kullanabilmesi amacıyla web tabanlı bir sistem geliştirilmiştir. Geliştirilen sistem, yeni bir üstün yetenekli öğrenci için gerekli veriler girildikten sonra öğrencinin tahmin edilen ilgi alanını çıktı olarak eğitimcilere sunmaktadır. Ayrıca ilgili sistem birliktelik analizi sonuçlarını kullanarak bu öğrencinin ikincil bir alana ilgisi saptanmışsa bunu da çıktı olarak kullanıcıya vermektedir. Daha önce de belirtildiği gibi üstün yetenekli öğrenciler için toplanan tüm nitelikler ilgi alanları üzerinde etkili değildir. Veri madenciliği sonuçlarına göre EVTF’deki 7. ve 13. soruların cevapları ve BZDA’daki 1., 2., 3., 4., 5., 6., 7., 9. ve 11. soruların cevapları ilgi alanları üzerinde etkilidir. Bu nedenle EVTF ve BZDA formları sadece etkili olan soruları kapsayacak şekilde güncellenmeli, etkisiz olan sorular zaman kaybı olmaması açısından formlardan çıkarılmalıdır. İlgi alanı belirlenmek istenen bir öğrenciye EVTF ve BZDA formları teslim edilmelidir. BZDA öğrenci tarafından EVTF ise öğrencinin ailesi tarafından doldurulduktan sonra formlardaki cevaplar eğitimci tarafından sisteme girilerek üstün yetenekli öğrenci için ilgi alanı tespit edilebilir. İlgi alanı analiz sistemi PrimeFaces alt yapısı üzerinde geliştirilmiştir. PrimeFaces çeşitli eklentileri olan açık kaynak kodlu JavaServer Faces (JSF) bileşen süitidir. Aşağıdaki özelliklere sahiptir: 74 Hyper Text Markup Language (HTML) editörü, diyalog, otomatik tamamlama ve grafikler gibi zengin bileşen setine sahiptir. Asynchronous JavaScript and XML (Ajax) tabanlı olarak JSF 2.0 Ajax Application Programming Interface (API) standardı üzerine kurulmuştur. Tek Java Archive (JAR) dosyasından oluşur. Konfigürasyon gerektirmez, bağımlılığı yoktur. Mobil cihazlarda kullanılmak üzere web uygulamaları oluşturmak için mobil kullanıcı arayüzü aracı içermektedir. 35’in üzerinde hazır görsel tema içerir ve yeni görsel tema tasarlamak için desteği mevcuttur. Geniş dokümantasyona sahiptir. Geliştirilen web tabanlı sistem için web sunucusu olarak Apache Tomcat (versiyon 7.0.47) kullanılmıştır. Apache Tomcat, Apache Software Foundation (ASF) tarafından geliştirilen açık kaynak kodlu bir web sunucu ve servlet konteynırıdır (container). Java Servlet ve JSP teknolojilerinin açık kaynak kodlu yazılım implementasyonunu sağlamaktadır. Dünyadaki en iyi geliştiricilerin iş birliğiyle, açık ve katılımcı bir ortamda geliştirilmektedir. Tomcat geliştiriciler tarafından kullanılan en popüler web (servlet) konteynırları arasındadır [64,65]. İlgi alanı analiz sistemi’nde VTYS olarak MySQL (Versiyon 5.6) kullanılmıştır. Sistem şema olarak, WEKA analizlerinin yapılabilmesi amacıyla daha önceden oluşturulmuş studentdata şemasını kullanmıştır. Bu şema üzerinde siniflandirmaanalizi ve birliktelikanalizi tabloları oluşturulmuştur. İlgi alanı analiz sistemi bu tablolara veri ekleyerek, tablolardan veri sorgulayarak ve veri silerek çalışmaktadır. Birliktelikanalizi tablosu Apriori birliktelik analizi sonuçlarını (Bkz. Çizelge 4.6) yansıtmaktadır. Siniflandirmaanalizi ve birliktelikanalizi tablolarının oluşturma SQL’leri EK-15’te verilmiştir. Sistemin kodları tez CD’si içerisinde EK-16’da sunulmuştur. İlgi alanı analiz sistemi ile temelde 3 fonksiyon yerine getirilmektedir: 75 1. İlgi alanı bilinmeyen üstün yetenekli bir öğrencinin çeşitli verileri sisteme girilerek öğrencinin birincil ilgi alanı ve varsa ikincil ilgi alanı belirlenebilmektedir. 2. Sisteme daha önceden verileri girilmiş olan üstün yetenekli öğrencilerin ilgi alanları sorgulanabilmektedir. 3. Sistemde mevcut olan üstün yetenekli öğrencilerin verileri ve ilgi alanları sistemden silinebilmektedir. Sisteme http://localhost:8080/doktoraws/kayit.xhtml veya http://localhost:8080/doktoraws/liste.xhtml URL adresleri ile bağlanılabilir. Bu adreslerin herhangi bir tanesine girildiğinde gelen sayfanın üst kısmında “İşlem Menüsü” bulunmaktadır. Bu menü seçildiğinde Resim 5.1’deki menü öğeleri görüntülenmektedir. Resim 5.1. İlgi alanı analiz sistemi işlem menüsü öğeleri Kayıt menü öğesiyle yukarıdaki 1. fonksiyon yerine getirilirken, liste menü öğesi aracılığıyla 2. ve 3. fonksiyonlar gerçekleştirilmektedir. Kullanıcı “Kayıt” menü öğesini seçtiğinde http://localhost:8080/doktoraws/kayit.xhtml URL adresinde yer alan Resim 5.2’deki yeni öğrenci kayıt ekranı açılmaktadır. 76 Resim 5.2. Yeni öğrenci kayıt ekranı Ekrandaki “Öğrenci Adı”, “Öğrenci Soyadı” ve “Öğrenci Baba Adı” alanları zorunludur. Bu alanlardan herhangi bir tanesini girilmeden “İlgi Alanı Oluştur” düğmesine basılırsa sistem hata mesajı dönmektedir. Her sorunun yanında o soru için en fazla kaç seçenek işaretlenebileceği belirtilmiştir. Yine sorular için izin verilenden fazla seçenek girilip “İlgi Alanı Oluştur” düğmesine basıldığı durumlarda sistem hata vermektedir. Sistemdeki sorular, güncellenmiş EVTF ve BZDA formlarında yer alan öğrenci ilgi alanı üzerinde etkili olan sorulardan oluşmaktadır. Kullanıcı “Öğrenci Adı”, “Öğrenci Soyadı” ve “Öğrenci Baba Adı” alanlarına veri girer. Daha sonra öğrencinin teslim ettiği EVTF ve BZDA formlarından cevaplandırılmış olan soruların şıkları her sorunun yanındaki “Seçenekler” düğmelerine basılarak girilir. Resim 5.3’te örnek olarak 4. sorunun şıklarının seçim ekranı verilmiştir. Resim 5.3. 4.Soru şık seçim ekranı (örnek) 77 Kullanıcı veri girişini bitirdikten sonra “İlgi Alanı Oluştur” düğmesine basar. Ekrandan girilmiş olan verilerle ilgili kontroller başarılı ise sistem öğrenciye ait EVTF ve BZDA formlarının cevaplarını, WEKA yazılımı çıktısı olan JRip algoritması kurallarını (Bkz. Şekil 4.3) kullanarak öğrenci için tespit ettiği öncelikli ilgi alanını ve varsa MySQL VTYS’nde yer alan birliktelikanalizi tablosunu kullanarak belirlediği ikincil ilgi alanını uygun formatta siniflandirmaanalizi tablosuna kaydeder. Kullanıcıya da verilerin saklandığına ilişkin bir mesaj sunulur. Kullanıcı işlem menüsünden (Bkz. Resim 5.1) “Liste” menü öğesini seçtiğinde http://localhost:8080/doktoraws/liste.xhtml URL adresinde yer alan Resim 5.4’deki mevcut öğrenci sorgulama ve silme ekranı açılmaktadır. Resim 5.4. Mevcut öğrenci sorgulama ve silme ekranı Ekran ilk açıldığında, MySQL VTYS’de yer alan siniflandirmaanalizi tablosuna form cevapları ve belirlenen ilgi alanları daha önceden sistem aracılığıyla kaydedilmiş olan üstün yetenekli öğrencilerin isimleri, soyadları, baba adları, öncelikli ve ikincil ilgi alanları öğrenci isimlerine göre artan sırada listelenir. Bu ekrandan “Ad”, “Soyad” ve “Baba Ad” alanlarının altındaki kutucuklara veri girilerek bu kriterlere uygun verileri aramak mümkündür. Aynı zamanda “Ad”, “Soyad”, “Baba Ad”, “Öncelikli İlgi Alanı” ve “İkincil İlgi Alanı” alanlarının yanındaki oklara basarak ekrandaki verilerin sıralanma biçimi güncellenebilir. 78 Herhangi bir kayıt seçilip “Kaydı Sil” düğmesine basıldığında ilgili üstün yetenekli öğrenci için girilmiş olan form cevap verileri ve öğrencinin tespit edilen ilgi alanları veri tabanındaki siniflandirmaanalizi tablosundan ve ekrandaki listeden silinir. 79 6. SONUÇ VE ÖNERİLER Eğitimsel veri madenciliği alanındaki bu tez çalışmasında sınıflandırma teknikleri ile üstün yetenekli öğrencilerin ilgi alanlarını tahmin eden bir model geliştirilmiştir. JRip algoritmasının ilgi alanını tahmin etmedeki %85,8 doğruluğu, üretilen eğitimsel veri madenciliği sınıflandırma modelinin (Bkz. Şekil 4.3) başarılı bir model olduğunu göstermektedir. Sınıflandırma analizi sonucunda üstün yetenekli öğrencilerin BİLSEM’lere kabulleri sırasında uygulanan TKT 7-11 ve WISC-R testlerinin sonuçlarının öğrencilerin ilgi alanı üzerinde etkili çıkmadığı saptanmıştır. EVTF’den elde edilen öğrencinin en çok başarılı olduğu düşünülen ders ve baba mesleği verilerinin ilgi alanı üzerinde etkili olduğu tespit edilirken, BZDA’dan toplanan boş zamanları değerlendirme etkinlikleri (genel ve detay), öğrencinin en çok vakit geçirdiği materyaller/oyuncaklar, öğrencinin katıldığı kurslar, öğrencinin en çok okuduğu kitap türü, öğrencinin en çok okuduğu dergi türü, öğrencinin televizyonda en çok izlediği programlar, öğrencinin en çok ilgilendiği spor dalları, öğrencinin evde ailesine en çok ne tür yardımda bulunduğu verilerinin üstün yetenekli öğrencilerin ilgi alanları üzerinde etkili olduğu görülmüştür. BZDA’dan ve EVTF’den elde edilen diğer verilerin ilgi alanları üzerinde etkisi yoktur. Çalışmada ilgi alanlarının tahmin edilmesinin yanı sıra birliktelik analizleri ile üstün yetenekli öğrencilerin bir arada ilgi duydukları alanlar belirlenmiştir. Birliktelik analizi sonuçları, mekaniğe ilgili olan üstün yetenekli öğrencilerin %65’inin fen bilimlerine, sosyal bilimlere ilgili olanların %63’ünün fen bilimlerine ve sanata ilgili olanların %50’sinin yabancı dile ilgili olduğunu göstermiştir. Sınıflandırma analizi ile bir öğrencinin birincil ilgi alanı atandıktan sonra, bu sonuçlar ışığında seçilen güven ve eşik değerine ait eğer var ise öğrencinin ikincil ilgi alanı da saptanabilir. Böylelikle üstün yetenekli öğrencilerin en çok ilgi duydukları iki alana göre eğitim almaları mümkün olacaktır. Sınıflandırma ve birliktelik analizi sonuçları, tez kapsamında geliştirilen web tabanlı ilgi alanı analiz sistemi sayesinde üstün yetenekli eğitimi ile ilgilenen eğitimcilerin ve yöneticilerin kullanımına uygun hale getirilmiştir. Bu sistem ile ilgi alanı bilinmeyen üstün yetenekli bir öğrencinin ilgi alanı (varsa ikincil ilgi alanı da) belirlenebilmekte, sistemde mevcut üstün yetenekli öğrencilerin ilgi alanları sorgulanabilmektedir. 80 Bu tez çalışmasında eğitimsel veri madenciliği yöntemleri ilk defa üstün yetenekli öğrencilerin ilgi alanlarının analiz edilmesi amacıyla kullanıldığından, ilgili tez çalışması özgün niteliktedir. Tez sonuçlarının, Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’de yer alan farklılaştırılmış eğitim programları geliştirme ve uygulama ve farklılaştırılmış eğitim programlarına yönelik etkinlik ve öğretim materyalleri oluşturma hedeflerinin [1] gerçekleştirilmesine katkı sağlaması ümit edilmektedir. Çünkü üstün yetenekli eğitiminin öğrencilerin ihtiyaçlarına göre farklılaştırılması ancak ilgi alanlarının doğru belirlenmesi ile mümkün olabilir. Söz konusu çalışmanın sonuçları, öğrencilerin destek eğitimi ve bireysel yetenekleri fark ettirme programlarının son aşamalarında hangi alanlara yönlendirilmeleri gerektiğini belirlemek için sistematik ve bilimsel bir yöntem sunmaktadır. Yapılan görüşmeler mevcut bir sistematik yöntem bulunmadığı için üstün yetenekli öğrencilere bireysel ihtiyaçlarına ve ilgi alanlarına göre değil tek tip eğitim verildiği durumların olduğunu göstermiştir. Bu durum zaten BİLSEM Süreci İç Denetim Raporu’nda ele alınmış, raporun Bulgu-10’unda öğrencilerin bireysel alanlarının belirlenebilmesi için objektif, geçerlilik ve güvenirlik çalışması yapılmış ölçekler mevcut olmadığı için üstün yetenekli öğrencilerin ilgi alanları doğrultusunda eğitilememeleri riskinin bulunduğu ifade edilmiştir [22]. Tez kapsamında geliştirilen BZDA, EVTF formları ve ilgi alanı analiz sistemi öğrencilerin bireysel alanlarının belirlenmesi ihtiyacını karşılamaktadır. Üstün yetenekli öğrencilerin ilgi alanlarının belirlenmesi BİLSEM’lere, öğretmenlere ve velilere birçok fayda sağlayacaktır. BİLSEM’lerde üstün yetenekli öğrencilere verilecek dersler, bu çocuklar ile yapılacak etkinlikler öğrencilerin belirlenen ilgi alanlarına göre şekillendirilebilecektir. Öğrenciler tüm alanları tanımaları için yine ilgi alanları dışındaki derslere de katılabilir, fakat ders saatlerinin uzunlukları ilgi alanlarına göre ayarlanabilir. Üstün yetenekli öğrencilerin ilgilerinin belirlenmesi ile veliler de çocuklarına bu alanlar doğrultusunda daha fazla destek sağlayabileceklerdir. İlgi alanı meslek seçiminde çok önemli bir faktör olduğu için üstün yetenekli öğrencilerin ilgi alanının belirlenmesi sayesinde bu öğrencilerin meslek yönlendirmeleri de yapılabilecektir. 81 Çalışmadan elde edilen birliktelik analizi sonuçları BİLSEM’lerde ders programlarının düzenlenmesinde kullanılabilir. Öğrencilerin sıklıkla birlikte ilgi duydukları alanlara ilişkin dersler aynı saatlerde yapılmaz ise öğrenciler hem birincil hem de ikincil ilgi alanlarıyla ilgili derslere katılma imkânı bulurlar. Tez kapsamında geliştirilen web tabanlı ilgi alanı analiz sisteminin öncelikle Yasemin Karakaya BİLSEM’de kurulup kullanıma açılması hedeflenmektedir. Milli Eğitim Bakanlığı bünyesinde, bu sistemin yaygınlaştırılması amacıyla bir komisyon kurulması önerilmektedir. İlgili sistem web tabanlı olduğu için her BİLSEM’e ayrı ayrı kurulmasına gerek yoktur. Tek bir merkeze kurulması ile Türkiye’deki tüm BİLSEM’ler ilgili sistemi kullanabilirler. Dolayısı ile ilgili sistemin Yasemin Karakaya BİLSEM’de prototip olarak uygulanmasının ardından hızlıca yaygınlaştırılması mümkündür. Bu sistem, Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017’deki bazı hedeflerin gerçekleştirilmesi için kullanılabilecek bir araç niteliğindedir. İleriki aşamalarda bir BİLSEM’de eğitim gören üstün yetenekli öğrenciler, seçilecek niteliklere göre veri madenciliği kümeleme teknikleri kullanılarak kümelere ayrılabilir. Böylelikle küme içi homojen fakat kümeler arası heterojen olan üstün yetenekli öğrenci kümeleri oluşmuş olacaktır. Bu sayede BİLSEM’lerde sınıflar bu kümelerden oluşturulabilir ve üstün yetenekli öğrencilere verilen eğitim her öğrenci kümesinin ihtiyacına göre özelleştirilebilir. Tez kapsamında sınıflandırma algoritmalarının eğitilmesi amacıyla eğitim setindeki öğrencilerin ilgi alanlarının atanması için ABKÖ kullanılmıştır. ABKÖ ile öğrencilerin Fen Bilimleri, Sosyal Bilimler, Ziraat, Mekanik, Ticaret, Edebiyat, Yabancı Dil, Sanat, İkna, Müzik, İş Ayrıntıları, Sosyal Yardım olmak üzere toplam 12 alandaki ilgileri ölçüldüğünden [52] ilgili tez çalışmasında tahmin edilen ilgi alanları da bu alanlar içerisinden olabilmektedir. Günümüz dünyası bilişim çağını yaşamakta, bilişim teknolojileri baş döndürücü bir hızla ilerlemektedir. Dünya üzerindeki gelişmiş ülkeler bilişim teknolojilerine çok fazla önem vermekte ve bu alanda yeterlilik sahibi pek çok insana gereksinim duyulmaktadır. Üstün yetenekli bireylerin toplumlara yön veren, gelişmeyi ve değişmeyi hızlandıran bireyler olduğu göz önüne alındığında bilişim teknolojilerine sağlayacakları katkı çok büyük olacaktır. Bu nedenle daha sonra yapılacak 82 çalışmalar ile üstün yetenekli öğrencilerin tahmin edilen ilgi alanları arasına “bilgi teknolojileri” alanının eklenmesi önerilmektedir. 83 KAYNAKLAR 1. İnternet: Milli Eğitim Bakanlığı Özel Eğitim ve Rehberlik Hizmetleri Genel Müdürlüğü. Üstün Yetenekli Bireyler Strateji ve Uygulama Planı 2013-2017. URL: http://www.webcitation.org/query?url=http%3A%2F%2Forgm.meb.gov.tr%2Fmeb_iy s_dosyalar%2F2013_10%2F25043741_zelyeteneklibireylerstratejiveuygulamaplan201 32017.pdf&date=2014-05-06, Son Erişim Tarihi: 06.05.2014. 2. İnternet: Milli Eğitim Bakanlığı. Bilim ve Sanat Merkezleri Yönergesi. URL: http://www.webcitation.org/query?url=http%3A%2F%2Fmevzuat.meb.gov.tr%2Fhtml %2F2593_0.html&date=2014-05-06, Son Erişim Tarihi: 06.05.2014. 3. Sarı, H. (2013). Türkiye’de üstün yetenekli çocukların eğitim gördüğü bilim ve sanat merkezleri için öneriler-editöre mektup. Journal of Gifted Education Research, 1 (2), 146-149. 4. Kuzgun, Y. (1994). Çağdaş insanın en önemli kararı meslek seçimi. Bilim ve Teknik Dergisi, 325, 50-54. 5. İnternet: Öğrenci Seçme ve Yerleştirme Merkezi. Meslek Seçiminde Bilinmesi Gerekenler. URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.osym.gov.tr%2Fbelge %2F1-8337%2Fmeslek-seciminde-bilinmesigerekenler.html%3Fvurgu%3Ds%25C4%25B1nav%2Bsistemi&date=2014-05-06, Son Erişim Tarihi: 06.05.2014. 6. Han, J. and Kamber, M. (2006). Data mining: Concepts and techniques (Second edition). San Francisco: Morgan Kaufmann, XXI, XXV, 5, 10, 12-20, 47-49, 67, 86, 327, 649-654, 658-659. 7. Sachin, R. B. and Vijay, M. S. (2012, January 7-8). A survey and future vision of data mining in educational field. Paper presented at the Second International Conference on Advanced Computing & Communication Technologies, Rohtak, India. 8. İnternet: International Educational Data Mining Society. Educational Data Mining. URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.educationaldatamining. org&date=2014-05-06, Son Erişim Tarihi: 06.05.2014. 9. Kumar, V. and Chadha, A. (2011). An empirical study of the applications of data mining techniques in higher education. International Journal of Advanced Computer Science and Applications, 2 (3), 80-84. 10. Marland Jr, S. P. (1971). Education of the gifted and talented-Volume 1: Report to the congress of the United States by the US Commissioner of Education. U.S. Department of Health, Education & Welfare, Office of Education.Washington D.C.. 8. 11. Levent, F. (2011). Üstün yetenekli çocukların hakları el kitabı anne baba ve öğretmenler için. İstanbul: Çocuk Vakfı Yayınları, 16, 21,26, 37. 84 12. İncekara, H. (2012). TBMM üstün yetenekli çocukların keşfi, eğitimleriyle ilgili sorunların tespiti ve ülkemizin gelişimine katkı sağlayacak etkin istihdamlarının sağlanması amacıyla kurulan meclis araştırması komisyonu raporu. Meclis Araştırması Komisyonu. Ankara. 99, 213, 336. 13. Renzulli, J. S. (1978). What makes giftedness? Reexamining a definition. Phi Delta Kappan, 60 (3), 180-184. 14. İnternet: Milli Eğitim Bakanlığı. Özel Eğitim Hizmetleri Yönetmeliği. URL: http://www.webcitation.org/query?url=http%3A%2F%2Fmevzuat.meb.gov.tr%2Fhtml %2F26184_0.html&date=2014-05-06, Son Erişim Tarihi: 06.05.2014. 15. Ataman, A. (2004). Üstün zekalı ve üstün özel yetenekli çocuklar., M. R. Şirin, A. Kulaksızoğlu ve A. E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş makaleler kitabı. İstanbul. Çocuk Vakfı Yayınları, 155-168. 16. Çağlar, D. (2004). Üstün zekalı çocukların eğitim modelleri., M. R. Şirin, A. Kulaksızoğlu ve A. E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş makaleler kitabı. İstanbul. Çocuk Vakfı Yayınları, 317-334. 17. Kulaksızoğlu, A. (2007, 6-9 Aralık). Özel eğitimin Türkiye’deki tarihçesi. Özürlüler’07 Kongresinde sunuldu, İstanbul. 18. Enç, M. (2004). Özel eğitimin tarihçesi., M. R. Şirin, A. Kulaksızoğlu ve A. E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş makaleler kitabı. İstanbul. Çocuk Vakfı Yayınları, 15-35. 19. Yıldız, H. (2010). Üstün Yeteneklilerin Eğitiminde Bir Model Olan Bilim ve Sanat Merkezleri (Bilsemler) Üzerine Bir Araştırma, Yüksek Lisans Tezi, Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara, 25-27. 20. Ataman, A. (2004). Üstün zekalılar için ilköğretimde uygulanabilir bir model., M. R. Şirin, A. Kulaksızoğlu ve A. E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş makaleler kitabı. İstanbul. Çocuk Vakfı Yayınları, 335-342. 21. Bildiren, A. ve Türkkanı, B. (2013). Üstün yetenekli öğrencilerin perspektifinden bilim ve sanat merkezlerinin hoş ve hoş olmayan özellikleri ve değişiklik talepleri. Journal of Gifted Education Research, 1 (2), 128-135. 22. Demirci, M. D. (2010). Bilim ve Sanat Merkezleri süreci iç denetim raporu. Milli Eğitim Bakanlığı İç Denetim Birimi Başkanlığı. Ankara. 33,71. 23. Akkanat, H. (2004). Üstün veya özel yetenekliler., M. R. Şirin, A. Kulaksızoğlu ve A. E. Bilgili (Editörler). Üstün yetenekli çocuklar seçilmiş makaleler kitabı. İstanbul. Çocuk Vakfı Yayınları, 169-193. 24. Akar, İ. ve Uluman, M. (2013). Sınıf öğretmenlerinin üstün yetenekli öğrencileri doğru aday gösterme durumları. Journal of Gifted Education Research, 1 (3), 199-212. 25. Schiefele, U. (1991). Interest, learning, and motivation. Educational Psychologist, 26 (3-4), 299-323. 85 26. Dunham, M. H. (2003). Data mining introductory and advanced topics. New Jersey: Prentice Hall, 3, 5-9, 76, 78- 80, 86, 89-90, 92, 97, 100, 102-103, 114, 116-117, 129, 131-132, 138-140, 142, 146-147, 169, 173, 177-180, 184. 27. Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From data mining to knowledge discovery in databases. AI Magazine, 17 (3), 37-54. 28. Kelley-Winstead, D. (2010). New Directions in Education Research: Using Data Mining Techniques To Explore Predictors of Grade Retention, Doktora Tezi, George Mason University Education, Fairfax, VA, 1-5. 29. Şen, B., Uçar, E., and Delen, D. (2012). Predicting and analyzing secondary education placement-test scores: A data mining approach. Expert Systems with Applications, 39 (10), 9468-9476. 30. Şen, B. and Uçar, E. (2012). Evaluating the achievements of computer engineering department of distance education students with data mining methods. Procedia Technology, 1, 262-267. 31. Yadav, S. K., Bharadwaj, B., and Pal, S. (2012). Mining education data to predict student's retention. International Journal of Computer Science and Information Security, 10 (2), 113-117. 32. Jormanainen, I. and Sutinen, E. (2012, March 27-30). Using data mining to support teacher's intervention in a robotics class. Paper presented at the Fourth IEEE International Conference On Digital Game And Intelligent Toy Enhanced Learning, Takamatsu, Japan. 33. Ayesha, S., Mustafa, T., Sattar, A. R., and Khan, M. I. (2010). Data mining model for higher education system. Europen Journal of Scientific Research, 43 (1), 24-29. 34. Baradwaj, B. K. and Pal, S. (2011). Mining educational data to analyze students' performance. International Journal of Advanced Computer Science and Applications, 2 (6), 63-69. 35. Tsai, C. F., Tsai, C. T., Hung, C. S., and Hwang, P. S. (2011). Data mining techniques for identifying students at risk of failing a computer proficiency test required for graduation. Australasian Journal of Educational Technology, 27 (3), 481-498. 36. Dejaeger, K., Goethals, F., Giangreco, A., Mola, L., and Baesens, B. (2012). Gaining insight into student satisfaction using comprehensible data mining techniques. European Journal of Operational Research, 218 (2), 548-562. 37. Thomas, E. H. and Galambos, N. (2004). What satisfies students? Mining studentopinion data with regression and decision tree analysis. Research in Higher Education, 45 (3), 251-269. 38. Im, K. H., Kim, T. H., Bae, S., and Park, S. C. (2005, August 27-29). Conceptual modeling with neural network for giftedness identification and education. Paper presented at the First International Conference on Advances in Natural Computation, Changsha, China. 86 39. Erdoğan, Ş. Z. and Timor, M. (2005). A data mining application in a student database. Journal of Aeronautics and Space Technologies, 2 (2), 53-57. 40. Amershi, S. and Conati, C. (2006, June 26-30). Automatic recognition of learner groups in exploratory learning environments. Paper presented at the Eighth International Conference on Intelligent Tutoring Systems, Jhongli, Taiwan. 41. Tissera, W. M. R., Athauda, R. I., and Fernando, H. C. (2006, December 15-17). Discovery of strongly related subjects in the undergraduate syllabi using data mining. Paper presented at the International Conference on Information and Automation, Colombo, Sri Lanka. 42. Leong, C. K., Lee, Y. H., and Mak, W. K. (2012). Mining sentiments in SMS texts for teaching evaluation. Expert Systems with Applications, 39 (3), 2584-2589. 43. Akçapınar, G., Coşgun, E., and Altun, A. (2011, July 6-8). Prediction of perceived disorientation in online learning environment with random forest regression. Paper presented at the Fouth International Conference on Educational Data Mining, Eindhoven, Netherlands. 44. Zengin, K., Esgi, N., Erginer, E., and Aksoy, M. E. (2011). A sample study on applying data mining research techniques in educational science: Developing a more meaning of data. Procedia-Social and Behavioral Sciences, 15, 4028-4032. 45. Bhardwaj, B. K. and Pal, S. (2011). Data Mining: A prediction for performance improvement using classification. International Journal of Computer Science and Information Security, 9 (4), 136-140. 46. Yongqiang, H. and Shunli, Z. (2011, May 28-29). Application of data mining on students' quality evaluation. Paper presented at the Third International Workshop on Intelligent Systems and Applications, Wuhan, China. 47. Aydın, S. (2007). Veri Madenciliği ve Anadolu Üniversitesi Uzaktan Eğitim Sisteminde Bir Uygulama, Doktora Tezi, Anadolu Üniversitesi Sosyal Bilimler Enstitüsü, Eskişehir, 2, 110, 121, 139. 48. Xu, B. (2011). Clustering Educational Digital Library Usage Data: Comparisons of Latent Class Analysis and K-Means Algorithms, Yüksek Lisans Tezi, Utah State University Computer Science, Utah, 2-3, 15-19, 20, 22, 35, 39, 41-46. 49. Stamper, J. C. (2010). Automatic Generation of Intelligent Tutoring Capabilities Via Educational Data Mining, Doktora Tezi, The University of North Carolina Information Technology, Charlotte, 1-3. 50. Mazman, S. G. (2013). Programlama Performansını Etkileyen Faktörlerin Bilişsel Tabanlı Bireysel Farklılıklar Temelinde Modellenmesi, Doktora Tezi, Hacettepe Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara, 6, 34, 56-71. 51. Agrawal, R. and Srikant, R. (1994, September 12-15). Fast algorithms for mining association rules. Paper presented at the 20th Int. Conf. Very Large Data Bases, Santiago de Chile, Chile. 87 52. Kuzgun, Y. (2011). Akademik benlik kavramı ölçeği el kitabı (Üçüncü Baskı). Ankara: Nobel Yayın Dağıtım, 1- 23. 53. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H. (2009). The WEKA data mining software: an update. ACM SIGKDD Explorations Newsletter, 11 (1), 10-18. 54. Geng, L. and Hamilton, H. J. (2006). Interestingness measures for data mining: A survey. ACM Computing Surveys, 38 (3), 9. 55. Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27 (8), 861–874. 56. Güvenir, H. A. and Kurtcephe, M. (2013). Ranking instances by maximizing the area under ROC curve. IEEE Transactions on Knowledge and Data Engineering, 25 (10), 2356–2366. 57. Meenakshi, M. and Geetika, G. (2014). Survey on classification methods using WEKA. International Journal of Computer Applications, 86 (18), 16–19. 58. Fürnkranz, J. and Widmer, G. (1994, July 10-13). Incremental reduced error pruning. Paper presented at the Eleventh International Conference on Machine Learning, New Brunswick, New Jersey. 59. Cohen, W. W. (1995, July 9-12). Fast effective rule induction. Paper presented at the Twelfth International Conference on Machine Learning, Tahoe City, California. 60. Fürnkranz, J. (1999). Separate-and-Conquer rule learning. Artificial Intelligence Review, 13 (1), 3-54. 61. Hühn, J. and Hüllermeier, E. (2009). FURIA: an algorithm for unordered fuzzy rule induction. Data Mining and Knowledge Discovery, 19 (3), 293-319. 62. Alpaydın, E. (2004). Introduction to machine learning. London: The MIT Press, 188. 63. Koh, Y. S. and Rountree, N. (2005, May 18-20). Finding sporadic rules using aprioriinverse. Paper presented at the Ninth Pacific-Asia conference on Advances in Knowledge Discovery and Data Mining, Hanoi, Vietnam. 64. Oliveira, R. A., Laranjeiro, N., and Vieira, M. (2012, June 24-29). Experimental evaluation of web service frameworks in the presence of security attacks. Paper presented at the IEEE Ninth International Conference on Services Computing, Honolulu, Hawaii. 65. Mohamed, M., Yangui, S., Moalla, S., and Tata, S. (2011, 27-29 June). Web service micro-container for service-based applications in cloud environments. Paper presented at the 20th IEEE International Workshops on Enabling Technologies: Infrastructure for Collaborative Enterprises, Paris. 88 89 EKLER 90 EK-1. Boş zamanları değerlendirme anketi Adınız, Soyadınız : Devam Ettiğiniz Okul : Kod Numarası : Açıklama: Bu anket sizin boş zamanlarınızı nasıl değerlendirdiğinizi belirlemek için yapılmaktadır. Lütfen her soruyu ve ilgili soru için kaç seçenek işaretlemeniz gerektiğini dikkatlice okuyunuz. Cevaplardan hangi seçeneğin/seçeneklerin size en uygun veya en yaklaşık olduğunu kararlaştırınız. Kararınızı verdikten sonra her soru için soruda belirtilen adet kadar seçeneğin solundaki parantezin içine bir çarpı işareti koyunuz. Anketteki tüm soruları cevapladıktan sonra anketi uygulayan kişiye iade ediniz. Cevaplarınızın gerçeğe uygun olmasına dikkat ediniz. Göstermiş olduğunuz hassasiyete şimdiden teşekkür ederiz. 1. İlgilendiğiniz boş zaman etkinlikleri en çok hangi alanda toplanır? (Lütfen en fazla 2 seçeneği işaretleyiniz.) ( ( ( ( ( ( ( ( ( ( ( ) Eğitim/Araştırma Yapmak/Kişisel Gelişim ) Çeşitli eğlenceler (müzik dinleme, televizyon izleme, oyun oynama vb.) ) Güzel sanatlar (edebiyat, resim, müzik, heykel, seramik vb.) ) Arkadaşlarla birlikte zaman geçirme ) Bilgisayar/İnternet ) Genel kültür (sinema, tiyatro, kitap/dergi/gazete okuma vb.) ) Spor/Dans ) Aile ile zaman geçirme/Aileye yardım etme ) El işleri (maket, dikiş, nakış, örgü, dokuma, tamir vb.) ) Sosyal yardımlaşma ve dayanışma ) Diğer (Yazınız…………………………………………….....…………...….…) 2. Aşağıdaki faaliyetlerden hangisiyle/hangileriyle en fazla ilgileniyorsunuz? (Lütfen en çok 3 seçeneği işaretleyiniz.) ( ( ( ( ( ) Bilgisayar/Bilgisayar Oyunları/İnternet ) Lego/Puzzle ) Go oyunu ) Robot yapımı ve programlaması ) Zeka oyunları ( ( ( ( ( ) Bulmaca/Su doku çözmek ) Mental aritmetik ) Satranç ) Kimya/Biyoloji deneyleri ) Resim yapmak 91 EK-1. (devam) Boş zamanları değerlendirme anketi ( ) Kitap/Dergi/Gazete okumak ( ) Şiir/Hikaye/Öykü/Makale/Fıkra yazmak ( ) Müzik dinlemek ( ) Müzik aleti çalmak ( ) Televizyon izlemek ( ) Sinema/Tiyatro/Film izlemek ( ) Arkadaşlar ile vakit geçirmek ( ) Aile ile vakit geçirmek ( ) Spor yapmak/Dans ( ) Tiyatro oynamak ( ) Oyun oynamak ( ) Seyahat/İzcilik ( ) Ders çalışmak/Araştırma yapmak ( ) Koleksiyon yapmak ( ) Uçurtma ( ) Yemek yapmak ( ) Gökbilim ( ) Fotoğrafçılık ( ) Grafiti yapmak ( ) Kuş gözlemi ( ) Evcil hayvan/Bitki bakımı/Bahçe işleri ( ) Müze gezmek ( ) Sosyal yardımlaşma ve dayanışma faaliyetleri ( ) Çeşitli el sanatları ve el işleri (maket, origami, seramik, heykel, dikiş, nakış, örgü, dokuma, takı, ahşap/cam sanatı vb.) ( ) Diğer (Yazınız………………………………………….………………...……. ) 3. Üzerinde en çok vakit harcadığınız materyal/oyuncak hangisidir? (Lütfen en fazla 2 seçeneği işaretleyiniz.) ( ( ( ( ( ( ( ( ( ( ( ) Deney setleri ( ) Kazı setleri ) Lego/Puzzle ( ) Teleskop ) Müzik aletleri ( ) Mikroskop ) Maket setleri ( ) Resim malzemeleri ) Bulmaca/Su doku ( ) Koleksiyon malzemeleri ) Kitaplar/Dergiler/Gazeteler ( ) Satranç/Go malzemeleri ) Bilgisayar ( ) Robot malzemeleri ) Spor malzemeleri ( ) Bitki/Bahçe bakım malzemeleri ) Fotoğrafçılık malzemeleri ( ) Evcil hayvan ) Seramik/Kil/Hamur/Ahşap/Cam/Kağıt/Yün-İp ) Diğer (Yazınız…………………………………………………………………..) 4. Okul dışı zamanlarda en çok vaktinizi geçirdiğiniz kurs hangisidir? (Lütfen en fazla 2 seçeneği işaretleyiniz.) ( ( ( ( ( ( ( ) Mental aritmetik ) Müzik ) Satranç/Go ) Drama/Tiyatro ) Bilgisayar ) Seramik/Heykelcilik/Ahşap ) Dershane/Özel ders (okul dersleriyle ilgili) ( ( ( ( ( ( ) Spor/Dans ) Resim ) Robot ) Fotoğrafçılık ) Diğer (Yazınız.......................) ) Kursa gitmem 92 EK-1. (devam) Boş zamanları değerlendirme anketi 5. En çok ne tür kitaplar okursunuz? (Lütfen tek seçenek işaretleyiniz.) ( ( ( ( ( ( ) Roman ) Polisiye/Korku/Macera ) Bilimsel/Bilim Kurgu ) Spor ) Seyahat ) Mizah ( ( ( ( ( ) Biyografik ) Çocuk kitapları ) Güzel sanatlar ) Diğer (Yazınız……...………) ) Kitap okumuyorum 6. En çok ne tür dergi okursunuz? (Lütfen tek seçenek işaretleyiniz.) ( ( ( ( ( ( ) Fotoroman/Mizah ) Spor ) Moda/Magazin ) Çocuk dergileri ) Müzik/Resim/Sanat ) Seyahat ( ( ( ( ( ( ) Bilim Teknik ) Bilgisayar ) Araba ) Dekorasyon/Bahçe bakımı ) Diğer (Yazınız…………..….) ) Dergi okumuyorum 7. Televizyonda en çok hangi programı izliyorsunuz? (Lütfen en fazla 2 seçenek işaretleyiniz.) ( ( ( ( ( ( ( ) Eğlence ) Müzik ) Spor ) Moda ) Ekonomi ) Oturum/Tartışma/Münazara/Panel ) Tarih ( ( ( ( ( ( ( ) Çocuk Programları/Çizgi filmler ) Sinema/Dizi/Tiyatro ) Haber Programları ) Belgesel ) Reklamlar ) Diğer (Yazınız…………..…….) ) TV izlemiyorum 8. En çok ne tür filmlerden hoşlanırsınız? (Lütfen tek seçenek işaretleyiniz.) ( ( ( ( ( ) Bilim kurgu ) Polisiye/Korku/Macera ) Dram/Psikolojik ) Biyografik ) Komedi ( ( ( ( ( ) Aşk ) Çizgi filmler/Animasyon ) Romantik komedi ) Diğer (Yazınız……………...) ) Film izlemiyorum 93 EK-1. (devam) Boş zamanları değerlendirme anketi 9. En çok hangi spor dalı ile uğraşırsınız? (Lütfen en fazla 2 seçeneği işaretleyiniz.) ( ) Futbol ( ) Atletizm ( ) Basketbol ( ) Bale/Dans/Jimnastik/Su balesi ( ) Yüzme ( ) Karate/Tekvando/Judo/Aikido/Kung Fu ( ) Güreş ( ) Paten/Buz pateni ( ) Step/Aerobik/Yoga/Pilates ( ) Ata binme ( ) Voleybol ( ) Beyzbol/Kriket ( ) Atıcılık ( ) Bilardo ( ) Bisiklet ( ) Boks/Kick Boks ( ) Bowling ( ) Buz hokeyi ( ) Eskrim ( ) Dart ( ) Golf ( ) Hentbol ( ) Kürek ( ) Tenis/Masa Tenisi ( ) Okçuluk ( ) Oryantiring ( ) Su topu ( ) Paintball ( ) Çeşitli ekstrem sporlar (dağcılık, tırmanma, dalgıçlık/dalış, kayak, kaykay, serbest paraşüt, yamaç paraşütü, yelken, sörf, rüzgar sörfü, rafting, snowboarding, kızak, bungee jumping, motor sporları) ( ) Diğer (Yazınız………………………………………………………...……) ( ) Spor yapmıyorum 10. Okulda hangi öğrenci kulübüne katılıyorsunuz? (Lütfen tek seçenek işaretleyiniz.) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ) Kültür ve Edebiyat Kulübü ( ) Yayın ve İletişim Kulübü ) Müzik Kulübü ( ) Resim/Görsel Sanatlar Kulübü ) Bilişim ve İnternet Kulübü ( ) Halk Oyunları Kulübü ) Tiyatro Kulübü ( ) Kütüphanecilik Kulübü ) Sivil Savunma Kulübü ( ) Gezi, Tanıtma ve Turizm Kulübü ) Çevre Koruma Kulübü ( ) Satranç Kulübü ) Hayvanları Sevme ve Koruma Kulübü ( ) Yeşili Koruma Kulübü ) Spor Kulübü ( ) Havacılık Kulübü ) Bilim-Fen ve Teknoloji Kulübü ( )Trafik Güvenliği ve İlkyardım Kulübü ) Fotoğrafçılık Kulübü ( ) İzcilik Kulübü ) Bilinçli Tüketici Kulübü ( ) Kooperatifçilik Kulübü ) Meslek Tanıtma Kulübü ( ) Engellilerle Dayanışma Kulübü ) Çocuk Hakları Kulübü ( )Felsefe veya Düşünce Eğitimi Kulübü ) Denizcilik Kulübü ( ) Pulculuk Kulübü ) Sağlık, Temizlik, Beslenme ve Yeşilay Kulübü ) Demokrasi, İnsan Hakları ve Yurttaşlık Kulübü ) Sosyal Dayanışma ve Yardımlaşma, Çocuk Esirgeme, Kızılay ve Benzeri Kulüpler ) Kültür ve Tabiat Varlıklarını Koruma ve Okul Müzesi Kulübü ) Diğer (Yazınız.............................................................................................) 94 EK-1. (devam) Boş zamanları değerlendirme anketi 11. Evde ailenize en çok ne tür yardımlarda bulunursunuz? (Lütfen tek seçenek işaretleyiniz.) ( ) Temizlik/Çamaşır/Bulaşık/Yemek/Ütü ( ) Kardeşlerinize bakmak ( ) Tamir işleri ( ) Alış-veriş yapmak ( ) Diğer (Yazınız………...……) ( ) Hiçbir yardımda bulunmam. 95 EK-2. Ebeveyn veri toplama formu Adınız, Soyadınız : Çocuğunuzun Adı, Soyadı : Çocuğunuzun Devam Ettiği Okul : Kod Numarası : Açıklama: Sayın velimiz; Bu anket siz (anne ve baba) ve çocuğunuz hakkında bir takım bilgileri toplamak için yapılmaktadır. Anketin sonuçları, çocuğunuzun ilgi alanlarını tespit etmemizde bizlere yardımcı olacaktır. Anketi anne, baba veya her ikisi birlikte doldurabilir. (Anne ve babanın olmaması durumunda çocuğun velisi doldurmalıdır.) Lütfen her soruyu dikkatlice okuyunuz. Cevaplardan hangi seçeneğin size en uygun veya en yakın olduğunu kararlaştırınız. Kararınızı verdikten sonra yalnız bir seçeneğin solundaki parantezin içine bir çarpı işareti koyunuz. Anketteki tüm soruları cevapladıktan sonra anketi uygulayan kişiye iade ediniz. Cevaplarınızın gerçeğe uygun olmasına dikkat ediniz. olduğunuz hassasiyete şimdiden teşekkür ederiz. 1. Çocuğunuzun cinsiyeti nedir? ( ) Kız ( ) Erkek 2. Çocuğunuzun okula devam konusundaki tutumu nasıldır? ( ) Okula devam konusunda isteklidir. ( ) Okula devam etmesi için kendisini takip etmem gerekir. 3. Çocuğunuzun çalışma alışkanlığı nasıldır? ( ) Düzenli çalışır, ödevlerini kendiliğinden yapar. ( ) Ödevlerini yapması ve ders çalışması için kendisini takip etmem gerekir. 4. Çocuğunuz özel okula mı devlet okuluna mı devam ediyor? ( ) Özel ( ) Devlet Göstermiş 96 EK-2. (devam) Ebeveyn veri toplama formu 5. Çocuğunuz kimlerle vakit geçirmeyi tercih eder? ( ) Arkadaşlarıyla ( ) Kendi başına vakit geçirmekten hoşlanır. ( ) Aile bireyleriyle 6. Çocuğunuzun düzenli görüştüğü arkadaşlarının sayısı aşağıdaki aralıklardan hangisine girmektedir? ( ) 1-2 ( ) 5’ten fazla ( ) 3-5 ( ) Düzenli görüştüğü arkadaşı yoktur. 7. Çocuğunuzun, en çok başarılı olduğunu düşündüğünüz ders aşağıdakilerden hangisidir? (Lütfen tek madde işaretleyiniz.) ( ( ( ( ( ) Türkçe ) Sosyal Bilgiler ) Fen Bilimleri ) Yabancı Dil ) Beden Eğitimi ve Spor ( ( ( ( ) Matematik ) Müzik ) Resim/Heykel/El Sanatları ) Diğer (Yazınız……………...) 8. Çocuğun annesinin eğitim durumu aşağıdakilerden hangisidir? ( ) İlkokul ( ) Ortaokul ( ) Lise ( ) Üniversite (Lisans)/Yüksekokul ( ) Yüksek Lisans/Doktora ( ) Okula gidilmedi 9. Çocuğun babasının eğitim durumu aşağıdakilerden hangisidir? ( ) İlkokul ( ) Ortaokul ( ) Lise ( ) Üniversite (Lisans)/Yüksekokul ( ) Yüksek Lisans/Doktora ( ) Okula gidilmedi 10. Çocuğun anne ve babasının birliktelik durumu aşağıdakilerden hangisidir? ( ) Evli ( ) Anne Vefat ( ) Anne ve Baba Vefat ( ) Ayrılmış/Ayrı Yaşıyor ( ) Baba Vefat 97 EK-2. (devam) Ebeveyn veri toplama formu 11. Ailenin toplam geliri aşağıdaki aralıklardan hangisine girmektedir? ( ( ( ( ( ) 1000 TL ve aşağısı ) 1001-2000 TL arası ) 2001-3000 TL arası ) 3001-4000 TL arası ) 4001-5000 TL arası ( ( ( ( ( ) 5001-6000 TL arası ) 6001-7000 TL arası ) 7001-8000 TL arası ) 8001-9000 TL arası ) 9001 TL’den fazla 12. Çocuğun annesinin mesleği aşağıdakilerden hangisidir? (Anne emekli ise çalışılan döneme ait mesleği işaretleyiniz.) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ) Doktor/Diş Doktoru ( ) İşletmeci/İktisatçı/Bankacı ) Mimar ( ) Yönetici ) Psikolog ( ) İlahiyatçı ) Diplomat ( ) Halkla İlişkiler Uzmanı ) Siyasetçi ( ) Satış/Pazarlama/Tanıtım Elemanı ) Gazeteci ( ) Oyuncu/Sanatçı ) Müteahhit ( ) Eczacı ) Mühendis ( ) Çevirmen/Turizm Rehberi ) Öğretmen/Öğretim Üyesi ( ) Yazar ) Şoför ( ) İş Yeri Sahibi/Emlakçı ) Avukat/Savcı/Hâkim ( ) İşçi/Madenci ) Polis ( ) Sporcu ) Asker ( ) Büro Elemanı ) Müşteri Hizmetleri Personeli ( ) Kuaför/Berber/Güzellik Uzmanı ) Koruma ( ) Model/Manken ) Muhtar ( ) Bilişim Personeli ) Üretim Personeli ( ) Hizmet Personeli ) İnsan Kaynakları Sorumlusu ) Hemşire/Ebe/Hasta Bakıcı/Tıbbi Teknisyen/Sağlık Personeli ) Mali ve İdari İşler Personeli/Muhasebeci ) Fizik/Matematik/Kimya/İstatistik Bilimci ) El Sanatları Mesleği (Terzi, Marangoz, Çini sanatı, Hattatlık, Metal işleme vb. ) ) Tarım/Hayvancılık/Avcılık/Ormancılık/Su Ürünleri Çalışanı ) Makine-Taşıt Operatörü/Montajcı ) Ev Hanımı ) Diğer (Yazınız………………………………………...……………………….) 98 EK-2. (devam) Ebeveyn veri toplama formu 13. Çocuğun babasının mesleği aşağıdakilerden hangisidir? (Baba emekli ise çalışılan döneme ait mesleği işaretleyiniz.) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ) Doktor/Diş Doktoru ( ) İşletmeci/İktisatçı/Bankacı ) Mimar ( ) Yönetici ) Psikolog ( ) İlahiyatçı ) Diplomat ( ) Halkla İlişkiler Uzmanı ) Siyasetçi ( ) Satış/Pazarlama/Tanıtım Elemanı ) Gazeteci ( ) Oyuncu/Sanatçı ) Müteahhit ( ) Eczacı ) Mühendis ( ) Çevirmen/Turizm Rehberi ) Öğretmen/Öğretim Üyesi ( ) Yazar ) Şoför ( ) İş Yeri Sahibi/Emlakçı ) Avukat/Savcı/Hâkim ( ) İşçi/Madenci ) Polis ( ) Sporcu ) Asker ( ) Büro Elemanı ) Müşteri Hizmetleri Personeli ( ) Kuaför/Berber/Güzellik Uzmanı ) Koruma ( ) Model/Manken ) Muhtar ( ) Bilişim Personeli ) Üretim Personeli ( ) Hizmet Personeli ) İnsan Kaynakları Sorumlusu ( ) İş Adamı ) Hemşire/Ebe/Hasta Bakıcı/Tıbbi Teknisyen/Sağlık Personeli ) Mali ve İdari İşler Personeli/Muhasebeci ) Fizik/Matematik/Kimya/İstatistik Bilimci ) El Sanatları Mesleği (Terzi, Marangoz, Çini sanatı, Hattatlık, Metal işleme vb. ) ) Tarım/Hayvancılık/Avcılık/Ormancılık/Su Ürünleri Çalışanı ) Makine-Taşıt Operatörü/Montajcı ) Çalışmıyor ) Diğer (Yazınız…………………………………...…………………………….) 14. Kaç çocuğunuz var? ( )1 ( )2 ( )3 ( )4 ( )5 ( ) 5’ten fazla 15. Annenin çocuğa karşı tutumu genellikle aşağıdakilerden hangi sınıfa girmektedir? ( ( ( ( ) Otoriter ) Aşırı koruyucu ) Aşırı hoşgörülü ) Kararsız ( ) İlgisiz ( ) Mükemmeliyetçi ( ) Demokratik 99 EK-2. (devam) Ebeveyn veri toplama formu 16. Babanın çocuğa karşı tutumu genellikle aşağıdakilerden hangi sınıfa girmektedir? ( ( ( ( ) Otoriter ) Aşırı koruyucu ) Aşırı hoşgörülü ) Kararsız ( ) İlgisiz ( ) Mükemmeliyetçi ( ) Demokratik 100 EK-3. WEKA analizlerinde kullanılan tabloların oluşturma SQL’leri CREATE TABLE `ogrenciilgi` ( `id` int(11) NOT NULL, `aa1` varchar(2) DEFAULT NULL, `aa2` varchar(2) DEFAULT NULL, `aa3` varchar(2) DEFAULT NULL, `aa4` varchar(2) DEFAULT NULL, `aa5` varchar(2) DEFAULT NULL, `aa6` varchar(2) DEFAULT NULL, `aa8` varchar(2) DEFAULT NULL, `aa9` varchar(2) DEFAULT NULL, `aa14` varchar(2) DEFAULT NULL, `aa15` varchar(2) DEFAULT NULL, `aa16` varchar(2) DEFAULT NULL, `ilgialani1` varchar(70) DEFAULT NULL, `tktc` varchar(1) DEFAULT NULL, `wiscrc` varchar(1) DEFAULT NULL, `aa7c` varchar(2) DEFAULT NULL, `aa11c` varchar(2) DEFAULT NULL, `aa12c` varchar(2) DEFAULT NULL, `aa13c` varchar(2) DEFAULT NULL, `bzda5c` varchar(2) DEFAULT NULL, `bzda6c` varchar(2) DEFAULT NULL, `bzda8c` varchar(2) DEFAULT NULL, `bzda11c` varchar(2) DEFAULT NULL, `aagosterge` int(11) DEFAULT NULL, `bzdagosterge` int(11) DEFAULT NULL, `bzda12-1` varchar(1) DEFAULT NULL, `bzda12-2` varchar(1) DEFAULT NULL, `bzda12-3` varchar(1) DEFAULT NULL, `bzda12-4` varchar(1) DEFAULT NULL, `bzda12-5` varchar(1) DEFAULT NULL, `bzda12-6` varchar(1) DEFAULT NULL, 101 EK-3. (devam) WEKA analizlerinde kullanılan tabloların oluşturma SQL’leri `bzda12-7` varchar(1) DEFAULT NULL, `bzda12-12` varchar(1) DEFAULT NULL, `bzda12-16` varchar(1) DEFAULT NULL, `bzda12-17` varchar(1) DEFAULT NULL, `bzda12-19` varchar(1) DEFAULT NULL, `bzda3-1` varchar(1) DEFAULT NULL, `bzda3-2` varchar(1) DEFAULT NULL, `bzda3-3` varchar(1) DEFAULT NULL, `bzda3-4` varchar(1) DEFAULT NULL, `bzda3-5` varchar(1) DEFAULT NULL, `bzda3-6` varchar(1) DEFAULT NULL, `bzda3-7` varchar(1) DEFAULT NULL, `bzda3-8` varchar(1) DEFAULT NULL, `bzda3-11` varchar(1) DEFAULT NULL, `bzda3-12` varchar(1) DEFAULT NULL, `bzda3-21` varchar(1) DEFAULT NULL, `bzda4-1` varchar(1) DEFAULT NULL, `bzda4-2` varchar(1) DEFAULT NULL, `bzda4-3` varchar(1) DEFAULT NULL, `bzda4-4` varchar(1) DEFAULT NULL, `bzda4-7` varchar(1) DEFAULT NULL, `bzda4-8` varchar(1) DEFAULT NULL, `bzda4-12` varchar(1) DEFAULT NULL, `bzda4-13` varchar(1) DEFAULT NULL, `bzda4-14` varchar(1) DEFAULT NULL, `bzda7-1` varchar(1) DEFAULT NULL, `bzda7-2` varchar(1) DEFAULT NULL, `bzda7-3` varchar(1) DEFAULT NULL, `bzda7-4` varchar(1) DEFAULT NULL, `bzda7-5` varchar(1) DEFAULT NULL, `bzda7-6` varchar(1) DEFAULT NULL, `bzda7-7` varchar(1) DEFAULT NULL, 102 EK-3. (devam) WEKA analizlerinde kullanılan tabloların oluşturma SQL’leri `bzda7-12` varchar(1) DEFAULT NULL, `bzda7-13` varchar(1) DEFAULT NULL, `bzda7-14` varchar(1) DEFAULT NULL, `bzda7-17` varchar(1) DEFAULT NULL, `bzda9-1` varchar(1) DEFAULT NULL, `bzda9-2` varchar(1) DEFAULT NULL, `bzda9-3` varchar(1) DEFAULT NULL, `bzda9-15` varchar(1) DEFAULT NULL, `bzda9-16` varchar(1) DEFAULT NULL, `bzda9-17` varchar(1) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8$$ CREATE TABLE `ilgialani` ( `ilgialani1` varchar(70) DEFAULT NULL, `ilgialani2` varchar(70) DEFAULT NULL, `ilgialani3` varchar(70) DEFAULT NULL, `yabancidil` varchar(1) DEFAULT NULL, `fenbilimleri` varchar(1) DEFAULT NULL, `mekanik` varchar(1) DEFAULT NULL, `sosyalbilimler` varchar(1) DEFAULT NULL, `ticaret` varchar(1) DEFAULT NULL, `ikna` varchar(1) DEFAULT NULL, `muzik` varchar(1) DEFAULT NULL, `sanat` varchar(1) DEFAULT NULL, `isayrintilari` varchar(1) DEFAULT NULL, `sosyalyardim` varchar(1) DEFAULT NULL, `ziraat` varchar(1) DEFAULT NULL, `edebiyat` varchar(1) DEFAULT NULL, `id` int(11) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8$$ 103 EK-4. Part algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.rules.PART -M 2 -C 0.25 -Q 1 Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 104 EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı bzda12-5 bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 105 EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı bzda7-6 bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === PART decision list ------------------ bzda7-12 = 1: TICARET (17.15/0.15) bzda7-5 = 1: SOSYAL BILIMLER (11.1/0.1) bzda12-17 = 0 AND bzda9-15 = 1 AND bzda12-4 = 1: MUZIK (6.05/0.05) bzda12-17 = 0 AND bzda12-2 = 0 AND aa7c = 4: YABANCI DIL (14.41/4.01) bzda12-17 = 0 AND bzda12-2 = 0 AND 106 EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı bzda3-5 = 1 AND bzda12-1 = 0: FEN BILIMLERI (7.68/2.8) bzda12-17 = 0 AND bzda3-5 = 0 AND bzda12-2 = 0 AND bzda6c = 2: FEN BILIMLERI (17.14/1.18) bzda12-17 = 0 AND bzda3-5 = 0 AND bzda12-2 = 0 AND bzda7-4 = 0 AND bzda6c = 1 AND bzda3-6 = 0: FEN BILIMLERI (10.59/1.34) bzda12-17 = 0 AND bzda3-5 = 0 AND bzda12-2 = 0 AND bzda7-4 = 0 AND bzda6c = 9: MEKANIK (7.16/0.36) bzda12-17 = 0 AND bzda3-5 = 0 AND bzda12-2 = 0 AND bzda3-4 = 0 AND bzda12-1 = 1: FEN BILIMLERI (5.8/1.8) bzda12-17 = 1: SOSYAL YARDIM (5.05/0.05) bzda3-5 = 1: SANAT (4.65/0.05) bzda12-2 = 0 AND 107 EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı bzda3-4 = 0: EDEBIYAT (2.16/0.16) aa8 = 4: IS AYRINTILARI (2.04/0.04) : ZIRAAT (2.0) Number of Rules : 14 Time taken to build model: 0.03 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 92 81.4159 % Incorrectly Classified Instances 21 18.5841 % Kappa statistic 0.7704 Mean absolute error 0.0435 Root mean squared error 0.1634 Relative absolute error 30.7428 % Root relative squared error 61.6353 % Total Number of Instances 113 108 EK-4. (devam) Part algoritması sınıflandırma analizi çıktısı Resim 4.1. Part algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 109 EK-5. Ridor algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.rules.Ridor -F 3 -S 1 -N 2.0 Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 110 EK-5. (devam) Ridor algoritması sınıflandırma analizi çıktısı bzda12-5 bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 111 EK-5. (devam) Ridor algoritması sınıflandırma analizi çıktısı bzda7-6 bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === RIpple DOwn Rule Learner(Ridor) rules -------------------------------------- ilgialani1 = SOSYAL BILIMLER (113.0/102.0) Except (bzda7-5 = 0) => ilgialani1 = TICARET (67.0/0.0) [34.0/0.0] Except (bzda7-12 = 0) => ilgialani1 = SOSYAL YARDIM (56.0/0.0) [28.0/0.0] Except (bzda12-17 = 0) => ilgialani1 = MUZIK (53.0/0.0) [26.0/0.0] Except (bzda9-15 = 0) => ilgialani1 = SANAT (46.0/0.0) [24.0/0.0] Except (bzda3-5 = 0) => ilgialani1 = FEN BILIMLERI (38.0/0.0) [18.0/0.0] Except (bzda9-3 = 1) and (bzda7-6 = 0) and (bzda12-1 = 0) => ilgialani1 = YABANCI DIL (7.0/0.0) [4.0/2.0] Except (aa7c = 4) => ilgialani1 = YABANCI DIL (5.0/0.0) [2.0/0.0] Except (bzda5c = 2) => ilgialani1 = FEN BILIMLERI (4.0/0.0) [1.0/0.0] Total number of rules (incl. the default rule): 9 Time taken to build model: 0.05 seconds 112 EK-5. (devam) Ridor algoritması sınıflandırma analizi çıktısı === Stratified cross-validation === === Summary === Correctly Classified Instances 77 68.1416 % Incorrectly Classified Instances 36 31.8584 % Kappa statistic 0.6137 Mean absolute error 0.0531 Root mean squared error 0.2304 Relative absolute error 37.5429 % Root relative squared error 86.9321 % Total Number of Instances 113 Resim 5.1. Ridor algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 113 EK-6. DecisionTable algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.rules.DecisionTable -X 1 -S "weka.attributeSelection.BestFirst -D 1 -N 5" Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 114 EK-6. (devam) DecisionTable algoritması sınıflandırma analizi çıktısı bzda12-4 bzda12-5 bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 115 EK-6. (devam) DecisionTable algoritması sınıflandırma analizi çıktısı bzda7-5 bzda7-6 bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === Decision Table: Number of training instances: 113 Number of Rules : 23 Non matches covered by Majority class. Best first. Start set: no attributes Search direction: forward Stale search after 5 node expansions Total number of subsets evaluated: 651 Merit of best subset found: 65.487 Evaluation (for feature selection): CV (leave one out) Feature set: 15,32,55,58,61,12 Time taken to build model: 0.75 seconds 116 EK-6. (devam) DecisionTable algoritması sınıflandırma analizi çıktısı === Stratified cross-validation === === Summary === Correctly Classified Instances 70 61.9469 % Incorrectly Classified Instances 43 38.0531 % Kappa statistic 0.5027 Mean absolute error 0.1228 Root mean squared error 0.2346 Relative absolute error 86.7957 % Root relative squared error 88.5039 % Total Number of Instances 113 Resim 6.1. DecisionTable algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 117 EK-7. JRip algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1 Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 118 EK-7. (devam) JRip algoritması sınıflandırma analizi çıktısı bzda12-5 bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 119 EK-7. (devam) JRip algoritması sınıflandırma analizi çıktısı bzda7-6 bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === JRIP rules: =========== (bzda12-2 = 1) => ilgialani1=IS AYRINTILARI (2.0/0.0) (bzda7-4 = 1) and (bzda4-8 = 1) => ilgialani1=IKNA (2.0/0.0) (aa13c = 5) and (bzda5c = 2) => ilgialani1=EDEBIYAT (2.0/0.0) (bzda12-17 = 1) => ilgialani1=SOSYAL YARDIM (5.0/0.0) (bzda11c = 7) => ilgialani1=ZIRAAT (5.0/0.0) (bzda9-15 = 1) and (bzda12-4 = 1) => ilgialani1=MUZIK (6.0/0.0) (bzda3-5 = 1) and (bzda5c = 9) => ilgialani1=SANAT (4.0/0.0) (bzda6c = 9) => ilgialani1=MEKANIK (8.0/0.0) (bzda7-5 = 1) => ilgialani1=SOSYAL BILIMLER (11.0/0.0) (aa7c = 4) => ilgialani1=YABANCI DIL (10.0/0.0) (bzda7-12 = 1) => ilgialani1=TICARET (17.0/0.0) => ilgialani1=FEN BILIMLERI (41.0/5.0) 120 EK-7. (devam) JRip algoritması sınıflandırma analizi çıktısı Number of Rules : 12 Time taken to build model: 0.17 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 97 85.8407 % Incorrectly Classified Instances 16 14.1593 % Kappa statistic 0.8256 Mean absolute error 0.0317 Root mean squared error 0.1423 Relative absolute error 22.3844 % Root relative squared error 53.6683 % Total Number of Instances 113 121 EK-7. (devam) JRip algoritması sınıflandırma analizi çıktısı Resim 7.1. JRip algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 122 EK-8. BFTree algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.trees.BFTree -S 1 -M 2 -N 5 -C 1.0 -P POSTPRUNED Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 123 EK-8. (devam) BFTree algoritması sınıflandırma analizi çıktısı bzda12-5 bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 124 EK-8. (devam) BFTree algoritması sınıflandırma analizi çıktısı bzda7-6 bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === Best-First Decision Tree bzda7-12=(1): TICARET(17.0/0.15) bzda7-12!=(1) | bzda7-5=(1): SOSYAL BILIMLER(11.0/0.1) | bzda7-5!=(1) | | bzda6c=(9) | | | bzda11c=(7)|(2): ZIRAAT(0.2/0.21) | | | bzda11c!=(7)|(2): MEKANIK(8.0/0.17) | | bzda6c!=(9) | | | aa7c=(4) | | | | aa13c=(1)|(12)|(6)|(2)|(4)|(10)|(13)|(8)|(46)|(3)|(26): YABANCI DIL(10.32/1.72) | | | | aa13c!=(1)|(12)|(6)|(2)|(4)|(10)|(13)|(8)|(46)|(3)|(26): ZIRAAT(0.9/0.18) | | | aa7c!=(4) | | | | bzda12-17=(1): SOSYAL YARDIM(5.0/0.05) | | | | bzda12-17!=(1) 125 EK-8. (devam) BFTree algoritması sınıflandırma analizi çıktısı | | | | | bzda5c=(9)|(4): SANAT(4.89/0.21) | | | | | bzda5c!=(9)|(4) | | | | | | bzda11c=(7): ZIRAAT(3.9/0.18) | | | | | | bzda11c!=(7) | | | | | | | bzda9-15=(1) | | | | | | | | bzda12-4=(1): MUZIK(5.66/0.06) | | | | | | | | bzda12-4!=(1): FEN BILIMLERI(2.02/0.0) | | | | | | | bzda9-15!=(1) | | | | | | | | bzda12-2=(1): IS AYRINTILARI(1.82/0.02) | | | | | | | | bzda12-2!=(1) | | | | | | | | | aa13c=(3)|(26)|(1)|(12)|(2)|(6)|(4)|(46)|(10)|(13)|(8): FEN BILIMLERI(31.67/4.95) | | | | | | | | | aa13c!=(3)|(26)|(1)|(12)|(2)|(6)|(4)|(46)|(10)|(13)|(8): EDEBIYAT(2.0/0.6) Size of the Tree: 27 Number of Leaf Nodes: 14 Time taken to build model: 2.79 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 92 81.4159 % Incorrectly Classified Instances 21 18.5841 % Kappa statistic 0.7712 Mean absolute error 0.0401 Root mean squared error 0.1575 Relative absolute error 28.3773 % Root relative squared error 59.4176 % Total Number of Instances 113 126 EK-8. (devam) BFTree algoritması sınıflandırma analizi çıktısı Resim 8.1. BFTree algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 127 EK-9. FT algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.trees.FT -I 15 -F 0 -M 15 -W 0.0 Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 128 EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı bzda12-5 bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 129 EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı bzda7-6 bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === FT tree -----------------: FT_1:15/15 (113) Number of Leaves : 1 Size of the Tree : FT_1: Class 0 : -3.96 + [tktc=a] * 2.8 + [tktc=d] * 3.47 + [aa7c=4] * 10.21 + [aa13c=1] * 1.61 + [bzda8c=3] * 2.52 + [bzda4-7] * 1.22 + 1 130 EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı [bzda7-6] * -1.27 + [bzda7-7] * -1.26 Class 1 : 3.1 + [tktc=b] * 0.69 + [tktc=d] * -1.35 + [aa7c=4] * -3.84 + [aa12c=25] * -1.59 + [aa12c=1] * 0.99 + [bzda5c=1] * 1.01 + [bzda11c=2] * -0.93 + [bzda3-1] * 0.94 + [bzda3-5] * -1.67 + [bzda4-1] * -1.01 + [bzda7-12] * -2.65 Class 2 : -13.88 + [bzda6c=9] * 30.52 Class 3 : -13.88 + [bzda7-5] * 30.26 Class 4 : -13.88 + [bzda7-12] * 29.92 Class 5 : -12.08 + [aa8=2] * 5.09 + 131 EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı [tktc=c] * 1.94 + [bzda5c=1] * -1.54 + [bzda4-8] * 4.27 + [bzda7-4] * 10.15 + [bzda9-3] * 2.87 Class 6 : -9.11 + [aa13c=1] * -1.54 + [bzda5c=2] * -1.42 + [bzda8c=4] * 1.33 + [bzda12-4] * 6.87 + [bzda3-3] * 1.3 + [bzda7-2] * -1.62 + [bzda9-15] * 10.38 Class 7 : -3.33 + [aa6=1] * 2.16 + [bzda5c=9] * 7.43 + [bzda6c=2] * 0.99 + [bzda11c=1] * -1.18 + [bzda12-12] * -1.45 + [bzda3-5] * 5.23 + [bzda4-2] * -3.94 + [bzda4-3] * 1.46 Class 8 : -13.88 + [bzda12-2] * 30.22 Class 9 : 132 EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı -13.88 + [bzda12-17] * 30.21 Class 10 : -13.88 + [bzda11c=7] * 30.63 Class 11 : -10.5 + [aa9=4] * -1.57 + [aa9=2] * 2.6 + [aa12c=25] * 1.64 + [aa13c=5] * 14.38 + [bzda8c=7] * 3.17 + [bzda12-6] * -1.48 + [bzda3-6] * 3.17 Time taken to build model: 1.5 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 96 84.9558 % Incorrectly Classified Instances 17 15.0442 % Kappa statistic 0.8174 Mean absolute error 0.0283 Root mean squared error 0.1529 Relative absolute error 20.006 % Root relative squared error 57.6816 % Total Number of Instances 113 133 EK-9. (devam) FT algoritması sınıflandırma analizi çıktısı Resim 9.1. FT algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 134 EK-10. J48 algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 135 EK-10. (devam) J48 algoritması sınıflandırma analizi çıktısı bzda12-5 bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 136 EK-10. (devam) J48 algoritması sınıflandırma analizi çıktısı bzda7-6 bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === J48 pruned tree ------------------ bzda7-12 = 0 | bzda7-5 = 0 | | bzda12-17 = 0 | | | bzda9-15 = 0 | | | | bzda12-2 = 0 | | | | | aa7c = 4: YABANCI DIL (13.33/2.94) | | | | | aa7c = 3 | | | | | | bzda3-5 = 0 | | | | | | | bzda6c = 2: FEN BILIMLERI (16.93/1.16) | | | | | | | bzda6c = 9: MEKANIK (6.11/0.41) | | | | | | | bzda6c = 1: FEN BILIMLERI (10.07/2.97) | | | | | | | bzda6c = 14: FEN BILIMLERI (0.0) | | | | | | | bzda6c = 12: FEN BILIMLERI (2.89/1.08) 137 EK-10. (devam) J48 algoritması sınıflandırma analizi çıktısı | | | | | | | bzda6c = 5: FEN BILIMLERI (1.07/0.03) | | | | | | | bzda6c = 10: FEN BILIMLERI (0.0) | | | | | | bzda3-5 = 1 | | | | | | | bzda12-1 = 1: SANAT (4.46/0.06) | | | | | | | bzda12-1 = 0 | | | | | | | | bzda12-4 = 0: FEN BILIMLERI (3.04) | | | | | | | | bzda12-4 = 1: SANAT (3.44/1.44) | | | | | aa7c = 7: MEKANIK (2.42/1.39) | | | | | aa7c = 8: FEN BILIMLERI (2.42/1.21) | | | | | aa7c = 2: FEN BILIMLERI (1.21/0.11) | | | | | aa7c = 1: EDEBIYAT (1.21/0.21) | | | | bzda12-2 = 1: IS AYRINTILARI (2.02/0.02) | | | bzda9-15 = 1 | | | | bzda12-4 = 0: FEN BILIMLERI (3.03/1.0) | | | | bzda12-4 = 1: MUZIK (6.05/0.05) | | bzda12-17 = 1: SOSYAL YARDIM (5.04/0.04) | bzda7-5 = 1: SOSYAL BILIMLER (11.1/0.1) bzda7-12 = 1: TICARET (17.15/0.15) Number of Leaves : 21 Size of the tree : 32 Time taken to build model: 0.27 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 90 79.646 % Incorrectly Classified Instances 23 20.354 % Kappa statistic 0.7499 Mean absolute error 0.0488 138 EK-10. (devam) J48 algoritması sınıflandırma analizi çıktısı Root mean squared error 0.1703 Relative absolute error 34.4989 % Root relative squared error 64.2665 % Total Number of Instances 113 Resim 10.1. J48 algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 139 EK-11. LADTree algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.trees.LADTree -B 10 Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 140 EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı bzda12-5 bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 141 EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı bzda7-6 bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === weka.classifiers.trees.LADTree: : 0,0,0,0,0,0,0,0,0,0,0,0 | (1)bzda7-12 = 0: 0.531,2.089,0.128,0.435,-0.881,-0.598,-0.096,0.018,-0.598,-0.214,0.214,-0.598 | | (7)bzda9-15 = 0: 0.28,0.362,0.047,0.414,-0.846,0.297,-0.915,0.277,0.296,0.012,0.518,0.293 | | (7)bzda9-15 = 1: -0.57,-0.8,0.844,0.357,-0.475,-0.485,3.6,-0.569,-0.48,-0.465,-0.475,0.482 | | (8)bzda3-5 = 0: 0.033,0.489,0.32,0.305,-0.864,0.445,-0.956,0.961,0.431,0.249,0.079,0.43 | | (8)bzda3-5 = 1: 0.804,-0.623,-0.465,0.415,-0.457,-0.482,-0.036,2.719,-0.479,-0.458,0.46,-0.479 | | | (10)bzda5c = 2: 2.219,3.25,-0.338,-0.34,-0.339,-0.344,-0.347,-2.399,-0.345,-0.337,0.338,-0.342 142 EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı | | | (10)bzda5c != 2: -0.411,0.214,-0.361,0.647,-0.362,-0.366,0.893,1.198,-0.371,-0.36,0.361,-0.361 | (1)bzda7-12 = 1: -0.389,-0.389,-0.389,-0.389,4.278,-0.389,-0.389,-0.389,-0.389,-0.389,0.389,-0.389 | (2)bzda7-5 = 0: 0.405,-0.115,0.366,-0.998,-0.089,-0.208,0.285,0.333,0.208,0.218,0.218,-0.208 | | (4)bzda6c = 9: -1.286,-1.132,4.4,-0.201,-0.2,-0.199,-0.238,-0.252,-0.206,-0.246,0.233,-0.206 | | (4)bzda6c != 9: -0.102,0.246,-0.931,-0.87,0.275,0.539,0.498,0.299,-0.272,0.212,0.096,0.202 | | (5)bzda12-17 = 0: -0.138,0.176,-0.476,-0.847,0.151,0.208,0.193,0.332,0.577,0.9,0.544,0.179 | | (5)bzda12-17 = 1: -0.28,-1.494,-0.276,-0.255,-0.269,-0.271,-0.328,-0.33,-0.265,4.334,0.29,-0.274 | (2)bzda7-5 = 1: -0.378,-1.023,-0.344,4.301,-0.304,-0.311,-0.331,-0.337,-0.311,-0.325,0.325,-0.311 | (3)aa7c = 4: 3.662,-1.041,0.409,-0.477,-0.467,-0.47,-0.512,-0.524,-0.47,-0.5,0.859,-0.47 | (3)aa7c != 4: -1.019,0.474,0.118,-0.433,0.078,0.277,0.017,0.075,0.211,0.379,0.166,0.211 | (6)bzda11c = 7: -1.973,-1.352,-0.122,-0.098,-0.113,-0.115,-0.17,-0.187,-0.122,0.117,4.489,-0.119 | (6)bzda11c != 7: 0.234,0.075,-0.074,0.74,0.058,0.125,0.132,0.139,0.144,-0.717,0.969,0.113 | (9)aa13c = 5: -0.539,-2.463,-0.511,-0.501,-0.499,-0.522,1.653,-0.522,-0.523,0.503,0.994,3.934 | (9)aa13c != 5: 0.071,0.356,0.15,0.26,0.749,-0.122,-0.187,-0.763,0.336,-0.002,0.058,0.906 Legend: YABANCI DIL, FEN BILIMLERI, MEKANIK, SOSYAL BILIMLER, TICARET, IKNA, MUZIK, SANAT, IS AYRINTILARI, SOSYAL YARDIM, ZIRAAT, EDEBIYAT #Tree size (total): 31 #Tree size (number of predictor nodes): 21 143 EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı #Leaves (number of predictor nodes): 17 #Expanded nodes: 100 #Processed examples: 5750 #Ratio e/n: 57.5 Time taken to build model: 1.01 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 91 80.531 % Incorrectly Classified Instances 22 19.469 % Kappa statistic 0.7627 Mean absolute error 0.0468 Root mean squared error 0.1588 Relative absolute error 33.0774 % Root relative squared error 59.9024 % Total Number of Instances 113 144 EK-11. (devam) LADTree algoritması sınıflandırma analizi çıktısı Resim 11.1. LADTree algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 145 EK-12. SimpleCart algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.trees.SimpleCart -S 1 -M 2.0 -N 5 -C 1.0 Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 bzda12-5 146 EK-12. (devam) SimpleCart algoritması sınıflandırma analizi çıktısı bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 bzda7-6 147 EK-12. (devam) SimpleCart algoritması sınıflandırma analizi çıktısı bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === CART Decision Tree bzda7-12=(1): TICARET(17.0/0.15) bzda7-12!=(1) | bzda7-5=(1): SOSYAL BILIMLER(11.0/0.09) | bzda7-5!=(1) | | bzda6c=(9): MEKANIK(8.0/0.58) | | bzda6c!=(9) | | | aa7c=(4): YABANCI DIL(10.34/2.77) | | | aa7c!=(4) | | | | bzda12-17=(1): SOSYAL YARDIM(5.0/0.05) | | | | bzda12-17!=(1) | | | | | bzda5c=(9)|(4): SANAT(4.89/0.21) | | | | | bzda5c!=(9)|(4) | | | | | | bzda11c=(7): ZIRAAT(3.89/0.18) | | | | | | bzda11c!=(7) | | | | | | | bzda9-15=(1): MUZIK(5.65/2.08) 148 EK-12. (devam) SimpleCart algoritması sınıflandırma analizi çıktısı | | | | | | | bzda9-15!=(1): FEN BILIMLERI(32.08/8.98) Number of Leaf Nodes: 9 Size of the Tree: 17 Time taken to build model: 0.97 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 97 85.8407 % Incorrectly Classified Instances 16 14.1593 % Kappa statistic 0.8255 Mean absolute error 0.0406 Root mean squared error 0.1444 Relative absolute error 28.7168 % Root relative squared error 54.459 % Total Number of Instances 113 149 EK-12. (devam) SimpleCart algoritması sınıflandırma analizi çıktısı Resim 12.1. SimpleCart algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 150 EK-13. NaiveBayes algoritması sınıflandırma analizi çıktısı === Run information === Scheme:weka.classifiers.bayes.NaiveBayes Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1,24-25 Instances: 113 Attributes: 70 aa1 aa2 aa3 aa4 aa5 aa6 aa8 aa9 aa14 aa15 aa16 ilgialani1 tktc wiscrc aa7c aa11c aa12c aa13c bzda5c bzda6c bzda8c bzda11c bzda12-1 bzda12-2 bzda12-3 bzda12-4 bzda12-5 151 EK-13. (devam) NaiveBayes algoritması sınıflandırma analizi çıktısı bzda12-6 bzda12-7 bzda12-12 bzda12-16 bzda12-17 bzda12-19 bzda3-1 bzda3-2 bzda3-3 bzda3-4 bzda3-5 bzda3-6 bzda3-7 bzda3-8 bzda3-11 bzda3-12 bzda3-21 bzda4-1 bzda4-2 bzda4-3 bzda4-4 bzda4-7 bzda4-8 bzda4-12 bzda4-13 bzda4-14 bzda7-1 bzda7-2 bzda7-3 bzda7-4 bzda7-5 bzda7-6 152 EK-13. (devam) NaiveBayes algoritması sınıflandırma analizi çıktısı bzda7-7 bzda7-12 bzda7-13 bzda7-14 bzda7-17 bzda9-1 bzda9-2 bzda9-3 bzda9-15 bzda9-16 bzda9-17 Test mode:10-fold cross-validation === Classifier model (full training set) === Naive Bayes Classifier Time taken to build model: 0.06 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 56 49.5575 % Incorrectly Classified Instances 57 50.4425 % Kappa statistic 0.3167 Mean absolute error 0.0924 Root mean squared error 0.2643 Relative absolute error 65.3112 % Root relative squared error 99.6997 % Total Number of Instances 113 153 EK-13. (devam) NaiveBayes algoritması sınıflandırma analizi çıktısı Resim 13.1. NaiveBayes algoritması için sınıf bazında detaylı doğruluk ve hata matrisi 154 EK-14. Apriori algoritması birliktelik analizi çıktısı === Run information === Scheme: weka.associations.Apriori -I -N 10 -T 0 -C 0.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 - c -1 Relation: QueryResult-weka.filters.unsupervised.attribute.Remove-R1-3,16 Instances: 113 Attributes: 12 yabancidil fenbilimleri mekanik sosyalbilimler ticaret ikna muzik sanat isayrintilari sosyalyardim ziraat edebiyat === Associator model (full training set) === Apriori ======= Minimum support: 0.1 (11 instances) Minimum metric <confidence>: 0.5 Number of cycles performed: 18 Generated sets of large itemsets: Size of set of large itemsets L(1): 12 Large Itemsets L(1): 155 EK-14. (devam) Apriori algoritması birliktelik analizi çıktısı yabancidil=Y 45 fenbilimleri=Y 59 mekanik=Y 26 sosyalbilimler=Y 32 ticaret=Y 32 ikna=Y 11 muzik=Y 22 sanat=Y 24 isayrintilari=Y 19 sosyalyardim=Y 25 ziraat=Y 17 edebiyat=Y 27 Size of set of large itemsets L(2): 6 Large Itemsets L(2): yabancidil=Y fenbilimleri=Y 19 yabancidil=Y sanat=Y 12 fenbilimleri=Y mekanik=Y 17 fenbilimleri=Y sosyalbilimler=Y 20 fenbilimleri=Y ticaret=Y 11 ticaret=Y edebiyat=Y 11 Best rules found: 1. mekanik=Y 26 ==> fenbilimleri=Y 17 conf:(0.65) 2. sosyalbilimler=Y 32 ==> fenbilimleri=Y 20 3. sanat=Y 24 ==> yabancidil=Y 12 conf:(0.5) conf:(0.63) 156 EK-15. İlgi alanı analiz sistemi tabloları oluşturma SQL’leri CREATE TABLE `siniflandirmaanalizi` ( `ad` varchar(70) NOT NULL, `soyad` varchar(100) NOT NULL, `babaadi` varchar(70) NOT NULL, `ilgialani1` varchar(70) DEFAULT NULL, `ilgialani2` varchar(70) DEFAULT NULL, `aa7c` varchar(2) DEFAULT NULL, `aa13c` varchar(2) DEFAULT NULL, `bzda5c` varchar(2) DEFAULT NULL, `bzda6c` varchar(2) DEFAULT NULL, `bzda11c` varchar(2) DEFAULT NULL, `bzda12-1` varchar(1) DEFAULT NULL, `bzda12-2` varchar(1) DEFAULT NULL, `bzda12-3` varchar(1) DEFAULT NULL, `bzda12-4` varchar(1) DEFAULT NULL, `bzda12-5` varchar(1) DEFAULT NULL, `bzda12-6` varchar(1) DEFAULT NULL, `bzda12-7` varchar(1) DEFAULT NULL, `bzda12-12` varchar(1) DEFAULT NULL, `bzda12-16` varchar(1) DEFAULT NULL, `bzda12-17` varchar(1) DEFAULT NULL, `bzda12-19` varchar(1) DEFAULT NULL, `bzda3-1` varchar(1) DEFAULT NULL, `bzda3-2` varchar(1) DEFAULT NULL, `bzda3-3` varchar(1) DEFAULT NULL, `bzda3-4` varchar(1) DEFAULT NULL, `bzda3-5` varchar(1) DEFAULT NULL, `bzda3-6` varchar(1) DEFAULT NULL, `bzda3-7` varchar(1) DEFAULT NULL, `bzda3-8` varchar(1) DEFAULT NULL, `bzda3-11` varchar(1) DEFAULT NULL, `bzda3-12` varchar(1) DEFAULT NULL, 157 EK-15. (devam) İlgi alanı analiz sistemi tabloları oluşturma SQL’leri `bzda3-21` varchar(1) DEFAULT NULL, `bzda4-1` varchar(1) DEFAULT NULL, `bzda4-2` varchar(1) DEFAULT NULL, `bzda4-3` varchar(1) DEFAULT NULL, `bzda4-4` varchar(1) DEFAULT NULL, `bzda4-7` varchar(1) DEFAULT NULL, `bzda4-8` varchar(1) DEFAULT NULL, `bzda4-12` varchar(1) DEFAULT NULL, `bzda4-13` varchar(1) DEFAULT NULL, `bzda4-14` varchar(1) DEFAULT NULL, `bzda7-1` varchar(1) DEFAULT NULL, `bzda7-2` varchar(1) DEFAULT NULL, `bzda7-3` varchar(1) DEFAULT NULL, `bzda7-4` varchar(1) DEFAULT NULL, `bzda7-5` varchar(1) DEFAULT NULL, `bzda7-6` varchar(1) DEFAULT NULL, `bzda7-7` varchar(1) DEFAULT NULL, `bzda7-12` varchar(1) DEFAULT NULL, `bzda7-13` varchar(1) DEFAULT NULL, `bzda7-14` varchar(1) DEFAULT NULL, `bzda7-17` varchar(1) DEFAULT NULL, `bzda9-1` varchar(1) DEFAULT NULL, `bzda9-2` varchar(1) DEFAULT NULL, `bzda9-3` varchar(1) DEFAULT NULL, `bzda9-15` varchar(1) DEFAULT NULL, `bzda9-16` varchar(1) DEFAULT NULL, `bzda9-17` varchar(1) DEFAULT NULL, PRIMARY KEY (`ad`,`soyad`,`babaadi`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8$$ 158 EK-15. (devam) İlgi alanı analiz sistemi tabloları oluşturma SQL’leri CREATE TABLE `birliktelikanalizi` ( `birincililgialani` varchar(70) NOT NULL, `ikincililgialani` varchar(70) DEFAULT NULL, PRIMARY KEY (`birincililgialani`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8$$ 159 EK-16. İlgi alanı analiz sistemi kodları Tez CD’si içerisinde sunulmuştur. 160 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, adı : ÇÖLLÜOĞLU GÜLEN, Özgün Uyruğu : T.C. Doğum tarihi ve yeri : 27/11/1977 Aydın Medeni hali : Evli Telefon : 0 (532) 516 50 32 e-mail : [email protected] Eğitim Derecesi Okul/Program Mezuniyet yılı Yüksek Lisans ODTÜ /Bilgisayar Mühendisliği 2002 Lisans ODTÜ /Bilgisayar Mühendisliği 1999 Lise Aydın Lisesi 1994 İş Deneyimi, Yıl Çalıştığı Yer Görev 2010- devam ediyor Başbakanlık KKP Yazılım Sorumlusu 2005-2010 EES Proje Yöneticisi 2002-2005 Aselsan Takım Lideri 2002-2002 Şekerbank Yazılım Uzmanı 1999-2002 MilSOFT Yazılım Uzmanı 1999-1999 Ericsson Yazılım Uzmanı Yabancı Dili İngilizce Yayınlar 1. Çöllüoğlu Gülen, Ö., Özdemir, S. (2013). Veri Madenciliği Teknikleri İle Üstün Yetenekli Öğrencilerin İlgi Alanlarının Analizi Üstün Yetenekliler Eğitimi Araştırmaları Dergisi /Journal of Gifted Education Research. 1 (3). Hobiler Kitap okumak, akupresür GAZİ GELECEKTİR….