Veri Madenciliği İle Lise Öğrenci Performanslarının Değerlendirilmesi Semra YURDAKUL, Kırıkkale Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği, Kırıkkale Taner TOPAL, Kırıkkale Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Kırıkkale ÖZET Büyük veri hacimleri arasında tutulan, anlamı daha önce keşfedilmemiş, potansiyel olarak faydalı ve anlaşılır bilgilerin çıkarılmasında veri madenciliği teknikleri önemli yer tutmaktadır. Bu çalışma, Kırıkkale İli Anadolu Liselerinde okuyan 11.sınıf öğrencilerine uyguladığımız anket sonucu elde edilen verilerden yararlanarak gerçekleştirilmiştir. Lise öğrencilerine ait 231 adet veri kullanılmıştır. ÖZET Öğrenci performansına etki eden faktörler belirlenip, başarı ya da başarısızlığa etki eden faktörlerin birbiri ile olan ilişkisi araştırılmıştır. Ayrıca başarıyı artıracak bilgiler verilmesi amaçlanmıştır. Uygulama Weka 3.7 programı ile yapılmıştır. ANAHTAR KELİMELER Veri Madenciliği, Öğrenci Performansı, Yapay Sinir Ağı, Çok Katmanlı Algılayıcı GİRİŞ Bilgisayar ve iletişim teknolojilerindeki gelişmelere paralel olarak donanımın ucuzlaması, verilerin uzun süre depolanmasına dolayısıyla da büyük kapasiteli veri tabanlarının oluşmasına neden olmuştur. Veriler, çeşitli istatistiksel metotlarla analiz edilerek kurumların karar verme sürecinin etkinliğine ve yeni stratejiler geliştirmesine katkı sağlamaktır. Bu nedenle büyük veri tabanlarında istenilen anlamlı, kullanılabilir ve ilginç bilgilere erişmek, Veri madenciliğinin doğmasına sebep olmuştur. ÇALIŞMANIN AMACI Bu çalışmanın amacı, veri madenciliği teknikleri kullanılarak, Kırıkkale ili Anadolu Liselerinde okuyan 11. sınıf öğrencilerine ait veriler yardımıyla öğrenci performansına etki eden faktörleri belirlemektir. VERİ MADENCİLİĞİ NEDİR? Veri madenciliği dünyanın anlaşılabilirliğine önemli ölçüde destek olan bir kavramdır. Gelişen bilgi toplama, depolama ve işleme yetkinlikleri, kapasitesi giderek artan mevcut verilerin incelenerek, anlamlı sonuçlar elde edilmesine olanak sağlamaktadır . VERİ MADENCİLİĞİ NEDİR? Veri madenciliği şekilde görüldüğü gibi yapay zekâ, istatistik gibi alanlar ile yakından ilişkili disiplinler arası bir alandır. EĞİTİM VE VERİ MADENCİLİĞİ Eğitim alanındaki veri madenciliği çalışmaları, eğitim sistemlerinde yer alan veri tabanlarında öğrencilere, akademik sorumlulara ve eğitimcilere faydalı olabilecek henüz keşfedilmemiş bilginin mevcut olduğu olgusundan yola çıkmaktadır. EĞİTİM VE VERİ MADENCİLİĞİ Eğitim alanında, öğrencilerin; Başarı veya başarısızlık nedenlerinin bulunması, Öğrenci başarısının arttırılması için neler yapılabileceği, Üniversiteye yerleştirmede esas alınan giriş puanları ile öğrencinin okul başarısı arasında bir ilişkinin var olup olmadığı, Üniversiteye yerleştirmede esas alınan giriş puanları ile başarılı olduğu ders türleri ile arasında bir ilişkinin var olup olmadığı gibi soruların cevaplarının araştırılmasında veri madenciliği yöntemleri kullanılarak, eğitimin kalitesi ve performansı arttırılabilir. EĞİTİMDE ÖRNEK VERİ MADENCİLİĞİ UYGULAMALARI 2003 yılında Konya Selçuk Üniversitesi’nde, hazırlık sınıfı, birinci sınıf ve mezun durumunda olan öğrenciler üzerinde, üniversite veri tabanındaki veriler kullanılarak; öğrencilerin başarılarını etkileyen etmenler, başarı düzeyleri, üniversiteyi kazanan öğrenci profilleri ve mezun olamayan öğrencilerin okulu bitirmelerini etkileyen etmenler üzerinde çalışmalar gerçekleştirilmiştir. EĞİTİMDE ÖRNEK VERİ MADENCİLİĞİ UYGULAMALARI 2007 yılında Y. Ziya Ayık ve arkadaşları tarafından yapılan çalışmada, Atatürk Üniversitesi öğrencilerinin mezun oldukları lise türleri ve lise mezuniyet dereceleri ile kazandıkları fakülteler arasındaki ilişki, veri madenciliği teknikleri kullanılarak incelenmiştir. Çalışma sonucunda, lise türünün arzu edilen bir fakültenin kazanılmasında çok büyük öneminin olduğu, yine lise başarısının da aynı derecede önemli olduğu tespit edilmiştir. EĞİTİMDE ÖRNEK VERİ MADENCİLİĞİ UYGULAMALARI 2012 yılında Çağdaş Kurt, O. Ayhan Erdem tarafından yapılan bir diğer çalışmada öğrencilerin başarılarına etki edebilecek faktörler farklı veri madenciliği algoritma ve modelleriyle incelenmiştir. Ekonomik, sosyal, kişisel, çevresel değişkenler üzerinde yapılan araştırmada bazı sonuçlar saptanmış ve bunlara ait öneriler sunulmuştur. MATERYAL VE YÖNTEM Veri madenciliği büyük miktardaki verileri işleyebilen, bunlar arasında saklı bulunan örüntü ve eğilimleri keşfetme yeteneğine sahip bir süreçtir. Bu süreçte farklı görevleri yerine getirmek için farklı algoritmalar kullanılmaktadır. Bu algoritmaların amacı verilere en uygun modeli bulmaktır. Algoritmalar verileri inceler ve uygun modeli seçer. MATERYAL VE YÖNTEM Veri madenciliği farklı disiplinlerden faydalanırken kendi içerisinde de bir takım süreçlere sahiptir. Bu süreçlerin doğru uygulanması elde edilen bilgilerin doğruluğunu ve kalitesini artıracaktır. Veri madenciliği için belirlenen standart bir süreç söz konusudur. Bu çalışmada standart süreç olan CRISP-DM (Cross Industry Standard Process for Data Mining) / (Çapraz Endüstri Veri Madenciliği Standart Süreci) adımları kullanılmıştır. MATERYAL VE YÖNTEM CRISP-DM, bilgi keşfi için veri madenciliğinin temel adımlarını tanımlayan kademeli bir süreçtir. Veri madenciliği projelerinin hızlı, daha verimli ve daha az maliyetli gerçekleştirilmesi için geliştirilmiş olan bu süreç altı adımdan oluşmaktadır. CRISP-DM ADIMLARI İşi ve iş ortamını anlama, Veriyi anlama, Veri hazırlama, Modelleme, Değerlendirme, Yayma VERİ MADENCİLİĞİNDE KULLANILAN MODELLER Veri madenciliğinde kullanılan modeller, tahmin edici (Predictive) ve tanımlayıcı (Descriptive) olmak üzere iki ana başlık altında incelenmektedir. VERİ MADENCİLİĞİNDE KULLANILAN MODELLER Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçlan bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır. Sınıflama ve regresyon tahmin edici modellerdir. VERİ MADENCİLİĞİNDE KULLANILAN MODELLER Tanımlayıcı modellerde karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır. Kümeleme, özetleme, birliktelik kuralları, ardışık zamanlı örüntüler tanımlayıcı modeller olarak nitelendirilir. İŞİ VE İŞ ORTAMINI ANLAMA Yapılan çalışmada aynı ilde bulunan eşdeğer liselerde okuyan öğrencilerin başarı ya da başarısızlıklarına etki eden faktörlerin birbirleri ile olan ilişkisini bulup, başarıyı artıracak bilgiler verilmesi hedeflenmiştir. Materyal olarak Kırıkkale ili Anadolu Liselerinde okuyan 231 adet 11. Sınıf öğrencisine uygulanan anket sonucu elde edilen verileri ve genel not ortalamaları kullanılmıştır. VERİYİ ANLAMA Öncelikli olarak öğrencinin başarısına etki eden muhtemel faktörler belirlenip, sonraki aşamada lise öğrencilerine uygulanmak üzere başarıya etki eden bu faktörlerin incelenebileceği bir anket hazırlanmıştır. VERİYİ ANLAMA Öğrenci başarısına etkisi olduğu belirlenen muhtemel faktörler şu şekildedir; Öğrencinin cinsiyeti, Öğrencinin sağlık durumu, Kardeş sayısı, Anne - Baba eğitim durumu, Anne - Baba yaşı, Anne - Baba hayatta olma durumu, VERİYİ ANLAMA Ailenin öğrencinin ders dışı aktivitelere katılmasını destekleme durumları, Ailenin öğrencinin okul hayatıyla ilgilenme durumları, Ailenin ekonomik durumu, Öğrencinin kendisine ait odasının olup olmadığı, Öğrencinin öğretmenleriyle ve arkadaşlarıyla olan ilişkisi VERİYİ HAZIRLAMA Bu çalışmada materyal olarak Kırıkkale ilinde bulunan Anadolu Liselerinde okuyan 11.sınıf öğrencilerine uygulanan anket sonucu elde edilen veriler kullanılmıştır. Anket sonucu elde edilen veriler tek tek girilerek bir veri seti oluşturulmuştur. Çoğu öğrencinin boş bıraktığı alanlar tespit edilmiş ve bu alanlar temizlenmiştir. Eksik verisi bulunan öğrenciler de çalışmaya dahil edilmemiştir. Veri temizleme sonucunda çalışmaya dahil edilmek üzere 231 adet veriden 210 adet veri kalmıştır. VERİYİ HAZIRLAMA Veri temizlemeden sonra verilerin rahat modellenebilmesi için bazı alanların yapısı değiştirilmiştir, veri dönüşümü sağlanmıştır. Tablolarda yapılan dönüşümler görülmektedir. Not Ortalaması Aralığı 0 - 2,49 2,50 – 3,99 4,00 – 5,00 Veri Dönüşümü BAŞARISIZ ORTALAMA BAŞARILI Başarı notunun veri dönüşümü Kardeş Sayısı 1 2-3 4 ve üzeri Veri Dönüşümü TEK ÇOCUK AZ ÇOCUK ÇOK ÇOCUK Kardeş sayısının veri dönüşümü VERİYİ HAZIRLAMA Anne – Baba Hayatta Olma Durumu Sağ - Sağ Sağ - Ölü Ölü - Ölü Anne – Baba Yaş Ortalaması Aralığı 30 - 39 40 - 49 50 ve üzeri Veri Dönüşümü SAĞ ÖLÜ ÖLÜ Anne-Baba hayatta olma durumunun veri dönüşümü Veri Dönüşümü GENÇ ORTA YAŞ YAŞLI Anne Baba yaşının veri dönüşümü MODELLEME Veriyi anlama ve hazırlama adımından sonraki adım modelleme adımıdır. Veriler WEKA programında farklı algoritmalar kullanılarak test edilmiştir. Doğruluğu en yüksek olan model seçilmiştir. MODELLEME Çalışmada kullanılan verilere ilişkin tanımlanan değişkenler şu şekildedir: MODELLEME Bu çalışmada kullanılan modeller şu şekildedir: Sınıflama Girdilerin çeşitli niteliklere göre bir sınıflayıcı tarafından sınıflara atanması sürecidir. Eldeki nesnelerin bir sınıfa atanıp atanmayacağının ya da sınıflardan hangisine atanacağının belirlenmesidir. Başka bir ifade ile nesneler veya durumlar için uygun sınıf tahmin edilmesidir. Sınıflama girdileri, her biri bir sınıf etiketi ile etiketlenecek gözlem veya örneklerden oluşan bir eğitim kümesidir. Çıktı ise modelin her bir gözlemeniteliklere dayalı olarak atadığı sınıf etiketidir. MODELLEME Karar Ağaçları Veri madenciliğinde kuruluşunun ucuz olması, yorumlanmasının kolay olması, veri tabanı sistemleri ile kolayca entegre edilebilmesi ve güvenilirliğinin iyi olması nedenleri ile yaygın kullanıma sahip, adından da anlaşılacağı gibi ağaç görünümünde, tahmin edici bir tekniktir. Karar ağacı tekniğini kullanarak verinin sınıflanması iki basamaklı bir işlemdir. İlk basamak öğrenme basamağıdır. İkinci basamak ise sınıflama basamağıdır. MODELLEME Yapay Sinir Ağları (YSA) İnsan beyninin sinir sistemi ve çalışma ilkelerinden ilham alınarak geliştirilmiş, ağırlıklı bağlantılar denilen tek yönlü iletişim kanalları vasıtası ile birbirleriyle haberleşen, her biri kendi hafızasına sahip birçok işlem elemanından oluşan paralel ve dağıtık bilgi işleme yapılarıdır. İnsan beyninin öğrenme yoluyla yeni bilgiler üretebilme, keşfedebilme, düşünme ve gözlemlemeye yönelik yeteneklerini, yardım almadan yapabilen sistemler geliştirmek için tasarlanmışlardır. MODELLEME Yapay Sinir Ağları (YSA) Yapay sinir ağları tekrarlanan girdiler sayesinde kendi yapısını ve ağırlığını değiştirir. Yapay sinir ağları aynen canlıların sinir sistemi gibi adapte olabilen bir yapıya sahiptir . Bu çalışmada bir yapay sinir ağları algoritması olan Çok Katmanlı Algılayıcı (Multilayer Perceptron) algoritması kullanılmıştır. MODELLEME k-En Yakın Komşu: En yakın komşu sınıflandırıcıları benzerlik yöntemi ile öğrenmeyi esas alır. Eğitim örnekleri n-boyutlu sayısal nitelik ile tanımlanırlar. Her bir örnek n-boyutlu uzayda bir noktayı temsil eder. Bu şekilde tüm eğitim örnekleri n-boyutlu uzayda depolanır. MODELLEME k-En Yakın Komşu: Bilinmeyen bir örnek geldiğinde, bir k-en yakın komşu sınıflandırıcısı bilinmeyen örneğe en yakın k eğitim örneğini bulmak için örüntü uzayını tarar. K eğitim örnekleri bilinmeyen örneğin k-en yakın komşularıdır. Bilinmeyen örnek, örüntü uzayında kendisine en yakın eğitim örnekleri kümesine atanır. Tüm Eğitim örneklerini depoladıkları için örnek tabanlıdır . DEĞERLENDİRME Bu aşamaya gelindiğinde kurulmuş bir model vardır. Bu aşama, modelin nihai olarak sunulmasından önce modeli yoğun olarak değerlendirilmesi ve iş hedefleri ile uyumlu olup olmadığının kontrol edilmesini amaçlar. YAYMA Modelin tamamlanmış olması projenin nihai sonucu değildir. Modelin amacı veriler hakkında bilinenleri artırmak dahi olsa, elde edilen veri kullanılacak biçimde organize edilmeli ve sunulmalıdır. BULGULAR Yapılan çalışmada sınıflama analizine ait birçok algoritma denenmiştir. Doğruluk derecesi en yüksek olan algoritmalar tabloda gösterilmiştir. Algoritma Adı Multilayer Perceptron JRip IBk J48 Naive Bayes Doğruluk Yüzdesi 88,7324 87,3239 85,9155 84,507 81,6901 GÖRSEL SONUÇLAR Öğrencilerin sağlık problemleri ile başarı durumları arasındaki ilişkisel grafik; GÖRSEL SONUÇLAR Öğrencinin öğretmenleriyle iletişimi ile başarı durumu arasındaki ilişkisel grafik; SONUÇ Veri madenciliğinin eğitim alanındaki kullanımını artırarak, etkili eğitim politikalarının geliştirilebilmesi, eğitim ve öğretim için kullanılabilecek materyallerin tespitinin yapılması, müfredat dışı öğrenme aktivitelerinin verimliliği sınanarak öğrencilerin bu aktivitelere teşvik edilmesi gibi çalışmalarla eğitim ve öğretim süreçlerine katkı sağlanabileceği ve verimliliğin artırılabileceği öngörülmektedir. SONUÇ WEKA programı kullanılarak elde edilen sonuçlara göre; Öğrencinin öğretmenlerle ve arkadaşlarıyla olan iletişiminin iyi olması, kendisine ait çalışma odasının olması arasında başarıyı artıran bir ilişki bulunmaktadır. Öğrencinin kardeş sayısının az olması, anne eğitim durumunun üniversite ve üstü olması, ailenin aktivitelere destek vermesi arasında başarıyı artıran bir ilişki bulunmaktadır. SONUÇ Çalışma neticesinde elde edilen sonuçlara göre, ailenin eğitim seviyesi ve ekonomik durumu öğrenci başarısına yüksek oranda etki etmektedir. Ancak bu kriterlerin yanı sıra öğrenci başarısına etki eden pek çok etken vardır. Ailenin eğitim seviyesi ilkokul, ortaokul düzeyinde ve ekonomik durumu kötü olsa dahi öğrencinin ders dışı aktivitelere katılımı desteklendiğinde, öğrenciye uygun çalışma ortamı sağlandığında ve ailenin öğretmenlerle iletişimde olduğu durumlarda öğrenci başarısının arttığı gözlemlenmiştir. SONUÇ Başarısızlığa neden olan değiştirilemez faktörlerin etkisinin, başarıya katkı sağlayacak diğer faktörler üzerinde iyileştirilmeye gidildiğinde önemli oranda yok edilebileceği gözlemlenmiştir. Bugüne kadar yapılan çalışmalara ek olarak incelenen faktörlerin başarıya etkisinin yanı sıra, veri madenciliği programı olan WEKA kullanılarak bu kriterlerin birbiri üzerindeki etkisi birden fazla boyutta incelenerek başarısızlığa neden olan faktörlerin çözümlenmesi için bilgiler paylaşılmıştır. SONUÇ Yapılan çalışmada aynı ilde bulunan farklı Anadolu Liselerinde okuyan öğrencilere ait veriler kullanılmıştır. Öğrencilerin bu okullara yerleştirildikleri yılın taban ve tavan puanları incelendiğinde farklılıklar gözlemlenmiştir. Öğrenciler aynı türdeki okullarda okuduklarından ortak dersler aldıkları düşünülürse yerleştirme puanlarında gözlemlenen farklılık, bulunulan dönemdeki başarı ortalamaları karşılaştırıldığında gözlemlenmemiştir. SONUÇ Bu çalışma geliştirilerek öğrencilerin üniversitelere yerleştirme sınavında aldıkları puanlar da çalışmaya dahil edilerek liselere yerleştirilme sınavında alınan puanın üniversiteye yerleştirme sınavında alınacak olan puanın tahmin edilmesinde ne derece etkili olacağı incelenebilir. Bu çalışmada bulunan sonuçlar da işe koşularak öğrencilerin üniversitelere yerleştirilme sınavında başarıyı yakalama oranı artırabilir. DİNLEDİĞİNİZ İÇİN TEŞEKKÜRLER… [email protected]