123

advertisement
Veri Madenciliği İle
Lise Öğrenci Performanslarının
Değerlendirilmesi
Semra YURDAKUL, Kırıkkale Üniversitesi, Fen Bilimleri
Enstitüsü, Bilgisayar Mühendisliği, Kırıkkale
Taner TOPAL, Kırıkkale Üniversitesi, Mühendislik Fakültesi,
Bilgisayar Mühendisliği Bölümü, Kırıkkale
ÖZET
 Büyük veri hacimleri arasında tutulan, anlamı daha
önce keşfedilmemiş, potansiyel olarak faydalı ve
anlaşılır bilgilerin çıkarılmasında veri madenciliği
teknikleri önemli yer tutmaktadır.
 Bu çalışma, Kırıkkale İli Anadolu Liselerinde okuyan
11.sınıf öğrencilerine uyguladığımız anket sonucu elde
edilen verilerden yararlanarak gerçekleştirilmiştir. Lise
öğrencilerine ait 231 adet veri kullanılmıştır.
ÖZET
 Öğrenci performansına etki eden faktörler belirlenip,
başarı ya da başarısızlığa etki eden faktörlerin birbiri ile
olan ilişkisi araştırılmıştır. Ayrıca başarıyı artıracak
bilgiler verilmesi amaçlanmıştır.
 Uygulama Weka 3.7 programı ile yapılmıştır.
ANAHTAR KELİMELER
 Veri Madenciliği,
 Öğrenci Performansı,
 Yapay Sinir Ağı,
 Çok Katmanlı Algılayıcı
GİRİŞ
 Bilgisayar ve iletişim teknolojilerindeki gelişmelere
paralel olarak donanımın ucuzlaması, verilerin uzun
süre depolanmasına dolayısıyla da büyük kapasiteli veri
tabanlarının oluşmasına neden olmuştur.
 Veriler, çeşitli istatistiksel metotlarla analiz edilerek
kurumların karar verme sürecinin etkinliğine ve yeni
stratejiler geliştirmesine katkı sağlamaktır. Bu nedenle
büyük veri tabanlarında istenilen anlamlı, kullanılabilir
ve ilginç bilgilere erişmek, Veri madenciliğinin
doğmasına sebep olmuştur.
ÇALIŞMANIN AMACI
 Bu çalışmanın amacı, veri madenciliği teknikleri
kullanılarak, Kırıkkale ili Anadolu Liselerinde okuyan 11.
sınıf öğrencilerine ait veriler yardımıyla öğrenci
performansına etki eden faktörleri belirlemektir.
VERİ MADENCİLİĞİ NEDİR?
 Veri madenciliği dünyanın anlaşılabilirliğine önemli
ölçüde destek olan bir kavramdır. Gelişen bilgi toplama,
depolama ve işleme yetkinlikleri, kapasitesi giderek
artan mevcut verilerin incelenerek, anlamlı sonuçlar
elde edilmesine olanak sağlamaktadır .
VERİ MADENCİLİĞİ NEDİR?
 Veri madenciliği şekilde görüldüğü gibi yapay zekâ,
istatistik gibi alanlar ile yakından ilişkili disiplinler arası
bir alandır.
EĞİTİM VE VERİ MADENCİLİĞİ
 Eğitim alanındaki veri madenciliği çalışmaları, eğitim
sistemlerinde yer alan veri tabanlarında öğrencilere,
akademik sorumlulara ve eğitimcilere faydalı olabilecek
henüz keşfedilmemiş bilginin mevcut olduğu
olgusundan yola çıkmaktadır.
EĞİTİM VE VERİ MADENCİLİĞİ
Eğitim alanında, öğrencilerin;
 Başarı veya başarısızlık nedenlerinin bulunması,
 Öğrenci başarısının arttırılması için neler yapılabileceği,
 Üniversiteye yerleştirmede esas alınan giriş puanları ile
öğrencinin okul başarısı arasında bir ilişkinin var olup
olmadığı,
 Üniversiteye yerleştirmede esas alınan giriş puanları ile
başarılı olduğu ders türleri ile arasında
bir ilişkinin
var olup olmadığı
gibi soruların cevaplarının araştırılmasında veri madenciliği
yöntemleri kullanılarak, eğitimin kalitesi ve performansı
arttırılabilir.
EĞİTİMDE ÖRNEK VERİ MADENCİLİĞİ
UYGULAMALARI
 2003 yılında Konya Selçuk Üniversitesi’nde, hazırlık
sınıfı, birinci sınıf ve mezun durumunda olan öğrenciler
üzerinde, üniversite veri tabanındaki veriler
kullanılarak; öğrencilerin başarılarını etkileyen
etmenler, başarı düzeyleri, üniversiteyi kazanan
öğrenci profilleri ve mezun olamayan öğrencilerin
okulu bitirmelerini etkileyen etmenler üzerinde
çalışmalar gerçekleştirilmiştir.
EĞİTİMDE ÖRNEK VERİ MADENCİLİĞİ
UYGULAMALARI
 2007 yılında Y. Ziya Ayık ve arkadaşları tarafından
yapılan çalışmada, Atatürk Üniversitesi öğrencilerinin
mezun oldukları lise türleri ve lise mezuniyet dereceleri
ile kazandıkları fakülteler arasındaki ilişki, veri
madenciliği teknikleri kullanılarak incelenmiştir.
Çalışma sonucunda, lise türünün arzu edilen bir
fakültenin kazanılmasında çok büyük öneminin olduğu,
yine lise başarısının da aynı derecede önemli olduğu
tespit edilmiştir.
EĞİTİMDE ÖRNEK VERİ MADENCİLİĞİ
UYGULAMALARI
 2012 yılında Çağdaş Kurt, O. Ayhan Erdem tarafından
yapılan bir diğer çalışmada öğrencilerin başarılarına
etki edebilecek faktörler farklı veri madenciliği
algoritma ve modelleriyle incelenmiştir. Ekonomik,
sosyal, kişisel, çevresel değişkenler üzerinde yapılan
araştırmada bazı sonuçlar saptanmış ve bunlara ait
öneriler sunulmuştur.
MATERYAL VE YÖNTEM
 Veri madenciliği büyük miktardaki verileri işleyebilen,
bunlar arasında saklı bulunan örüntü ve eğilimleri
keşfetme yeteneğine sahip bir süreçtir. Bu süreçte farklı
görevleri yerine getirmek için farklı algoritmalar
kullanılmaktadır. Bu algoritmaların amacı verilere en
uygun modeli bulmaktır. Algoritmalar verileri inceler ve
uygun modeli seçer.
MATERYAL VE YÖNTEM
 Veri madenciliği farklı disiplinlerden faydalanırken kendi
içerisinde de bir takım süreçlere sahiptir. Bu süreçlerin
doğru uygulanması elde edilen bilgilerin doğruluğunu ve
kalitesini artıracaktır.
 Veri madenciliği için belirlenen standart bir süreç söz
konusudur. Bu çalışmada standart süreç olan CRISP-DM
(Cross Industry Standard Process for Data Mining) /
(Çapraz Endüstri Veri Madenciliği Standart Süreci)
adımları kullanılmıştır.
MATERYAL VE YÖNTEM
 CRISP-DM, bilgi keşfi için veri madenciliğinin temel
adımlarını tanımlayan kademeli bir süreçtir. Veri
madenciliği projelerinin hızlı, daha verimli ve daha az
maliyetli gerçekleştirilmesi için geliştirilmiş olan bu süreç
altı adımdan oluşmaktadır.
CRISP-DM ADIMLARI






İşi ve iş ortamını anlama,
Veriyi anlama,
Veri hazırlama,
Modelleme,
Değerlendirme,
Yayma
VERİ MADENCİLİĞİNDE KULLANILAN
MODELLER
 Veri madenciliğinde kullanılan modeller, tahmin edici
(Predictive) ve tanımlayıcı (Descriptive) olmak üzere iki
ana başlık altında incelenmektedir.
VERİ MADENCİLİĞİNDE KULLANILAN
MODELLER
 Tahmin edici modellerde, sonuçları bilinen verilerden
hareket edilerek bir model geliştirilmesi ve kurulan bu
modelden yararlanılarak sonuçlan bilinmeyen veri
kümeleri için sonuç değerlerin tahmin edilmesi
amaçlanmaktadır. Sınıflama ve regresyon tahmin edici
modellerdir.
VERİ MADENCİLİĞİNDE KULLANILAN
MODELLER
 Tanımlayıcı modellerde karar vermeye rehberlik
etmede kullanılabilecek mevcut verilerdeki örüntülerin
tanımlanması sağlanmaktadır. Kümeleme, özetleme,
birliktelik kuralları, ardışık zamanlı örüntüler tanımlayıcı
modeller olarak nitelendirilir.
İŞİ VE İŞ ORTAMINI ANLAMA
 Yapılan çalışmada aynı ilde bulunan eşdeğer liselerde
okuyan öğrencilerin başarı ya da başarısızlıklarına etki
eden faktörlerin birbirleri ile olan ilişkisini bulup, başarıyı
artıracak bilgiler verilmesi hedeflenmiştir.
 Materyal olarak Kırıkkale ili Anadolu Liselerinde okuyan
231 adet 11. Sınıf öğrencisine uygulanan anket sonucu
elde edilen verileri ve genel not ortalamaları
kullanılmıştır.
VERİYİ ANLAMA
 Öncelikli olarak öğrencinin başarısına etki eden
muhtemel faktörler belirlenip, sonraki aşamada lise
öğrencilerine uygulanmak üzere başarıya etki eden bu
faktörlerin incelenebileceği bir anket hazırlanmıştır.
VERİYİ ANLAMA
Öğrenci başarısına etkisi olduğu belirlenen muhtemel
faktörler şu şekildedir;






Öğrencinin cinsiyeti,
Öğrencinin sağlık durumu,
Kardeş sayısı,
Anne - Baba eğitim durumu,
Anne - Baba yaşı,
Anne - Baba hayatta olma durumu,
VERİYİ ANLAMA
 Ailenin öğrencinin ders dışı aktivitelere katılmasını destekleme
durumları,
 Ailenin öğrencinin okul hayatıyla ilgilenme durumları,
 Ailenin ekonomik durumu,
 Öğrencinin kendisine ait odasının olup olmadığı,
 Öğrencinin öğretmenleriyle ve arkadaşlarıyla olan ilişkisi
VERİYİ HAZIRLAMA
 Bu çalışmada materyal olarak Kırıkkale ilinde bulunan Anadolu
Liselerinde okuyan 11.sınıf öğrencilerine uygulanan anket
sonucu elde edilen veriler kullanılmıştır.
 Anket sonucu elde edilen veriler tek tek girilerek bir veri seti
oluşturulmuştur. Çoğu öğrencinin boş bıraktığı alanlar tespit
edilmiş ve bu alanlar temizlenmiştir. Eksik verisi bulunan
öğrenciler de çalışmaya dahil edilmemiştir.
 Veri temizleme sonucunda çalışmaya dahil edilmek üzere 231
adet veriden 210 adet veri kalmıştır.
VERİYİ HAZIRLAMA
 Veri temizlemeden sonra verilerin rahat modellenebilmesi için
bazı alanların yapısı değiştirilmiştir, veri dönüşümü sağlanmıştır.
Tablolarda yapılan dönüşümler görülmektedir.
Not Ortalaması Aralığı
0 - 2,49
2,50 – 3,99
4,00 – 5,00
Veri Dönüşümü
BAŞARISIZ
ORTALAMA
BAŞARILI
Başarı notunun veri dönüşümü
Kardeş Sayısı
1
2-3
4 ve üzeri
Veri Dönüşümü
TEK ÇOCUK
AZ ÇOCUK
ÇOK ÇOCUK
Kardeş sayısının veri dönüşümü
VERİYİ HAZIRLAMA
Anne – Baba Hayatta
Olma Durumu
Sağ - Sağ
Sağ - Ölü
Ölü - Ölü
Anne – Baba Yaş
Ortalaması Aralığı
30 - 39
40 - 49
50 ve üzeri
Veri Dönüşümü
SAĞ
ÖLÜ
ÖLÜ
Anne-Baba hayatta olma durumunun
veri dönüşümü
Veri Dönüşümü
GENÇ
ORTA YAŞ
YAŞLI
Anne Baba yaşının veri dönüşümü
MODELLEME
 Veriyi anlama ve hazırlama adımından sonraki adım modelleme
adımıdır. Veriler WEKA programında farklı algoritmalar
kullanılarak test edilmiştir. Doğruluğu en yüksek olan model
seçilmiştir.
MODELLEME
 Çalışmada kullanılan verilere ilişkin tanımlanan değişkenler şu
şekildedir:
MODELLEME
Bu çalışmada kullanılan modeller şu şekildedir:
Sınıflama
 Girdilerin çeşitli niteliklere göre bir sınıflayıcı tarafından sınıflara
atanması sürecidir. Eldeki nesnelerin bir sınıfa atanıp
atanmayacağının ya da sınıflardan hangisine atanacağının
belirlenmesidir. Başka bir ifade ile nesneler veya durumlar için
uygun sınıf tahmin edilmesidir. Sınıflama girdileri, her biri bir
sınıf etiketi ile etiketlenecek gözlem veya örneklerden oluşan bir
eğitim kümesidir. Çıktı ise modelin her bir gözlemeniteliklere
dayalı olarak atadığı sınıf etiketidir.
MODELLEME
Karar Ağaçları
 Veri madenciliğinde kuruluşunun ucuz olması, yorumlanmasının
kolay olması, veri tabanı sistemleri ile kolayca entegre
edilebilmesi ve güvenilirliğinin iyi olması nedenleri ile yaygın
kullanıma sahip, adından da anlaşılacağı gibi ağaç görünümünde,
tahmin edici bir tekniktir. Karar ağacı tekniğini kullanarak verinin
sınıflanması iki basamaklı bir işlemdir. İlk basamak öğrenme
basamağıdır. İkinci basamak ise sınıflama basamağıdır.
MODELLEME
Yapay Sinir Ağları (YSA)
 İnsan beyninin sinir sistemi ve çalışma ilkelerinden ilham
alınarak geliştirilmiş, ağırlıklı bağlantılar denilen tek yönlü
iletişim kanalları vasıtası ile birbirleriyle haberleşen, her
biri kendi hafızasına sahip birçok işlem elemanından oluşan
paralel ve dağıtık bilgi işleme yapılarıdır.
 İnsan beyninin öğrenme yoluyla yeni bilgiler üretebilme,
keşfedebilme, düşünme ve gözlemlemeye yönelik
yeteneklerini, yardım almadan yapabilen sistemler
geliştirmek için tasarlanmışlardır.
MODELLEME
Yapay Sinir Ağları (YSA)
 Yapay sinir ağları tekrarlanan girdiler sayesinde kendi
yapısını ve ağırlığını değiştirir. Yapay sinir ağları aynen
canlıların sinir sistemi gibi adapte olabilen bir yapıya
sahiptir .
 Bu çalışmada bir yapay sinir ağları algoritması olan Çok
Katmanlı Algılayıcı (Multilayer Perceptron) algoritması
kullanılmıştır.
MODELLEME
k-En Yakın Komşu:
 En yakın komşu sınıflandırıcıları benzerlik yöntemi ile
öğrenmeyi esas alır. Eğitim örnekleri n-boyutlu sayısal
nitelik ile tanımlanırlar.
 Her bir örnek n-boyutlu uzayda bir noktayı temsil eder. Bu
şekilde tüm eğitim örnekleri n-boyutlu uzayda depolanır.
MODELLEME
k-En Yakın Komşu:
 Bilinmeyen bir örnek geldiğinde, bir k-en yakın komşu
sınıflandırıcısı bilinmeyen örneğe en yakın k eğitim
örneğini bulmak için örüntü uzayını tarar. K eğitim
örnekleri bilinmeyen örneğin k-en yakın komşularıdır.
 Bilinmeyen örnek, örüntü uzayında kendisine en yakın
eğitim örnekleri kümesine atanır. Tüm Eğitim örneklerini
depoladıkları için örnek tabanlıdır .
DEĞERLENDİRME
 Bu aşamaya gelindiğinde kurulmuş bir model vardır. Bu aşama,
modelin nihai olarak sunulmasından önce modeli yoğun olarak
değerlendirilmesi ve iş hedefleri ile uyumlu olup olmadığının
kontrol edilmesini amaçlar.
YAYMA
 Modelin tamamlanmış olması projenin nihai sonucu değildir.
Modelin amacı veriler hakkında bilinenleri artırmak dahi olsa,
elde edilen veri kullanılacak biçimde organize edilmeli ve
sunulmalıdır.
BULGULAR
 Yapılan çalışmada sınıflama analizine ait birçok algoritma
denenmiştir. Doğruluk derecesi en yüksek olan algoritmalar
tabloda gösterilmiştir.
Algoritma Adı
Multilayer Perceptron
JRip
IBk
J48
Naive Bayes
Doğruluk Yüzdesi
88,7324
87,3239
85,9155
84,507
81,6901
GÖRSEL SONUÇLAR
 Öğrencilerin sağlık problemleri ile başarı durumları arasındaki
ilişkisel grafik;
GÖRSEL SONUÇLAR
 Öğrencinin öğretmenleriyle iletişimi ile başarı durumu arasındaki
ilişkisel grafik;
SONUÇ
 Veri madenciliğinin eğitim alanındaki kullanımını artırarak, etkili
eğitim politikalarının geliştirilebilmesi, eğitim ve öğretim için
kullanılabilecek materyallerin tespitinin yapılması, müfredat dışı
öğrenme aktivitelerinin verimliliği sınanarak öğrencilerin bu
aktivitelere teşvik edilmesi gibi çalışmalarla eğitim ve öğretim
süreçlerine katkı sağlanabileceği ve verimliliğin artırılabileceği
öngörülmektedir.
SONUÇ
WEKA programı kullanılarak elde edilen sonuçlara göre;
 Öğrencinin öğretmenlerle ve arkadaşlarıyla olan iletişiminin iyi
olması, kendisine ait çalışma odasının olması arasında başarıyı
artıran bir ilişki bulunmaktadır.
 Öğrencinin kardeş sayısının az olması, anne eğitim durumunun
üniversite ve üstü olması, ailenin aktivitelere destek vermesi
arasında başarıyı artıran bir ilişki bulunmaktadır.
SONUÇ
 Çalışma neticesinde elde edilen sonuçlara göre, ailenin eğitim
seviyesi ve ekonomik durumu öğrenci başarısına yüksek oranda
etki etmektedir. Ancak bu kriterlerin yanı sıra öğrenci başarısına
etki eden pek çok etken vardır.
 Ailenin eğitim seviyesi ilkokul, ortaokul düzeyinde ve ekonomik
durumu kötü olsa dahi öğrencinin ders dışı aktivitelere katılımı
desteklendiğinde, öğrenciye uygun çalışma ortamı sağlandığında
ve ailenin öğretmenlerle iletişimde olduğu durumlarda öğrenci
başarısının arttığı gözlemlenmiştir.
SONUÇ
 Başarısızlığa neden olan değiştirilemez faktörlerin etkisinin,
başarıya katkı sağlayacak diğer faktörler üzerinde iyileştirilmeye
gidildiğinde önemli oranda yok edilebileceği gözlemlenmiştir.
 Bugüne kadar yapılan çalışmalara ek olarak incelenen faktörlerin
başarıya etkisinin yanı sıra, veri madenciliği programı olan WEKA
kullanılarak bu kriterlerin birbiri üzerindeki etkisi birden fazla
boyutta incelenerek başarısızlığa neden olan faktörlerin
çözümlenmesi için bilgiler paylaşılmıştır.
SONUÇ
 Yapılan çalışmada aynı ilde bulunan farklı Anadolu Liselerinde
okuyan öğrencilere ait veriler kullanılmıştır. Öğrencilerin bu
okullara yerleştirildikleri yılın taban ve tavan puanları
incelendiğinde farklılıklar gözlemlenmiştir.
 Öğrenciler aynı türdeki okullarda okuduklarından ortak dersler
aldıkları düşünülürse yerleştirme puanlarında gözlemlenen
farklılık,
bulunulan
dönemdeki
başarı
ortalamaları
karşılaştırıldığında gözlemlenmemiştir.
SONUÇ
 Bu çalışma geliştirilerek öğrencilerin üniversitelere yerleştirme
sınavında aldıkları puanlar da çalışmaya dahil edilerek liselere
yerleştirilme sınavında alınan puanın üniversiteye yerleştirme
sınavında alınacak olan puanın tahmin edilmesinde ne derece
etkili olacağı incelenebilir. Bu çalışmada bulunan sonuçlar da işe
koşularak öğrencilerin üniversitelere yerleştirilme sınavında
başarıyı yakalama oranı artırabilir.
DİNLEDİĞİNİZ İÇİN TEŞEKKÜRLER…
[email protected]
Download