e-ö*renmede *çer*k hazırlama ve scorma

advertisement
Veri Madenciliği İle Bilgisayar Mühendisliği Öğrencilerinin Bölüme Olan
Yatkınlığının Değerlendirilmesi
İbrahim Berkan AYDİLEK, Dilek AYNELİ, Murat UÇAN
Harran Üniversitesi, Bilgisayar Mühendisliği, Şanlıurfa
[email protected], [email protected], [email protected]
Özet: Bu çalışmanın amacı eğitimsel veri madenciliği kullanılarak bilgisayar mühendisliğinde öğrenim gören
öğrencilerin bilgisayar mühendisliğine olan yatkınlıklarının ve sahip olduğu kişisel özelliklerinin yeterliliğini
analiz edebilmek ve değerlendirmektir. Araştırma verisi Harran üniversitesi bilgisayar mühendisliği bölümünde
öğrenim gören 105 öğrenciden elde edilmiştir. Bu veriler öğrencilerden akademik benlik kavramı ölçeğinden
yola çıkılarak oluşturulmuş anket uygulaması ile toplanmıştır. Hazırlanmış anket soruları bölüm
akademisyenlerinin değerlendirmesine sunulmuş ve puanlandırılmıştır. Ankette 5 ayrı kategoride toplam 20 soru
öğrencilere sorulmuş ve cevaplamaları istenmiştir. Anket sonuçları ile oluşturulmuş veri kümesine 5 farklı
sınıflandırma yöntemi uygulanmış, sınıflandırma başarısı sonuçlarına göre çalışma için en uygun yöntem
belirlenmiştir. Araştırmada elde edilen eğitimsel veri madenciliği sonuçları bilgisayar mühendisliği bölümünde
okuyan öğrencilerin bölüme olan yatkınlığı hakkında değerlendirme imkânı vermiş ve bölüm akademisyenlerinin
öğrencilerini daha iyi tanımalarına katkı sağlamıştır. Ayrıca bölümü öğrenim görmek için tercih etmek isteyen
gelecekteki öğrenci adaylarına da bölüm ve bilgisayar mühendisliği ile ilgili fikirler sunmuştur.
Anahtar Sözcükler: eğitimsel veri madenciliği, bilgisayar mühendisliği öğrencileri, bölüme yatkınlık
1. Giriş
Veri madenciliği, çok fazla veri içinden veri işleme ile
istenilen değerli bilginin elde edilmesidir. Veri
tabanlarında veya veri ambarlarında bulunan veriler
arasındaki ilişkileri örüntüleri, sapma ve eğilimler gibi
bilgilerin ortaya çıkarılması veya bilgilerin keşfi veri
madenciliğini oluşturur. “Veri Tabanlarından Bilgi
Keşfi” (Knowledge Discovery in Databases)
uygulamaları ile birlikte faaliyet alanına yönelik karar
destek mekanizmaları için gerekli ön bilgileri temin
etmek için kullanılır. Kısaca veri madenciliğinin
amacı, toplanmış veya var olan verilerin istatistiksel
yöntemlerle incelenip ilgili kurum ve yönetim destek
dizgelerinde kullanılmak üzere değerlendirilmesidir
[30]. Veri madenciliğinde büyük veri yığınları
içerisinden gelecekle ilgili tahminler yapılmasını
sağlayabilecek bağıntılar, bilgisayar programları
kullanılarak aranır. Bilginin keşfi yapılırken bilgi
tabanından elde edilen verilerin veri temizleme, veri
bütünleştirme, veri seçme, veri dönüşümü, örüntü
değerlendirme ve son olarak madencilik yapılarak elde
edilmiş bilginin kullanıcıya sunumunu gerçekleştiren
veri keşfi süreç adımlarından oluşmaktadır. Veri
madenciliği uygulamalarını gerçekleştirmek için
yöntem ve algoritmaları içeren yazılımlara kullanılır.
Buna bağlı olarak, lisanslı SPSS Clementine, Excel,
SPSS, SAS, Angoss, KXEN, SQL Server, MATLAB
ve açık kaynak kodlu RapidMiner (YALE), WEKA,
R, C4.5, Orange, KNIME olmak üzere birçok
uygulama geliştirilmiştir [6].
Bu araştırmada veri madenciliği teknikleri kullanılarak
bilgisayar mühendisliğinde okuyan öğrencilerin
bölüme olan yatkınlıkları değerlendirilmiştir. Veri
kümesi Harran üniversitesi bilgisayar mühendisliği
bölümünde
öğrenim
gören
öğrencilerden
oluşturmaktadır. Anket sonuçlarından elde edilen veri
kümesi veri keşfi süreç adımlarından geçirilerek
uygulamada
kullanılabilir
hale
getirilmiştir.
Uygulamayı gerçekleştirmek için Weka yazılımı
kullanılmış ve sonuçlar değerlendirilmiştir. Çalışmada
ki amaç bilgisayar mühendisliğinde okuyan veya
ilerde öğrenim görmek isteyen öğrencilerin mesleğin
gerektirdiği genel özellikleri göze alınarak bölüme
olan yatkınlığının değerlendirilmesidir. Bilgisayar
mühendisliği mesleğinin tanımı ve gerektirdiği
özellikler araştırılmış, bu anlamda öğrencilere
mesleğin gerektirdiği özellikleri ortaya koyabilecek
anket çalışması uygulanarak elde edilen veriler bölüm
akademisyenlerimiz
tarafından
değerlendirilerek
oluşturulmuş veri kümesi üzerinde araştırma yapılmış
ve sonuçlar elde edilmiştir.
2. Literatür Taraması
Kayrı M. ve Boysan M. tarafından yapılan bilişsel
yatkınlık ile depresyon düzeyleri ilişkisinin
sınıflandırma ve regresyon ağacı analizi ile
incelenmesi çalışmasında üniversite öğrencilerinden
oluşan bir grupta depresyon tanılarındaki artışa
kişilerin sınırlılık algısı düzeylerinin ve öz yeterlilik
değerlendirmelerinin etkisi araştırılmıştır.
Veri kümesi Yüzüncü Yıl üniversitesinden 437
öğrenciye (313 erkek, 124 bayan) yapılan Sınırlılık
şemaları envanteri, Genel öz yeterlilik ölçeği ve Beck
depresyon envanterine alınan cevaplardan meydana
gelmektedir. Veri kümesi SRA tekniği ile analiz
edilmiş, bağımlı ve bağımsız değişkenler arası ilişkiler
bir ağaç yapısı şeklinde ifade edilmiştir. SRA yöntemi,
bu çalışmada sınırlılık algısının depresyon için bir
bilişsel yatkınlık faktörü olduğunu tespit etmiştir [16].
Kurt Ç. ve Erdem Ayhan O. tarafından yapılan
çalışmada başarılı ve başarısız öğrencilerin profilleri
belirlenerek uygun önlem ve çözümler önerilmiştir.
Öğrenci
başarısını
etkileyebileceği
düşünülen
öğrencilerin kişisel, sosyal, ekonomik ve barınma ile
ilgili demografik özelliklerini içeren toplam 38 soruluk
bir anket hazırlanmıştır. Sorular seçicilik, güçlülük ve
güvenlik yönünden değerlendirilmesi için eğitim,
bilgisayar ve veri madenciliği branşlarında uzman
kişilere sunulmuş geçersiz ve gereksiz olduğu
saptanan sorular çıkartılarak eksik görülen sorular
eklenmiştir. Anket Gazi üniversitesi teknik eğitim
fakültesinde toplam 545 katılımcıya uygulanmıştır
[18].
Çöllüoğlu Gülen Ö. ve Özdemir S. tarafından yapılan
çalışmanın amacı eğitimsel veri madenciliği
yöntemleri ile üstün yetenekli öğrencilerin ilgili
oldukları alanları tahmin etmek ve bu öğrencilerin bir
arada ilgi gösterdikleri alanları belirlemektir.
Araştırmanın çalışma grubunu Ankara’da yer alan
Yasemin Karakaya bilim ve sanat merkezinde eğitim
gören yaşları 12 ve üstü, üstün yetenekli öğrenciler
oluşturmaktadır. Bu öğrencilerden veriler Akademik
benlik kavramı ölçeği ile araştırmacılar tarafından
geliştirilmiş olan boş zamanları değerlendirme anketi
ve ebeveyn veri toplama formu ile elde edilmiştir.
Ayrıca öğrencilerin WISC-R ve temel kabiliyetler testi
7-11 sonuçları da yine kullanılmıştır. Üstün yetenekli
öğrencilerin ilgili oldukları alanları tahmin için 10
sınıflandırma algoritması belirlenmiş ve bu
algoritmaların doğruluk sonuçları karşılaştırılarak
problem tanımı için en iyi algoritma bulunmuştur. Söz
konusu çalışmanın sonuçları, öğrencilerin destek
eğitimi ve bireysel yetenekleri fark ettirme
programlarının son aşamalarında hangi alanlara
yönlendirilmeleri
gerektiğini
belirlemek
için
sistematik ve bilimsel bir yöntem sunmaktadır [5].
Şen B. ve Emine Uçar E. veri madenciliği yöntemleri
ile Karabük üniversitesi bilgisayar mühendisliği
bölümü öğrencilerinin başarılarını çeşitli kriterler
kullanarak karşılaştırmışlardır. Çalışma uzaktan
eğitimde, örgün eğitime göre başarı oranının
düştüğünü göstermektedir [27]. Brijesh Kumar B. ve
Saurabh P. bilgisayar uygulamaları dersindeki
akademik başarıyı tahmin etmiş ve ayrıca başarı
üzerinde etkili faktörleri saptamışlardır [1]. Chih-Fong
T ve ark., bilgisayar yeterlilik sınavından kalacak
öğrencileri tahmin etmişlerdir. Çalışmada hem
kümeleme hem sınıflandırma teknikleri kullanılmıştır
[28]. Kwang Hyuk I. ve ark., tasarladıkları bir anketi
uygulayarak sınıflandırma ve kümeleme yöntemleri ile
üstün yetenekli öğrencilerin yetenek türlerini ortaya
çıkarmış ve benzer karakteristikteki öğrencileri
gruplamışlardır [12].
Veri madenciliği, büyük boyutlu verilerin içindeki
ilişkileri inceleyerek aralarındaki bağıntıyı bulmaya
çalışan ve veri tabanı sistemleri içerisinde gizli kalmış
bilgilerin çekilmesini sağlayan veri değerlendirme
tekniğidir [15]. Ham verinin tek başına veremediği
bilgiyi çıkaran, veri analizi aşaması olarak
tanımlanmıştır [14]. Büyük veri yığınları arasından
gelecekle
alakalı
tahminde
bulunabilmemizi
sağlayabilecek bağıntıların, bilgisayar programı
kullanarak aranma ve bulunmasına olanak tanır [8].
İstatistik, veritabanı teknolojisi, örüntü tanıma, makine
öğrenme ile iç içe yeni bir çalışma alanı oluşturarak
geniş veritabanlarında önceden tahmin edilemeyen
ilişkilerin ikincil analizi olarak ifade edilmiştir [11].
Bir başka kaynak ise veri madenciliğini oldukça
tahminci anahtar değişkenlerin binlerce potansiyel
değişkenden izole edilmesini sağlama yeteneği olarak
tanımlamıştır [17].
3. Veri Madenciliği
𝑃(𝐴|𝐵) =
3.1. Sınıflandırma Yöntemleri
3.1.1. Karar Ağaçları
Karar ağaçları sınıflandırma problemlerinde en çok
kullanılan algoritma ve yöntemlerden birisidir. Bu
teknikte sınıflandırma için bir ağaç şeklinde yapı
oluşturulur ve daha sonra sınıfı bilinmeyen bir kayıt
ağaca uygulanır. Ortaya çıkan dallanma sonucuna göre
bu kayıt sınıflandırılır. Temel olarak iki adımdan
oluştuğu
söylenebilir;
Birinci
adım
ağacın
oluşturulması, ikinci adım ise yeni bilinmeyen
verilerin ağaç yapısına göre sınıfının tespit edilmesidir
[26].
Karar ağacı, karar durumlarının düğümler halinde
bilgi kazancı değerlerinden yola çıkılarak ifade
edildiği bir yapıdır. Düğümlere ilişkin hesaplanan
etropi ve bilgi kazancı değerleri ağaç yapısını
oluşturur. Karar ağacı dallarındaki en iyi seçeneğin
düğüm bazında belirlenebilmesi için olasılık değerleri
kullanılarak hesaplanan “Beklenen Değerler” arasında
karşılaştırma yapılmalıdır [9].
3.1.2. Naive Bayes Sınıflandırıcı
Naive Bayes sınıflandırıcı bir önerme ile kullanılabilen
olasılık temelli bir algoritmadır. Bu önerme örüntü
tanıma da kullanılacak her bir tanımlayıcı nitelik ya da
özelliğin istatistik açıdan bağımsız olması gerekliliğini
doğurur. Her ne kadar bu önerme Naive Bayes
sınıflandırıcısının kullanım alanını azaltsa da, genelde
istatistik
bağımsızlık
koşulu
daha
esnek
kullanıldığında daha karmaşık yapay sinir ağları gibi
yöntemlerle karşılaştırabilir sonuçlar göstermektedir
[22]. Bayes sınıflandırma tekniği, elde var olan, hali
hazırda sınıflanmış verileri kullanarak yeni bir verinin
mevcut sınıflardan herhangi birine ait olma olasılığını
hesaplayan bir yöntemdir [26]. Eşitlik 1'deki denklem
yardımıyla temel olasılık değeri hesaplanır. Burada iki
sonuç durumlu örneğin bir bozuk paranın yazı ya da
tura gelmesi gibi olasılık hesabına göre A veya B’nin
olasılığı ifade edilmiştir.
𝑃(𝐵 |𝐴).𝑃(𝐴)
𝑃(𝐵)
(1)
3.1.3. Regresyon Sınıflandırıcı
Regresyon analizi herhangi bir değişkenin bir veya
daha fazla başka değişkenlerle arasında olan ilişki
durumunun matematiksel fonksiyon halinde ifade
edilmesidir. Regresyon, sınıflandırma işlemini iki
yaklaşım çerçevesi şeklinde gerçekleştirir. İlki bölme
yani verileri sınıfa bağlı olarak çeşitli bölgelere ayırır,
ikincisi ise tahmin, çıktı değerinin hesaplanması için
fonksiyonlar üretir.
Bir bağımlı değişkenin tek bir bağımsız değişkenle
açıklandığı regresyona “basit regresyon analizi”,
bağımlı değişkenin birden fazla bağımsız değişkenle
açıklandığı regresyona ise “çoklu regresyon analizi”
denir [26]. En küçük kareler yöntemi ile elde edilen
basit regresyon denklemi eşitlik 2’deki gibidir.
𝑦 = 𝑎 + 𝑏𝑥 + 𝑒
(2)
Birden fazla bilinmeyen x değeri için ise çoklu
regresyon denklemi eşitlik 3’deki gibidir. Burada a,
doğrusal fonksiyon sabiti, b, doğrusal fonksiyon eğimi
x, bağımsız değişkeni göstermektedir.
𝑦 = 𝑎 + 𝑏𝑥1 + 𝑐𝑥2 + 𝑑𝑥3 + 𝑒
(3)
4. Bilgisayar Mühendisliği Tanımı
Bilgisayar mühendisliği, bilgisayar bilimlerini temel
alan yazılım ve donanım bileşenlerini içeren
sistemlerin
çözümlenmesi,
boyutlandırılması,
tasarlanması, gerçeklemesi, sınanması, üretilmesi ve
bakımı konusunda teknik çözümler üreten bir
mühendislik dalıdır. Bilgisayar mühendisinin amacı
insanlığın hizmetine en az kaynakla, en kısa sürede, en
dayanıklı ve kullanışlı bilgi sistemi ürünlerini
üretmektir [13]. Bilgisayar mühendisleri, programlama
dilleri yazılım tasarımı veya yazılım, donanım
kavramlarını bir araya getirerek birlikte uyum içinde
çalışabilme eğitimini alırlar. Yazılımların neyi
yapabileceği neyi yapamayacağı, yazılımların belirli
bir görev üzerinde nasıl etkili bir verim
gösterebilecekleri, yazılımların saklanmış bir veriyi
nasıl yazıp okuyabileceklerini, yazılımların nasıl daha
akıllı çalışabileceklerini, insan ve yazılımların
birbirleriyle nasıl bir iletişim içerisinde olacakları
konuları üzerinde ve elektronik devre tasarımı ile
donanım ve yazılım entegrasyonu alanlarında çalışırlar
[2].
4.1. Bilgisayar Mühendisliği Mesleğinin
Gerektirdiği Özellikler
Mesleğinde yeterli iyi bir bilgisayar mühendisi
olabilmek için literatürde olması gereken özellikler
üzerine tanımlamalar yapılmıştır.
 Analiz ve sentez yeteneğine sahip
 Problem çözme yeteneğine sahip
 Akademik araştırma yeteneğine sahip
 Sayı ve sembollerle akıl yürütme gücüne sahip
 Bir işi öğelerine ayırıp işlem basamaklarını
belirleme becerisine sahip
 Mantık yürütme ve tasarım yeteneğine sahip
 Belirli düzeyde hayal gücüne sahip
 Elektronik cihazları etkin kullanabilme yeteneğine
sahip
 Kendini sürekli yenileme gereği duyan
 Dikkatli, sabırlı, meraklı, araştırmacı, grup
çalışmasına yatkın olmayı gerektirir [13].
5. Anket
Anket, kişilerden çeşitli konularda, planlı ve standart
biçimde bilgi almak için geliştirilmiş olan ve özellikle
epidemiyolojik ve sosyolojik araştırmalarda sıklıkla
kullanılan bir yöntemdir. Anket formu ile elde
edilebilecek bilgiler anket uygulanan kişilerin bilgi
düzeyi, tutumu ve görüşleri, kişilerin davranış şekilleri
ve özellikleri şeklinde açıklanabilir [23].
Bu çalışmada bilgisayar mühendisliği mesleğinin
gerektirdiği vasıfları geniş bir şekilde kapsayan en
temel özelliklerden 5 tanesi ele alınarak sorular
oluşturulmuş ve ankete katılan bireylerden bu alanlara
yönelik bilgiler toplanıp veri kümesi oluşturulmuştur.
Ele alınan özellikler kişinin bilgisayar mühendisliği
bölümüne olan ilgisi, Sayı ve sembollerle akıl yürütme
gücü, Sabır, Zaman yönetimi ve Araştırma yeteneğidir.
Bu özellikleri ölçmeye yönelik alt bölümlerden oluşan
anket soruları oluşturulmuş ve Harran üniversitesi
bilgisayar mühendisliği bölümündeki öğrencilere
uygulanmıştır.
5.1. Bölüme Olan İlgisi
Bilgisayar
mühendisliği
bölümünde
okuyan
öğrencilerin bu mesleği tercih etme sebepleri, mesleği
tercih etmedeki istek dereceleri, bilgisayar bilimlerine
olan ilgisi gibi durumları göz önüne alarak kişinin bu
bölüme olan ilgisi değerlendirilmek istenmiştir.
Öğrencinin tercih sırası, idealindeki meslek olup
olmaması, bilgisayar başında zamanını daha çok neler
yaparak geçirdiği gibi durumları analiz ederek bölüme
olan ilişkisi değerlendirilmiştir.
5.2. Sayı ve Semboller ile Akıl Yürütme Gücü
Bilgisayar mühendisliği mesleğinin gerektirdiği
özelliklerden biri olan sayı ve sembollerle akıl
yürütme gücü semboller arasında bağ kurma
etkinliğidir. Akıl yürütme; bütün etmenleri dikkate
alarak düşünüp akılcı bir sonuca ulaşma sürecidir [29].
Aklı bağımsız olarak ayrılması, birleştirilmesi ve
karşılaştırılması
yeteneğidir.
Akıl
yürütmede,
öncüllerle sonuç arasında zorunlu bir ilişki vardır.
Sonuç öncüllerin etkinliğini taşımaktadır. Bu şekilde
olan özelliğin kişide olması akıl yürütme ve mantığı
etkili bir şekilde kullanma kapasitelerini mesleki
alanda kullanmaları kişilerin bölüme olan yatkınlığını
artırır. Bu çalışmada sayı ve semboller ile akıl yürütme
gücü alanında bulunan soruların kişinin sembollerle ve
mantıkla akıl yürütme gücü analiz edilmiştir.
5.3. Sabır
Sabır, zor koşullar altında cesaret ve metanetini
yitirmeme duygusudur. Sabırlı insan uzun süreli
gecikmelere ve tahriklere rağmen moralini bozmadan
yoluna devam eder [25]. Bilgisayar mühendisliği
mesleğinin gerektirdiği özelliklerden biri olan sabır,
kişinin mesleki çalışma alanında karşılaştığı zorluklar
karşısında direncini gösterir. Çalışmamızda anket
sorularında sabır alanında kişinin mesleki yolunda
karşılaşacağı
durumlara
karşı
tutumu
değerlendirilmiştir.
5.4. İyi Bir Araştırmacı
Araştırma, var olan bilgiye kullanılabilir ve
kanıtlanabilir nitelikte yeni bilgiler eklemek amacını
güden sistemli bir incelemedir. İyi bir araştırmacı,
bağımsız ve esnek düşünce yapısına sahip olan,
tarafsız, sorgu soran, sosyal olan ve iyi bir iletişim
kuran kişidir. Araştırma bir süreç olup, problemlere
güvenilir çözümler bulmaktır. Bunun için, planlı ve
sistemli olmak gerekmektedir. Araştırma bir
gereksinimle başlar. Bu ise, en genel anlamda,
insanları, dolaylı ya da dolaysız olarak rahatsız eden
durumların ortadan kaldırılması gereksinimidir [7].
Çalışmamızda bu özelliği analiz etmeye yönelik
sorular ile bilgi toplanmıştır. Bilgisayar mühendisliği
mesleğinin gerektirdiği özelliklerden biri olan iyi bir
araştırmacı olma özelliği kişiye çalışma alanında
doğru bilgiye ulaşma ve araştırma yaparak yenilikçi
bir yol çizme gibi birçok alanda fayda sağlamaktadır.
5.5. Zaman Yönetimi
Zaman yönetimi, zamanı mümkün olduğunca etkin ve
etkili bir bicimde kullanma ve denetleme sistemidir.
Zamanı akılcı kullanarak daha verimli sonuçlar elde
edilmesini sağlar. Zaman yönetimini yapabilmek
planlı ve programlı bir şekilde çalışmaktan geçer.
Bilgisayar mühendisliği mesleğinin gerektirdiği
özelliklerden biri olan zaman yönetimi kişiye zamanı
iyi
değerlendirmeyi
öğretir.
Zamanı
iyi
değerlendirmeyi öğrenmek herkes için stresi azaltacak,
yararlı bir beceridir. Zaman yönetiminin bireylerin
yaşam kalitesini artırmaya yardımcı olduğunu, stresi
azalttığını, dengeli bir yaşam sağladığını, verimliliği
artırdığını ve hedeflere ulaşmayı kolaylaştırır [20].
Çalışmamızda zaman yönetimi için sorular oluşturulup
veriler toplanmıştır.
6. Uygulama
Araştırmanın amacı eğitimsel veri madenciliği
kullanılarak bilgisayar mühendisliğinde okuyan
öğrencilerin
bilgisayar
mühendisliğine
olan
yatkınlıklarının ve sahip olduğu kişisel özelliklerinin
yeterliliğini analiz edebilmek ve değerlendirmektir.
Tahmin etmek için veri madenciliği sınıflandırma
yaklaşımları uygulanmıştır. Tahmin edilen sınıf
değişkeni öğrencinin bilgisayar mühendisliğine olan
yatkınlığı ve sahip olduğu kişisel özelliklerinin
yeterliliğidir. Sınıflandırma çeşitli algoritmalar
aracılığı ile gerçekleştirilmektedir. Sınıflandırma için
veri kümesi eğitim kümesi ve test kümesi olarak
bölümlere ayrılır. Sınıflandırma algoritmaları eğitim
kümesi üzerinde eğitilerek sınıflandırma modellerini
oluşturur. Sınıflandırma algoritmaları daha sonra
oluşturulmuş modeller üzerinde test kümesini
sınayarak başarı hesaplanır. Çalışmada on katlı çapraz
doğrulama sınıflama başarısı ölçütüne göre sınıflama
başarısı sonuçları elde edilmiş ve değerlendirilmiştir.
On-kat çapraz doğrulamada veri kümesi rastgele on
eşit parçaya bölünerek her seferinde 1 parça test, geri
kalan 9 parça eğitim verisi olarak kullanılmakta ve
sınıflama
yapılmaktadır
[3].
Bilgisayar
mühendisliğinde öğrenim gören öğrencilerin bilgisayar
mühendisliğine olan yatkınlıklarının ve sahip olduğu
kişisel özelliklerinin yeterliliğini analiz edebilmek için
sınıflandırma algoritmalarından Weka’da bulanan
karar ağaçları, ID3 ve J48, Naive Bayes sınıflandırma
algoritması, K-en yakın komşu algoritması (IBk) ve
Regresyon analizi kullanılmıştır. Sınıflandırma
algoritmaların
sınıflama
başarısı
doğrulukları
karşılaştırılarak en yüksek doğruluğa sahip algoritma
bu çalışmada için en uygun yöntem olarak tespit
edilmiştir.
Bilgisayar
mühendisliği
bölümüne
yatkınlığı bilinmeyen öğrenciler için anket sonuçları
üzerinden uygun yöntem yardımıyla, bölümüne olan
yatkınlıkları tespit edilebilecektir.
6.1. Verilerin Toplanması ve Veri Analizi
Çalışmada veriler anket uygulaması ile toplanmıştır.
Veriler Harran üniversitesi bilgisayar mühendisliği
bölümünde öğrenim gören ve anketi dolduran 105
öğrenciden elde edilmiştir. Anket bölümün öğretim
elemanlarının değerlendirmesine sunulmuş ve
puanlandırılmıştır. Ankette 5 ayrı kategoride toplam
20 soru öğrencilere sorulmuş ve cevaplamaları
istenmiştir. Anket sonuçları ile oluşturulmuş veri
kümesine 5 farklı sınıflandırma yöntemi uygulanmış,
sınıflandırma başarısı sonuçlarına göre çalışma için en
uygun yöntem belirlenmiştir. Veri kümesi Harran
üniversitesi bilgisayar mühendisliği bölümünde
öğrenim gören 105 öğrenciden elde edilmiştir. Bu
veriler öğrencilerden akademik benlik kavramı
ölçeğinden yola çıkılarak oluşturulmuş anket
uygulaması ile toplanmıştır.
Akademik benlik kavramı ölçeği öğrencilerin yetenek
ve ilgilerini daha iyi tanıyarak, okul ve ders seçimine
yardımcı olmaktadır. Öğrencinin ilgi alanına göre
analiz
yapmaktadır.
Ortaokul
seviyesindeki
öğrencilere uygulanmaktadır [19]. Bu çalışmada
Akademik benlik kavramı ölçeğinden yola çıkılmış
fakat bilgisayar mühendisliği lisans düzeyinde
öğrenim gören öğrencilerin bölüme olan ilgisi ve
yatkınlığının analiz edebilmek amacıyla lisans
öğrencilerine uygun anket soruları oluşturulmuştur.
Bilgisayar mühendisliğinde okuyan öğrencilerin
bilgisayar mühendisliğine olan yatkınlıklarının ve
sahip olduğu kişisel özelliklerinin yeterliliğini analiz
edebilmek için Weka (Waikato Environment for
Knowledge Analysis) veri madenciliği yazılımı
kullanılmıştır. Weka, veri madenciliği algoritmalarını
içeren, Java programlama dili ile geliştirilmiş açık
kaynak kodlu bir yazılımdır [6].
Çalışmada bilgisayar mühendisliği mesleğinin
gerektirdiği en temel özelliklerden 5 tanesi ele alınarak
katılımcılardan, bu alanlara yönelik bilgi toplanıp veri
kümesi oluşturulmuştur. Toplanan veriler, öğrencilerin
vermiş olduğu cevaplar bölüm akademisyenlerinin
değerlendirmesine sunulmuş ve puanlandırılmıştır. Ele
alınan özellikler kişinin bölüme olan ilgisi, Sayı ve
sembollerle akıl yürütme gücü, Sabır,
Zaman
yönetimi ve Araştırma yeteneğidir. Elde edilen veriler
Weka programına aktarılmaya uygun formata
çevrilmiştir.
Sınıflandırma
algoritmalarında
kullanılmak üzere Tablo 1’deki gibi oluşturulan “.csv”
uzantılı veri dosyaları Weka programına aktarılmıştır.
Programa aktarılan veriler sınıflandırma algoritmaları
olan karar ağaçları (ID3 ve J48), Naive Bayes
algoritması, Regresyon analizi ve K-en yakın komşu
(IBk), algoritmaları uygulanmış, sınıflandırma başarısı
sonuçlarına göre çalışma için en uygun yöntem
belirlenmiştir.
NaiveBayes
Id3
J48
IBk
Regresyon
2
3
4
5
6
Özellik Adı
Bölüme İlgili Olma
Sayı ve Sembollerle Akıl Yürütme
Gücü
Sabır
İyi Bir Araştırmacı
Zaman Yönetimi
Sonuç
Tablo 2’de öğrencilerden elde edilmiş veriler üzerinde
uygulanan sınıflandırma algoritmalarının başarı
oranları verilmiştir. Tablodaki değerler ne kadar
yüksek olursa ilgili algoritmanın daha iyi ve başarılı
olduğu gösterilmektedir. Doğruluk değeri doğru
sınıflanmış sınıf sayısının tahmin edilen tüm sınıf
sayısına olan oranını göstermektedir. Kesinlik, doğru
pozitif örnek sayısının, tahmin edilmiş tüm pozitif
örnek sayısına oranıdır. Anma, doğru sınıflandırılmış
pozitif örnek sayısının doğru pozitif ve yanlış negatif
toplam örnek sayısına oranıdır. F-ölçütü, kesinlik ve
duyarlılığın harmonik ortalamasıdır. [4]. ROC Alanı
ise duyarlılık ve özgüllük değeri kullanarak tanı
koymanın getirdiği sakıncaları ortadan kaldırmak için
geliştirilmiş, istatistik karar teorisine dayanan bir
değerlendirme yöntemidir [21]. ROC eğrisi altında
kalan alan testin başarılı öğrenciler ile az başarılı olan
öğrencileri ayırmadaki doğruluk oranını belirler. [10].
Tablo 2. Sınıflama Başarı Oranları
Doğruluk
Kesinlik
Anma
0.848
0,910
0,733
0,819
0,733
0.847
0,911
0,732
0,819
0,734
0.939
0,902
0,838
0,900
0,864
Id3 karar ağacı diğer sınıflama algoritmalarına göre
Tablo 2’deki performans kıyaslamalarının hepsinde
daha başarılı olmuştur. Weka programından elde
edilen Id3 algoritmasının karışıklık matris sonucu
Tablo 3’de görüldüğü gibidir.
Tablo 3. Id3 Algoritması Karışıklık Matrisi
Tahmin Edilen Sınıf
7. Sonuç ve Öneriler
Sınıflayıcı
0.848
0,913
0,737
0,821
0,739
Eğitimsel veri madenciliği alanında yapılan bu
çalışmada makine öğrenmesinin sınıflandırma
teknikleri ile bilgisayar mühendisliği öğrencilerinin
bölüme olan yatkınlığını tahmin eden bir model
geliştirilmiştir. Elde edilen sonuçlar, Id3 karar ağacı
algoritmasının eğitimsel veri madenciliği sınıflandırma
modeli için başarılı bir algoritma olduğunu
göstermektedir.
Tablo 1. Özellikler
Özellik No
1
0.848
0,910
0,733
0,819
0,733
FÖlçümü
ROC
Alanı
a= Yatkın
değil
b= Az
Yatkın
c= Yatkın
22
1
0
0
49
5
0
3
25
a= Yatkın
değil
b= Az
Yatkın
c= Yatkın
Gerçek
Sınıf
Karar ağaçları üzerinde çalışılan veri kümesinde
sınıflama yapmak için kurallar oluşturur. Karar ağacı
yapısındaki
kuralların
değerlendirilmesinin
sonuçlarına göre; bilgisayar mühendisliğinde öğrenim
gören öğrencilerin zaman yönetimi, öğrencinin
araştırmacı olma özelliği ve bölüme olan ilgisi,
bölüme
olan
yatkınlığını
yüksek
oranda
etkilemektedir. Zaman yönetimi kötü olan öğrencilerin
bölüme olan ilgisi az, sayı ve sembollerle akıl yürütme
gücü çok az ve orta seviyede bir araştırma özelliğine
sahip ise bölüme yatkın olmadıkları sonucuna
varılabilir.
Ayrıca zaman yönetimi iyi olan
öğrencilerin, sayı ve sembollerle akıl yürütme gücü
iyi, iyi bir araştırmacı olma özelliğine sahip ve az
sabırlı olanların bölüme yatkın oldukları çıkarımı
yapılmaktadır. Id3 algoritmasının oluşturduğu karar
ağacında sabırlı olmanın öğrencinin bölüme olan
yatkınlığını yüksek oranda etkilemediği sonucuna
varılmıştır.
Bilgisayar mühendisliğinde okuyan öğrencilerin
bölüme ilgisi çok az olan öğrencilerin analiz edilen
diğer özelliklerinin iyi olması durumda bölüme
yatkınlık sağladıkları ancak hem bölüme ilgisi
olmayan hem de analiz edilen diğer özelliklerin kötü
olması durumunda öğrencinin bölüme yatkın olmadığı
sonucuna varılmıştır.
Söz konusu çalışmada bilgisayar mühendisliği
bölümünde okuyan öğrencilerin mesleğin gerektirdiği
özelliklerden seçilen alanlarda yatkınlığı analiz
edilmiş, öğrencilerin bölüme olan yatkınlığına ve
özelliklerine göre bölüm akademisyenlerine eğitim
planı hedeflerinin gerçekleştirilmesine ve ders
içeriklerinin var olan genel öğrenci profiline uygun
olarak
hazırlanabilmesine
katkı
sağlaması
amaçlanmıştır.
Yapılan çalışmada hazırlanan anket çalışması üzerinde
anket güvenilirlik testinin yapılmamış olması
çalışmanın eksikliğidir. Araştırmalarda, aynı süreçlerin
izlenmesi ile tutarlı sonuçların elde edilebilmesi
amaçlanır. Elde edilen sonuçları daha tutarlı bir hale
getirebilmek için anket çalışması üzerinde gelecekte
yapılan çalışmalar için anket güvenirlik analizi
uygulanması önerilmektedir. Güvenirlik analizi anket
ile ölçülmek istenen ortak değeri, eşit olarak
paylaşmayan değişkenlerin belirlenmesi ve bu
değişkenlerin analiz dışı bırakılarak, ölçeğin iç
tutarlılığı arttırılmasını sağlar [24].
Sadece Harran üniversitesi bilgisayar mühendisliği
öğrencileri üzerinde yapılan bu çalışma, sonraki
çalışmalarda üniversite ve bölüm ayrımı yapmaksızın
daha genel olarak tüm üniversite ve tüm bölümlere
uygulanarak daha aday öğrenci durumunda olan
kişilere üniversite bölüm tercihlerinde yol gösterici,
yardımcı bir rehber olarak kullanılabilmesi
önerilmektedir.
8.Kaynaklar
[1] Baradwaj B.K, Pal S., “Mining educational data to
analyze students' performance”, ArXivpreprint
arXiv:1201.3417, (2012).
[2]
Bilgisayar
mühendisliği,
(17.12.2014),
http://tr.wikipedia.org/wiki/Bilgisayar_mühendisliği.
[3] Breiman L., Friedman, J.H., Olshen, R.A & Stone,
C.J.,
“Classification
and
regression
trees”.
Monterey,CA: Wadsworth & Boks / Cole Advanced
Boks & Software, (1984).
[4] Coşkun C., Baykal, A., “Veri Madenciliğinde
Sınıflandırma Algoritmalarının Bir Örnek Üzerinde
Karşılaştırılması”, Akademik Bilişim’11, Malatya,
(2011).
[5] Çöllüoğlu GÜLEN Ö., Özdemir, S., “Analysis of
Gifted Students’ Interest Areas Using Data Mining
Techniques”, Journal of Gifted Education Research,
1(3), 213-226, (2013).
[6] Dener M., Dörterler, M., Orman A., “Açık Kaynak
Kodlu Veri Madenciliği Programları,Weka’da Örnek
Uygulama”, Akademik Bilişim’09 ,Şanlıurfa, (2009).
[7] Doğan M., “Araştırma Teknikleri ve Bilimsel
İletişimin
Temelleri”,
(05.01.2015),
http://www.aku.edu.tr/dosyayonetimi/arastirmateknikl
eri.pdf.
[8] Doğan Ş., ve Türkoğlu,İ., “Hypothyroidi and
Hyperthyroidi Detection from Thyroid Hormone
Parameters by Using Decision Trees”, Doğu Anadolu
Bölgesi Araştırmaları Dergisi, Cilt 5, No 2, 163-169,
(2007).
[9] Gökgöz F., “Risk ve Belirsizlik Altında Karar
Alma–Karar Analizleri, Karar Ağaçları- Oyun Teorisi“,
(19.12.2014),
http://acikders.ankara.edu.tr/KararAnalizi.pdf
[10] Grove W.M., "Mathematical aspects of diagnosis
", Library of Congress Cataloging-In-Publication Data,
50-75, (2006).
[11] Hand D.J., “Data Mining: Statistics and More?”,
The American Statistician, 52:112-118, (1998).
[12] Im K.H., Kim T.H., Bae S.M., Park S.C,
“Conceptual modeling with neural network for
giftedness identification and education”, In Advances
in Natural Computation(pp. 530-538). Springer Berlin
Heidelberg, (2005).
[13] İstanbul Kültür Üniversitesi bilgisayar
mühendisliği
bölüm
tanıtımı,
(15.12.2014),
http://www.iku.edu.tr/upp/1693/files/Computer%20En
gineering/BilgisayarMuhBolumTanitimi_18_09_2014.
pdf
[14] Jacobs P., “Data Mining: What General Managers
Need to Know” ,Harvard Management Update, Cilt 4,
No 10, 8, (1999).
[15] Kalıkov A., “Veri Madenciliği ve Bir E-Ticaret
Uygulaması”, Yüksek Lisans Tezi, Gazi Üniversitesi,
Fen Bilimleri Enstitüsü, (2006).
[16] Kayri M., Boysan M., “ assesment of relation
between cognitive vulnerability and depression’s level
by using classification and regression tree analysis”,
Hacettepe üniversitesi Eğitim Fakültesi Dergisi,
(2008).
[17] Kitler R. ve Wang W., “The Emerging Role of
Data Mining”, Solid State Technology, 42: 11-45,
(1998).
[18] Kurt Ç., Erdem O.A., “Öğrenci Başarısını
Etkileyen Faktörlerin Veri Madenciliği Yöntemleriyle
İncelenmesi”, Politeknik Dergisi
Journal of
Polytechnic, (2012).
[19] Kuzgun Y., “Akademik Benlik Kavramı Ölçeği El
Kitabı”, Nobel Yayıncılık Eğitim , (1996).
[20] Mackenzie R. A., “Time Management: From
Principles to Practice”, Training and
Development Journal, 2, 47-53 , (1978).
[21] Metz C.E., "Receiver operating characteristic
analysis: a tool for the quantitative evaluation of
observer performance and imaging systems", J Am
Coll Radiol, 3,413- 422,( 2006).
[22] Naive Bayes Sınıflandırıcı,
http://tr.wikipedia.org/NaiveBayes.
(17.12.2014),
[23] Oğur R., Tekbaş Ö.F., ”Anket Nasıl Hazırlanır?
“,STED,12:9:336-340, (2003).
[24] Özdemir T, “Güvenirlik Analizi” ,(20.01.2015),
http://akademikdestek.net/kutuphane/güvenirlikanalizi.
[25] Sabır, (05.01.2015), http://tr.wikipedia.org/ Sabır.
[26] Silahtaroğlu, G., “Veri Madenciliği Kavram ve
Algoritmaları”, İstanbul, Papatya Yayıncılık Eğitim ,
(2013).
[27] Şen B., Uçar E., “Evaluating the achievements of
computer engineering departmen of distance education
students with data mining
methods”, Procedia
Technology, 1, 262-267, (2012).
[28] Tsai C.F., Tsai C.T., Hung C.S. ve Hwang P.S.,
“Data mining techniques for identifying students at
risk of failing a computer proficiency test required for
graduation”, Australasian Journal of Educational
Technology, 27(3), 481-498, (2011).
[29] Umay A., Kaf Y., “ Matematikte Kusurlu Akıl
Yürütme Üzerine Bir Çalışma”, Hacettepe Üniversitesi
Eğitim Fakültesi Dergisi,28: 188-195, (2005).
[30] Usgurlu Ü.,”Veritabanı, Veri Madenciliği, Veri
Ambarı,
Veri
Pazarı”,
(12.12.2014),
http://mail.baskent.edu.tr/~20394676/0302/bil483/HW
2.pdf.
Download