Kalite Fonksiyon Yay*l*m* için Yeni Bir Yakla**m

advertisement
Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin
Değerlendirilmesi
Mehmet Fatih KARACA1, Mustafa GÜNEL1, Akif Alkan TAŞTAN1
1
Gaziosmanpaşa Üniversitesi, Erbaa Meslek Yüksekokulu, Tokat
[email protected], [email protected], [email protected]
Özet: Teknolojik gelişmeler bilgisayar kullanımını ve dolayısıyla bilginin yayılmasını
arttırmıştır. Bu durum, veri miktarında oldukça büyük artışlara neden olmuştur. Büyük
boyutlardaki verilerin manuel yöntemlerle analiz edilmesi pek mümkün olmamaktadır. Veri
boyutunun artmasının sebebi olan bilgisayar, bu verileri işlemek için de kullanılmaktadır. Veri
madenciliği, eldeki veriler kullanılarak yeni bilgiler çıkarma işlemidir. Dijital ortamdaki
veriler içerisinde metinsel veriler bulunmaktadır. Metin madenciliği, yapısal olmayan bu
verilerin madencilik işlemlerinde kullanılmak üzere yapısal veri haline dönüştürülmesi için
kullanılmaktadır. Bu çalışmada, internet gazetelerindeki köşe yazılarının sınıflandırılmasında
kNN algoritması ile 15 farklı benzerlik hesaplama tekniği uygulanmıştır. Bu tekniklerin elde
ettiği sonuçlar hem başarı hem de işlem süresi olarak incelenmiş olup 5 teknikte %100
doğrulukla sınıflandırma gerçekleştirildiği görülmüştür.
Anahtar Sözcükler: Veri madenciliği, metin madenciliği, metin
sınıflandırma, benzerlik ölçümü.
Evaluation of Similarity Measurement Techniques for Text Classification
Abstract: Technological advances have increased the use of computers, and thus spread the
knowledge. This has led to rather large increase in the amount of data. Manual methods of
analyzing data in large size are not unlikely. Computer, the reason of the increasing size of the
data, is used to process data. Data mining is a new information extraction using the available
data. There are textual data in digital environment. Text mining is to realize for conversion of
non-structural data into structured data. In this study, for the classification of the Internet
newspaper columnist's columns 15 different similarity calculation techniques are applied with
kNN algorithm. These techniques' results are examined as success and processing time and 5
technique is performed with 100% accuracy of classification was seen.
Keywords: Data mining, text mining, text classification, similarity measurement.
1.
Giriş
Bilgisayar günlük hayatta yoğun ve etkin bir
şekilde kullanılmaktadır. Bu kullanım eldeki
veri miktarını oldukça arttırmıştır. Yüksek
boyutlardaki verilerin işlenmesinde klasik
veri işleme teknikleri yetersiz kalmış ve yeni
tekniklerin doğmasına neden olmuştur. Eldeki
büyük boyutlardaki verilerden fayda sağlayıcı
bilgileri
ortaya
çıkararak
veriyi
anlamlandırma işlemi olan veri madenciliği
bu tekniklerdendir [4]. Fakat veri, veri
madenciliği tekniklerini gerçekleştirmek için
uygun olmayabilir. Metinsel veriler veri
madenciliği işlemlerinde, olduğu gibi alınıp
doğrudan kullanılamaz. Bu durumda metin
madenciliği kullanılmakta ve metinler veri
madenciliğinde
uygulanabilir
dönüştürülmektedir [7].
formlara
yazı olduğu ile ilgili bilgi vermesi okuyucuya
zaman kazandırması açısından önemlidir.
Sistemin Yapısı ve Uygulanması
Metin sınıflandırma, önceden tanımlanmış
sınıflara dokümanların atanması işlemidir [8].
Sınıflandırma zaman alıcı bir işlemdir. Bunun
yanında
manuel
yöntemlerle
yapılan
sınıflandırmalarda
sınıflandırma
yapan
uzmanların vermiş oldukları kararlara bağlı
olarak sonuç değişebilmektedir. Bu sebeple
bilgisayarlar
yardımıyla
gerçekleştirilen
sınıflandırma zorunlu hale gelmiştir [5].
2.
Metinsel
verilerin
sınıflandırılmasında
metinler öncelikle ön işlemden geçirilir
ardından özellik seçimi uygulanır ve daha
sonra ağırlıklandırma yapılarak doküman
vektörleri elde edilir. Bu işlemlerin
gerçekleştirilmesi ile yapısal olmayan
metinsel verilerde yapısallık sağlanmıştır ve
veriler
veri
madenciliği
tekniklerinin
uygulanabileceği formatta elde edilmiş olur.
Bu çalışmada ekonomi, spor, sağlık, eğitim
ve yaşam kategorilerine ait dokümanların
sınıflandırılması
gerçekleştirilmiştir.
Çalışmada kullanılan eğitim ve test
dokümanları internet ortamında yayın yapan
günlük gazetelerdeki köşe yazılarıdır.
Banka, hastane, seyahat, alış/veriş ve daha
birçok işlemde kullanılan internet mail
alma/gönderme işleminin gerçekleştiği bir
ortam
olmanın
ötesine
geçmiştir.
Teknolojinin ucuzlaması, insanların yoğun iş
tempoları, veriye erişimin kolaylaşması, gün
içi gündemin bile sürekli değişmesi ve
günümüzde internete bilgisayar, tablet veya
cep telefonlarından erişimin mümkün olması
internet gazetelerine olan ilgiyi arttırmıştır.
Bu ilgi geleneksel gazetecilik denilen basılı
medyanın haber verme ortamında yeniliklere
sebep olmuş ve gazetelerin dijital ortama
taşınmasını zorunlu hale getirmiştir. İnternet
gazeteciliği denilen platformda özellikle son
dakika haberleri ve bu çalışmanın konusu
olan köşe yazıları yoğun olarak takip
edilmektedir.
Köşe yazarlarının genelde belirli bir alanda
yazmalarına karşın bazen de yazılarında
alanları
dışında
farklı
konulardan
bahsetmektedirler. Köşe yazılarında başlık
gibi içerikle ilgili bilgi verici bazı nitelikler
bulunabilir. Fakat bazı durumlarda başlıkla
içerik uyuşmayabilmektedir. Bu durumda
içeriğin analiz edilmesi ve hangi alanda bir
Sınıflandırma işlemi çeşitli alt işlemlerden
oluşur; veri seti elde edilir, ön işlem
uygulanır, özellik seçimi uygulanır, sözcük
ağırlıklandırma gerçekleştirilir, sınıf özellik
vektörü ve doküman vektörleri elde edilir,
benzerlikler hesaplanır ve sınıflandırma
gerçekleştirilir.
Bu
çalışmada
benzerlik
hesaplama
tekniklerinin performanslarının hem başarı
hem de işlem süresi olarak karşılaştırılması
amaçlanmıştır.
Bu
tekniklerin
metin
sınıflandırma başarısına olan etkileri köşe
yazıları kullanılarak ortaya konmuştur.
2.1 Veri Seti
Veri setinde yeteri kadar doküman
bulunmalıdır. Eğitim doküman sayısının
azlığı sınıflandırma başarısını düşürür [11].
Bunun yanında sınıflar arasındaki veri
sayılarının
dengesizliği,
dokümanların
kısalığı ve bir doküman içerisinde çok farklı
konulardan bahsedilmesi de sınıflandırma
başarısını düşürecektir.
Bu sebeple, bu duruma en uygun örneklerden
biri olan günlük yayın yapan gazetelerin
internet sitelerinden alınan köşe yazıları
tercih edilmiştir. 5 farklı gazeteden her sınıfta
eşit sayıda olmak üzere toplam 25 yazar yine
her sınıfta eşit sayıda olmak üzere toplam 500
eğitim ve 250 test dokümanı kullanılmıştır.
2.2 Ön İşlem
Metin analizi işlemlerinde sınıflandırma ve
benzerlik bulma metinle değil metni
oluşturan sözcüklerle yapılmaktadır. Ön
işlem aşaması eldeki verinin formatına göre
değişkenlik gösterebilir. Web verileri normal
metinlerin ön işlem aşamalarından farklıdır
ve şu şekildedir; metni HTML etiketlerinden,
özel karakterlerden, gereksiz kelimelerden
(stop words) temizlemek ve sonuçta elde
edilen
kelimeleri
köklerine
ayırarak
sözcükleri elde etmek [6].
Hem eğitim hem de test dokümanları
sınıflandırma öncesinde ön işlemden geçirilir
ve metni oluşturan kelimelerin kökleri olan
sözcükler elde edilir.
2.3 Özellik Seçimi
Metin sınıflandırma işlemi gerçekleştirilirken
eğitim ve test dokümanlarında geçen ve metni
oluşturan tüm sözcükleri çalışmaya dahil
etmek çalışma zamanını arttırmak anlamına
gelmektedir. Bunun yerine metni temsil ettiği
düşünülen sözcükleri seçmek sınıflandırma
süresini ciddi boyutlarda düşürecektir. Ayrıca
düşük boyutlu özellik vektörleri ile daha
başarılı sonuçlar elde edilebilmektedir [3]. Bu
sebeple özellik seçimi sadece boyut azaltarak
çalışma zamanın düşürülmesi şeklinde
değerlendirilmemeli, sınıflandırma başarısına
etkileri de göz önüne alınmalıdır.
Özellik seçiminin amacı sözcükleri seçmek,
vektör boyutunu azaltmak ve metin hakkında
bilgi verici niteliği bulunmayan sözcükleri
çıkarmaktır [12]. Özellik seçimi sonrasında
çalışmada kullanılacak sözcükler belirlenmiş
olur. Çalışmada iki farklı özellik seçimi tercih
edilmiştir;
• Yöntem1: Her sınıfta en fazla sayıda
dokümanda geçen ve her sınıftan 175’er
kelime ile oluşturulan sözlük.
• Yöntem2: Dokümanlardaki bütün ayrık
kelimelerle oluşturulan sözlük.
2.4 Sözcük Ağırlıklandırma
Özellik seçimi sonrası elde edilen sözcüklerin
kendileri değil onları temsil eden sayısal
değerleri kullanılır. Ağırlıklandırma işlemine
sözcüklerin doküman üzerindeki etkisi de
denilebilir [6]. Yapısal olmayan metinler
ağırlıklandırma ile tam olarak yapısal hale
dönüştürülmüş olur. Bu çalışmada binary, bit
veya boolean ağırlıklandırma şeklinde
isimlendirilen, sözcüğün doküman içerisinde
varlığı veya yokluğu ile ilgilenen ve birçok
çalışmada tercih edilen yöntem tercih
edilmiştir. Binary ağırlıklandırma Denklem
1’de verilmiştir.
wi = {
1 IF (i sözcüğü dokümanda geçiyorsa)
0
OTHERWISE
(1)
2.5 Sınıf Özellik ve Doküman Vektörü
Dokümanların
dokümanları
oluşturan
sözcüklerle vektör şeklinde ifade edilmesine
vektör uzay modeli denilmektedir [9]. Ön
işlem sonucu elde edilen metne özellik seçimi
uygulanarak çalışmada kullanılacak sözcükler
belirlenmiş olur.
Metin madenciliği çalışmalarında iki vektör
kullanılır; sınıf özellik vektörü ve doküman
vektörü. Sınıf özellik vektörü çalışmada
kullanılacak sözcüklerin vektörel ifadesidir.
Doküman vektörleri, sınıf özellik vektörünü
oluşturan sözcüklerin dokümanda geçme
durumlarına bağlı olarak
sözcüklerin
ağırlıklandırılmış halleriyle meydana gelmiş
vektörlerdir. Doküman vektörleri hem eğitim
hem de test dokümanları için kullanılmakta
olup X = {w1, w2 , w3 , … , wn } şeklinde ifade edilir.
Benzerlik hesaplama işlemleri bu vektörler
üzerinden gerçekleştirilir.
2.6 Benzerliklerin Hesaplanması
Test dokümanının hangi sınıfa ait olduğu test
doküman vektörü ile eğitim doküman
vektörleri arasındaki ilişkiye ve bu ilişkinin
seviyesine bağlıdır. Sınıflandırma işleminde
vektörel olarak ifade edilen eğitim ile test
dokümanları arasındaki benzerlik ve mesafe
ölçülür.
Benzerlik bazı metotlarda mesafe ölçümü
ilkesine dayanırken bazı metotlarda ilişki
seviyesi belirlenmesi ilkesine dayanır. Bu
çalışmada da tercih edilen ve X ile Y vektörü
arasındaki benzerliğin hesaplanması için
kullanılan tekniklere ilişkin formüller
Denklem 2 ile Denklem 18 arasında
verilmiştir.
Euclidean Distance;
2
d(X,Y)=√∑ni=1 (Xi -Yi )
(2)
Manhattan Distance;
d(X,Y)= ∑ni=1|Xi -Yi |
(3)
Minkowski Distance;
R 1/R
d(X,Y)= (∑ni=1|Xi -Yi | )
(4)
Canberra Distance;
d(X,Y)= ∑ni=1[|Xi -Yi |⁄(|Xi |+|Yi |)]
(5)
Bray Curtis Distance;
d(X,Y)= ∑ni=1|Xi -Yi |⁄∑ni=1(Xi +Yi )
(6)
Cosine Similarity;
d(X,Y)= ∑ni=1(Xi Yi )⁄√∑ni=1(Xi )2 ∑ni=1(Yi )2
(7)
Tanimoto Similarity;
d(X,Y)= ∑ni=1(Xi Yi )⁄[∑ni=1(Xi )2 + ∑ni=1(Yi )2 - ∑ni=1(Xi Yi )]
(8)
Dice Coefficient;
d(X,Y)= 2 ∑ni=1(Xi Yi )⁄[∑ni=1(Xi )2 + ∑ni=1(Yi )2 ]
(9)
Pearson Correlation Coefficient;
s1=n ∑ni=1(Xi Yi )- ∑ni=1 Xi ∑ni=1 Yi
2
2
s2=√n ∑ni=1(Xi )2 -( ∑ni=1 Xi ) √n ∑ni=1(Yi )2 -( ∑ni=1 Yi )
d(X,Y)= s1⁄s2
(10)
(11)
(12)
Inner Product;
d(X,Y)= ∑ni=1(Xi Yi )
(13)
Soergel;
d(X,Y)= ∑ni=1(Xi -Yi )⁄MAX⁡( ∑ni=1 Xi , ∑ni=1 Yi )
(14)
Overlap;
d(X,Y)= ∑ni=1(Xi Yi )⁄MIN⁡[∑ni=1(Xi )2 , ∑ni=1(Yi )2 ]
(16)
Squared Chord;
2
d(X,Y)= ∑ni=1 (√Xi -√Yi )
kNN, önceden belirlenmiş k değeri
kullanılarak
eğitim
dokümanlarından
sınıflandırılacak olan test dokümanına en çok
benzeyen k eğitim dokümanı içerisindeki en
fazla sayıda tekrar eden sınıfın test
dokümanının sınıfına atanmasıdır [2]. k
değeri
için
herhangi
bir
standart
bulunmamaktadır. Bu çalışmada k komşu
değeri 7 olarak kullanılmıştır.
Sınıflardaki eğitim doküman sayılarının
dengesizliği yani bir sınıfa ait eğitim
dokümanı sayısının başka bir sınıftakinden
fazla olması kNN’nin dezavantajıdır [1].
Böyle bir durumda k içerisine fazla sayıda
eğitim
dokümanına
sahip
sınıftan
dokümanların girme olasılığı yüksek olacaktır
ki bu sınıflandırma başarısını düşürecektir.
Bunlar göz önünde bulundurularak bu
çalışmada her sınıftan eşit sayıda eğitim ve
test dokümanı ile sınıflandırma işlemi
gerçekleştirilmiştir.
(15)
Harmonic Mean;
d(X,Y)=2 ∑ni=1[(Xi Yi )⁄(Xi + Yi )]
sınıflandırma işlemi gerçekleştirilir. Metin
sınıflandırma doğal dil metinleriyle çalışan
bir sınıflandırmadır [10]. Sınıflandırma işlemi
test dokümanı ile eğitim dokümanları
arasındaki yakınlığı dikkate alır. Test
dokümanı hangi eğitim dokümanına yakınsa
o eğitim dokümanın bulunduğu sınıfa ait
olduğu düşünülür. Test dokümanı ile bütün
eğitim dokümanlarının benzerlikleri tek tek
hesaplanır ve benzerlik değerine göre eğitim
dokümanları sıralanır.
2.8 Sınıflandırma Başarısı
Sınıflandırma
başarısının
Denklem 19 kullanılmıştır.
başarı =
(17)
3.
Squared x2;
2
d(X,Y)= ∑ni=1 [(Xi -Yi ) ⁄(Xi +Yi )]
(18)
2.7 k-nearest neighbors (kNN)
Algoritması ile Sınıflandırma
Metin sınıflandırma, önceden belirlenmiş
kategorilere dokümanların atanmasıdır [8].
Kullanılan
benzerlik
hesaplama
ve
sınıflandırma
algoritmasına
göre
doğru⁡sınıflandırılan⁡test⁡dokümanı⁡sayısı
toplam⁡test⁡doküman⁡sayısı
ölçülmesinde
× 100
(19)
Uygulama Sonuçları
Yöntem1, Yöntem2 özellik seçimleri ve 15
benzerlik hesaplama tekniği ile yapılan
sınıflandırmalara ilişkin sonuçlar ve işlem
süreleri Tablo 1, Tablo 2 ve Tablo 3’de
verilmiştir. Tablo 1’e göre Cosine ve Pearson
Correlation ile Tablo 2’ye göre ise Bray
Curtis, Tanimoto ve Dice benzerlik
hesaplama
teknikleri
ile
bütün
Sınıf Ortalaması
Squared x2
Squared Chord
Harmonic Mean
Overlap
Soergel
Inner Product
Dice
Pearson Correlation
düşüş gözlemlenmiştir. %100 doğruluk elde
edilen 5 tekniğin iki yöntemdeki başarıları
arasındaki fark %1’den azdır ve bu
tekniklerle iki yöntemde de yüksek
doğrulukta sınıflandırmalar yapılmıştır. İşlem
sürelerinin ise yakın olduğu gözlemlenmiştir.
Tanimoto
Cosine
Bray Curtis
Canberra
Manhattan
Euclidean
Ekonomi
Spor
Sağlık
Eğitim
Yaşam
Ortalama
Minkowski
sınıflandırmalar doğru gerçekleştirilmiştir.
Yöntem 2’de bazı tekniklerin başarılarının
oldukça düştüğü görülmüştür. Buna karşın
Yöntem2’de bazı tekniklerde artışlar da
dikkat çekmektedir. 7 tekniğin sınıflandırma
başarısında artış görülürken 8 teknikte ise
88
88
88
98
98
100
98
98
100
98
98
98
98
88
88
94.9
92
98
92
98
92
98
94
92
100
98
100
100
100
98
100
98
100
100
94
92
96
94
94
94
94
92
92
98
92
98
95.5
96.5
92
96
92
96
92
96
44
96
100
100
100
100
100
100
100
100
100
100
44
96
74
96
64
96
44
96
92
96
92
96
82.0
97.3
93.2
93.2
93.2
84.8
99.2
100.0
99.2
99.2
100.0
84.8
91.6
89.2
84.8
93.2
93.2
93.3
Sınıf Ortalaması
Squared x2
Squared Chord
Harmonic Mean
Overlap
Soergel
Inner Product
Pearson Correlation
Dice
Tanimoto
Cosine
Bray Curtis
Canberra
Manhattan
Euclidean
Ekonomi
Spor
Sağlık
Eğitim
Yaşam
Ortalama
Minkowski
Tablo 1. Yöntem1’e göre sınıflandırma sonuçları.
48
16
48
16
48
16
98
98
100
100
100
100
100
100
100
100
100
100
98
98
82
66
100
98
98
98
48
16
48
16
81.1
69.2
38
100
2
38
100
2
38
100
2
98
56
100
100
100
100
100
98
100
100
100
100
100
100
100
100
98
100
98
56
100
62
38
58
98
68
96
98
56
100
38
100
2
38
100
2
76.3
84.7
40.8
40.8
40.8
90.0
100.0
99.6
100.0
100.0
99.6
90.0
61.2
92.0
90.0
40.8
40.8
75.1
64.3
Yöntem1
Yöntem2
Ortalama
Sınıf Ortalaması
Squared x2
Squared Chord
Harmonic Mean
Overlap
Soergel
Inner Product
Pearson Correlation
Dice
Tanimoto
Cosine
Bray Curtis
Canberra
Minkowski
Manhattan
Euclidean
Tablo 2. Yöntem2’ye göre sınıflandırma sonuçları.
39
37
41
37
42
40
40
40
39
37
41
41
37
40
45
40
98
68.5
98
67.5
156
98.5
68
52.5
143
92.5
105
72.5
106
73.0
104
72.0
100
69.5
97
67.0
109
75.0
114
77.5
68
52.5
144
92.0
130
87.5
109
74.5
Tablo 3. İşlem süreleri (Saniye cinsinden).
4.
Sonuç ve Öneriler
Bu çalışmada kNN algoritması k=7 değeri ile
uygulanmıştır. Özellik seçimi olarak tercih
edilen iki farklı yöntem 15 farklı benzerlik
bulma tekniğiyle uygulanarak sınıflandırma
performansları değerlendirilmiştir. 5 farklı
benzerlik bulma tekniğiyle bütün test
dokümanlarının
tamamının
sınıflandırıldığı gözlemlenmiştir.
doğru
[8] Mitchell, T.M., “Machine learning”,
McCraw Hill (1997).
İlerleyen
çalışmalarda
daha
büyük
boyutlardaki veri seti, daha fazla sınıf, fazla
sayıda özellik seçimi ve ağırlıklandırma
teknikleriyle
sınıflandırma
işlemleri
gerçekleştirilerek
performansları
test
edilebilir.
[9] Salton, G., Wong, A. and Yang, C.S.,
“A vector space model for automatic
indexing” Communications of the ACM,
18(11): 613-620 (1975).
5.
Kaynaklar
[1] Coomans, D. and Massart, D.L.,
“Alternative k-nearest neighbour rules in
supervised pattern recognition : Part 1. kNearest neighbour classification by using
alternative voting rules”, Analytica Chimica
Acta, 136: 15-27 (1982).
[2] Dasarathy, B.V., “Nearest-neighbor
classification techniques”, IEEE Computer
Society Press, Los Alamitos, California
(1991).
[3] Durmaz, O. ve Bilge, H.Ş., “Metin
sınıflandırmada boyut azaltmanın etkileri ve
özellik seçimi”, Signal Processing and
Communications Applications (SIU 2011)
21-24 (2011).
[4] Han, J. and Kamber, M., “Data mining:
Concepts
and
techniques”,
Morgan
Kaufmann Publishers (2006).
[5] İlhan, U., “Application Of KNN and
FPTC based text categorization algorithms to
Turkish news reports”, Bilkent Üniversitesi
(2001).
[6] Karaca, M.F. ve Görgünoğlu, S.,
“ColumnREADY: İnternet gazeteleri köşe
yazılarını hazırlama uygulama yazılımı”,
Akademik Bilişim 2012, Uşak Üniversitesi,
Uşak (2012).
[7] Karadağ, A. ve Takçı, H., “Metin
madenciliği ile benzer haber tespiti”,
Akademik Bilişim 2010, Muğla Üniversitesi,
Muğla (2010).
[10] Soucy, P. and Mineau, G.W., “A simple
knn algorithm for text categorization”.
Proceedings
IEEE
International
Conference on Data Mining (ICDM ’01),
California, 647-648 (2001).
[11] Toraman, Ç., Can, F. ve Koçberber, S.,
“Developing a text categorization template
for Turkish news portals”, International
Symposium on INnovations in Intelligent
SysTems and Applications (INISTA 2011),
İstanbul, 379-383 (2011).
[12] Yang, Y. and Pedersen, J.O., “A
comparative study on feature selection in text
categorization”, Proceedings Fourteenth
International Conference on Machine
Learning (ICML’97), Nashville, Tennessee,
412-420 (1997).
Download