Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi Mehmet Fatih KARACA1, Mustafa GÜNEL1, Akif Alkan TAŞTAN1 1 Gaziosmanpaşa Üniversitesi, Erbaa Meslek Yüksekokulu, Tokat [email protected], [email protected], [email protected] Özet: Teknolojik gelişmeler bilgisayar kullanımını ve dolayısıyla bilginin yayılmasını arttırmıştır. Bu durum, veri miktarında oldukça büyük artışlara neden olmuştur. Büyük boyutlardaki verilerin manuel yöntemlerle analiz edilmesi pek mümkün olmamaktadır. Veri boyutunun artmasının sebebi olan bilgisayar, bu verileri işlemek için de kullanılmaktadır. Veri madenciliği, eldeki veriler kullanılarak yeni bilgiler çıkarma işlemidir. Dijital ortamdaki veriler içerisinde metinsel veriler bulunmaktadır. Metin madenciliği, yapısal olmayan bu verilerin madencilik işlemlerinde kullanılmak üzere yapısal veri haline dönüştürülmesi için kullanılmaktadır. Bu çalışmada, internet gazetelerindeki köşe yazılarının sınıflandırılmasında kNN algoritması ile 15 farklı benzerlik hesaplama tekniği uygulanmıştır. Bu tekniklerin elde ettiği sonuçlar hem başarı hem de işlem süresi olarak incelenmiş olup 5 teknikte %100 doğrulukla sınıflandırma gerçekleştirildiği görülmüştür. Anahtar Sözcükler: Veri madenciliği, metin madenciliği, metin sınıflandırma, benzerlik ölçümü. Evaluation of Similarity Measurement Techniques for Text Classification Abstract: Technological advances have increased the use of computers, and thus spread the knowledge. This has led to rather large increase in the amount of data. Manual methods of analyzing data in large size are not unlikely. Computer, the reason of the increasing size of the data, is used to process data. Data mining is a new information extraction using the available data. There are textual data in digital environment. Text mining is to realize for conversion of non-structural data into structured data. In this study, for the classification of the Internet newspaper columnist's columns 15 different similarity calculation techniques are applied with kNN algorithm. These techniques' results are examined as success and processing time and 5 technique is performed with 100% accuracy of classification was seen. Keywords: Data mining, text mining, text classification, similarity measurement. 1. Giriş Bilgisayar günlük hayatta yoğun ve etkin bir şekilde kullanılmaktadır. Bu kullanım eldeki veri miktarını oldukça arttırmıştır. Yüksek boyutlardaki verilerin işlenmesinde klasik veri işleme teknikleri yetersiz kalmış ve yeni tekniklerin doğmasına neden olmuştur. Eldeki büyük boyutlardaki verilerden fayda sağlayıcı bilgileri ortaya çıkararak veriyi anlamlandırma işlemi olan veri madenciliği bu tekniklerdendir [4]. Fakat veri, veri madenciliği tekniklerini gerçekleştirmek için uygun olmayabilir. Metinsel veriler veri madenciliği işlemlerinde, olduğu gibi alınıp doğrudan kullanılamaz. Bu durumda metin madenciliği kullanılmakta ve metinler veri madenciliğinde uygulanabilir dönüştürülmektedir [7]. formlara yazı olduğu ile ilgili bilgi vermesi okuyucuya zaman kazandırması açısından önemlidir. Sistemin Yapısı ve Uygulanması Metin sınıflandırma, önceden tanımlanmış sınıflara dokümanların atanması işlemidir [8]. Sınıflandırma zaman alıcı bir işlemdir. Bunun yanında manuel yöntemlerle yapılan sınıflandırmalarda sınıflandırma yapan uzmanların vermiş oldukları kararlara bağlı olarak sonuç değişebilmektedir. Bu sebeple bilgisayarlar yardımıyla gerçekleştirilen sınıflandırma zorunlu hale gelmiştir [5]. 2. Metinsel verilerin sınıflandırılmasında metinler öncelikle ön işlemden geçirilir ardından özellik seçimi uygulanır ve daha sonra ağırlıklandırma yapılarak doküman vektörleri elde edilir. Bu işlemlerin gerçekleştirilmesi ile yapısal olmayan metinsel verilerde yapısallık sağlanmıştır ve veriler veri madenciliği tekniklerinin uygulanabileceği formatta elde edilmiş olur. Bu çalışmada ekonomi, spor, sağlık, eğitim ve yaşam kategorilerine ait dokümanların sınıflandırılması gerçekleştirilmiştir. Çalışmada kullanılan eğitim ve test dokümanları internet ortamında yayın yapan günlük gazetelerdeki köşe yazılarıdır. Banka, hastane, seyahat, alış/veriş ve daha birçok işlemde kullanılan internet mail alma/gönderme işleminin gerçekleştiği bir ortam olmanın ötesine geçmiştir. Teknolojinin ucuzlaması, insanların yoğun iş tempoları, veriye erişimin kolaylaşması, gün içi gündemin bile sürekli değişmesi ve günümüzde internete bilgisayar, tablet veya cep telefonlarından erişimin mümkün olması internet gazetelerine olan ilgiyi arttırmıştır. Bu ilgi geleneksel gazetecilik denilen basılı medyanın haber verme ortamında yeniliklere sebep olmuş ve gazetelerin dijital ortama taşınmasını zorunlu hale getirmiştir. İnternet gazeteciliği denilen platformda özellikle son dakika haberleri ve bu çalışmanın konusu olan köşe yazıları yoğun olarak takip edilmektedir. Köşe yazarlarının genelde belirli bir alanda yazmalarına karşın bazen de yazılarında alanları dışında farklı konulardan bahsetmektedirler. Köşe yazılarında başlık gibi içerikle ilgili bilgi verici bazı nitelikler bulunabilir. Fakat bazı durumlarda başlıkla içerik uyuşmayabilmektedir. Bu durumda içeriğin analiz edilmesi ve hangi alanda bir Sınıflandırma işlemi çeşitli alt işlemlerden oluşur; veri seti elde edilir, ön işlem uygulanır, özellik seçimi uygulanır, sözcük ağırlıklandırma gerçekleştirilir, sınıf özellik vektörü ve doküman vektörleri elde edilir, benzerlikler hesaplanır ve sınıflandırma gerçekleştirilir. Bu çalışmada benzerlik hesaplama tekniklerinin performanslarının hem başarı hem de işlem süresi olarak karşılaştırılması amaçlanmıştır. Bu tekniklerin metin sınıflandırma başarısına olan etkileri köşe yazıları kullanılarak ortaya konmuştur. 2.1 Veri Seti Veri setinde yeteri kadar doküman bulunmalıdır. Eğitim doküman sayısının azlığı sınıflandırma başarısını düşürür [11]. Bunun yanında sınıflar arasındaki veri sayılarının dengesizliği, dokümanların kısalığı ve bir doküman içerisinde çok farklı konulardan bahsedilmesi de sınıflandırma başarısını düşürecektir. Bu sebeple, bu duruma en uygun örneklerden biri olan günlük yayın yapan gazetelerin internet sitelerinden alınan köşe yazıları tercih edilmiştir. 5 farklı gazeteden her sınıfta eşit sayıda olmak üzere toplam 25 yazar yine her sınıfta eşit sayıda olmak üzere toplam 500 eğitim ve 250 test dokümanı kullanılmıştır. 2.2 Ön İşlem Metin analizi işlemlerinde sınıflandırma ve benzerlik bulma metinle değil metni oluşturan sözcüklerle yapılmaktadır. Ön işlem aşaması eldeki verinin formatına göre değişkenlik gösterebilir. Web verileri normal metinlerin ön işlem aşamalarından farklıdır ve şu şekildedir; metni HTML etiketlerinden, özel karakterlerden, gereksiz kelimelerden (stop words) temizlemek ve sonuçta elde edilen kelimeleri köklerine ayırarak sözcükleri elde etmek [6]. Hem eğitim hem de test dokümanları sınıflandırma öncesinde ön işlemden geçirilir ve metni oluşturan kelimelerin kökleri olan sözcükler elde edilir. 2.3 Özellik Seçimi Metin sınıflandırma işlemi gerçekleştirilirken eğitim ve test dokümanlarında geçen ve metni oluşturan tüm sözcükleri çalışmaya dahil etmek çalışma zamanını arttırmak anlamına gelmektedir. Bunun yerine metni temsil ettiği düşünülen sözcükleri seçmek sınıflandırma süresini ciddi boyutlarda düşürecektir. Ayrıca düşük boyutlu özellik vektörleri ile daha başarılı sonuçlar elde edilebilmektedir [3]. Bu sebeple özellik seçimi sadece boyut azaltarak çalışma zamanın düşürülmesi şeklinde değerlendirilmemeli, sınıflandırma başarısına etkileri de göz önüne alınmalıdır. Özellik seçiminin amacı sözcükleri seçmek, vektör boyutunu azaltmak ve metin hakkında bilgi verici niteliği bulunmayan sözcükleri çıkarmaktır [12]. Özellik seçimi sonrasında çalışmada kullanılacak sözcükler belirlenmiş olur. Çalışmada iki farklı özellik seçimi tercih edilmiştir; • Yöntem1: Her sınıfta en fazla sayıda dokümanda geçen ve her sınıftan 175’er kelime ile oluşturulan sözlük. • Yöntem2: Dokümanlardaki bütün ayrık kelimelerle oluşturulan sözlük. 2.4 Sözcük Ağırlıklandırma Özellik seçimi sonrası elde edilen sözcüklerin kendileri değil onları temsil eden sayısal değerleri kullanılır. Ağırlıklandırma işlemine sözcüklerin doküman üzerindeki etkisi de denilebilir [6]. Yapısal olmayan metinler ağırlıklandırma ile tam olarak yapısal hale dönüştürülmüş olur. Bu çalışmada binary, bit veya boolean ağırlıklandırma şeklinde isimlendirilen, sözcüğün doküman içerisinde varlığı veya yokluğu ile ilgilenen ve birçok çalışmada tercih edilen yöntem tercih edilmiştir. Binary ağırlıklandırma Denklem 1’de verilmiştir. wi = { 1 IF (i sözcüğü dokümanda geçiyorsa) 0 OTHERWISE (1) 2.5 Sınıf Özellik ve Doküman Vektörü Dokümanların dokümanları oluşturan sözcüklerle vektör şeklinde ifade edilmesine vektör uzay modeli denilmektedir [9]. Ön işlem sonucu elde edilen metne özellik seçimi uygulanarak çalışmada kullanılacak sözcükler belirlenmiş olur. Metin madenciliği çalışmalarında iki vektör kullanılır; sınıf özellik vektörü ve doküman vektörü. Sınıf özellik vektörü çalışmada kullanılacak sözcüklerin vektörel ifadesidir. Doküman vektörleri, sınıf özellik vektörünü oluşturan sözcüklerin dokümanda geçme durumlarına bağlı olarak sözcüklerin ağırlıklandırılmış halleriyle meydana gelmiş vektörlerdir. Doküman vektörleri hem eğitim hem de test dokümanları için kullanılmakta olup X = {w1, w2 , w3 , … , wn } şeklinde ifade edilir. Benzerlik hesaplama işlemleri bu vektörler üzerinden gerçekleştirilir. 2.6 Benzerliklerin Hesaplanması Test dokümanının hangi sınıfa ait olduğu test doküman vektörü ile eğitim doküman vektörleri arasındaki ilişkiye ve bu ilişkinin seviyesine bağlıdır. Sınıflandırma işleminde vektörel olarak ifade edilen eğitim ile test dokümanları arasındaki benzerlik ve mesafe ölçülür. Benzerlik bazı metotlarda mesafe ölçümü ilkesine dayanırken bazı metotlarda ilişki seviyesi belirlenmesi ilkesine dayanır. Bu çalışmada da tercih edilen ve X ile Y vektörü arasındaki benzerliğin hesaplanması için kullanılan tekniklere ilişkin formüller Denklem 2 ile Denklem 18 arasında verilmiştir. Euclidean Distance; 2 d(X,Y)=√∑ni=1 (Xi -Yi ) (2) Manhattan Distance; d(X,Y)= ∑ni=1|Xi -Yi | (3) Minkowski Distance; R 1/R d(X,Y)= (∑ni=1|Xi -Yi | ) (4) Canberra Distance; d(X,Y)= ∑ni=1[|Xi -Yi |⁄(|Xi |+|Yi |)] (5) Bray Curtis Distance; d(X,Y)= ∑ni=1|Xi -Yi |⁄∑ni=1(Xi +Yi ) (6) Cosine Similarity; d(X,Y)= ∑ni=1(Xi Yi )⁄√∑ni=1(Xi )2 ∑ni=1(Yi )2 (7) Tanimoto Similarity; d(X,Y)= ∑ni=1(Xi Yi )⁄[∑ni=1(Xi )2 + ∑ni=1(Yi )2 - ∑ni=1(Xi Yi )] (8) Dice Coefficient; d(X,Y)= 2 ∑ni=1(Xi Yi )⁄[∑ni=1(Xi )2 + ∑ni=1(Yi )2 ] (9) Pearson Correlation Coefficient; s1=n ∑ni=1(Xi Yi )- ∑ni=1 Xi ∑ni=1 Yi 2 2 s2=√n ∑ni=1(Xi )2 -( ∑ni=1 Xi ) √n ∑ni=1(Yi )2 -( ∑ni=1 Yi ) d(X,Y)= s1⁄s2 (10) (11) (12) Inner Product; d(X,Y)= ∑ni=1(Xi Yi ) (13) Soergel; d(X,Y)= ∑ni=1(Xi -Yi )⁄MAX( ∑ni=1 Xi , ∑ni=1 Yi ) (14) Overlap; d(X,Y)= ∑ni=1(Xi Yi )⁄MIN[∑ni=1(Xi )2 , ∑ni=1(Yi )2 ] (16) Squared Chord; 2 d(X,Y)= ∑ni=1 (√Xi -√Yi ) kNN, önceden belirlenmiş k değeri kullanılarak eğitim dokümanlarından sınıflandırılacak olan test dokümanına en çok benzeyen k eğitim dokümanı içerisindeki en fazla sayıda tekrar eden sınıfın test dokümanının sınıfına atanmasıdır [2]. k değeri için herhangi bir standart bulunmamaktadır. Bu çalışmada k komşu değeri 7 olarak kullanılmıştır. Sınıflardaki eğitim doküman sayılarının dengesizliği yani bir sınıfa ait eğitim dokümanı sayısının başka bir sınıftakinden fazla olması kNN’nin dezavantajıdır [1]. Böyle bir durumda k içerisine fazla sayıda eğitim dokümanına sahip sınıftan dokümanların girme olasılığı yüksek olacaktır ki bu sınıflandırma başarısını düşürecektir. Bunlar göz önünde bulundurularak bu çalışmada her sınıftan eşit sayıda eğitim ve test dokümanı ile sınıflandırma işlemi gerçekleştirilmiştir. (15) Harmonic Mean; d(X,Y)=2 ∑ni=1[(Xi Yi )⁄(Xi + Yi )] sınıflandırma işlemi gerçekleştirilir. Metin sınıflandırma doğal dil metinleriyle çalışan bir sınıflandırmadır [10]. Sınıflandırma işlemi test dokümanı ile eğitim dokümanları arasındaki yakınlığı dikkate alır. Test dokümanı hangi eğitim dokümanına yakınsa o eğitim dokümanın bulunduğu sınıfa ait olduğu düşünülür. Test dokümanı ile bütün eğitim dokümanlarının benzerlikleri tek tek hesaplanır ve benzerlik değerine göre eğitim dokümanları sıralanır. 2.8 Sınıflandırma Başarısı Sınıflandırma başarısının Denklem 19 kullanılmıştır. başarı = (17) 3. Squared x2; 2 d(X,Y)= ∑ni=1 [(Xi -Yi ) ⁄(Xi +Yi )] (18) 2.7 k-nearest neighbors (kNN) Algoritması ile Sınıflandırma Metin sınıflandırma, önceden belirlenmiş kategorilere dokümanların atanmasıdır [8]. Kullanılan benzerlik hesaplama ve sınıflandırma algoritmasına göre doğrusınıflandırılantestdokümanısayısı toplamtestdokümansayısı ölçülmesinde × 100 (19) Uygulama Sonuçları Yöntem1, Yöntem2 özellik seçimleri ve 15 benzerlik hesaplama tekniği ile yapılan sınıflandırmalara ilişkin sonuçlar ve işlem süreleri Tablo 1, Tablo 2 ve Tablo 3’de verilmiştir. Tablo 1’e göre Cosine ve Pearson Correlation ile Tablo 2’ye göre ise Bray Curtis, Tanimoto ve Dice benzerlik hesaplama teknikleri ile bütün Sınıf Ortalaması Squared x2 Squared Chord Harmonic Mean Overlap Soergel Inner Product Dice Pearson Correlation düşüş gözlemlenmiştir. %100 doğruluk elde edilen 5 tekniğin iki yöntemdeki başarıları arasındaki fark %1’den azdır ve bu tekniklerle iki yöntemde de yüksek doğrulukta sınıflandırmalar yapılmıştır. İşlem sürelerinin ise yakın olduğu gözlemlenmiştir. Tanimoto Cosine Bray Curtis Canberra Manhattan Euclidean Ekonomi Spor Sağlık Eğitim Yaşam Ortalama Minkowski sınıflandırmalar doğru gerçekleştirilmiştir. Yöntem 2’de bazı tekniklerin başarılarının oldukça düştüğü görülmüştür. Buna karşın Yöntem2’de bazı tekniklerde artışlar da dikkat çekmektedir. 7 tekniğin sınıflandırma başarısında artış görülürken 8 teknikte ise 88 88 88 98 98 100 98 98 100 98 98 98 98 88 88 94.9 92 98 92 98 92 98 94 92 100 98 100 100 100 98 100 98 100 100 94 92 96 94 94 94 94 92 92 98 92 98 95.5 96.5 92 96 92 96 92 96 44 96 100 100 100 100 100 100 100 100 100 100 44 96 74 96 64 96 44 96 92 96 92 96 82.0 97.3 93.2 93.2 93.2 84.8 99.2 100.0 99.2 99.2 100.0 84.8 91.6 89.2 84.8 93.2 93.2 93.3 Sınıf Ortalaması Squared x2 Squared Chord Harmonic Mean Overlap Soergel Inner Product Pearson Correlation Dice Tanimoto Cosine Bray Curtis Canberra Manhattan Euclidean Ekonomi Spor Sağlık Eğitim Yaşam Ortalama Minkowski Tablo 1. Yöntem1’e göre sınıflandırma sonuçları. 48 16 48 16 48 16 98 98 100 100 100 100 100 100 100 100 100 100 98 98 82 66 100 98 98 98 48 16 48 16 81.1 69.2 38 100 2 38 100 2 38 100 2 98 56 100 100 100 100 100 98 100 100 100 100 100 100 100 100 98 100 98 56 100 62 38 58 98 68 96 98 56 100 38 100 2 38 100 2 76.3 84.7 40.8 40.8 40.8 90.0 100.0 99.6 100.0 100.0 99.6 90.0 61.2 92.0 90.0 40.8 40.8 75.1 64.3 Yöntem1 Yöntem2 Ortalama Sınıf Ortalaması Squared x2 Squared Chord Harmonic Mean Overlap Soergel Inner Product Pearson Correlation Dice Tanimoto Cosine Bray Curtis Canberra Minkowski Manhattan Euclidean Tablo 2. Yöntem2’ye göre sınıflandırma sonuçları. 39 37 41 37 42 40 40 40 39 37 41 41 37 40 45 40 98 68.5 98 67.5 156 98.5 68 52.5 143 92.5 105 72.5 106 73.0 104 72.0 100 69.5 97 67.0 109 75.0 114 77.5 68 52.5 144 92.0 130 87.5 109 74.5 Tablo 3. İşlem süreleri (Saniye cinsinden). 4. Sonuç ve Öneriler Bu çalışmada kNN algoritması k=7 değeri ile uygulanmıştır. Özellik seçimi olarak tercih edilen iki farklı yöntem 15 farklı benzerlik bulma tekniğiyle uygulanarak sınıflandırma performansları değerlendirilmiştir. 5 farklı benzerlik bulma tekniğiyle bütün test dokümanlarının tamamının sınıflandırıldığı gözlemlenmiştir. doğru [8] Mitchell, T.M., “Machine learning”, McCraw Hill (1997). İlerleyen çalışmalarda daha büyük boyutlardaki veri seti, daha fazla sınıf, fazla sayıda özellik seçimi ve ağırlıklandırma teknikleriyle sınıflandırma işlemleri gerçekleştirilerek performansları test edilebilir. [9] Salton, G., Wong, A. and Yang, C.S., “A vector space model for automatic indexing” Communications of the ACM, 18(11): 613-620 (1975). 5. Kaynaklar [1] Coomans, D. and Massart, D.L., “Alternative k-nearest neighbour rules in supervised pattern recognition : Part 1. kNearest neighbour classification by using alternative voting rules”, Analytica Chimica Acta, 136: 15-27 (1982). [2] Dasarathy, B.V., “Nearest-neighbor classification techniques”, IEEE Computer Society Press, Los Alamitos, California (1991). [3] Durmaz, O. ve Bilge, H.Ş., “Metin sınıflandırmada boyut azaltmanın etkileri ve özellik seçimi”, Signal Processing and Communications Applications (SIU 2011) 21-24 (2011). [4] Han, J. and Kamber, M., “Data mining: Concepts and techniques”, Morgan Kaufmann Publishers (2006). [5] İlhan, U., “Application Of KNN and FPTC based text categorization algorithms to Turkish news reports”, Bilkent Üniversitesi (2001). [6] Karaca, M.F. ve Görgünoğlu, S., “ColumnREADY: İnternet gazeteleri köşe yazılarını hazırlama uygulama yazılımı”, Akademik Bilişim 2012, Uşak Üniversitesi, Uşak (2012). [7] Karadağ, A. ve Takçı, H., “Metin madenciliği ile benzer haber tespiti”, Akademik Bilişim 2010, Muğla Üniversitesi, Muğla (2010). [10] Soucy, P. and Mineau, G.W., “A simple knn algorithm for text categorization”. Proceedings IEEE International Conference on Data Mining (ICDM ’01), California, 647-648 (2001). [11] Toraman, Ç., Can, F. ve Koçberber, S., “Developing a text categorization template for Turkish news portals”, International Symposium on INnovations in Intelligent SysTems and Applications (INISTA 2011), İstanbul, 379-383 (2011). [12] Yang, Y. and Pedersen, J.O., “A comparative study on feature selection in text categorization”, Proceedings Fourteenth International Conference on Machine Learning (ICML’97), Nashville, Tennessee, 412-420 (1997).