Türkçe Haber Yazılarında Sosyal Ağların İncelenmesi Çağrı Toraman, Fazlı Can Bilgi Erişim Grubu, Bilgisayar Mühendisliği Bölümü, Bilkent Üniversitesi, Ankara {ctoraman, fcan}@cs.bilkent.edu.tr Özet: Sosyal ağlar, çeşitli aktör düğümleri arasındaki gizli veya açık ilişkileri ortaya çıkaran yapılardır. Bu çalışmada sosyal ağlar Türkçe haber koleksiyonları üzerinde bulunmakta ve sosyal ağ düğümleri haber aktörleri olmaktadır. Haber aktörleri insan, yer ve organizasyon olarak üç farklı kategoride incelenmektedir. Haber aktörleri varlık ismi tanımlama yaklaşımıyla, haber aktörleri arasındaki ilişkiler ise ortaklık bilgisi ve olasılık kuramı-tabanlı yöntem kullanılarak bulunmaktadır. Hazırladığımız Sozcu2014 haber koleksiyonu üzerinde önerdiğimiz yöntemler uygulanmakta ve elde ettiğimiz sosyal haber ağları incelenmektedir. Anahtar Sözcükler: Haber Aktörü, Sosyal Ağ, Varlık İsmi Tanımlama. Social Network Analysis on News Articles Abstract: Social networks reveal direct and hidden relationships between actors. In this study, we find social networks of news actors on news articles. News actors are examined in three categories as people, place, and organization. We detect those actors by named entity recognition. Relationships between news actors are found by the cooccurence-based and c3mbased approaches. We apply these approaches on a newly generated news collection Sozcu2014 to analyze the social networks of news actors in this collection. Keywords: Named Entity Recognition, News Actor, Social Network. 1. Giriş Sosyal ağ çalışmaları bir ağ yapısındaki düğümler arasındaki gizli veya açık bağlantıları bulmaya yönelik geniş yelpazeli bir uygulama alanına sahiptir [12]. Sosyal ağlardaki düğümler “sosyal ağ” deyiminin çağrışımlarının aksine insanlarla sınırlı değildir; düğümler web sayfası, yer, film, bilimsel makele vb. olabilir. Sosyal ağ çalışmalarında düğümler arasındaki bağlar için verilebilecek örnekler arasında Facebook ve Twitter gibi sosyal ağlarda görülen arkadaşlık/izleyici bağı, e-posta yazışmaları, web sayfalarındaki linkler, bilimsel makalelerdeki referanslar sayılabilir. Bu çalışmada sosyal ağlar haber yazılarında haber aktörleri arasındaki açık ya da gizli ilişkileri bulmak için kullanılmaktadır. Elde edilen aktör ilişkileri çeşitli amaçlar için kullanılabilir. Örneğin haber yazıları arasındaki ilişkiler haber aktörleri arasındaki ilişkilerden yola çıkarak elde edilebilir. Başka bir uygulama alanı sosyal aktörlerin haberlerde gözükme sıklığının incelenmesi olabilir. Elde edilecek inceleme sonuçları sosyal ve siyaset bilimlerinde ya da istihbarat çalışmalarında kullanılabilir. Ayrıca sosyal ağ kavramı günlük hayatta sıradan insanların da ilgisini çekmektedir. Buna örnek olarak 4 Eylül 2008'den 24 Haziran 2010 tarihleri arasında Kanal D'de gösterilen Aşk-ı Memnu dizisi için izleyicilerin hazırladığı "aşk" sosyal ağı (http://cs.bilkent.edu.tr/ ~ctoraman/askimemnu.jpg) örnek olarak gösterilebilir. Haber aktörleri varlık ismi tanımlama (named entity recognition) yaklaşımıyla bulunmaktadır. Varlık ismi tanımlama yazılarda önemli varlık isimlerini tespit etmeyi ve sınıflandırmayı amaçlamaktadır. Bu varlıklar insan, organizasyon, yer ya da zaman bilgisi olabilir. Bu makalede insan, organizasyon ve yer bilgileri haber aktörü olarak tanımlanmaktadır. Haber aktörleri arasındaki ilişkiler ise geliştirdiğimiz ortaklık bilgisi ve olasılık kuramı-tabanlı yöntemler kullanılarak bulunmaktadır. 2. Literatür Özeti Bu bölümde sosyal ağlar ve varlık ismi tanımlama ile ilgili literatür özeti verilmektedir. 2.1 Sosyal Ağlar Sosyal ağ inceleme algoritmalarından en çok bilineni olan PageRank [4] her biri bir sosyal aktör olarak kabul edilen web sayfaları arasındaki bağlantılar için web sayfaları arasındaki link bilgileri kullanmaktadır. Sosyal ağ çalışmalarında düğümler arasındaki ilişkiler Facebook ve Twitter gibi ağlarda arkadaşlık bağı ile kolaylıkla bulunabilir. Kimi durumlardaysa bu bağlantılar açık bir şekilde olmayabilir ve başka gözlemlerden hareketle tahmin edilmeleri veya varsayılmaları gerekebilir. Örneğin Özgür ve Bingöl [15] Reuters haber metinlerinde geçen haber aktörlerinin aynı dokümanda bulunması durumunu aktörler arasında bağlantı olarak etiketlemişlerdir. Araştırma grubumuzun yaptığı tarihsel metinlere yoğunlaşan bir çalışmadaysa Evliyâ Çelebi’nin Seyahatnâme’sinin Bitlis bölümündeki sosyal aktörler incelenmiştir. Bu aktörler arasındaki bağlantıları saptamak amacıyla bu karakterlerin belli bir kelime uzaklığında (kelime penceresinde) olmaları alışverişte iki ayrı ürünün aynı pazar sepetinde (shopping basket) olmasına benzetilmiştir [10]. Daha sonra Apriori [1] algoritması aracılığıyla, ilişki madenciliği (association mining) kavramı kullanılarak, sosyal aktörlerin kelime pencerelerinde birlikte geçiş frekansları göz önünde bulundurularak Bitlis bölgesinin o zamanki doğrudan tanımlanmamış olan sosyal ağ yapısı ortaya çıkartılmıştır. Üretilen sosyal ağ yapısının doğruluğu bir tarihçi uzmanın ürettiği sosyal ağ ile karşılaştırılarak gösterilmiştir. 2.2 Varlık İsmi Tanımlama Varlık ismi tanımlama genel olarak kuraltabanlı, makine öğrenme-tabanlı ve hibrit olarak üç farklı kategoriye ayrılmaktadır [2]. Kural-tabanlı yöntemlerde yazılar uzmanlar tarafından daha önce tanımlanmış kurallar tarafından işlenir. Bu kurallara örnek olarak düzenli ifadeler (regular expressions) ve sözlüksel kaynaklar (lexical resources) verilebilir. Makine öğrenme-tabanlı yöntemlerin amacı bir öğrenme algoritması aracılığıyla öğrenme modeli oluşturmaktır. Daha sonra bu öğrenme modeli varlık ismi bilinmeyen yazılara uygulanmakta ve varlık isimleri bulunmaktadır. Literatürde çeşitli öğrenme algoritmalarını varlık ismi tanımlamak için kullanan çalışmalar bulunmaktadır [13]. Hibrit yöntemler kural-tabanlı ve makine öğrenme-tabanlı yöntemlerin beraber kullanıldığı yöntemlerdir [8]. Literatürde varlık isimlerinin bulunmasını sağlayan hazır araçlar vardır [13]. Ancak hemen hemen hepsi Türkçe'yi desteklememektedir. Buna istisna olarak Avrupa Birliği Birleşik Araştırma Merkezi tarafından geliştirilmiş olan ve Türkçe gibi birçok dili destekleyen JRC-Names [9] programı bulunmaktadır. Ayrıca Türkçe varlık ismi tanımlama için İTÜ Türkçe NLP Grubu'nun CRF algoritmasını kullanan bir çalışması bulunmaktadır [16]. Küçük ve Yazıcı [11] tarafından birçok örüntü ve sözlük kaynağından yararlanan kural-tabanlı Türkçe varlık ismi tanımlama yaklaşımı geliştirilmiştir. 3. Sosyal Ağ Oluşturma Aşamaları Bu bölümde haber yazılarında sosyal ağları nasıl oluşturduğumuz anlatılmaktadır. Öncelikle Türkçe varlık ismi tanımlama aracını belirlemekte ve haber aktörlerini belirlenen araç ile elde etmekteyiz. Daha sonra haber aktörleri arasındaki ilişkileri bulmaktayız. 3.1 Haber Aktörlerinin Bulunması Literatürdeki birçok açık-kaynaklı varlık ismi tanımlama aracı arasından kullanacağımız Türkçe haber koleksiyonuna en uygun olanı yaptığımız ön-deneyler sonucu Küçük ve Yazıcı'nın yöntemi [11] olmuştur. Bu yüzden haber aktörlerini Küçük ve Yazıcı'nın yöntemi ile bulmaktayız. Haber aktörlerini insan, organizasyon ve yer isimleri olarak üç farklı kategoride incelenmekteyiz. Kullandığımız yöntem ile elde edilen sonuçlarda birçok sorun gözlemlenmiştir. Bunlardan biri bulunan birçok insan isminin eksik ya da soyisimsiz olmasıdır. Bir diğeri ise bulunan farklı varlık isimlerinin aynı varlığa tekabül etmesidir. Örneğin Atatürk ve Gazi Mustafa Kemal bulunan iki farklı isimlerdir; ancak aynı kişiyi işaret etmektedir. Bu sorun varlık ismi çözümlemesi (named entity resolution) [7] yöntemleri ile çözülmektedir. Türkçe için varlık ismi çözümlemesi zor bir görevdir; bu yüzden bu çalışmada gözle kontrol edilerek yapılmıştır. Öncelikle bütün varlık isimlerinin yazı içerisinde bir önceki ve bir sonraki kelimeleri elde edilmiştir. Bu kelimelere bakılarak varlık isminin ne olduğunu tahmin eden kurallar yazılmıştır. Ayrıca aynı varlığa tekabül eden farklı varlık isimleri için kurallar yazılmış ve uygulanmıştır. 3.2 Haber Aktörleri Arasındaki İlişkilerin Bulunması Haber aktörleri elde edildikten sonra ortaklık bilgisi ve olasılık kuramı-tabanlı yöntemler kullanılarak sosyal ağlar yaratılmaktadır. 3.2.1 Ortaklık Bilgisi-Tabanlı Yöntem Bu yöntem ile aynı haber içerisinde gözüken haber aktörleri arasında bağlantı bulunduğu varsayılmaktadır [15]. Ortak bulundukları haber sayıları bağlantı ağırlığı olarak atanacaktır. Düğümler arasında bulunan bağlantıların yön bilgisi yoktur, yani bağlantılar simetriktir. 3.2.2 Olasılık Kuramı-Tabanlı Yöntem Bu yöntem sosyal aktörler arasındaki ilişkileri yönü ve ağırlığı ile detaylı bir biçimde tanımlayan bir yöntem hedeflenmektedir. Daha önceki araştırmalarımızda geliştirdiğimiz kapsama katsayısı -- cover coefficient --, formatsız belgelerin gruplandırılması amacına yöneliktir [5]. Bu makalede sosyal ağ, yani sosyal aktörler arasındaki ilişkiler iki-aşamalı bir olasılık deneyi ile kapsama katsayısı kavramı kullanılarak elde edilecektir. Kapsama katsayısı iki aşamalı bir olasılık deneyi sonucunda şu formülle hesaplanır (1 ≤ i, j ≤ m): 𝑐𝑖𝑗 = 𝛼𝑖 × ∑𝑛𝑘=1 𝑑𝑖𝑘 × 𝛽𝑘 × 𝑑𝑗𝑘 Kavramın ve formülün çalışma ilkesi bir örnekle Şekil 1'de sunulmaktadır. D matrisinde her satır bir sosyal aktörü her sütun farklı haber yazılarını temsil etmektedir. Bu tanıma göre D matrisinin her bir satırı sırayla A1, A2, A3, A4 ve A5 aktörlerini temsil etmekte ve sütunlar sırayla h1, h2, h3 ve h4 haber metinlerini göstermektedir. D matrisinin dij şeklinde ifade edilen elemanı i=1 olduğunda A1 aktörüne karşılık gelmekte ve benzer şekilde i=5 ise A5 aktörüne karşılık gelmektedir ve j=1 ise h1 haberine ve j=4 ise h4 haberine karşılık gelmektedir ve D matrisinin dij i’ye karşılık gelen aktörün j’ye karşılık gelen haberin haber metni içinde kaç kez geçtiğini (frekansını) göstermektedir. Örneğin Şekil 1’de d54=3 A5 aktörünün h4’de 3 kez bahsedildiğini göstermektedir. Bir aktörün ve bir haberin bu matriste yer alması için kendisine karşılık gelen satır ve sütunda en az bir adet sıfırdan büyük eleman içermesi gerekmektedir. Yukarıdaki formülde cij (1 ≤ i, j ≤ m) ℎ1 𝐴1 2 𝐴 2 D= 2 𝐴3 0 𝐴4 0 𝐴5 [ 0 ℎ2 0 1 1 0 0 ℎ3 0 0 1 1 0 ℎ4 0 0 0 2 3] 2/4 𝐴1 2/4 𝐴2 1/2 𝐴2 1/2 𝐴3 ℎ1 2/3 𝐴2 ℎ2 1/3 0.50 0.33 C= 0.00 0.00 [0.00 0.50 0.48 0.25 0.00 0.00 0.00 0.16 0.50 0.16 0.00 0.00 0.00 0.25 0.42 0.40 0.00 0.00 0.00 0.40 0.60] Şekil 1. Soldan sağa: 1. Sosyal aktörleri temsil eden D matrisi (m= 5 aktör sayısı, n= 4 haber sayısı), d ij aktör Ai'nin haber hj’de kaç kez bahsedildiğini göstermektedir, örneğin d 54= 3 A5 aktörünün h4’de 3 kez bahsedildiğini göstermektedir; 2. Kapsama katsayısını temsil eden iki aşamalı olasılık deneyi ağaç yapısının A2 için olan örnek gösterimi; 3. Bütün sosyal aktörler arasındaki ilişkiyi gösteren C matrisi (c ij: Ai aktörünün Aj aktörüne verdiği önem’dir. 0.50 0.42 A1 0.50 0.25 A3 0.16 A4 0.33 0.50 0.25 A2 0.16 0.48 0.40 0.40 A5 0.60 Şekil 2. Beş sosyal aktörden oluşan Sekil 1'deki sosyal ağın kapsama katsayısı kavramı ile gösterilişi. Aj aktörünün Ai aktörü tarafından ne kadar kapsandığını (Ai içinde olduğu haberlerden birinin rastgele seçilmesi halinde bu haberin Aj’den gelme ihtimalini) göstermektedir ve bu kavram kapsama katsayısı (cover coefficient) olarak adlandırılmıştır. Burada anlatılan cij tarafından temsil edilen iki aşamalı olasılık deneyinin dokümanlar ve terimler göz önüne alınarak yapılan açıklaması ilgili yayınımızda bulunabilir [5]. Söz konusu çalışmada cij, di dokümanının dj ne kadar kapsadığı olarak tanımlanmıştır. Biz bu çalışma bağlamında cij ile temsil edilen değeri Ai aktörünün Aj aktörüne verdiği önem olarak tanımlıyoruz. Şekil 1 ve 2’den görüleceği gibi A2’ye gelen kapsama ağırlıklarının toplamı yani A2’nin popülerliği 1.23’e eşittir (0.50 + 0.48 + 0.25). Benzer şekilde A4’e gelen kapsama ağırlıklarının toplamı yani bu aktörün popülerliği 1.07’ye eşittir (0.25 + 0.42 + 0.40). Lider (merkez, hub) olma özelliği taşıyan düğümlere doğru çok sayıda başka düğümden kaynaklanan yüksek değerli bağlantı olacaktır ve kendi kendisinden ileri gelen popülerliği (öz popülerliği: cii değeri) bu aktör popülerlik değerindeki önemsiz boyutlarda olacaktır. Bu türden merkez veya lider olma özelliği taşıyan aktörler çok sayıda farklı haberde gözükecekleri için çok sayıda farklı aktörün bu aktörle ilişkisi olacak ve dolayısıyla çok sayıda ok bu aktöre doğru işaret edecektir. Bu aktörden de aynı sayıda farklı aktöre doğru bağlantı olacak ancak bu değerler küçük miktarlarda olabilecektir çünkü bir aktörün kendi dahil bütün aktörlere verebileceği önemlerin toplamı 1’e eşittir. 4. Türkçe Haberlerde Sosyal Ağların İncelenmesi Bu bölümde yeni oluşturduğumuz Sozcu2014 haber koleksiyonu anlatılmakta ve yöntemlerimizin Sozcu2014 üzerinde uygulanması sonucu elde ettiğimiz sosyal ağlar incelenmektedir. 4.1 Sozcu2014 Haber Koleksiyonu Sosyal aktör ağlarını oluşturmak için güncel Türkçe haber yazılarından oluşan bir koleksiyona ihtiyaç vardır. Bu çalışmada Bilkent Haber Portalı [3] kullanılarak yeni bir haber koleksiyonu oluşturulmuştur. 2014'ün ilk çeyreğinde RSS kaynaklarıyla elde edilen haberler incelendikten sonra Sözcü (www.sozcu.com.tr) kaynağından gelen haberlerin diğer kaynaklardan gelen haberlere göre daha fazla sayıda ve düzenli olduğu gözlemlenmiştir. Bu yüzden Sözcü kaynağından 2014 ilk çeyreğinde elde edilen haber yazıları kullanılmış ve haber koleksiyonunun adı Sozcu2014 olarak belirlenmiştir. Haber koleksiyonunun sorunsuz ve temiz olması için elde edilen haber yazıları çeşitli süzme işlemlerinden geçirilmiştir. Bunlar, tekrar eden dokümanların, gizli reklamların ve okuyucu yorumlarının tespit edilip silinmesi vb. işlemlerdir. Yukarıdaki temizlik aşamaları yapıldıktan sonra Sozcu2014 haber koleksiyonu 20/12/2013 ile 11/03/2014 tarihleri arasına ait 1656 dokümandan oluşmaktadır. 4.2 Sozcu2014'te Varlık İsmi Tanımlama Küçük ve Yazıcı'nın yöntemi Sozcu2014'e uygulandıktan ve varlık ismi çözümlemesi yapıldıktan sonra Tablo 1'deki istatistiksel veriler elde edilmiştir. Elde edilen tüm varlık isimleri ve bulundukları doküman Tablo 1. Sozcu2014 üzerinde varlık ismi tanımlama ve çözümlemesi uygulandıktan sonra elde edilen istatistiksel veriler. Cins Toplam Sayı Doküman 1656 İnsan 2890 Organizasyon 915 Yer 1152 sayıları uzun yer kapladığından dolayı bu makaleye eklenmemiştir. İstendiği takdirde http://cs.bilkent.edu.tr/~ctoraman/tubitak/akt or_listesi.pdf adresinden indirilebilir. En sık gözüken ilk 10 insan, organizasyon ve yer sırasıyla Tablo 2, 3 ve 4'te listelenmiştir. Tablo 2. Sozcu2014'te sık gözüken ilk 10 insan. İsim RECEP TAYYİP ERDOĞAN BİLAL ERDOĞAN FETHULLAH GÜLEN ABDULLAH GÜL DEVLET BAHÇELİ MUSTAFA SARIGÜL MUSTAFA KEMAL ATATÜRK KEMAL KILIÇDAROĞLU TOPBAŞ DENİZ Doküman Sayısı 363 79 57 55 41 40 36 35 33 32 Tablo 3. Sozcu2014'te sık gözüken ilk 10 organizasyon. İsim AKP CHP TBMM MHP ADALET AB MİT BAŞBAKANLIK EMNİYET MÜDÜRLÜĞÜ HÜRRİYET Doküman Sayısı 294 234 182 91 76 65 54 50 50 46 Tablo 4. Sozcu2014'te sık gözüken ilk 10 yer. İsim TÜRKİYE İSTANBUL ANKARA ABD İZMİR SURİYE AVRUPA AMERİKA RUSYA AYDIN Doküman Sayısı 435 360 176 122 105 71 68 61 53 50 Gözle kontrol ederek varlık ismi çözümlemesi yapmamıza rağmen Tablo 2'de görüldüğü üzere DENİZ gibi bazı varlık isimleri tam olarak çözümlenmemiştir. DENİZ ismi Küçük ve Yazıcı'nın yönteminde her zaman insan ismi olarak tanımlanmıştır; ancak deniz piyade ya da Deniz Feneri gibi örnekler bu duruma aykırıdır. Bu tarz sorunların çözümlenmesi için daha gelişmiş algoritmalara ihtiyaç vardır. İnsan, organizasyon ve yer isimleri doküman sayılarına göre istatistiksel olarak incelenmiş ve “power-law” dağılımına uydukları “goodness-of-fit” testi ile tespit edilmiştir (sırasıyla p=0.56, 0.95 ve 0.12) [6]. Buna göre az sayıda insan, organizasyon ve yer ismi deney derleminde önemliyken diğerleri daha önemsizdir. Bu gözlem bir sonraki bölümde sosyal aktör ağlarını oluşturduğumuzda da geçerli olmaktadır. 4.3 Sozcu2014'te Sosyal Ağlar Elde edilen varlık isimleri kullanılarak sosyal aktör ağları oluşturulacaktır. Sosyal aktör ağlarının görüntülenmesi Pajek programı [14] ile yapılmıştır. Sosyal ağlar makalede yer kısıtlaması olduğu ve bütün isimler hesaba katıldığında oluşacak sosyal ağların görüntüleri anlaşılamaz hale geldiğinden için sadece en sık görülen 10 ve 100 insan ismi için sunulmaktadır. Şekillerdeki veriler elektronik ortamda okunabilmektedir. Sozcu2014'te en sık görülen 10 insan ismi için ortaklık bilgisi-tabanlı yöntem kullanılarak elde edilen sosyal ağ Şekil 3'te gösterilmektedir. Düğümler insanları, çizgiler ise düğümlerin arasındaki bağlantıları temsil etmektedir. Çizgi üzerindeki rakamlar iki insanın ortak olarak gözüktüğü haber dokümanı sayısını temsil etmektedir. Olasılık kuramı-tabanlı yöntem kullanılarak Sozcu2014'te en sık görülen 10 insan ismi için elde edilen sosyal aktör ağıysa Şekil 4'te gösterilmektedir. Çizgi üzerindeki rakamlar Bölüm 3.2.2'de anlatılan C matrisi ile elde edilen kapsama ağırlıklarını temsil etmektedir. Kapsama ağırlıkları sıfıra yakın olan çizgiler bizim için önemsiz bağlantılardır. Bu yüzden belirli bir eşik değerini (threshold) geçemeyen kapsama ağırlıklarına sahip çizgiler elenmiştir. Şekil 4'teki eşik değeri 0.01'dir. Şekil 4'te Recep T. Erdoğan, Bilal Erdoğan'ı 0.05 değeriyle kapsamaktadır, Bilal Erdoğan ise Recep T. Erdoğan'ı 0.38 ile kapsamaktadır. Başka bir deyişle, önerdiğimiz yönteme göre, Recep T. Erdoğan'ın Bilal Erdoğan'a gösterdiği önem 0.05'tir, Bilal Erdoğan'ın Recep T. Erdoğan'a gösterdiği önem ise 0.38'dir. Bir insandan giden kapsama katsayıları toplamı (gösterdiği önemler) her zaman 1'dir. Bir aktöre gelen önemlerin toplamı o aktörün popülerliğidir. Örneğin Recep T. Erdoğan'a gelen önemlerin toplamı 1.75 iken Abdullah Gül'e gelenlerin toplamı 0.10'dur. Düğüm üzerinde gözüken rakam aktörün kendine gösterdiği önem ya da öz-popülerliğidir. Çekim gücü özpopülerliğinden yüksek olan aktörler diğer aktörlere göre daha önemlidir. Kapsama katsayısı eşik değeri 0.01'den 0.05'e yükseltildiğinde en sık görülen 10 ve 100 insan için sosyal aktör ağları Şekil 5'teki gibidir. Bu eşik değeri ile daha az bağlantı yaratılmıştır ve bazı aktör ilişkileri kaybolmuştur. Örneğin Mustafa Sarıgül ile Kemal Kılıçdaroğlu arasında bir bağlantı olması mantıklıdır; ancak eşik değeri 0.05 ile bu bağlantı kaybolmaktadır. Düşük eşik değeri uygulamak ise gereksiz veya gerçekte olmayan bağlantılar yaratabilmektedir. Örneğin eşik değeri 0.01 iken Bilal Erdoğan ile Mustafa Kemal Atatürk arasında bağlantı oluşmaktadır. Bu yüzden doğru eşik değeri belirlemek önemlidir ve kapsamlı deneyler sonucu belirlenebilir. Bu örnekte eşik değeri 0.02 ya da 0.03 olarak seçildiğinde hem SarıgülKılıçdaroğlu bağlantısı korunmakta, hem de Bilal Erdoğan-Atatürk bağlantısı kaybolmaktadır. Şekil 3. Sozcu2014'te en sık görülen 10 insan için ortaklık bilgisi-tabanlı yöntemle oluşan sosyal ağ. Şekil 4. Sozcu2014'te en sık görülen 10 insan için olasılık kuramı-tabanlı yöntemle oluşan sosyal ağ.. Eşik değeri 0.01'in altında kalan çizgiler silinmiştir. Şekil 5. Sözcü2014'te olasılık kuramı-tabanlı yöntem en sık görülen 10 (üstte) ve 100 (altta) insan için uygulandığında oluşan sosyal aktör ağı. Eşik değeri 0.05'in altında kalan çizgiler silinmiştir. 5. Sonuç Bu çalışmada Türkçe haber yazılarında sosyal aktör ağları geliştirilmektedir. Haber aktörleri Küçük ve Yazıcı'nın yöntemi ile tespit edilmekte ve gözle kontrol edilerek varlık ismi çözümlemesi yapılmaktadır. Daha sonra ortaklık bilgisitabanlı ve olasılık kuramı-tabanlı sosyal ağ oluşturma yöntemleri yeni yarattığımız Sozcu2014 haber koleksiyonu üzerinde uygulanmıştır. Elde ettiğimiz sosyal aktör ağlarını incelediğimizde olasılık kuramıtabanlı yöntem doğru parametre değeri verildiğinde haberler arasındaki ortak kelimeleri de göz önüne aldığı için ortaklık bilgisi-tabanlı yönteme göre daha iyi sonuç vermektedir. Bunu desteklemek için daha ayrıntılı deneyler yapılabilir. Teşekkür Bu çalışma, 113E249 numaralı projeyle TÜBİTAK tarafından kısmen desteklenmiştir. Çalışmada verilen öneriler ve sonuçlar yazarlara ait olup destekleyen kuruluşla bir ilgisi yoktur. Kaynaklar [6] Clauset, A., Shalizi, C. R., Newman, M. E., "Power-law distributions in empirical data", SIAM Rev., 51(4): 661-703, (2009). [7] Cucerzan, S., "Large-scale named entity disambiguation based on wikipedia data", Proceedings of EMNLP-CoNLL, 708-716, (2007). [8] Irmak, U., Kraft, R., "A scalable machinelearning approach for semi-structured named entity recognition", Proceedings of WWW '10, 461-470, (2010). [9] JRC-Names, "JRC-Names: JRC science hub European commission", http://ipsc.jrc.ec.europa.eu/ ?id=42 [10] Karbeyaz, C., Can, E. F., Can, F., Kalpakli, M., "A content-based social network study of Evliya Celebi’s Seyahatname-Bitlis Section", Proceedings of ISCIS'11, 271-275, (2011). [11] Küçük, D., Yazıcı, A., "Exploiting information extraction techniques for automatic semantic video indexing with an application to Turkish news videos", Knowledge-Based Systems, 24(6): 844-857, (2011). [1] Agrawal, R., Srikant, R., "Fast algorithms for mining association rules in large databases", Proceedings of VLDB ’94, 487-499, (1994). [12] Liu, B., "Web data mining: exploring hyperlinks, contents, and usage data", Springer, NY, (2011). [2] Atdağ, S., Labatur, V., "A Comparison of named entity recognition tools applied to biographical texts", Proceedings of ICSCS'13, 228-233, (2013). [13] Nadeau, D., Satoshi, S., "A survey of named entity recognition and classification", Lingvisticæ Investigationes, 30(1): 3-26, (2007). [3] BHP, "Bilkent haber http://139.179.21.201/ PortalTest/ [14] Nooy, W. d., Mrvar, A., Batagelj, V., "Exploratory social network analysis with Pajek", Cambridge Uni. Press, NY, (2004). portalı", [4] Brin, S., Page, L., "The anatomy of a largescale hypertextual web search engine", Computer Networks, 30(1-7): 107-117, (1998). [5] Can, F., Özkarahan, E. A., "Concepts and effectiveness of the cover coefficient-based clustering methodology for text databases", ACM Transactions on Database Systems, 15(4): 483-517, (1990). [15] Özgür, A., Bingöl, H., "Social network of co-occurrence in news articles", Proceedings of ISCIS'04, 688-695, (2004). [16] Şeker, G.A.., Eryiğit, G., "Initial explorations on using CRFs for Turkish named entity recognition", Proceedings of COLING'12, 2459-2474, (2012).