Türkçe Haber Yazılarında Sosyal Ağların İncelenmesi Çağrı

advertisement
Türkçe Haber Yazılarında Sosyal Ağların İncelenmesi
Çağrı Toraman, Fazlı Can
Bilgi Erişim Grubu, Bilgisayar Mühendisliği Bölümü, Bilkent Üniversitesi, Ankara
{ctoraman, fcan}@cs.bilkent.edu.tr
Özet: Sosyal ağlar, çeşitli aktör düğümleri arasındaki gizli veya açık ilişkileri ortaya çıkaran
yapılardır. Bu çalışmada sosyal ağlar Türkçe haber koleksiyonları üzerinde bulunmakta ve
sosyal ağ düğümleri haber aktörleri olmaktadır. Haber aktörleri insan, yer ve organizasyon
olarak üç farklı kategoride incelenmektedir. Haber aktörleri varlık ismi tanımlama
yaklaşımıyla, haber aktörleri arasındaki ilişkiler ise ortaklık bilgisi ve olasılık kuramı-tabanlı
yöntem kullanılarak bulunmaktadır. Hazırladığımız Sozcu2014 haber koleksiyonu üzerinde
önerdiğimiz yöntemler uygulanmakta ve elde ettiğimiz sosyal haber ağları incelenmektedir.
Anahtar Sözcükler: Haber Aktörü, Sosyal Ağ, Varlık İsmi Tanımlama.
Social Network Analysis on News Articles
Abstract: Social networks reveal direct and hidden relationships between actors. In this study,
we find social networks of news actors on news articles. News actors are examined in three
categories as people, place, and organization. We detect those actors by named entity
recognition. Relationships between news actors are found by the cooccurence-based and c3mbased approaches. We apply these approaches on a newly generated news collection
Sozcu2014 to analyze the social networks of news actors in this collection.
Keywords: Named Entity Recognition, News Actor, Social Network.
1. Giriş
Sosyal ağ çalışmaları bir ağ yapısındaki
düğümler arasındaki gizli veya açık
bağlantıları bulmaya yönelik geniş yelpazeli
bir uygulama alanına sahiptir [12]. Sosyal
ağlardaki düğümler “sosyal ağ” deyiminin
çağrışımlarının aksine insanlarla sınırlı
değildir; düğümler web sayfası, yer, film,
bilimsel makele vb. olabilir. Sosyal ağ
çalışmalarında düğümler arasındaki bağlar
için verilebilecek örnekler arasında Facebook
ve Twitter gibi sosyal ağlarda görülen
arkadaşlık/izleyici bağı, e-posta yazışmaları,
web
sayfalarındaki
linkler,
bilimsel
makalelerdeki referanslar sayılabilir.
Bu çalışmada sosyal ağlar haber yazılarında
haber aktörleri arasındaki açık ya da gizli
ilişkileri bulmak için kullanılmaktadır. Elde
edilen aktör ilişkileri çeşitli amaçlar için
kullanılabilir.
Örneğin
haber
yazıları
arasındaki ilişkiler haber aktörleri arasındaki
ilişkilerden yola çıkarak elde edilebilir. Başka
bir uygulama alanı sosyal aktörlerin
haberlerde gözükme sıklığının incelenmesi
olabilir. Elde edilecek inceleme sonuçları
sosyal ve siyaset bilimlerinde ya da istihbarat
çalışmalarında kullanılabilir. Ayrıca sosyal ağ
kavramı günlük hayatta sıradan insanların da
ilgisini çekmektedir. Buna örnek olarak 4
Eylül 2008'den 24 Haziran 2010 tarihleri
arasında Kanal D'de gösterilen Aşk-ı
Memnu dizisi için izleyicilerin hazırladığı
"aşk" sosyal ağı (http://cs.bilkent.edu.tr/
~ctoraman/askimemnu.jpg) örnek olarak
gösterilebilir.
Haber aktörleri varlık ismi tanımlama
(named entity recognition) yaklaşımıyla
bulunmaktadır. Varlık ismi tanımlama
yazılarda önemli varlık isimlerini tespit
etmeyi ve sınıflandırmayı amaçlamaktadır.
Bu varlıklar insan, organizasyon, yer ya da
zaman bilgisi olabilir. Bu makalede insan,
organizasyon ve yer bilgileri haber aktörü
olarak tanımlanmaktadır. Haber aktörleri
arasındaki ilişkiler ise geliştirdiğimiz ortaklık
bilgisi ve olasılık kuramı-tabanlı yöntemler
kullanılarak bulunmaktadır.
2. Literatür Özeti
Bu bölümde sosyal ağlar ve varlık ismi
tanımlama
ile
ilgili
literatür
özeti
verilmektedir.
2.1 Sosyal Ağlar
Sosyal ağ inceleme algoritmalarından en çok
bilineni olan PageRank [4] her biri bir sosyal
aktör olarak kabul edilen web sayfaları
arasındaki bağlantılar için web sayfaları
arasındaki link bilgileri kullanmaktadır.
Sosyal ağ çalışmalarında düğümler arasındaki
ilişkiler Facebook ve Twitter gibi ağlarda
arkadaşlık bağı ile kolaylıkla bulunabilir.
Kimi durumlardaysa bu bağlantılar açık bir
şekilde olmayabilir ve başka gözlemlerden
hareketle
tahmin
edilmeleri
veya
varsayılmaları gerekebilir. Örneğin Özgür ve
Bingöl [15] Reuters haber metinlerinde geçen
haber aktörlerinin aynı dokümanda bulunması
durumunu aktörler arasında bağlantı olarak
etiketlemişlerdir.
Araştırma grubumuzun yaptığı tarihsel
metinlere yoğunlaşan bir çalışmadaysa Evliyâ
Çelebi’nin
Seyahatnâme’sinin
Bitlis
bölümündeki sosyal aktörler incelenmiştir.
Bu aktörler arasındaki bağlantıları saptamak
amacıyla bu karakterlerin belli bir kelime
uzaklığında (kelime penceresinde) olmaları
alışverişte iki ayrı ürünün aynı pazar
sepetinde (shopping basket) olmasına
benzetilmiştir [10]. Daha sonra Apriori [1]
algoritması aracılığıyla, ilişki madenciliği
(association mining) kavramı kullanılarak,
sosyal aktörlerin kelime pencerelerinde
birlikte geçiş frekansları göz önünde
bulundurularak Bitlis bölgesinin o zamanki
doğrudan tanımlanmamış olan sosyal ağ
yapısı ortaya çıkartılmıştır. Üretilen sosyal ağ
yapısının doğruluğu bir tarihçi uzmanın
ürettiği sosyal ağ ile karşılaştırılarak
gösterilmiştir.
2.2 Varlık İsmi Tanımlama
Varlık ismi tanımlama genel olarak kuraltabanlı, makine öğrenme-tabanlı ve hibrit
olarak üç farklı kategoriye ayrılmaktadır [2].
Kural-tabanlı yöntemlerde yazılar uzmanlar
tarafından daha önce tanımlanmış kurallar
tarafından işlenir. Bu kurallara örnek olarak
düzenli ifadeler (regular expressions) ve
sözlüksel kaynaklar (lexical resources)
verilebilir.
Makine öğrenme-tabanlı yöntemlerin amacı
bir öğrenme algoritması aracılığıyla öğrenme
modeli oluşturmaktır. Daha sonra bu öğrenme
modeli varlık ismi bilinmeyen yazılara
uygulanmakta
ve
varlık
isimleri
bulunmaktadır. Literatürde çeşitli öğrenme
algoritmalarını varlık ismi tanımlamak için
kullanan çalışmalar bulunmaktadır [13].
Hibrit yöntemler kural-tabanlı ve makine
öğrenme-tabanlı
yöntemlerin
beraber
kullanıldığı yöntemlerdir [8].
Literatürde varlık isimlerinin bulunmasını
sağlayan hazır araçlar vardır [13]. Ancak
hemen
hemen
hepsi
Türkçe'yi
desteklememektedir. Buna istisna olarak
Avrupa Birliği Birleşik Araştırma Merkezi
tarafından geliştirilmiş olan ve Türkçe gibi
birçok dili destekleyen JRC-Names [9]
programı bulunmaktadır. Ayrıca Türkçe
varlık ismi tanımlama için İTÜ Türkçe NLP
Grubu'nun CRF algoritmasını kullanan bir
çalışması bulunmaktadır [16]. Küçük ve
Yazıcı [11] tarafından birçok örüntü ve
sözlük kaynağından yararlanan kural-tabanlı
Türkçe varlık ismi tanımlama yaklaşımı
geliştirilmiştir.
3. Sosyal Ağ Oluşturma Aşamaları
Bu bölümde haber yazılarında sosyal ağları
nasıl
oluşturduğumuz
anlatılmaktadır.
Öncelikle Türkçe varlık ismi tanımlama
aracını belirlemekte ve haber aktörlerini
belirlenen araç ile elde etmekteyiz. Daha
sonra haber aktörleri arasındaki ilişkileri
bulmaktayız.
3.1 Haber Aktörlerinin Bulunması
Literatürdeki birçok açık-kaynaklı varlık ismi
tanımlama aracı arasından kullanacağımız
Türkçe haber koleksiyonuna en uygun olanı
yaptığımız ön-deneyler sonucu Küçük ve
Yazıcı'nın yöntemi [11] olmuştur. Bu yüzden
haber aktörlerini Küçük ve Yazıcı'nın
yöntemi ile bulmaktayız. Haber aktörlerini
insan, organizasyon ve yer isimleri olarak üç
farklı kategoride incelenmekteyiz.
Kullandığımız yöntem ile elde edilen
sonuçlarda birçok sorun gözlemlenmiştir.
Bunlardan biri bulunan birçok insan isminin
eksik ya da soyisimsiz olmasıdır. Bir diğeri
ise bulunan farklı varlık isimlerinin aynı
varlığa tekabül etmesidir. Örneğin Atatürk ve
Gazi Mustafa Kemal bulunan iki farklı
isimlerdir; ancak aynı kişiyi işaret etmektedir.
Bu sorun varlık ismi çözümlemesi (named
entity resolution) [7] yöntemleri ile
çözülmektedir. Türkçe için varlık ismi
çözümlemesi zor bir görevdir; bu yüzden bu
çalışmada gözle kontrol edilerek yapılmıştır.
Öncelikle bütün varlık isimlerinin yazı
içerisinde bir önceki ve bir sonraki kelimeleri
elde edilmiştir. Bu kelimelere bakılarak varlık
isminin ne olduğunu tahmin eden kurallar
yazılmıştır. Ayrıca aynı varlığa tekabül eden
farklı varlık isimleri için kurallar yazılmış ve
uygulanmıştır.
3.2 Haber Aktörleri Arasındaki İlişkilerin
Bulunması
Haber aktörleri elde edildikten sonra ortaklık
bilgisi ve olasılık kuramı-tabanlı yöntemler
kullanılarak sosyal ağlar yaratılmaktadır.
3.2.1 Ortaklık Bilgisi-Tabanlı Yöntem
Bu yöntem ile aynı haber içerisinde gözüken
haber aktörleri arasında bağlantı bulunduğu
varsayılmaktadır [15]. Ortak bulundukları
haber sayıları bağlantı ağırlığı olarak
atanacaktır. Düğümler arasında bulunan
bağlantıların yön bilgisi yoktur, yani
bağlantılar simetriktir.
3.2.2 Olasılık Kuramı-Tabanlı Yöntem
Bu yöntem sosyal aktörler arasındaki
ilişkileri yönü ve ağırlığı ile detaylı bir
biçimde
tanımlayan
bir
yöntem
hedeflenmektedir.
Daha
önceki
araştırmalarımızda geliştirdiğimiz kapsama
katsayısı -- cover coefficient --, formatsız
belgelerin
gruplandırılması
amacına
yöneliktir [5]. Bu makalede sosyal ağ, yani
sosyal aktörler arasındaki ilişkiler iki-aşamalı
bir olasılık deneyi ile kapsama katsayısı
kavramı kullanılarak elde edilecektir.
Kapsama katsayısı iki aşamalı bir olasılık
deneyi sonucunda şu formülle hesaplanır (1 ≤
i, j ≤ m):
𝑐𝑖𝑗 = 𝛼𝑖 × ∑𝑛𝑘=1 𝑑𝑖𝑘 × 𝛽𝑘 × 𝑑𝑗𝑘
Kavramın ve formülün çalışma ilkesi bir
örnekle Şekil 1'de sunulmaktadır. D
matrisinde her satır bir sosyal aktörü her
sütun farklı haber yazılarını temsil
etmektedir. Bu tanıma göre D matrisinin her
bir satırı sırayla A1, A2, A3, A4 ve A5
aktörlerini temsil etmekte ve sütunlar sırayla
h1, h2, h3 ve h4 haber metinlerini
göstermektedir. D matrisinin dij şeklinde
ifade edilen elemanı i=1 olduğunda A1
aktörüne karşılık gelmekte ve benzer şekilde
i=5 ise A5 aktörüne karşılık gelmektedir ve
j=1 ise h1 haberine ve j=4 ise h4 haberine
karşılık gelmektedir ve D matrisinin dij i’ye
karşılık gelen aktörün j’ye karşılık gelen
haberin haber metni içinde kaç kez geçtiğini
(frekansını) göstermektedir. Örneğin Şekil
1’de d54=3 A5 aktörünün h4’de 3 kez
bahsedildiğini göstermektedir. Bir aktörün ve
bir haberin bu matriste yer alması için
kendisine karşılık gelen satır ve sütunda en az
bir adet sıfırdan büyük eleman içermesi
gerekmektedir.
Yukarıdaki formülde cij (1 ≤ i, j ≤ m)
ℎ1
𝐴1 2
𝐴 2
D= 2
𝐴3 0
𝐴4 0
𝐴5 [ 0
ℎ2
0
1
1
0
0
ℎ3
0
0
1
1
0
ℎ4
0
0
0
2
3]
2/4
𝐴1
2/4
𝐴2
1/2
𝐴2
1/2
𝐴3
ℎ1
2/3
𝐴2
ℎ2
1/3
0.50
0.33
C= 0.00
0.00
[0.00
0.50
0.48
0.25
0.00
0.00
0.00
0.16
0.50
0.16
0.00
0.00
0.00
0.25
0.42
0.40
0.00
0.00
0.00
0.40
0.60]
Şekil 1. Soldan sağa: 1. Sosyal aktörleri temsil eden D matrisi (m= 5 aktör sayısı, n= 4 haber sayısı), d ij
aktör Ai'nin haber hj’de kaç kez bahsedildiğini göstermektedir, örneğin d 54= 3 A5 aktörünün h4’de 3 kez
bahsedildiğini göstermektedir; 2. Kapsama katsayısını temsil eden iki aşamalı olasılık deneyi ağaç
yapısının A2 için olan örnek gösterimi; 3. Bütün sosyal aktörler arasındaki ilişkiyi gösteren C matrisi (c ij:
Ai aktörünün Aj aktörüne verdiği önem’dir.
0.50
0.42
A1
0.50
0.25
A3
0.16
A4
0.33
0.50
0.25
A2
0.16
0.48
0.40
0.40
A5
0.60
Şekil 2. Beş sosyal aktörden oluşan Sekil 1'deki sosyal ağın kapsama katsayısı kavramı ile gösterilişi.
Aj aktörünün Ai aktörü tarafından ne kadar
kapsandığını (Ai içinde olduğu haberlerden
birinin rastgele seçilmesi halinde bu haberin
Aj’den gelme ihtimalini) göstermektedir ve bu
kavram kapsama katsayısı (cover coefficient)
olarak adlandırılmıştır. Burada anlatılan cij
tarafından temsil edilen iki aşamalı olasılık
deneyinin dokümanlar ve terimler göz önüne
alınarak yapılan açıklaması ilgili yayınımızda
bulunabilir [5]. Söz konusu çalışmada cij, di
dokümanının dj ne kadar kapsadığı olarak
tanımlanmıştır. Biz bu çalışma bağlamında cij
ile temsil edilen değeri Ai aktörünün Aj
aktörüne verdiği önem olarak tanımlıyoruz.
Şekil 1 ve 2’den görüleceği gibi A2’ye gelen
kapsama ağırlıklarının toplamı yani A2’nin
popülerliği 1.23’e eşittir (0.50 + 0.48 + 0.25).
Benzer şekilde A4’e gelen kapsama
ağırlıklarının toplamı yani bu aktörün
popülerliği 1.07’ye eşittir (0.25 + 0.42 +
0.40). Lider (merkez, hub) olma özelliği
taşıyan düğümlere doğru çok sayıda başka
düğümden kaynaklanan yüksek değerli
bağlantı olacaktır ve kendi kendisinden ileri
gelen popülerliği (öz popülerliği: cii değeri)
bu aktör popülerlik değerindeki önemsiz
boyutlarda olacaktır. Bu türden merkez veya
lider olma özelliği taşıyan aktörler çok sayıda
farklı haberde gözükecekleri için çok sayıda
farklı aktörün bu aktörle ilişkisi olacak ve
dolayısıyla çok sayıda ok bu aktöre doğru
işaret edecektir. Bu aktörden de aynı sayıda
farklı aktöre doğru bağlantı olacak ancak bu
değerler küçük miktarlarda olabilecektir
çünkü bir aktörün kendi dahil bütün aktörlere
verebileceği önemlerin toplamı 1’e eşittir.
4. Türkçe Haberlerde Sosyal Ağların
İncelenmesi
Bu bölümde yeni oluşturduğumuz Sozcu2014
haber
koleksiyonu
anlatılmakta
ve
yöntemlerimizin
Sozcu2014
üzerinde
uygulanması sonucu elde ettiğimiz sosyal
ağlar incelenmektedir.
4.1 Sozcu2014 Haber Koleksiyonu
Sosyal aktör ağlarını oluşturmak için güncel
Türkçe haber yazılarından oluşan bir
koleksiyona ihtiyaç vardır. Bu çalışmada
Bilkent Haber Portalı [3] kullanılarak yeni bir
haber koleksiyonu oluşturulmuştur. 2014'ün
ilk çeyreğinde RSS kaynaklarıyla elde edilen
haberler
incelendikten
sonra
Sözcü
(www.sozcu.com.tr)
kaynağından
gelen
haberlerin diğer kaynaklardan gelen haberlere
göre daha fazla sayıda ve düzenli olduğu
gözlemlenmiştir.
Bu
yüzden
Sözcü
kaynağından 2014 ilk çeyreğinde elde edilen
haber yazıları kullanılmış ve haber
koleksiyonunun adı Sozcu2014 olarak
belirlenmiştir.
Haber koleksiyonunun sorunsuz ve temiz
olması için elde edilen haber yazıları çeşitli
süzme işlemlerinden geçirilmiştir. Bunlar,
tekrar eden dokümanların, gizli reklamların
ve okuyucu yorumlarının tespit edilip
silinmesi vb. işlemlerdir.
Yukarıdaki temizlik aşamaları yapıldıktan
sonra
Sozcu2014
haber
koleksiyonu
20/12/2013 ile 11/03/2014 tarihleri arasına ait
1656 dokümandan oluşmaktadır.
4.2 Sozcu2014'te Varlık İsmi Tanımlama
Küçük ve Yazıcı'nın yöntemi Sozcu2014'e
uygulandıktan ve varlık ismi çözümlemesi
yapıldıktan sonra Tablo 1'deki istatistiksel
veriler elde edilmiştir. Elde edilen tüm varlık
isimleri
ve
bulundukları
doküman
Tablo 1. Sozcu2014 üzerinde varlık ismi
tanımlama ve çözümlemesi uygulandıktan sonra
elde edilen istatistiksel veriler.
Cins
Toplam Sayı
Doküman
1656
İnsan
2890
Organizasyon
915
Yer
1152
sayıları uzun yer kapladığından dolayı bu
makaleye eklenmemiştir. İstendiği takdirde
http://cs.bilkent.edu.tr/~ctoraman/tubitak/akt
or_listesi.pdf adresinden indirilebilir. En sık
gözüken ilk 10 insan, organizasyon ve yer
sırasıyla Tablo 2, 3 ve 4'te listelenmiştir.
Tablo 2. Sozcu2014'te sık gözüken ilk 10 insan.
İsim
RECEP TAYYİP
ERDOĞAN
BİLAL ERDOĞAN
FETHULLAH GÜLEN
ABDULLAH GÜL
DEVLET BAHÇELİ
MUSTAFA SARIGÜL
MUSTAFA KEMAL
ATATÜRK
KEMAL KILIÇDAROĞLU
TOPBAŞ
DENİZ
Doküman
Sayısı
363
79
57
55
41
40
36
35
33
32
Tablo 3. Sozcu2014'te sık gözüken ilk 10
organizasyon.
İsim
AKP
CHP
TBMM
MHP
ADALET
AB
MİT
BAŞBAKANLIK
EMNİYET MÜDÜRLÜĞÜ
HÜRRİYET
Doküman
Sayısı
294
234
182
91
76
65
54
50
50
46
Tablo 4. Sozcu2014'te sık gözüken ilk 10 yer.
İsim
TÜRKİYE
İSTANBUL
ANKARA
ABD
İZMİR
SURİYE
AVRUPA
AMERİKA
RUSYA
AYDIN
Doküman
Sayısı
435
360
176
122
105
71
68
61
53
50
Gözle
kontrol
ederek
varlık
ismi
çözümlemesi yapmamıza rağmen Tablo 2'de
görüldüğü üzere DENİZ gibi bazı varlık
isimleri tam olarak çözümlenmemiştir.
DENİZ ismi Küçük ve Yazıcı'nın yönteminde
her zaman insan ismi olarak tanımlanmıştır;
ancak deniz piyade ya da Deniz Feneri gibi
örnekler bu duruma aykırıdır. Bu tarz
sorunların çözümlenmesi için daha gelişmiş
algoritmalara ihtiyaç vardır.
İnsan, organizasyon ve yer isimleri doküman
sayılarına göre istatistiksel olarak incelenmiş
ve “power-law” dağılımına uydukları
“goodness-of-fit” testi ile tespit edilmiştir
(sırasıyla p=0.56, 0.95 ve 0.12) [6]. Buna
göre az sayıda insan, organizasyon ve yer
ismi deney derleminde önemliyken diğerleri
daha önemsizdir. Bu gözlem bir sonraki
bölümde
sosyal
aktör
ağlarını
oluşturduğumuzda da geçerli olmaktadır.
4.3 Sozcu2014'te Sosyal Ağlar
Elde edilen varlık isimleri kullanılarak sosyal
aktör ağları oluşturulacaktır. Sosyal aktör
ağlarının görüntülenmesi Pajek programı [14]
ile yapılmıştır. Sosyal ağlar makalede yer
kısıtlaması olduğu ve bütün isimler hesaba
katıldığında
oluşacak
sosyal
ağların
görüntüleri anlaşılamaz hale geldiğinden için
sadece en sık görülen 10 ve 100 insan ismi
için sunulmaktadır. Şekillerdeki veriler
elektronik ortamda okunabilmektedir.
Sozcu2014'te en sık görülen 10 insan ismi
için
ortaklık
bilgisi-tabanlı
yöntem
kullanılarak elde edilen sosyal ağ Şekil 3'te
gösterilmektedir. Düğümler insanları, çizgiler
ise düğümlerin arasındaki bağlantıları temsil
etmektedir. Çizgi üzerindeki rakamlar iki
insanın ortak olarak gözüktüğü haber
dokümanı sayısını temsil etmektedir.
Olasılık kuramı-tabanlı yöntem kullanılarak
Sozcu2014'te en sık görülen 10 insan ismi
için elde edilen sosyal aktör ağıysa Şekil 4'te
gösterilmektedir. Çizgi üzerindeki rakamlar
Bölüm 3.2.2'de anlatılan C matrisi ile elde
edilen
kapsama
ağırlıklarını
temsil
etmektedir. Kapsama ağırlıkları sıfıra yakın
olan
çizgiler
bizim
için
önemsiz
bağlantılardır. Bu yüzden belirli bir eşik
değerini (threshold) geçemeyen kapsama
ağırlıklarına sahip çizgiler elenmiştir. Şekil
4'teki eşik değeri 0.01'dir.
Şekil 4'te Recep T. Erdoğan, Bilal Erdoğan'ı
0.05 değeriyle kapsamaktadır, Bilal Erdoğan
ise Recep T. Erdoğan'ı 0.38 ile
kapsamaktadır.
Başka
bir
deyişle,
önerdiğimiz yönteme göre, Recep T.
Erdoğan'ın Bilal Erdoğan'a gösterdiği önem
0.05'tir, Bilal Erdoğan'ın Recep T. Erdoğan'a
gösterdiği önem ise 0.38'dir. Bir insandan
giden kapsama katsayıları toplamı (gösterdiği
önemler) her zaman 1'dir. Bir aktöre gelen
önemlerin toplamı o aktörün popülerliğidir.
Örneğin Recep T. Erdoğan'a gelen önemlerin
toplamı 1.75 iken Abdullah Gül'e gelenlerin
toplamı 0.10'dur. Düğüm üzerinde gözüken
rakam aktörün kendine gösterdiği önem ya da
öz-popülerliğidir.
Çekim
gücü
özpopülerliğinden yüksek olan aktörler diğer
aktörlere göre daha önemlidir.
Kapsama katsayısı eşik değeri 0.01'den 0.05'e
yükseltildiğinde en sık görülen 10 ve 100
insan için sosyal aktör ağları Şekil 5'teki
gibidir. Bu eşik değeri ile daha az bağlantı
yaratılmıştır ve bazı aktör ilişkileri
kaybolmuştur. Örneğin Mustafa Sarıgül ile
Kemal Kılıçdaroğlu arasında bir bağlantı
olması mantıklıdır; ancak eşik değeri 0.05 ile
bu bağlantı kaybolmaktadır.
Düşük eşik değeri uygulamak ise gereksiz
veya
gerçekte
olmayan
bağlantılar
yaratabilmektedir. Örneğin eşik değeri 0.01
iken Bilal Erdoğan ile Mustafa Kemal
Atatürk arasında bağlantı oluşmaktadır. Bu
yüzden doğru eşik değeri belirlemek
önemlidir ve kapsamlı deneyler sonucu
belirlenebilir. Bu örnekte eşik değeri 0.02 ya
da 0.03 olarak seçildiğinde hem SarıgülKılıçdaroğlu bağlantısı korunmakta, hem de
Bilal
Erdoğan-Atatürk
bağlantısı
kaybolmaktadır.
Şekil 3. Sozcu2014'te en sık görülen 10 insan için ortaklık bilgisi-tabanlı yöntemle oluşan sosyal ağ.
Şekil 4. Sozcu2014'te en sık görülen 10 insan için olasılık kuramı-tabanlı yöntemle oluşan sosyal ağ..
Eşik değeri 0.01'in altında kalan çizgiler silinmiştir.
Şekil 5. Sözcü2014'te olasılık kuramı-tabanlı yöntem en sık görülen 10 (üstte) ve 100 (altta) insan için
uygulandığında oluşan sosyal aktör ağı. Eşik değeri 0.05'in altında kalan çizgiler silinmiştir.
5. Sonuç
Bu çalışmada Türkçe haber yazılarında
sosyal aktör ağları geliştirilmektedir.
Haber aktörleri Küçük ve Yazıcı'nın
yöntemi ile tespit edilmekte ve gözle
kontrol edilerek varlık ismi çözümlemesi
yapılmaktadır. Daha sonra ortaklık bilgisitabanlı ve olasılık kuramı-tabanlı sosyal ağ
oluşturma yöntemleri yeni yarattığımız
Sozcu2014 haber koleksiyonu üzerinde
uygulanmıştır. Elde ettiğimiz sosyal aktör
ağlarını incelediğimizde olasılık kuramıtabanlı yöntem doğru parametre değeri
verildiğinde haberler arasındaki ortak
kelimeleri de göz önüne aldığı için
ortaklık bilgisi-tabanlı yönteme göre daha
iyi sonuç vermektedir. Bunu desteklemek
için daha ayrıntılı deneyler yapılabilir.
Teşekkür
Bu çalışma, 113E249 numaralı projeyle
TÜBİTAK tarafından kısmen desteklenmiştir.
Çalışmada verilen öneriler ve sonuçlar
yazarlara ait olup destekleyen kuruluşla bir
ilgisi yoktur.
Kaynaklar
[6] Clauset, A., Shalizi, C. R., Newman, M. E.,
"Power-law distributions in empirical data",
SIAM Rev., 51(4): 661-703, (2009).
[7] Cucerzan, S., "Large-scale named entity
disambiguation based on wikipedia data",
Proceedings of EMNLP-CoNLL, 708-716,
(2007).
[8] Irmak, U., Kraft, R., "A scalable machinelearning approach for semi-structured named
entity recognition", Proceedings of WWW
'10, 461-470, (2010).
[9] JRC-Names, "JRC-Names: JRC science
hub
European
commission",
http://ipsc.jrc.ec.europa.eu/ ?id=42
[10] Karbeyaz, C., Can, E. F., Can, F.,
Kalpakli, M., "A content-based social network
study of Evliya Celebi’s Seyahatname-Bitlis
Section", Proceedings of ISCIS'11, 271-275,
(2011).
[11] Küçük, D., Yazıcı, A., "Exploiting
information extraction techniques for automatic
semantic video indexing with an application to
Turkish news videos", Knowledge-Based
Systems, 24(6): 844-857, (2011).
[1] Agrawal, R., Srikant, R., "Fast algorithms
for mining association rules in large databases",
Proceedings of VLDB ’94, 487-499, (1994).
[12] Liu, B., "Web data mining: exploring
hyperlinks, contents, and usage data",
Springer, NY, (2011).
[2] Atdağ, S., Labatur, V., "A Comparison of
named entity recognition tools applied to
biographical texts", Proceedings of ICSCS'13,
228-233, (2013).
[13] Nadeau, D., Satoshi, S., "A survey of
named entity recognition and classification",
Lingvisticæ Investigationes, 30(1): 3-26,
(2007).
[3]
BHP,
"Bilkent
haber
http://139.179.21.201/ PortalTest/
[14] Nooy, W. d., Mrvar, A., Batagelj, V.,
"Exploratory social network analysis with
Pajek", Cambridge Uni. Press, NY, (2004).
portalı",
[4] Brin, S., Page, L., "The anatomy of a largescale hypertextual web search engine",
Computer Networks, 30(1-7): 107-117,
(1998).
[5] Can, F., Özkarahan, E. A., "Concepts and
effectiveness of the cover coefficient-based
clustering methodology for text databases",
ACM Transactions on Database Systems,
15(4): 483-517, (1990).
[15] Özgür, A., Bingöl, H., "Social network of
co-occurrence in news articles", Proceedings
of ISCIS'04, 688-695, (2004).
[16] Şeker, G.A.., Eryiğit, G., "Initial
explorations on using CRFs for Turkish named
entity
recognition",
Proceedings
of
COLING'12, 2459-2474, (2012).
Download