SOSYAL AĞLARDA VERİ MADENCİLİĞİ ÜZERİNE BİR UYGULAMA

advertisement
SOSYAL AĞLARDA VERİ MADENCİLİĞİ
ÜZERİNE BİR UYGULAMA
Mehmet Ulvi ŞİMŞEK
YÜKSEK LİSANS TEZİ
BİLGİSAYAR MÜHENDİSLİĞİ
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
EYLÜL 2012
ANKARA
iii
TEZ BİLDİRİMİ
Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde
elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak
hazırlanan bu çalışmada bana ait olmayan her türlü fikir ve bilginin kaynağına
eksiksiz atıf yapıldığını bildiririm.
Mehmet Ulvi ŞİMŞEK
iv
SOSYAL AĞLARDA VERİ MADENCİLİĞİ
ÜZERİNE BİR UYGULAMA
(Yüksek Lisans Tezi)
Mehmet Ulvi Şimşek
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
Eylül 2012
ÖZET
Günümüzde İnternetin yaygınlaşmasıyla son yıllarda ortaya çıkan yeni
uygulamalar iletişim ve eğlence amacı ile kullanılmaya başlamıştır.
Sosyal medya olarak tanımlanabilecek bu uygulamalar kişiler ve geniş
kitleler hakkında büyük miktardaki verilere İnternet üzerinden kolay bir
şekilde erişim imkanı vermiştir. Sosyal ağlarda veri madenciliği
çalışmaları bu alanın genişlemesi ile son dönemlerde artmıştır.
Araştırmacılar geniş kitleler hakkında yararlı bilgiler çıkarmışlardır. Bu
bilgilerin reklam, politika, borsa ve çeşitli alanlarda kullanılması ile veri
madenciliği uygulamaları ortaya çıkmıştır.
Bu tez çalışmasında sosyal ağlarda veri madenciliği ile yapılan
uygulamalar, alandaki sorunlar ve açık çalışma alanları incelenmiştir.
Bu çalışmada twitter sosyal ağı verileri toplanmış ve duygu belirten
Türkçe kelimeler belirlenmiştir. Twitter verileri her gün için ayrı olarak
duygu belirten kelimelerin kullanılmasına göre analiz edilmiştir. Türk
Twitter kullanıcılarının duygusal durum değişiminin IMKB indeksi ile
ilişkili olup olmadığına araştırılmıştır. Twitter mesajlarını analiz etmek
için frekans yöntemi ve ortalama mutluluk analizi yöntemi kullanılmış ve
bu iki metot karşılaştırılmıştır. Tweet veri seti içerisinde mesajları olan
v
kullanıcıların yaptıkları yorumlara göre benzerliği incelenmiştir. Bu tez
çalışması, alanda Türkçe tweetler ve borsa indeksi üzerinde yapılmış ilk
çalışma olması açısından önem taşımaktadır.
Bilim Kodu
: 902
Anahtar Kelimeler
: Veri Madenciliği, Sosyal ağlar
Sayfa Adedi
: 74
T ez Yöneticisi
: Doç. Dr. Suat ÖZDEMİR
vi
THE APPLICATION RELATED WITH DATA MINING
ON SOCIAL NETWORKING
(M.Sc. Thesis)
Mehmet Ulvi Şimşek
GAZİ UNIVERSITY
INSTITUTE OF SCIENCE AND TECHNOLOGY
September 2012
ABSTRACT
Today, the spread of the Internet, new and emerging applications in
recent
years
began
to
be
used for
the
purpose
of communication and entertainment. Applications which is defined
social
mediahas
easily
access
to
large amounts
of data about people and the masses over the internet. Data mining
aplications have recently been increased with this research area
extend. Researchers extract useful information about masses and
people. Data mining aplications are came out with this information is
used by advertisement, political, stock exchange and various area.
In this thesis, data mining in social networks with applications in the
field examined the problems and open work areas.In this study, Turkish
tweet dataset is collected and emotional words are determined. Twitter
data for each day are analyzed by emotional words. An analysis is
carried out to see if there is a relation between Turkish tweets and the
Turkish stock market index. Frequency analysis and avarage happiness
analysis are used for tweet dataset and this two method are compared
eachother. Users similarity is analyzed with used users tweet message.
vii
this study is the first study performed on Turkish tweets and stock
market index.
Science Code
: 902
Key Words
: Data Mining, Social Network
Page Number
: 74
Adviser
: Assoc. Prof. Dr. Suat ÖZDEMİR
viii
TEŞEKKÜR
Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren hocam
ve değerli tez danışmanım Doç. Dr. Suat ÖZDEMİR’ e, makale ve raporlarda
bizden desteğini esirgemeyen Yrd. Doç. Dr. Hacer KARACAN’ a,
karşılaştığımız sorunlarda bize her zaman yardımcı olan Uraz YAVANOĞLU’
na, değerli bilgileriyle bana her zaman destek veren Öğr. Gör. Dr. Oktay
YILDIZ’ a ve benden desteklerini esirgemeyen aileme teşekkürlerimi borç
bilirim.
Yüksek lisans öğrenim hayatım boyunca bana karşılıksız olarak burs
sağlayan TÜBİTAK’ a teşekkürlerimi borç bilirim.
Hepsinden çok daha önemlisi, ailemizin ve de Türkiye Cumhuriyeti Devletinin
öğrenimimizin
her
aşamasında
bize
imkânlarından dolayı şükranla anıyorum.
karşılıksız
olarak
sağladıkları
ix
İÇİNDEKİLER
Sayfa
ÖZET ............................................................................................................. iv ABSTRACT .................................................................................................... vi TEŞEKKÜR.................................................................................................. viii İÇİNDEKİLER ................................................................................................ ix Sayfa .............................................................................................................. ix ÇİZELGELERİN LİSTESİ ............................................................................. xiv ŞEKİLLERİN LİSTESİ ................................................................................... xv SİMGE VE KISALTMALAR .......................................................................... xvi 1. GİRİŞ ......................................................................................................... 1 2.VERİ MADENCİLİĞİ ................................................................................... 4 2.1.Veri Madenciliği Nedir? ......................................................................... 4 2.2. Veri Madenciliğinin Gelişim Süreci....................................................... 5 2.3.Veri Madenciliği Modelleri ..................................................................... 7 2.3.1. Tanımlayıcı model ..................................................................... 7 2.3.2.Tahmin edici model .................................................................... 8 x
Sayfa
2.4.Veri Madenciliği Yöntemleri .................................................................. 8 3. VERİ MADENCİLİĞİNİN BAZI UYGULAMA ALANLARI .......................... 10 3.1. Bilimsel ve Mühendislik Verileri.......................................................... 10 3.2. Sağlık Verileri .................................................................................... 10 3.3. İş Verileri ............................................................................................ 10 3.4. Alışveriş Verileri ................................................................................. 11 3.5. Bankacılık ve Finans Verileri ............................................................. 11 3.6. Eğitim Sektörü Verileri ....................................................................... 11 3.7. Internet (Web) Verileri........................................................................ 11 3.8. Doküman Verileri ............................................................................... 12 3.9. Sosyal Ağ Verileri .............................................................................. 12 3.10. Askeri Veriler ................................................................................... 12 4. VERİ MADENCİLİĞİ AŞAMALARI VE TEKNİKLERİ ............................... 13 4.1. Veri Madenciliği Aşamaları ................................................................ 13 4.1.1. Problemin tanımlanması .......................................................... 13 4.1.2. Veri hazırlanması .................................................................... 13 xi
Sayfa
4.1.3. Modelin uygulanması ve değerlendirilmesi .............................. 15 4.1.4. Modelin kullanılması ................................................................ 15 4.1.5. Modelin izlenmesi .................................................................... 16 4.2. Veri Madenciliği Teknikleri ................................................................. 16 4.2.1. Sınıflandırma ........................................................................... 16 4.2.2. Kümeleme ............................................................................... 17 4.2.3. Birliktelik kuralları..................................................................... 17 5. SOSYAL AĞLAR ..................................................................................... 18 5.1. Sosyal Ağların Genel Özellikleri......................................................... 18 5.2. Sosyal Ağ Uygulamalarında İletişim .................................................. 19 5.3. Sosyal Ağ Uygulamaları .................................................................... 19 6. SOSYAL AĞLARDA VERİ MADENCİLİĞİ ............................................... 21 6.1. Sosyal Ağlarda Veri Madenciliği İşlemleri .......................................... 21 6.1.1. Sınıflandırma .................................................................................. 22 6.1.2. Davranışsal analiz ve ortaklaşa gerçekleştirilen davranışlar ........... 22 6.1.3. Benzerlik ........................................................................................ 23 xii
Sayfa
6.2. Veri Kaynakları .................................................................................. 24 7. SOSYAL AĞLARDA VERİ MADENCİLİĞİ İLE YAPILAN ÇALIŞMALAR . 26 7.1. Benzerlik Üzerine Yapılan Çalışmalar ............................................... 26 7.2. Sınıflandırma ve Davranışsal Analiz Çalışmaları ............................... 28 7.3. Fikir Madenciliği ................................................................................. 31 8. SOSYAL AĞLARDA VERİ MADENCİLİĞİ İLE BİR UYGULAMA............. 38 8.1. Veri Seti ............................................................................................. 38 8.2. Mutluluk ve Üzgünlük Analizi ............................................................. 40 8.2.1. Mutluluk ve üzgünlük belirten kelimelerin seçimi ..................... 40 8.2.2. Mutluluk ve üzgünlük analizi .................................................... 41 8.2.3. Ortalama mutluluk değerlerine göre hesaplama ...................... 44 8.2.4. Borsa verilerinin ortalama mutluluk değerleri ile karşılaştırılması
.......................................................................................................... 47 8.3. Twitter Kullanıcılarının Benzerliği....................................................... 49 8.3.1. Konuların seçimi(hastag) ......................................................... 50 8.3.2. Kullanıcıların yorumlarından nitelik çıkarımı ............................ 50 8.3.3. Kullanıcılar arası benzerlik ...................................................... 52 xiii
Sayfa
9. UYGULAMADA KULLANILAN PROGRAMLAR....................................... 55 9.1. Gerçekleştirilen Form Uygulaması ..................................................... 55 9.2. Veri Tabanı ve Analiz İşlemleri .......................................................... 57 9.3. Spss İle Analiz ................................................................................... 58 10. SONUÇ ve ÖNERİLER .......................................................................... 60 KAYNAKLAR ............................................................................................... 63 EKLER ......................................................................................................... 69 Ek-1 Mutluluk ve üzgünlük karakterleri ..................................................... 70 Ek-2 Mutluluk ve üzgünlük kelimeleri listesi .............................................. 71 Ek-3 Borsa kelimeleri listesi ...................................................................... 73 ÖZGEÇMİŞ .................................................................................................. 74 xiv
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 8.1. Hastag istatistikleri…………………………………………………50
Çizelge 8.2. Bir kullanıcı için benzerlik tablosu ……………………………….52
xv
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 6.1. Sosyal Ağlarda Yapılan İşlemler ..………………………………..…20
Şekil 7.1. Fikir Madenciliğinde kullanılılan ana unsurlar ..……………………31
Şekil 8.1. Twitter platformundan veri tabanı oluşturma gösterimi ..………....38
Şekil 8.2. Mutluluk ifade eden tweetlerin tüm tweetler içinde günlük
yüzdesel değişimi……..………………………………………………41
Şekil 8.3. Üzgünlük ifade eden tweetlerin tüm tweetler içinde günlük
yüzdesel değişimi……………..……………………………………....42
Şekil 8.4. Mutlu ve üzgün kelimelerin beraber kullanıldıkları tweet örneği....43
Şekil 8.5. Ortalama mutluluk değerlerine göre kelimelerin dağılımı…………45
Şekil 8.6. Ortalama mutluluk değerinin zamana göre değişimi.……………...46
Şekil 8.7. Ortalama mutluluk değerinin zamana göre değişimi………………48
Şekil 8.8. Benzerlik oranı yüksek olan grubun gösterimi……………………..54
Şekil 9.1 Form ekranının görüntüsü……………………………………………55
Şekil 9.2 Analiz işlemi için kullanılan alanların görünümü…………………....58
Şekil 9.3 Analiz işlemi için kullanılan değişkenlerin niteliklerinin
görünümü…………………………………………………….………....59
Şekil 9.4 Analiz işlemi için kullanılan değerlerin görünümü…………………..59
xvi
SİMGE VE KISALTMALAR
Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte
aşağıda sunulmuştur.
Simgeler
Açıklama
Api
Uygulama Programlama Arayüzü
ENIAC
Elektronik numara entegre
f
Kelime listesindeki kelime
h
Özne
k
Kullanıcı
l
Link
m
Mutluluk belirten kelimeler
MSN
Microsoft Ağı
m_k
Mutluluk karakteri
o
Nesne
ROC
Alıcı Operasyon Karakteri
t
Zaman
u
Üzgünlük belirten kelimeler
u_k
Üzgünlük karakteri
W
Özellik
1
1. GİRİŞ
İnsanlık tarihi boyunca sürekli var olan iletişim ihtiyacı, son yıllarda Internet
erişiminin yaygınlaşması ve geliştirilen uygulamalar sayesinde büyük ölçüde
Internet üzerinden gerçekleştirilmeye başlanmıştır. Teknoloji devrimi ile
birlikte verilerin dijital ortamlarda saklanmasıyla, veri depolama ünitelerinin
hacimlerinde ve veri tabanı sistemlerinin kullanımında olağanüstü artış
meydana gelmiştir [53]. Geliştirilen uygulamalar insanlara sadece iletişim ve
bilgi paylaşımı olanağı değil eğlence ve iyi vakit geçirme imkânı da
sunmaktadırlar.
Genel olarak
“sosyal ağlar” olarak tanımlanabilecek bu
uygulamalar kişiler ve geniş kitleler hakkında büyük miktardaki verilere
Internet üzerinden kolay bir şekilde erişim imkânı vermektedir. Internet
üzerindeki bu veri kaynakları bloglar, bilgi paylaşımı yapılan siteler, online
oyun siteleri, haber grupları ve sohbet odaları olarak sıralanabilir [21].
Örneğin Facebook [43] ve Twitter [44] günümüzde en çok kullanılan sosyal
ağların başında gelmektedir. Facebook en popüler ve en çok tanınan sosyal
ağ sitesi olarak yer almaktadır. 2012 yılı istatistiklerine göre 955 milyon
kullanıcısı ile dünya çapında bir sosyal ağ oluşturduğu görülmektedir. Genel
eğilim olarak kullanıcıların yarısı 25 yaşının altında ve öğrenci olduğu analiz
edilmiştir [19]. Genişleyen ve büyüyen sosyal ağ sadece Facebook ile sınırlı
değildir. Twitter, Youtube [45] ve birçok blog sitesi de milyonlarca kullanıcıya
sahiptir. Kullanıcılar bu sitelere istedikleri zaman girebilmekte ve birbirleri ile
veya herhangi bir konuda istedikleri düşünceyi açıklayabilmektedirler. Bu
nedenle sosyal ağlar üzerinde çok büyük miktarda veri birikmekte ve bu
veriler genelde dışarıdan erişime açık olmaktadır.
Sosyal ağlar sadece kişisel iletişim ve eğlence amacı ile değil kitle erişimi ve
ticari uygulamalar için de kullanılabilmektedir [20]. Örneğin, Amerika Birleşik
2
Devletleri başkanı Barack H. Obama birçok seçmenine sosyal medyadan
ulaşmıştır [20]. Diğer bir örnek olarak ise bilgisayar firmalarından Dell
şirketinin Twiter sitesinden 3 milyon dolar gelir elde ettiği belirtilmiştir [20].
Sosyal ağlar içerisinde veri kaynağı olarak blog siteleri de önemli bir yere
sahiptir [22]. Kullanıcıların belirli konularda görüşlerini yazıp yorum
alabildikleri blog siteleri, Internet’te geliştirilen sosyal etiketleme sistemleri
sayesinde çok daha etkin bir konuma gelmiştir. Etiketleme sayesinde bu
siteler araştırmacılara metadata sağlamıştır [23]. Sosyal ağlardaki bu
etiketleme sayesinde gerçekleşen etkileşim bir konu yada kişi hakkındaki
pozitif veya negatif ilişkileri gösterebilmektedir. Yukarıda yazılanlar dikkate
alındığında, sosyal ağ kavramının hızlı gelişen teknolojilerle birlikte günlük
hayatta çok önemli bir yere sahip olduğu ve daha birçok uygulamaya açık
olduğu anlaşılmaktadır [20].
Sosyal ağlar için geliştirilecek yeni uygulamaların başında bu ağlarda
bırakılan verinin analiz edilerek bu ham veriden bilgi çıkartılması işlemi
gelmektedir.
Veri
madenciliği
yöntemleri
kullanılarak
sosyal
ağlarda
kullanıcıların bıraktığı veriler incelenmesi ile çeşitli bilgiler elde edilmesi
mümkündür. Örneğin, kullanıcıların profil analizi ile gruplar arası ilişkiler
çıkarılabilir yada kullanıcıların yapmış oldukları yorumların incelenmesi ile bir
konunun yada kişinin pozitif veya negatif olarak desteklenip desteklemediği
ortaya çıkarılabilir. Benzer olarak kullanıcıların Twitter gibi sitelerde yaptıkları
kısa yazıların incelenmesi ile sosyal ağın yâda belli bir grubun duygusal
açıdan anlık sınıflandırması yapılabilir. Başka bir uygulama ile kullanıcıların
etkileşim halinde oldukları kişilerin analizi yapılarak aralarındaki ilişki tahmin
edilebilir.
Bunlardan
başka
kişiler
arası
beğenilerin
benzerliğinin
hesaplanması ile öneri sistemleri tasarlanabilir ve geliştirilebilir. Bütün bu
3
olası uygulamaların ortak yönü veri madenciliği yöntemleri kullanılarak
yapılabiliyor olmalarıdır.
Bu tez çalışmasında sosyal ağlarda son zamanlarda yapılan veri madenciliği
çalışmaları incelenerek sosyal ağlarda veri madenciliği üzerine Türkiye’ de
yenilikçi araştırmalar yapılmıştır. Sosyal ağların insanlar üzerindeki etkisinin
giderek artmasıyla son dönemlerde bu alanda yapılan analizler ile veri
madenciliği uygulamaları artmaktadır. Kullanıcıların sosyal ağlarda çok
miktarda veri bırakmasıyla veri madenciliği ile bu alandaki bilgilerin
değerlendirilmesi kolay olmaktadır. Sosyal ağ sitelerinin başında gelen twitter
sitesi kişilerin yorumlarını içerdiğinden bu alanda yoğunlukla çalışılan bir
sitedir. Kişilerin istedikleri konular hakkında yorum yapabilmeleri ile bu alanda
çok miktarda veri bulunmaktadır. Bu yorumların değerlendirilmesi ile belirli
olayların kişiler üzerinde etkisi araştırılabilmektedir. Bu çalışmada da Türkçe
tweet mesajlarının duygusal analizleri yapılmıştır ve borsa kelimesi içeren
tweet mesajlarının borsa ile ilişkisi değerlendirilmiştir. Twitter kullanıcılarının
birbirleri
ile
olan
benzerlikleri
yaptıkları
yorumlar
değerlendirilerek
çıkarılmıştır. Bu sayede aynı konu üzerinde yorum yapan belli bir grup
içerisinde benzer özellik gösteren diğer grupların bulunmasına olanak
sağlanabilmektedir.
4
2.VERİ MADENCİLİĞİ
2.1.Veri Madenciliği Nedir?
Veri madenciliği, eldeki büyük miktarlı verilerden üstü kapalı, çok net
olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin
çıkarılmasıdır. [1, 5]. Bu da; kümeleme, veri özetleme, değişikliklerin analizi,
sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir [2].
Yüksek kapasiteli işlem yapabilme gücünün artması ve ucuzlaması ile birlikte
veri saklama işlemi kolaylaşmıştır. Son yıllarda bilgisayarların günümüzün
vazgeçilmezi olması ile dünyadaki şirketlerin çoğu işlerini bilgisayarlar ve bilgi
sistemleri aracılığı ile yapmaktadırlar [55]. Veri miktarının artması, veriyi
toplama ve saklama kapasitesindeki hızlı büyüme, yeni arayışlara yol
açmıştır. Bir bilgisayarın işleyebileceği veri miktarından daha fazlası
üretilmektedir. İnsanların veri analizinde yetersiz, objektif ve hızlı olmamaları
dolayısıyla yeni tekniklere ihtiyaç duyulmuştur. Verilerin hızlı bir şekilde
büyümesi, yorumlama ve özümsemede etkin bir veri tabanı analizi için, yeni
tekniklere ihtiyaç doğmuştur. Geleneksel sorgu veya raporlama araçları çok
miktardaki veriler karşısında yetersiz kalmasından dolayı veri madenciliği
gelişmiştir [3].
Veri madenciliği ve veri tabanlarında bilgi keşfi süreci kavramları birçok
kaynakta birbirinin yerine kullanılmaktadır. Veri madenciliği, veri tabanlarında
bilgi keşfi sürecinde bir adım olarak yer almasına rağmen birçok çalışmada
tüm süreci anlatmak için kullanılmaktadır. Bu süreçte istatistik, matematik
disiplinleri, modelleme teknikleri, veri tabanı teknolojisi ve çeşitli bilgisayar
programları kullanılarak veri madenciliği işlemleri yapılır [3].
5
Bu programların analizleri ve değerlendirmeleri sonucu karar aşamasındaki
kritik bilgiler sonuçların doğruluğuyla orantılıdır. Birçok durumda verdiğimiz
kararlar bilgilerin doğruluğunu tam olarak bilmediğimiz için net olmamaktadır.
Örneğin; Pazar araştırması yapan bir firma için müşterileri ile ilgili bilgileri
kayıtlı ve ne kadar çok olursa olsun açık ve net cevaplara ulaşılması
neredeyse imkânsızdır [2]. Büyük miktardaki verilerin altında saklı olan bu
bilgilere ulaşmak veri madenciliği sayesinde daha kolay olmaktadır. Genel
olarak veri madenciliği, gerçek hayatta yazılım endüstrisinin son yıllarda
ürettiği yazılımlarla beraber büyük market veya firmaların gelecek hakkında
analiz ve tahmin yapmak için kullandığı bir yöntem olarak günümüzde yerini
almaktadır. Ancak son dönemlerde sosyal ağlarda insanların çok vakit
geçirmesiyle bu alanda insanların beğenilerinin çıkarılması ve gelecek
hakkında tahminlerin ve analizlerin yapılması için kullanılmaktadır.
Temel olarak veri madenciliğini tanımlamak istersek? Veri setleri arasındaki
desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması
ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikler bilgisayar yardımı
ile belirlenir. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edip
günlük yaşamda kolaylık sağlamaktır. Veri madenciliği, zeki yöntemler
aracılığıyla büyük miktarda veriden anlamlı bilgilerin çıkarılması sürecidir
[52].
2.2. Veri Madenciliğinin Gelişim Süreci
Veri madenciliğinin başlangıç aşaması ilk sayısal bilgisayar olan ENIAC’ a
kadar dayanmaktadır. Bilgisayarların verimli şekilde kullanımı verilerin
depolanması
hesaplamaları
ile
başlamaktadır.
yapmaya
yönelik
Bilgisayarlar
geliştirilmiştir,
ilk
olarak
karmaşık
kullanıcı
ihtiyaçları
doğrultusunda veri depolama işlemleri için de kullanılmaya başlanmıştır. Bu
6
sayede veri tabanları ortaya çıkmıştır. Veri tabanlarının genişlemesi ile
donanımsal olarak bu verilerin tutulacakları ortamları ve bu ortamların da
genişlemesini gerektirdi. Bu sayede veri ambarı kavramının ortaya çıkışı bu
dönemlere
rastlamaktadır.
Verilerin
uzun
süre
saklanmak
istenmesi
nedeniyle fiziksel sürücülerde saklanmaktaydı. Bu süreçle beraber büyüyen
veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de buna paralel
olarak daha zor bir hal almaya başladı. Bu safhada veri modelleme kavramı
ortaya çıktı [4].
İlk geliştirilen modeller Hiyerarşik ve Şebeke modelleridir [4]. Hiyerarşik veri
modelleri, ağaç yapısına benzeyip, temelinde bir kök olan ve bu kök
vasıtasıyla üstünde her daim bir, altında ise n sayıda düğüm bulunan veri
modelleriydi. Şebeke veri modelleri ise kayıt tipi ve bağlantıların olduğu, kayıt
tiplerinin varlık, bağlantılarınsa ilişki tiplerini belirlediği bir veri modeliydi.
Şebeke veri modelinde herhangi bir eleman bir diğeri ile ilişki içerisine
girebiliyordu. Ancak çoklu ilişki kurmak söz konusu değildi. Hiyerarşik veri
modellerinde ise bu daha da kısıtlıydı. Dolayısıyla kullanıcıların ihtiyaçlarını
tam olarak karşılayamadılar. Bu ihtiyaçlar doğrultusunda Geliştirilmiş Veri
Modelleri geliştirildi. Bunlar Varlık İlişki, İlişkisel ve Nesne Yönelimli veri
modelleri olarak bilinmektedirler [4].
Veri madenciliği, kavramsal olarak 1960lı yıllarda, veri analiz problemlerini
ortadan kaldırmak amacıyla kullanılmasıyla ortaya çıktı. Uzun taramalar
sonucunda istenilen verilere ulaşmanın mümkün olduğu anlaşıldı ve bu
işleme veri madenciliği yerine önceleri veri taraması, veri yakalanması gibi
isimler verildi [4].
1990lı yıllara gelindiğinde veri madenciliği ismi, bilgisayar mühendisleri
tarafından ortaya atıldı. Bu isimlendirmenin amacı, geleneksel istatistiksel
7
yöntemler yerine, veri analizinin algoritmik bilgisayar modülleri tarafından
değerlendirmesini vurgulamaktı. Bu aşamadan sonra bilim adamları veri
madenciliğine çeşitli yaklaşımlar getirmeye başladılar. Bu yaklaşımların
kökeninde istatistik, makine öğrenimi, veri tabanları, otomasyon, pazarlama,
araştırma gibi disiplinler ve kavramlar yatmaktaydı.
İstatistik verilerin
değerlendirilmesini mümkün kılan bir yöntemler topluluğuydu. Bilgisayarların
veri analizi için kullanılmaya başlamasıyla istatistiksel çalışmalar hız kazandı.
Bilgisayarların gelişmesi ile beraber daha önce yapılması mümkün olmayan
istatistiksel araştırmalar mümkün oldu. 1990lardan sonra istatistik, veri
madenciliği ile ortak olarak düşünülmeye başladı. Bilginin, çok miktardaki veri
yığınları içerisinden çekip çıkarılması ve analizinin yapılarak kullanıma
hazırlanması
sürecinde
veri
madenciliği
ve
istatistik
ortak
olarak
kullanılmaktadır. Bunun yanı sıra veri madenciliği, veri tabanları ve makine
öğrenimi disipliniyle birlikte gelişti [4].
2.3.Veri Madenciliği Modelleri
Tanımlayıcı ve tahmin edici model olarak iki çeşit model mevcuttur.
2.3.1. Tanımlayıcı model
Tanımlayıcı modeller analiz yapan kişiye daha önceden bir bilgi ve hipoteze
sahip olmaksızın, veri kümesinin içinde ne tür ilişkiler olduğunu anlama
imkânı sunar. Analizcinin çok büyük veri tabanlarındaki bilgileri incelemek,
örüntüleri keşfetmek için doğru soruları sorup hipotezler geliştirmesi pratikte
zor olduğundan, ilginç örüntüleri keşfetme önceliği veri madenciliği
programına bırakılır. Keşfedilen bilginin kalitesi ve zenginliği, uygulamanın
kullanışlılığını ve gücünü oluşturur [3].
8
2.3.2.Tahmin edici model
Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir
model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları
bilinmeyen
veri
kümeleri
için
sonuç
değerlerin
tahmin
edilmesine
çalışılmaktadır. Örneğin bir sınıftaki öğrencilerin bir dersle ilgili almış oldukları
vize ve ödev notları gibi veriler bir veri tabanında toplanabilir. Bu verilere
uygun olarak kurulan model öğrencilerin o dersin sonunda finalden alacağı
notun tahmininde kullanılmaktadır [3].
2.4.Veri Madenciliği Yöntemleri
Tanımlayıcı ve tahmin edici modellerde kullanılan belli başlı teknikler vardır.
Bunlar Sınıflandırma[3] ve Regresyon Analizi[3], Kümeleme[18], Ardışık
Örüntülerin
Bulunması[3],
Birliktelik
Kuralları
Bulunması[3]
olarak
sıralanabilir. Sınıflandırma modeli tahmin edici, kümeleme, birliktelik kuralları
ve ardışık örüntü modelleri tanımlayıcı modellerdir.
Sınıflandırma nesnelerin niteliklerini kullanarak veri nesnesini daha önceden
belirlenen sınıflardan biriyle eşleştirme işlemidir [3,11].
Regresyon analizi sayısal değişkenlerin matematiksel bir fonksiyona
uydurularak tahmin edilmesi yöntemidir [3,11].
Kümeleme, benzer karakteristiklerin belirlenip üyeleri birbirine benzeyen
farklı grupların belirlenmesi işlemidir [3,18].
Ardışık örüntülerin bulunması belli bir zaman aralığında sıklıkla olan olayların
kümelerini bulma işlemidir [3].
9
Birliktelik kuralları bir arada olan verinin özelliklerinin keşfedilmesidir [3].
10
3. VERİ MADENCİLİĞİNİN BAZI UYGULAMA ALANLARI
Veri madenciliği verinin yoğun olarak üretildiği her ortamda uygulama alanı
bulabilir. Bazı uygulama alanları aşağıdaki gibi özetlenebilir [6].
3.1. Bilimsel ve Mühendislik Verileri
Günümüzde laboratuvar veya bilgisayar ortamında sistemlerin gelişmesi ve
artması ile yüksek miktarda bilimsel veri üretilmektedir. Elde edilen bu
verilerin anlamlandırılması için veri madenciliği kullanılmaktadır [6].
3.2. Sağlık Verileri
Veri madenciliğinin en çok kullanılan uygulama alanlarından bir tanesi de tıp
ve sağlık alanıdır. Özellikle tarama testlerinden elde edilen verileri kullanarak
çeşitli kanserlerin ön tanısı, kalp verilerini kullanarak kalp krizi riskinin tespiti,
acil servislerde hasta semptomlarına göre risk ve önceliklerin tespiti gibi çok
geniş bir uygulama sahası söz konusudur [7].
3.3. İş Verileri
İş süreçleri sırasında büyük miktarda veriler üretilir. Bu verileri karar verme
mekanizmalarında kullanmak mümkündür. Müşteri veri tabanlarının analizi ile
reklam ve promosyon ile ilgili pek çok faydalı bilgiye ulaşmak mümkündür [6].
Müşteri ve ürün veritabanın ortak kullanılması ile daha faydalı bilgiler
çıkarılabilmektedir.
11
3.4. Alışveriş Verileri
Bu alanda en çok başvurulan veri madenciliği yaklaşımı sepet analizidir.
Sepet analizinde amaç alınan ürünler arasındaki ilişkileri bulmaktır. Bu
ilişkilerin bilinmesi işletmenin kârını arttırmak için kullanılabilir [6,16].
3.5. Bankacılık ve Finans Verileri
Bankacılık sektöründe kredi ve kredi kartı sahtekârlığı tahminlerinde, risk
değerlendirmede, müşteri eğilim analizlerinde, kar analizi gibi alanlarda veri
madenciliği kullanılır [6,16].
3.6. Eğitim Sektörü Verileri
Öğrenci işlerinde veriler analiz edilerek öğrencilerin başarı ve başarısızlık
nedenleri, başarının arttırılması için hangi konulara ağırlık verilmesi gerektiği,
üniversite giriş puanları ile okul başarısı arasında bir ilişkinin var olup
olmadığı gibi soruların cevabı bulunarak eğitim kalitesi ve performansı
arttırılabilir [6].
3.7. Internet (Web) Verileri
Internet ve web üzerindeki veriler giderek büyümektedir. Web madenciliği
özetle internetten faydalı bilginin keşfi olarak tanımlanabilir. Kaynakların
otomatik tarama sistemleri, bilgi alma için kullanılan sistemler ve web siteleri
veya online veri tabanlarından seçilmesi web içerik madenciliği konusuna
girerken web sunucularından veya online servislerden kullanıcı erişim
12
desenlerinin analiz ve keşfi web kullanım madenciliği konusuna girmektedir
[8].
3.8. Doküman Verileri
Doküman veri madenciliğinde ana amaç dokümanlar arasında ayrıca elle bir
tasnif gerekmeden benzerlik hesaplayabilmektir. Bu genelde otomatik olarak
çıkarılan
anahtar
sözcüklerin
tekrar
sayısı
sayesinde
yapılır.
Polis
kayıtlarında mevcut rapora benzer kaç adet ve hangi raporlar var. Ürün
tasarım dokümanları ve internet dokümanları arasında mevcut tasarım için
kullanılabilecek ne tür dosyalar var gibi sorulara yanıt bulunabilir [6] .
3.9. Sosyal Ağ Verileri
Günümüzde İnternetin yaygınlaşmasıyla son yıllarda ortaya çıkan yeni
uygulamalar iletişim ve eğlence amacı ile kullanılmaya başlamıştır. Sosyal
medya olarak tanımlanabilecek bu uygulamalar kişiler ve geniş kitleler
hakkında büyük miktardaki verilere İnternet üzerinden kolay bir şekilde erişim
imkânı vermiştir [9]. Bu alandaki verinin analiz edilmesi ile insanlar hakkında
faydalı bilgiler çıkarılabilmektedir.
3.10. Askeri Veriler
Hedef tanıma ve askeri takip sistemlerinde kullanılan veriler ile veri
madenciliği çalışmaları yapılabilmektedir. Bunun yanı sıra sensörlerin
performans analizleri ve görüntü verileri ile veri madenciliği çalışmaları
yapılabilmektedir [10].
13
4. VERİ MADENCİLİĞİ AŞAMALARI VE TEKNİKLERİ
4.1. Veri Madenciliği Aşamaları
Veri madenciliği işlemlerinin gerçekleştirilebilmesi için veri ambarlarında veya
veri tabanlarında tutulan verilere belli süreçler uygulanması gerekir. Başarılı
bir veri madenciliği projelerinde belirli adımların izlenmesi gerekir [14,16].
4.1.1. Problemin tanımlanması
Veri madenciliğinde başarım oranını etkileyen en önemli faktörlerden birisi
projenin ne hangi kurum veya ne amaçla yapıldığının belirlenmesidir [14].
Problemin sonuçlarının faydası ve maliyeti çalışma kimin için yapılıyorsa
analiz edilmesi gerekmektedir. Kurumda üretilen sayısal veriler için boyut ve
yeterlilik açısından iyi analiz edilmesi gerekir [14,15].
4.1.2. Veri hazırlanması
Veri hazırlanması ve seçimi veri madenciliği süreçlerinde en fazla zaman
alan kısımlardan biridir. Bu aşamada bilgi sistemlerinde oluşan bilgi iyi analiz
edilmelidir ve problemle ilişkilendirilmelidir. Analizi yapan kişinin veri kalitesini
ölçmesi açısından bu aşama önemlidir [14,15]. Büyük miktardaki verilerin tek
bir veri tabanı veya veri ambarında birleştirilmesi veri madenciliği uygulaması
için gereklidir [13]. Veri hazırlanması veri ön işleme sürecindeki aşağıdaki
aşamaları içermektedir.
Veri temizleme
Veri temizleme işlemi veri madenciliğinin başarısı için önemlidir.
14
Kullanıcı veya programın çalışması esnasında oluşan hatalardan dolayı eksik
veya hatalı veriler veri tabanlarında bulunabilir [11,13,14,15]. Veriler
üzerinden faydalı ve doğru sonuç çıkarmak için bu hataların düzeltilmesi
yâda giderilmesi gerekir. Eksik nitelik taşıyan veriler hesaplamalara
alınmayabilir ve silinebilir. Yada bu niteliğe özgü global değerle doldurulabilir
veya niteliklerin ortalaması veya en yüksek değeri kullanılarak doldurulabilir
[11].
Veri birleştirme
Veri madenciliği çalışmasının iyi bir sonuç vermesi için veri miktarının çok
olması gerekmektedir. Bu yüzden birçok veri kaynağından yararlanarak veri
kümemizi oluşturmak gerekir. Farklı kaynaklardan gelen veriler aynı veri
kümesi içerisinde birleştirilir. Aynı nitelik değerleri içeren veriler için dönüşüm
yapmak gerekebilir. Gerekli dönüşüm yapılmasa gereksiz veriler oluşabilir ve
buda başarım oranını etkileyebilir [11].
Veri dönüşüm
Verilerde bazı nitelik tipleri uygulanacak olan algoritmaya uygun olmayabilir
[11].
Niteliklerin
algoritmaya
uygun
hale
getirilmesi
için
bu
işlem
yapılmaktadır. Bunun için normalizasyon ya da nitelik oluşturma işlemleri
yapılabilir. Normalizasyon işlemi nümerik değerler için kullanılır. Normalizasyon
işleminde min-max normalizasyon (4.1), z-score normalizasyon (4.2) ve ondalık
normalizasyon (4.3) teknikleri uygulanabilecek yöntemlerdendir [11].
(4.1)
(4.2)
15
(4.3)
Sürekli
değerlerin
ayrık
değerlere
dönüştürülmeside
veri
dönüşümü
aşamasına girmektedir. Bu sayede veri hacmi küçülmüş olur. Histogram
yöntemi kullanılarak veriler gruplanabilir. Her ayrı demet yapısına yarık etiket
değeri verilebilir [11, 13].
Veri azaltma
Veri madenciliği uygulanacak verinin aşırı büyük olması ve sonucu
etkilemeyecek olan verileri içermesi gereksiz işlemlere sebep olur. Bu tip
verilerin dönüştürülmesi veya temizlenmesi gerekir [11,13]. Bu tekniğin
içerisinde veri birleştirmesi, veri küpü, veri sıkıştırma, boyut indirgeme gibi
yöntemlerde bulunmaktadır.
4.1.3. Modelin uygulanması ve değerlendirilmesi
Modelin kurulumu süreci denetimli ve denetimsiz öğrenme modellerine göre
farklılık göstermektedir. Örnekten öğrenme denetimli öğrenme, denetimsiz
öğrenme ise kümeleme analizindeki gibi gözlem ve örnekler arasındaki
benzerliklerden faydalanarak sınıfların tanımlanması yapılmaktadır [14,15].
Tanımlanan problem çeşitli modellerin kurulması ve uygulanması ile mümkün
olmaktadır [14].
4.1.4. Modelin kullanılması
Geçerliliği kabul edilen model uygulama olarak değerlendirilebilir veya diğer
uygulamaların parçası olarak değerlendirilebilir [14,15]
16
4.1.5. Modelin izlenmesi
Modelin zaman içerisinde değerlendirilmesi daha uygun olacaktır. Belli
zaman aralıklarında
verilerde
meydana
gelen
değişiklikler görülerek
yenilenen bir şekilde izlenme ve düzenleme gerekecektir. Farklılıkların
değerlendirilmesi ile daha uygun bir model seçimi yapılabilir [14,15].
4.2. Veri Madenciliği Teknikleri
Veri madenciliği tekniklerini genel anlamda 3 grupta değerlendirebiliriz [15].
• Sınıflandırma
• Kümeleme
• Birliktelik Kuralları
4.2.1. Sınıflandırma
Sınıflandırma, niteliklerin incelenmesi ile nesnenin önceden tanımlanmış bir
sınıfa atamasıdır. Sınıf özelliklerinin iyi şekilde belirlenmesi gerekir. Sonuçlar
önceden bilindiği için sınıflandırma denetimli öğrenme grubuna girer
[13,15,17].
Sınıflama ve regresyon analizi yöntemlerinde kullanılan başlıca teknikler [3],
• K-En Yakın Komşu,
• Genetik Algoritmalar,
• Yapay Sinir Ağları,
• Naïve-Bayes,
• Doğrusal Regresyon, Lojistik Regresyon,
17
• Karar Ağaçları olarak verilebilir.
4.2.2. Kümeleme
Verilerin belli bir benzerlik kriterine göre gruplanması işlemine kümeleme
denir. Sınıflandırma algoritmalarına benzer olarak ortak özellikleri olan veriler
aynı küme içerisinde yer alır. Çeşitli kümeleme algoritmaları ile alt kümeler
bulunmaya çalışılır [10,13]. Kümeleme algoritmaları olarak k- ortalamalar
veya Kohonen şebekesi gibi istatiksel yöntemler kullanılmaktadır [15].
Kümeleme
modelinde,
kriterlerine
göre
sınıfları
gruplar
halinde
bulunmayan
kümelere
veriler
ayrılırlar.
benzerlik-yakınlık
Küme
içindeki
elemanların benzerliği yüksek olmalı, kümeler arasında ise benzerliğin az
olması gerekir [13].
1- Bölme yöntemleri,
2- Hiyerarşik yöntemler,
3- Yoğunluk tabanlı yöntemler,
4- Izgara tabanlı yöntemler,
5- Model tabanlı yöntemler.
4.2.3. Birliktelik kuralları
Birliktelik kuralları denetimsiz veri madenciliği şeklidir. Birliktelik kuralları
genelde market sektöründe kullanılır ve “ sepet analizi” olarakta adlandırılır.
Birliktelik kuralı, müşterilerin satın aldıkları ürünler arasında ilişkinin
değerlendirilmesi ile daha etkin ve kazançlı satışlar yapabilme olanağı sağlar
[12,13].
18
5. SOSYAL AĞLAR
Son yıllarda Internet erişiminin yaygınlaşması ve geliştirilen uygulamalar
sayesinde büyük ölçüde Internet üzerinden gerçekleştirilmeye başlanmıştır.
Geliştirilen bu uygulamalar insanlara sadece iletişim ve bilgi paylaşımı
olanağı değil eğlence ve iyi vakit geçirme imkânı da sunmaktadırlar. Genel
olarak “sosyal ağlar” olarak tanımlanabilecek bu uygulamalar kişiler ve geniş
kitleler hakkında büyük miktardaki verilere Internet üzerinden kolay bir
şekilde erişim imkânı vermektedir.
İnsanlar arasındaki politik, resmi, resmi olmayan, ailevi, coğrafi ya da
herhangi başka bir şekildeki ilişkiler sosyal ağları oluşturur [57]. İnsanların
birbirleriyle olan ilişkilerini sanal ortam üzerinde paylaşıp, yönetmelerine
olanak veren yapılara sosyal ağ adı verilmektedir [56]. Özellikle internet
teknolojilerinin hızla gelişmesi ve tüm dünyada kullanılması ile birlikte, sosyal
ağda bulunan insanlar kendilerini çok daha rahat ifade ederek sanal dünya
üzerinde daha fazla vakit geçirmektedirler. Sanal ortamda arkadaşlıklar
kurarak, birbirleri ile resim, müzik ve video vb. eğlence öğeleri paylaşarak
hayatın
sosyalliğini
sanal
ortamda
yaşayabilmektedirler.
Farklı
coğrafyalardan ve farklı kültürden insanların bulunduğu bu büyük ağ
sayesinde bireyler birbirleri ile daha hızlı bir şekilde iletişim kurabilmektedirler
[56].
5.1. Sosyal Ağların Genel Özellikleri
Sosyal ağların çoğu kullanıcı odaklı olup, kullanıcıların daha fazla vakit
geçirebilmeleri için çeşitli ekstra uygulamalar sunmaktadırlar. Sundukları
uygulamaların ve işlemlerin çoğu ücretsizdir. Sundukları uygulamalar
19
elektronik posta, anlık mesajlaşma, video, oyun, blogging, dosya paylaşımı,
fotoğraf paylaşımı gibi çeşitli hizmetlerdir. Bu hizmetleri sağlayarak,
kullanıcıların etkileşimini kolaylaştırır. Sosyal kullanıcılarının kendilerine ait
bilgilerinin
tutulduğu
veri
tabanı
sayesinde
kolaylıkla
arkadaşlarının
paylaşımlarını ve ilgilendikleri konuları grupları takip edebilirler. Kullanıcılar
bunun yanı sıra kullandıkları sosyal ağın özelliklerine göre kendi profillerini
oluşturma imkânına sahiptirler. Bunun yanı sıra profillerinde paylaştıkları
bilgilerin ve beğenilerin üzerindeki gizlilik ayarlarını yapabilmektedirler
[58,59].
5.2. Sosyal Ağ Uygulamalarında İletişim
Sosyal ağ uygulamalarında iletişim kullanıcıların istek göndermesi ve karşı
tarafın onaylaması şeklinde gerçekleşmektedir. Bunun yanı sıra öneri
sistemlerinin geliştirilmesi ile sizinle benzer özellik ve beğenilere sahip olan
kişilerin önerilmesi ile sosyal ağlarda etkileşim başlayabilmektedir. Diğer bir
iletişime geçme yöntemi ise tek taraflı olarak gerçekleşmektedir. Bu tek taraflı
bağlantılarda hayranlar veya takip edenler olarak adlandırılmaktadır.
Sosyal
ağ
uygulamalarındaki
arkadaşlık
terimi
genellikle
yanlış
anlaşılabilmektedir. Sosyal yaşamdaki arkadaşlıktan ziyade bireyler arası
bağlantıyı temsilen arkadaşlık terimi kullanılmaktadır. Bu bağlantı sadece
sanal ortamda olabilir ve gerçek hayatta bu ilişki olmayabilir [56].
5.3. Sosyal Ağ Uygulamaları
Kuduğ, (2011) sosyal ağ uygulamalarını çevrim içi sosyal ağ uygulamaları ve
kurum içi sosyal ağ uygulamaları olarak iki farklı grupta incelemiştir. Çevrimiçi
sosyal ağ uygulamaları, kullanıcıların sınırları belli olan bir sistem
20
çerçevesinde halka açık ya da gizli profiller oluşturmasına olanak sağlayan,
bağlantıda olduğu diğer kullanıcıların bağlantı listelerini görebilen bu
listelerde dolaşabilmesine olanak sağlayan web tabanlı hizmetlerdir [56].
Kurum içi sosyal ağ uygulamaları, kuruluşlara özel olarak hazırlanan intranet
sosyal ağ uygulamaları, intranete dayalı olarak sosyal ağ oluşturma araçları
ile kuruluşların kendi yerel ağları içerisinde oluşturup kullanabildikleri ve
sadece kendi üyelerinin katılabileceği bir ağ modeli sunan uygulamalardır.
Çevrimiçi sosyal ağlar internet üzerinden herkesin erişebileceği ve
katılabileceği bir ortam sunar. Ancak kurum içi sosyal ağlarda ise belirli bir
kurumun mensupları bu ağa erişebilmektedir [56].
21
6. SOSYAL AĞLARDA VERİ MADENCİLİĞİ
Sosyal ağlar için geliştirilecek yeni uygulamaların başında bu ağlarda
bırakılan verinin analiz edilerek bu ham veriden bilgi çıkartılması işlemi
gelmektedir.
Veri
madenciliği
yöntemleri
kullanılarak
sosyal
ağlarda
kullanıcıların bıraktığı veriler incelenerek çeşitli bilgiler elde edilmesi
mümkündür [9].
6.1. Sosyal Ağlarda Veri Madenciliği İşlemleri
Sosyal ağlarda bulunan kişiler birçok eylemi gerçekleştirebilir. Bunlar birlikte
veya dolaylı olarak etkilenme vasıtasıyla gerçekleşebilir, yâda bloglarında
bilgi paylaşımı sayesinde ilişkisel bilgiler sunabilirler.
Kişilerin bıraktığı yorumlardan veya yazdıkları anlık iletilerden yola çıkarak
elde edilen veriler üzerinde yapılabilecek işlemler Şekil 5.1’de verildiği gibi üç
farklı kategoride toplanabilir.
Sosyal Ağlarda Veri Madenciliği İle Yapılan İşlemler
Davranışsal analiz ve ortaklaşa gerçekleştirilen davranışlar
Sınıflandırma
Şekil 6.1. Sosyal Ağlarda Yapılan İşlemler
Benzerlik
22
6.1.1. Sınıflandırma
Sınıflandırma
çalışmaları
sosyal
ağlarda
kullanıcıların
gruplarının
belirlenmesi gibi birçok konu üzerinde olabilir. Sosyal ağlardaki birbirini
izleyen etkileşimin izlenmesi ile kişilerin beğenilerinin belirlenmesi mümkün
olabilmektedir. Sosyal ağlardaki etkileşim pozitif veya negatif ilişkileri
göstermektedir. İnsanlar linkler üzerinde beğenip beğenmeme durumlarını
veya destekleyip desteklemediklerini gösterirler [28]. Bu diğer bir söylemle
etiketleme
olarak
tanımlanabilir.
Kullanıcılar
belli
sözcüklerle
yorum
yapabilirler. Etiketlemede kullanıcılar anahtar sözcük belirterek bu işlemi
gerçekleştirirler ve bu şekilde kolayca veri elde edilmesi sağlanır [23]. Sosyal
ağlarda yayınlanan konu üzerinden kişilerin bıraktığı yorum ve/veya beğeni
durumlarına göre konular hakkında analiz yapılıp çıkarımlar elde edilebilir.
Kişilerin
kısa
metin
mesajlarından
yola
çıkarak
belli
kelimelerin
incelenmesiyle kişiler sınıflandırılabilir yada yazılan mesajlar sınıflandırılabilir
[9].
6.1.2. Davranışsal analiz ve ortaklaşa gerçekleştirilen davranışlar
Ortaklaşa davranışlar kişilerin sosyal ağlardaki davranışlarını anlatmaktadır.
Ortak davranışlar kişisel olarak değil sosyal ağ çevresinde gerçekleştirilen
birbirine bağlı işlemlerdir. Bir kişinin yaptığı davranış diğer kişileri etkilemekte
ve giderek yayılan bir yapı izlemektedir. Bu kullanıcılar arasındaki
davranışsal ilişki olarak tanımlanır [20]. Burada bahsedilen davranışlar;
gruplara katılma, insanlarla iletişim kurma, reklamlara tıklama ve benzerleri
olarak çeşitlendirilebilir. Ortaklaşa davranışlar, bunların tümünü kapsayan,
sosyal medyada bulunan kişilerin maruz kaldığı veya yaptığı işlemlerin
bütünü olarak tanımlanabilir.
23
Gerçekleşen işlemlerde dikkat çeken en önemli özellik taklit yöntemine göre
gerçekleşmesidir. Örneğin kişilerin herhangi bir reklama tıklayıp alışveriş
yapmasıyla başka kişi de onun yaptığı işlemleri takip ederek buradaki
davranışını taklit etmektedir. Buna örnek olarak kişilerin bir konu ile ilgili
yaptığı yayınlar ve yorumlar verilebilir. Tüm bunlar davranışsal olarak sosyal
ağların etkisiyle şekillenmektedir [20].
Davranışsal analizlerin incelenmesi sonucu kişilerin beğeni özellikleri
belirlenebilir ve buna göre kişiye özel uygulamalar geliştirilebilir. Örneğin
kullanıcının beğendiği gruplar dikkate alınarak kullanıcıya özel reklamlar
yapılabilir.
6.1.3. Benzerlik
Benzerlik nitelikleri blogların benzerliği, grupların benzerliği ya da sosyal
ağlarda yapılan paylaşımların hakkındaki konular üzerinde yapılan benzerlik
çalışmaları olarak karşımıza çıkmaktadır [9].
Blogların benzerliği
Bloglarına yazı yazan blog sahipleri kendileri ile benzer yayın ve benzer
özellikler gösteren diğer blogları bilmemektedirler [30]. Aynı uzantıda bulunan
birbirleriyle benzer bloglar benzer ilgi alanlarındaki bilgileri paylaşırlar. Blog
Katolog’da [54] yayın yapanlar kategorilere ayrılırlar. Bu kategoriler insanların
benzer siteleri veya konuları bulmasına yardımcı olur [22]. Sadece
kategorisel açıdan benzerliği değerlendirmemiz diğer alanlardaki benzerlikleri
görmememiz anlamına gelebilir. Bloglarda paylaşılan bilgilerin çeşitli
olmasından dolayı benzer yazılar farklı kategoriler altında oldukları için
görünmeyebilir. Bu problemi çözmek için kategoriler arası benzerlik çalışması
24
önerilmiştir.
Benzerlik
çalışması
için
kategori
benzerliğinin
dışında
kullanıcıların profil bilgileri kullanılarak profil benzerlikleri konusunda da
çalışmalar yapılabilmektedir [22].
Grupların benzerliği
Kullanıcılar sosyal ağlardaki arkadaşlarını okul arkadaşı, iş arkadaşı veya
farklı şekilde etiketlerler. Buradan çeşitli gruplara üye olurlar. Bazı gruplar
kullanıcılarının benzer olması itibariyle benzerlik açısından değerlendirilebilir
[27]. Grupları ve kullanıcıların üye oldukları ağları ve aralarındaki ilişkileri
görmek amacıyla çizge teknikleri kullanılmaktadır. Kullanıcıların sosyal
ağdaki arkadaş olma sebebi dolayısı ile grup üyelikleri de benzerlik
göstermektedir. Buna şöyle örnek verebiliriz. Kullanıcının futbol takımından
arkadaşı ile ortak olarak üye oldukları gruplar genelde futbol ile ilgilidir.
Kullanıcı benzerliği
Kullanıcılar
sosyal
ağlarda
beğendikleri
grupları
yada
yazıları
belirtebilmektedirler. Örneğin kullanıcıların ilgi alanlarındaki grupların, spor,
müzik ve benzeri şekilde ayrılıp ayrıntılı olarak incelenmesi ile benzerlik
çalışmaları yapılabilmektedir. Bu çalışmalarda birbirini tanımayan ancak aynı
beğenilere sahip olan kişiler bulunmaya çalışılmıştır [42].
6.2. Veri Kaynakları
Blogların ve sosyal ağlardaki bilgilerin elde edilmesi konusu kritik bir nokta
olarak karşımıza çıkmaktadır. Bunlardan bir kısmı kullanıma açık olarak
verilmektedir. Bloglarla alakalı olarak BuzMetric [64] veri seti farklı arama
deneyimlerini barındıran bir set olarak uygulamalarda kullanılabilir [31].
25
Benzer olarak The Unofficial Apple Weblogs [65] bloglar hakkında birçok
bilgiyi araştırmalar için paylaşmaktadır. Bunun haricinde Twitter Api [60]
yardımı ile Twitter’daki verilere erişilebilmektedir. Bunun dışında insanların
internet üzerinde paylaştığı yazılar ve bilgileri çeşitli yazılımlar sayesinde elde
edilebilmektedir.
26
7. SOSYAL AĞLARDA VERİ MADENCİLİĞİ İLE YAPILAN ÇALIŞMALAR
Sosyal ağların hızla gelişmesi ve bu ağlardaki elde edilebilecek olan yararlı
bilginin çokluğu araştırmacıları bu alana yönlendirmiştir [19-29]. Yapılan
araştırmalar benzerlik ve sınıflandırma eksenli olup, fikir madenciliği alanında
yapılan çalışmalarda bulunmaktadır. Bu bölümde bu çalışmalardan öne
çıkanlar özetlenmiştir.
7.1. Benzerlik Üzerine Yapılan Çalışmalar
Bloglar insanların kişisel olarak bilgilerini veya düşüncelerini paylaştığı bir
ortamdır. Belli bir kontrol mekanizması yoktur. Blogların belli bir kontrol
mekanizmasının olmaması diğer bloglarla ilişkilerinin tanımlanmamış olması
bloglar arası ilişkileri çıkarmak açısından bir problem olarak gözükmektedir.
Huan Lui ve arkadaşları yaptıkları çalışmada [22] birbirleriyle yakın olan
blogların toplanması problemi ortaya koymuşlardır. Her bir blog için
bulundukları blog ağı içerisinde kendi kategorilerini belirtmişlerdir. Problem
olarak herhangi bir arama yaptığımızda aynı kategori altındaki ilişkisel
bloglara ulaşırken farklı kategori altında olmasına rağmen ilişkili olan bloglara
ulaşılamamasını ele almışlardır. Bunun için “collective wisdom based search”
algoritması geliştirmişlerdir. Gerçekleştirilmek istenen işlem için sürekli olarak
bir linke yönlendirilip oradan başka bir linke tıklayarak aradığımız bilgiye
ulaşmak yorucu olabilmektedir. Örnek olarak “ Irak ve toplumu” araması
yapan bir kişi için “Irak ve toplumu” kategorisinde bulunan blog sitesi
karşımıza çıkabilir. Ancak aynı bilgi buna benzer bir site olan “Irak’daki
rahatsız edici gerçekler” adlı sitede politik kategorisi altında yer almaktadır.
Burada hangi kategoriler birbiri ile ilişkili olabilir sorusu ortaya çıkabilir [22].
Bunun için 2. Bolümde bahsedilen benzerlik çalışması yapılmıştır. Benzerlik
çalışması için “Cossine Similarity” kullanılmıştır. Benzerlik için çıkarılan
27
verilerin matrislerle ifade edilmesinden sonra belli bir eşik değerine göre
ilişkisel graf ağı çıkarılabilmektedir. Bloglar üzerindeki verilerden post ve site
edilen olarak iki tip veri kullanılmıştır [22]. Burada veri olarak ele alınanlar her
bir blog için site level bilgisi, blog site url, blog site title, kategoriler, tagler, hit
sayıları, site sıralama sayıları, post level bilgisi, post tag, post zamanları
olarak sıralanabilir [22].
Bloglar üzerindeki çalışmalar sadece birbirine yakın konuların bulunması ile
sınırlı değildir. Blog verileri kullanılarak “latent friend detection” problemi
ortaya konulmuştur [29]. Aslında benzer yayınları ve beğenileri olan farklı
kişilerin bulunmasıdır. Belli olmayan arkadaşlıkların çıkarılması için bu
problem ortaya konulmuştur. Blog kullanıcıları temel bilgilerini bloglarda
paylaşmaktadırlar. Bunun yanı sıra bloglarında daha ilginç veriler de
paylaşabilmektedirler. Örneğin MSN [46] bloglarında kullanıcılar sevdikleri
şarkı, spor ve resim gibi birçok bilgi paylaşma olanağına sahiptirler. Bu
paylaşımların incelenmesiyle farklı iki blog kullanıcısının benzer özelliklerinin
bulunması için “kosinüs benzerlik metodu” kullanılarak yapılan benzerlik
yaklaşımı, “başlık odaklı” yaklaşım ve “iki boyutlu benzerlik metodu” olmak
üzere üç yöntem kullanılmıştır [29].
Bloglar haricinde sosyal ağda bulunan kişiler üzerinde yapılan benzerlik
çalışmaları ile kişiler arası tanımlamaların çıkarılması üzerine çalışmalar da
yapılmıştır [27]. Birçok sosyal ağda eklediğimiz arkadaşımızı nereden
tanıdığımız sorusu karşımıza gelmektedir. Kullanıcılar sosyal ağlardaki
arkadaşlarını
okul
arkadaşı,
iş
arkadaşı
veya
farklı
şekillerde
etiketleyebilmektedirler. Ancak çoğumuz bunun vakit kaybı olduğunu
düşünüp etiketlemeleri yapmadan geçebiliriz. Bunun çözümü için sosyal ağ
kullanıcılarının beraber üye oldukları grupların incelenmesi ile bu sorunun
çözümü yapılabilmektedir. Gruplar benzer ilişkideki kişileri gösteren bir
28
topluluktur. Örneğin futbol takım arkadaşları olan iki kişi aynı futbol grubuna
üye olurlar. Ancak okul arkadaşı olan iki kişi bu grupta büyük olasılıkla yer
almayacaktır. Bu problemin çözümü için yapılan çalışmada “Overlapping
Communities” adında bir algoritma geliştirilmiş ve maksimum benzerliğe göre
grupların dendogram ağacı çıkarılmıştır [27].
Sosyal
ağlarda
benzerlik
çalışmaları
kişilerin
bilgilerine
göre
de
yapılabilmektedir. Facebook veya benzeri sitelerde kişilerin ilgilendikleri
alanları yazması ile kullanıcılar için belli sözcük grupları çıkarılabilmektedir.
Bununla beraber arkadaş oldukları kişilerin ilgilendikleri alanlar incelenerek
ikisi arasında benzerlik çalışmaları da yapılabilmektedir [42].
7.2. Sınıflandırma ve Davranışsal Analiz Çalışmaları
İnsanların sosyal ağları kullanımının giderek artması ve burada daha çok
zaman harcamaları bu ortamı araştırmaya ve geliştirmeye cazip hale
getirmiştir [19]. Topluluklar ve grupların özelliklerine göre çeşitli çıkarımlar
yapılabilmektedir [20]. Toplulukların bir araya gelmesi sırasındaki süreçte
yeni üyeleri çekmek, zamanla artan bir ilgiye sahip bir araştırma konusu
olmuştur. Bu topluluklara örnek olarak siyasi oluşum grupları ve meslek
kuruluşları verilebilir.
Sosyal ağların büyümesi ile sosyal gruplar daha
belirgin hale gelmeye başlamıştır. Topluluklara katılan bireylerin temel
özellikleri ve bireylerin topluluklara katılmasını etkileyenin ne olduğu sorusu
araştırmaların temelini oluşturmaktadır. Topluluklardaki en önemli unsur
arkadaşlık bağlantılarıdır. Birbirlerine önerme vasıtasıyla gerçekleştiği için
arkadaşlık bağlantıları ve gruplar önemli olmuştur. Bireylerin topluluklara
katılırken eğilimlerinin ne olduğu belirleyici olmaktadır. Gruplara katılırken
katılacak kişinin sadece arkadaş sayısı gruplara katılım oranını etkilemezken
bu arkadaşlıkların birbirine nasıl bağlı olduğu önemli bir veri olmuştur [37]. Bu
29
bağlantı için karar ağacı teknikleri kullanılarak bu özelliklerin en önemli
yapısal belirleyicileri tanımlanabilmektedir. Temel anlamda üç kavram
üzerinde
durulmaktadır;
Üyeler,
büyüme
ve
değişim.
Belli
zaman
aralıklarında üye olan kişiler için olasılıklar belirlenmiştir. Gruba üye olmayan
bir kişinin grupta en az bir arkadaşı olması ve daha sonra gruba üye olması
sırasında değişen zaman aralığı içerisinde incelemeler yapılmaktadır. Bu
süre içerisinde grupların en az bir kere yayın yapması dikkate alınarak grup
üyelerindeki değişim olasılığı hesaplanmıştır. Değerlendirmelerini ROC
eğrisi,
ortalama
kesinlik
ve
çapraz
entropi
yöntemlerine
göre
karşılaştırmışlardır. Grup büyümesindeki sınıflandırma sonucuna göre tüm
durumlarda % 70’ büyük sonuçlar elde edilmiştir.
DBLP [47] verilerini
kullanarak benzer olarak 1 sene içerisinde hiç konferansa makale
göndermeyen ve konferansta üye olarak yer alan kişiler için değerlendirme
yapılabilmektedir [37].
Grupların ve üye olduğu kişilerin desteklediği görüşler veya desteklemediği
görüşler de yapılan çalışmalar sonucu çıkarılabilmektedir. Bu amaçla Huan
Liu ve arkadaşlarının yaptığı sosyal boyut çıkarımı çalışmalarında ortaklaşa
davranış analizi iki aşamada yapılmıştır [20]:
1-) Topluluk keşfi ile Sosyal boyut çıkarımı
2-) Supervised öğrenme ile ilişki çıkarımı
“Düğüm görünümü” ve “kenar görünümü” yöntemleri kullanılarak grupların
sigara içmeyi destekleyip desteklemediği şeklinde bir çıkarım veya üyelerinin
incelenmesi ile genel anlamda grup için çıkarımlar yapılabilmektedir [2].
Sınıflandırma çalışmaları sosyal ağ kullanıcılarına sorulan sorular veya
yapılan anket araştırmaları ile de yapılabilmektedir. Selman Bozkır ve
30
arkadaşlarının yaptığı çalışmada Facebook kullanım zamanı ve Facebook
erişim frekansları kullanılarak tahmin edici veri madenciliği teknikleri
kullanılmıştır. 570 kişinin verileri ile çalışma yapılmıştır. 10 adet soru bu
kişilere sorulmuş ve veriler değerlendirilmek üzere toplanmıştır. Tüm kişilerin
hangi gruplara üye oldukları bilgisi tutularak sınıflandırma sonuçları için
kullanılmıştır. Bu çalışmada birçok metotla beraber istatistiksel analiz
teknikleri, karar ağacı algoritmaları, Yapay sinir ağları ve destek vektör
makinesi kullanılmıştır. İstatiksel analizler Facebook kullanıcı zamanı ve
erişim frekanslarını çıkarma açısından faydalı olmuştur [19]. Sonuç olarak
tahmin işleminde birçok sınıflandırma aracı kullanılmasına rağmen SVM en
iyi sonucu vermiştir.
Sosyal ağlar sadece grupların bulunduğu sitelerden ibaret değildir. İnsanların
etkileşim halinde oldukları birçok siteyle alakalıdır. Benzer olarak insanların
çok takip ettiği Imdb [48] sitesinde veri madenciliği üzerine çalışma
yapılmıştır. Jensen ve arkadaşı Imdb’nin sitesinden alınan veriler üzerine bir
çalışma yapmışlardır. Verilerin film, insanlarla ilişkili nesneleri, yeni filmleri
ödüllerini ve bunlarla ilgili olayları içerdiği söylenmiştir [25]. Veri tabanı tüm
nesnelerle ilişkilendirilmiş özelliklerini, film başlıklarını, türlerini, ülkelerini ve
gişe gelirlerini barındırmaktadır. Film verileri çeşitli ilginç tahmin edici verileri
desteklemektedir. Diğer nesnelerin tahmininde (örneğin linkler, sayfanın
sonunda gelen insanlar ve önceki filmler) yakınlık ilişkisi üzerine çalışılmıştır
[25]. Bu çalışmada sorgulama dili ve öğrenme algoritması olmak üzere iki
ilişkisel basit araç kullanılmıştır. Sorgulama dili çizge veri tabanı için
geliştirilmiş görsel bir dildir. Algoritma ise “relational probability tree” üzerine
kurulmuştur.
çekilebilmektedir.
Sorgulama
dili
sayesinde
ağaç
üzerinden
veriler
31
Jon Kleinberg ve arkadaşları Epinions [49], Slashdots [50] ve Wikipedia [51]
veri setlerini kullanarak pozitif veya negatif olarak linkleri tahmin etme üzerine
çalışmışlardır. Elde ettikleri sonuçlara örnek olarak; wikipedia kullanıcılarının
oy kullanır veya başka kişileri admin olarak aday gösterebilir oluşları,
Epinions kullanıcılarının güven ve güvenmeme olarak linki etiketleyebilmeleri
ve Slashdot kullanıcılarının diğer katılımcıları arkadaş veya düşman olarak
bildirebilmeleri
gösterilebilir.
Genel
olarak
bir
bütün
şeklinde
düşündüğümüzde bu bilgiler link üzerinde anlaşma veya anlaşmazlıkları
belirtirler [28]. Sosyal ağlarda verilen bir link için yukarıdaki sitelerden elde
edilen bilgiler ışığında bu linklerin alıcılar tarafından pozitif veya negatif
tutumlarını çıkarma işlemi problem olarak ele alınmıştır. Söz konusu
çalışmada her bir kullanıcı için u ve v tanımlaması yapılmıştır. Problem olarak
ele alınan konuda tanımlanan (u,v) ilişkisinin kenar işaretini bilme sorunudur.
Örnek olarak (u,v) ilişkisinin işareti ile Epinions sitesindeki kişilerin güven ve
güvenmeme, Slashdot sitesindeki kullanıcıların arkadaş veya düşman olarak
tanımlamaları örnek olarak verilebilir. Yöntem olarak makine öğrenmesi
kullanılmıştır. Yönlendirilmiş graf tekniği kullanılarak her kenar için işaret
belirleme
gerçekleştirilmiş
ve
bu
amaçla
S(x,y)
şeklinde
belirtimler
kullanılmıştır. S(x,y)=1 ise pozitif, s(x,y)=-1 ise negatif, s(x,y)=0 ise aralarında
bir
yönlendirilmiş
kenar
olmadığı
anlamını
taşır
[28].
Bu
şekilde
gerçekleştirilen uygulama ile linklerin pozitif veya negatif olması üzerine
çalışma yapılmıştır.
7.3. Fikir Madenciliği
Fikir çıkarımı kişilerin sosyal ağlarda ve bloglarda bırakmış olduğu bilgilerden
faydalanarak fikir çıkarma işlemi olarak tanımlanabilir [9]. Temel olarak ana
unsur olarak sözcükler ve sözcüklerin oluşturduğu cümleler ele alınmıştır.
32
Şekil 7.1. Fikir madenciliğinde kullanılan ana unsurlar
Kullanılan dilin özelliğine göre teknik açıdan incelemeler yapılabilmektedir.
Sözcükler duygusal açıdan, pozitiflik/negatiflik ve daha başka birçok konu
açısından sınıflandırılabilir. Burada sorun hangi sözcüklerin hangi sınıflar ile
temsil edildiğinin bulunmasındadır. Bunun için Harvard Üniversitesinde
sözcüklerin gruplandırma işlemi İngilizce dili için yapılmıştır.
Sosyal ağlardaki yorumlar ve yazılar kullanılarak bir konu pozitif veya
negatiflik açısından analiz edilebilir veya kişiler duygusal açıdan analiz
edilebilir. Çoğunlukla fikir madenciliği araştırmalarının çoğu elektronik ticaret
uygulamaları
için
ve
ticaretle
alakalıdır.
Örnek
olarak,
şirketlerin
yatırımcılarının bulunduğu forumlarda fikir madenciliği yaparak hisselerinin
performansının değerlendirilmesi, verilebilir. Genel anlamda yerel halkın
endişeleri ve fikirleri çıkarılabilir ve politik anlamda araştırmalar yapılabilir
[35,36]. Fikirler insanların karar vermesi için önemlidir. İnsanlar karar verirken
başkalarının fikirleri duymak isterler. Bu da belli bir etki mekanizması
olduğunu gösterebilir. Şirketler genel anlamda ürünleri hakkında insanların
ne düşündüğünü öğrenmek isterler. Sosyal ağların gelişmesi ile insanlar bir
33
ürün veya hizmet hakkındaki fikirlerini tartışma forumlarında, bloglarda veya
sosyal paylaşım ağlarında paylaşabilmektedirler. Şirketlerin ürünlerine ait
birçok bilgi alenen erişilebilirdir. Fakat web üzerinde herhangi bir konuda
fikirleri bulmak ve onların takibini yapmak oldukça zordur. Kaynakların çok ve
çeşitli olması ve yüksek hacme sahip olması bu zorluklardan bazılarıdır.
Kişilerin bunları okuması, özetlemesi ve kullanılabilir formatta organize
etmesi gerekir. Bunu bilgisayar yardımı olmadan yapmak oldukça zordur.
Otomatik fikir ortaya çıkarma ve özetleme sistemleri bu ihtiyacı karşılamak
için geliştirilmiştir [35,36].
Çoğu fikir madenciliği çalışmaları İngilizce için gerçekleştirilmektedir.
Kullanılan teknikler ve yenilikler farklı diller için de gerçekleştirilmelidir
[35,36]. Dillerin özelliğine göre yapılan çalışmalar değişiklik kazanmaktadır.
Çin dilinde yapılan bir çalışmada bu dilin özelliğinden faydalanarak karakter
bazında değerlendirme yapılmıştır. Bir cümledeki negatif veya pozitif
sözcükler çıkartıldıktan sonra, bu sözcüklerdeki karakterler pozitif veya
negatif olarak etiketlenmiştir. Çince özelliğinden dolayı sözcükteki geçen
karakterlere göre karakterler pozitif veya negatif olarak etiketlenebilmektedir.
Her karakter için olasılıksal olarak çıkarım yapılmıştır. Pozitif ve negatiflik
oranlarını birbirinden çıkararak hassaslık değerleri bulunmuş ve bu sayede
sözcüklerin ve cümlelerin hassaslıkları değerlendirilmiştir [32].
Fikir madenciliğinde diğer bir önemli adım ise nitelik çıkarma işlemidir. Nitelik
çıkarma işleminde dikkat edilmesi gereken birçok nokta vardır. Öncelikle
çalışma yaptığımız ürün mü kişisel bir çalışma mı veya genel bir fikir
araştırması mı bunun seçimi yapılmalıdır. Örneğin bir ürün hakkında pozitiflik
veya negatiflik açısından inceleme yapıyorsak, burada kullanıcıların kendileri
hakkında kişisel yorumları önemli değildir. Bunun için öznenin ve hangi
niteliklerin çıkarılacağı önemlidir. Örneğin bir ürün için ürün özellikleri
34
belirlenmelidir. Bir ürün için yorumlardan fikir madenciliği çalışması
yapılabilmesi için aşağıdaki adımlara dikkat edilmelidir [40].
1-) Ürün özelliklerinin çıkarılması
2-) Ürünle alakalı yorumların belirlenmesi
3-) Polaritenin belirlenmesi
4-) Fikirlerin destekleyici olup olmamasına göre sıralanması
Günümüzde sosyal ağlar arasında popüler olan Twitter’da da birçok yorum
ve düşünce paylaşılmaktadır. Bu yorumların ve düşüncelerin sınıflandırılması
için sözcük bazında değerlendirme gerekmektedir. Kısa cümlelerden oluşan
Twitter verileri kullanılarak kullanıcıların duygusal açıdan sınıflandırılması
yapılabilir. Sözcüklerin belirttiği duygusal anlamlara göre sınıflar belirlenerek
kişilerin analizi yapılabilmektedir. Bu şekilde gerçekleştirilen bir çalışmada
her kullanıcı için belirlenen duygusal sınıflara göre matris oluşturulup, benzer
sözcüklerin geçmesi ile matris güncellenmiş ve aynı kişinin farklı zaman
aralıklarındaki tweet yazıları dikkate alınarak benzerlik çalışması yapılmıştır
[33].
Kişilerin ruhsal durumlarını yansıtan sözcükler dillere göre çeşitlilik
kazanmaktadır. Ancak evrensel olarak Twitter verileri kullanılarak yazılar
incelenerek kullanıcıların yazılarının kişisel ya da herkese açık haber twetleri
olması açısından değerlendirilmesi yapılabilmektedir. H. Ferhatosmanoğlu ve
arkadaşları yaptıkları çalışmada Twitter verileri üzerinden 8 nitelik çıkararak
bunların sınıflandırılması ile kişisel veya herkese açık veri şeklinde bir ayırma
işlemi yapmışlardır [34].
Sosyal ağlardaki kullanıcıların yorumlarının veya yazılarının analiz edilmesi
ile kullanıcının bulunduğu ruhsal durum dikkate alınarak farklı reklam
35
stratejileri geliştirilebilir. Fikir madenciliği çalışmalarından bunların yanı sıra
borsa, ekonomi ve stoklar içinde çalışmalar yapılmaktadır [35,38,41].
Çalışmalar genelde finans forumlarına odaklanarak geliştirilmiştir. Wall Mart
şirketi için yapılan bir çalışmada 4 ana aşama ele alınmıştır. Bunlar yatırımcı
analizi, konu analizi, düşünce analizi ve stok modelleme olarak ele alınmıştır.
Veri seti olarak Yahoo Finance Wall-Mart Forum’dan 1999 ve 2008 arası
veriler kullanılmıştır. Pozitif fikirler forum kullanıcılarının stoklarını elinde
tutması ve takip eden günde ticari satışların durgunluk göstermesi, negatif
fikirler ise ticaret satışları ile ilişkilendirilmiştir. Fikirlerin herkese göre
değiştiğini düşündüğümüzde öznellik yapısı bu kısımda önemli olmaktadır.
Öznellik ise bir cümlenin nesnel veya öznel olmasına göre sınıflandırma
işlemini gerçekleştirmektir[36].
Anlaşmazlık ve öznellik, değişkenlik ile
önemli bir bağlantı kurulmaktadır. [35]. Örneğin bir konu hakkında kişilerin
forumda yazdıklarının incelenmesi ile kişisel bilgilerin yani öznelliğin olması
değişkenliğin fazla olması ile ilişkilendirilmiştir [35].
Sosyal ağlardaki genel durumun ekonomi ile ilişkisi olup olmadığı, kişilerin
duygusal durumlarının bunu etkileyip etkilemediği de araştırma konusu
olmuştur. Yapılan bir çalışmada Twitter verileri kullanılarak Dow Jones
Industrial Average verileri arasında ilişki kurulmaya çalışılmıştır. Twitter’ın
günlük verileri kullanılarak iki araç ile analiz yapılmıştır. OpinionFinder
programı ile pozitiflik ve negatiflik açısından, Google Profile of Mood States
(GPOMS) ile ise 6 farklı boyutta incelemeler yapılmıştır. İnceleme yapılan
alanlar için sakin, emin, kibar, mutlu, uyanık ve hayati olarak çıkarımlar
yapılmış ve 2008 şükran günü ile 2008 cumhurbaşkanlığı seçimlerinde halkın
tepkisi zaman serilerinde incelenmiştir [39]. Pozitiflik ve negatiflik çalışması
yapılarak belli konular hakkında zaman serileri incelemeleri yapılabilmektedir
[37] . Cümlelerde duygulara göre analiz yapan Opinionfinder programı ile
36
pozitiflik veya negatiflik ile beraber diğer 6 niteliğin de eklenmesiyle toplamda
7 durum zaman serisinde incelenmiştir [38].
Fikir madenciliği alanındaki çalışmalar hassaslık ve öznellik sınıflandırma
çalışmaları
ile
başlamıştır.
Hassaslık
sınıflandırma
işlemi
ile
veya
dokümanlardan ya da cümlelerden pozitiflik ve negatiflik çıkarımları
yapılabilmektedir. Ancak gerçek yaşamdaki uygulamalarda ise daha detaylı
inceleme ve araştırma gerekmektedir. Örneğin, ürün denetimini yapmak
isteyen bir firma hangi özellikleri kullanıcılar tarafından etkilemiş veya
eleştirilmiş bunlar hakkında bilgi sahibi olmak ister [36].
Örneğin aşağıdaki cümleleri incelersek
(1)İki gün önce bir iphone aldım. (2) Çok güzel bir telefon. (3) Dokunmatik
ekranı gerçekten harika. (4) Ses kalitesi de oldukça açık. (5) Ancak, telefonu
almadan önce anneme söylemediğim için beni deli ediyor. (6) telefonun çok
pahalı olduğunu düşünüyor ve geri iade etmemi istiyor [18].
Cümleleri pozitiflik ve negatiflik açısından incelediğimizde 2,3ve 4. cümleler
pozitif düşünceler barındırmaktadır. 5 ve 6’ncı cümleler ise negatif
düşünceler
barındırmaktadır.
Cümleleri
daha
detaylı
incelediğimizde
düşüncelerin bazı hedef veya nesneleri ifade ettiğini görmekteyiz. Örneğin
2’nci cümle telefon hakkında genelleme yapmıştır, 3 ve 4’ncu cümleler ise
dokunmatik ekran ve ses kalitesinden bahsetmiştir. 6’ncı cümle ise telefonun
fiyatından bahsetmektedir. 5’nci cümlede ise kendinden bahsetmektedir. Bu
yazının tamamını ele aldığımızı düşünürsek kişisel bilgiler ve düşünceler
bizim için gereksiz olacaktır. Cümlelerin öznesi bu durumda önemli
olmaktadır. Örneğin telefon nesnedir ve batarya veya ekran gibi bir takım
bileşenlere sahiptir. Ses kalitesi ve büyüklük gibi nitelikleri özellikleri veya
37
nitelikleri olarak adlandırılabilir. Yani bir fikir nesnenin özellikleri olarak ifade
edilebilir. Bir ürün ya da kendi hakkında bilgi veren kişi nesnelere göre pozitif
veya negatif bilgiler vermektedir. Bu sorun geliştirilen nesne modeli ile
aşılmak istenmiştir. Bir nesne için aşağıdaki gibi özellikler belirlenmiştir [36].
F={f1, f2, f3…,fn}
Her bir özelliği ifade eden kelimeler belirlenmiştir [36].
Wi={wi1,wi2,…,wim}
Bir veri seti için her nesne, öznesi ve kaynağı ile birlikte belirlenmiştir [36].
{o1,o2,o3..,or}
{h1,h2,…,hp}
Bir fikir aşağıdaki 5 nitelikle incelenmektedir.
{oj,fik,ooijkl,hi,tl} oj nesne fik, oj’nin özelliği, ooijkl ise fik niteliğinin oryantasyonu,
hi fikrin öznesi, tl ise zaman olarak tanımlanmıştır. Ooijkl pozitif, negatif veya
nötr olmaktadır [18]. Bu özellikleri kullanarak aynı türde farklı markaların
karşılaştırılması yapılabilir. Örneğin fikir madenciliği çalışması ile çıkarılan
özne ve nesnelere göre aynı türde iki farklı markanın karşılaştırılması
yapılabilmektedir.
38
8. SOSYAL AĞLARDA VERİ MADENCİLİĞİ İLE BİR UYGULAMA
Fikir çıkarımı kişilerin sosyal ağlarda ve bloglarda bırakmış olduğu bilgilerden
faydalanarak eğilim belirleme işlemi olarak tanımlanabilir. Temel olarak ana
unsur olarak sözcükler ve sözcüklerin oluşturduğu cümleler ele alınmıştır [4].
Sosyal ağlarda bırakılan verilerin artması ile fikir madenciliği araştırmaları
çeşitlendirilmiştir. Fikir madenciliği araştırmaları ile ürün yorum analizleri,
borsa için yapılan yorumların analizi ve genel olarak duygusal analiz
çalışmaları
olarak
literatürde
yer
almaktadır.
Bunun
dışında
politik
araştırmalar ile halkın tepkisi ölçülmektedir.
8.1. Veri Seti
Uygulamanın gerçekleştirilmesinde, sosyal ağlar içerisinde oldukça popüler
olan twitter ağında bulunan mesajlardan yararlanılmıştır. Twitter belli konular
hakkında en son paylaşılan bilgilere ulaşmanızı sağlayan gerçek zamanlı bir
bilgi ağıdır. Daha çok sohbet ortamı olarak düşünüldüğünden kullanıcılar kısa
yazıları ile yorumlarını bırakabilmektedirler. Her bir tweet en fazla 140
karakter uzunluğundadır. Kullanıcıları sadece kişisel kullanıcılar değil, yanı
zamanda şirketlerdir. Şirketler, müşterileri ile iletişim kurarak ürün ve
hizmetleri ile ilgilenen insanlara hızlı ve gerçek zamanlı paylaşım yapabilirler.
Aldıkları geri bildirimler ile kullanıcıları ile bağlarını artırabilirler.
Twitter’daki
veriler
herkese
açık
ve
özel
olmak
üzere
iki
çeşitte
oluşturulmaktadır. Twitter, herkese açık olan bu verilere API [60] yardımı ile
ulaşılmasına izin veriyor. Bu API vasıtasıyla istediğimiz filtre kelimeleri girip, o
filtre kelimelerin geçtiği tweetler alınabilmektedir.
39
Şekil 8.1. Twitter platformundan veri tabanı oluşturma gösterimi
Twitter API yardımı ile oluşturulan Tweet veri tabanı MYSQL veri tabanında
twitter kullanıcılarının girdikleri tweetlerden oluşturulmuştur. Tweet kısa
yazıları
140
karakter
içermektedir.
Bu
yüzden
kısa
yazılar
olarak
değerlendirilmektedir. Bunun yanı sıra bu yazılar içerisinde kullanıcılar link
paylaşımı yapabilmektedir. Twitter API yardımı ile yaklaşık olarak 2,5 milyon
civarında 16.12.2011 ve 31.01.2012 tarihleri arasında girilen Türkçe tweetler
MYSQL veritabanına kayıt edilmiştir. Veri tabanında incelemeler yapıldıktan
sonra bazı tweetlerin yabancı kişilere ait olduğu anlaşılmaktadır. Bunların
temizlenmesi ile 1,9 milyon civarında Türkçe tweet elde edilmiştir.
Veri tabanında tweet mesajları ile beraber kullanıcılara ait aşağıdaki bilgiler
kaydedilmiştir.
• Tweet text
• Tarih
• Kullanıcı ismi
• Takipçi sayısı
• Arkadaş sayısı
• Kaynak
• Profil resmi linki
40
• Paylaşılan linkler
• Twitter kullanımına başlama zamanı
• En son güncelleme zamanı
8.2. Mutluluk ve Üzgünlük Analizi
Twitter’da bulunan kişilerin duygusal durumlarını ve kullanıcıların genel
durumunun nasıl olduğu merak konusudur. Duygusal durum analizi
araştırmalarının yapılması ile kullanıcılara özgü reklam politikası ya da çeşitli
uygulamalar gerçekleştirilebilir. Bunun yanı sıra halkın belli günlerde tepkileri
ölçülebilmektedir.
8.2.1. Mutluluk ve üzgünlük belirten kelimelerin seçimi
Mutluluk ve üzgünlük belirten kelimeler sosyal psikoloji alanında sık
kullanılan “Sosyal Psikolojide Duygusal Durumlar” [61] adlı eserden
faydalanarak oluşturulmuştur.
Kelime seti içerisinden 111 adet kelime,
mutluluk ve üzgünlük belirten kelimeler seçilerek oluşturulmuştur. 43 kelime
mutluluk bildiren, 70 kelime ise üzgünlük bildiren kelime olarak ele alınmıştır.
Kelimelerin seçiminde Türkçe dilinde fazla geçmesi düşünülen kelimeler ve
kelime grupları ele alınmıştır. Kelimelerin yanı sıra bazı kelime grupları
birlikte ele alınmıştır. Örneğin; “mutlu” kelimesinin Türkçe çekimleri ile
kullanılması düşünüldüğünden “mutluyum” sözcüğü ek olarak kelime veri
tabanında bulunmaktadır. Twitter ortamındaki paylaşımlarda bazı karakter
ve yazıma uyulmayacağı düşünülerek kelime gruplarına özgün kelimelerin
yanı sıra bu kelimelerde dâhil edilmiştir. Kelime listesi Ekler bölümünde
verilmiştir.
41
8.2.2. Mutluluk ve üzgünlük analizi
Mutluluk ve üzgünlük analizi için her bir tweet içerisinde bu kelimelerin geçip
geçmediğine bakılarak analizler yapılabilmektedir. Tweet içerisinde bu
sözcüklerin bulunup bulunmamasına göre değerlendirme yapılmıştır. Mutlu
ve üzgün durumları için vektör modeli [34] kullanılmıştır. Bu model her
kullanıcı için binary olarak matris oluşturmakta ve matrisin boyutunu nitelikler
belirlemektedir. Daha çok benzerlik çalışmalarında kullanılmakla beraber
sınıflandırma içinde kullanılmaktadır.
Her tweet vektörel olarak mutlu ve üzgün olarak binary şekilde ifade
edilmiştir. V={mutlu,üzgün} şeklinde (1,0) mutlu, (0,1) üzgün, (1,1) ve (0,0)
diğer olarak değerlendirilmiştir.
Örneğin;
Tweet mesajı: ” Sen beni çok mutlu ediyorsun...” şeklinde olan bir kullanıcı
için
“mutlu”
kelimesinin
mesaj
içersinde
olması
ile
V=(1,0)
olarak
oluşturulmuştur.
Tweet mesajı: “ Biri kötü durumdayken ona üzülmek en herkes'in bile
yapabileceği bir davranış, asıl önemli olan mutluyken destek olup, onun
adına sevinmek. “ şeklinde olan kullanıcı için “üzülmek”, “ mutlu” ve “
sevinmek” kelimeleri hem mutlu hem de üzgün gruptan kelimeleri
içerdiğinden V=(1,1) olarak oluşturulmuştur.
Aşağıdaki hesaplama formülleri kullanılarak yüzdesel olarak her gün için
mutluluk ve üzgünlük durumu çıkarılmıştır.
42
∑
∑
∑
∑
, k= Mutlu kelime geçen tweet sayısı
(8.1)
, l= Üzgün kelime geçen tweet sayısı
(8.2)
Mutluluk ve üzgünlük kelimelerini içeren tweetlerin her gün için yüzdesel
değişim grafikleri şekil 8.2 ve şekil 8.3’ de verilmiştir.
Şekil 8.2. Mutluluk ifade eden tweetlerin tüm tweetler içinde günlük yüzdesel
değişimi
43
Şekil 8.3. Üzgünlük ifade eden tweetlerin tüm tweetler içinde günlük yüzdesel
Değişimi
Şekil 8.2 incelendiğinde 31.12.2011 ve 01.01.2012 tarihlerinde mutluluk
oranının yüzdesinin artığını ve maksimuma ulaştığı görülmektedir. Twiter
kullanıcılarının yılbaşı günlerine yaklaştıkça mutluluk ifade eden kelimeleri
daha fazla kullandığı görülmektedir. Şekil 8.3 incelendiğinde 31.12.2011 ve
01.01.2012 tarihlerinde üzgünlük ifade eden kelimelerin kullanımının düşük
olduğu görülmektedir.
Şekil 8.4. Mutlu ve üzgün kelimelerin beraber kullanıldıkları tweet örneği
44
Yukarıda verilen kelimelerin tweetler içerisinde geçip geçmemesine göre
yapılan basit frekans analizi yetersiz kalmaktadır. Çünkü bir tweet mutlu ve
üzgün kelimelerden her ikisini de içerebilmektedir. Şekil 8.4’ de görüldüğü
gibi mutluluk veya üzgünlük ifade eden kelimeler beraber kullanılabilmektedir.
Duygusal anlam içeren kelimelerin ağırlıklandırılması ile yapılması tweetlerin
sınıflandırılmasında daha net sonuçlar verecektir.
8.2.3. Ortalama mutluluk değerlerine göre hesaplama
Kelimelerin sadece tweet içerisinde geçip geçmemesine göre mutluluk ve
üzgünlük analizi tweet içerisinde hem mutlu hem de üzgün kelimeleri
kullanan biri için yetersiz olmaktadır. İnsanların internet ortamında en çok
kullandıkları kelimelerin hangisinin daha çok veya daha az mutluluğu belirttiği
literatürde
çalışılmıştır
[62,24].
Mechanical
Turk’
ün
insanların
değerlendirmesi ile birçok kelime için oylama yaparak, üzgünden mutluya
doğru bir spektrum elde etmişlerdir [62]. Her kelime için ortalama mutluluk
değerleri belirlenmiştir. 5’den 9’a doğru artan bir şekilde olanlar mutlu, 5’den
1’e doğru azalan şekilde olanlar üzgün olarak değerlendirilmiştir [62].
Mechanical Turk verileri dikkate alınarak, oluşturulan veri setindeki
kelimelerin ortalama mutluluk değerlerine bakılarak Türkçe veri seti için
ortalama mutluluk değerleri oluşturulmuştur. Aşağıda bir kaç kelime için
ortalama mutluluk değerleri verilmiştir.
Ort_mutluluk(mutlu)=8,30
Ort_mutluluk(hayranlık)=7,10
Ort_mutluluk(dert)=2,78
Ort_mutluluk(depresyon)=1,98
45
Twiter’daki kısa yazılarda kişiler mutluluk veya üzgünlük belirten kelimeleri
beraber kullanabilmektedir. Bu kelimelerin beraber kullanıldığı durumlarda
binary etiketleme yöntemi ile yapılan çalışmalarda bu kişiler hem mutlu
hemde üzgün olarak etiketlenmektedir. Bu durumda kelimelerin mutluluk
ağırlıkları dikkate alındığında her kısa yazı kelimelerin ağırlıklarına göre
değerlendirilebilmektedir. Aşağıdaki formül kullanıcıların ortalama mutluluk
değerlerine göre tweetlerin değerlendirilmesi için kullanılmaktadır. Bu formül
sonucunda 5’den büyük değerler mutlu, 5’den küçük değerler üzgün olarak
değerlendirilmiştir.
∑
∑
,
f= i’nci kelime frekansı, Ort_mutluluk(
(8.3)
)= i’nci kelimenin ortalama
mutluluk değeri, Ort(T)= her tweet için ortalama mutluluk değeri
Şekil 8.5. Ortalama mutluluk değerlerine göre kelimelerin dağılımı
46
Q-Q plot grafikleri kullanıcıların normal verileri ve aykırılıkları görmesine
olanak sağlar. Mutluluk ve üzgünlük içeren kelimelerin ortalama mutluluk
değerlerinin grafikte köşegen olarak gösterilen normal çizgisine göre dağılımı
Şekil 8.5’de verilmiştir. Grafikte her bir kelime veya kelime grubu daire
şeklinde gösterilmektedir. Üzgünlük belirten kelimelerin ortalama mutluluk
değerleri 5’den küçük olarak grafiğin sol alt köşesinde toplandıkları, mutluluk
belirten kelimelerin ortalama mutluluk değerleri 5’den büyük olarak grafiğin
sağ üst köşesinde toplandıkları şekilde görülmektedir.
Şekil 8.6. Ortalama mutluluk değerinin zamana göre değişimi
Tweetlerin ortalama mutluluk değerlerinin 47 gün için günlük ortalama
değişimleri Şekil 8.6’da verilmiştir. Ortalama mutluluk değeri incelendiğinde
her gün için 5’den büyük olması mutluluk ifade eden kelimelerin kullanımının
47
daha fazla olmasından kaynaklanmaktadır. Ortalama mutluluk değerlerine
göre mutluluk değerinin en yüksek olduğu nokta 28 Aralık-1 Ocak arasını
kapsayan yılbaşı dönemi olarak görülmektedir.
Frekans değerlerine göre yapılan analiz ile ortalama mutluluk değerlerine
göre yapılan analiz korelasyon göstermektedir. Şekil 8.2 ve Şekil 8.6 ‘ dan
gözüktüğü üzere iki analiz sonucunda da 28 aralık- 1 Ocak döneminde
mutluluk değerlerinde artış görülmektedir.
8.2.4. Borsa verilerinin ortalama mutluluk değerleri ile karşılaştırılması
Ekonomik
göstergeler
kişilerin
mutluluğunu
veya
üzgünlüğünü
etkileyebilmektedir. Sosyal ağlarda bulunan kişiler ekonomik değişimlere kısa
süre içerisinde tepki verebilmekte ve bu durum hakkında yorumlar
yapabilmektedirler. Bu yorumların incelenmesi ile halkın bu durumlara tepkisi
ölçülebilmektedir. Borsa bu ekonomik göstergelerin başında gelmektedir.
Twitter ve benzeri sosyal ağlarda kullanıcıların borsadaki değişimden
etkilenip
etkilenmedikleri
araştırmacıların
ilgisini
çekmektedir.
Twitter
mesajlarındaki duygusal kelimelerin incelenmesi ile korelasyon çalışmaları
yapılabilmektedir [26]. Finans forumlarının incelenmesi ile pozitif ve negatif
fikirlerin hisse senetleri üzerindeki değişiminin incelenmesi yapılabilmektedir
[35]
16.12.2011 ve 31.01.2012 tarihleri arasında elde edilen tweet verileri
arasından “borsa”,”imkb” ve benzeri kelimelerin (Ek 6.2 ‘ de verilmiştir) geçtiği
tweetler
incelenerek,
araştırılmıştır.
bu
tweetlerin
borsa
ile
ilişkili
olup
olmadığı
48
Yapılan çalışmada “borsa” ve benzeri kelimelerin geçtiği her tweet için
ortalama mutluluk analizi yapılmıştır. 16.12.2011 ve 31.01.2012 tarihleri
arasındaki imkb100 endeksi kapanış verileri kullanılmıştır. Bu tarihler
arasında borsanın bir önceki güne göre artıp azalmasına göre yapılan
incelemeye göre her gün için artma ve azalma olarak günler belirlenmiştir.
Borsa kelimesi ve benzeri kelimeler geçen her tweet için bu tarihler arasında
günlük ortalama mutluluk değerleri çıkarılmıştır. Borsa kelimesi içeren
tweetlerin ortalama mutluluk değişimi şekil 8.6’ da verilmiştir.
Günlük
ortalama mutluluk değerleri 5’ den büyükse “mutlu”, 5’ den küçükse “üzgün”
olarak değerlendirilmiştir. Borsa ile twitter kullanıcılarının yapmış olduğu
yorumlar arasındaki ilişki şu şekilde ifade edilmiştir. Borsanın artmış olduğu
günler mutlu tweetlerin yüksek olması, borsanın azalmış olduğu günler üzgün
tweetlerin fazla olması beklenmektedir. Ortalama mutluluk değerlerine göre
her gün sonunda elde edilen ortalama mutluluk değerine göre borsa ile
benzer özellik gösterip gösterilmediğine bakılmıştır. Bu inceleme sonucunda
%45 civarında borsa ile tweet verileri arasında uyuşma olmaktadır.
Şekil 8.7. Ortalama mutluluk değerinin zamana göre değişimi
49
8.3. Twitter Kullanıcılarının Benzerliği
Benzerlik işlemleri daha çok metin madenciliği uygulamalarında ve veritabanı
performansını artırmak için kullanılmasına rağmen son dönemlerde sosyal
ağlar alanında da kullanılmaya başlamıştır. Bununla beraber günlük
hayatımızın her aşamasında kullandığımız internet arama motorları da
temelinde metin benzerliği ve eşlemelerine göre işlem yapmaktadır.
Sosyal ağlarda bulunan kullanıcılar birçok konu hakkında görüşlerini çeşitli
yollarla belirtebilmektedirler. Kullanıcıların paylaşımlarından yola çıkarak
benzerlik çalışmaları yapılabilmektedir. Bu paylaşımlar sosyal ağın verilerine
göre
değişebilmektedir.
Örneğin,
twitter
sosyal
ağında
kullanıcıların
yorumlarından yola çıkarak kelimelerin analizi ile aralarındaki benzerlik
hesaplanabilir ve kullanıcıların ilgi alanlarının benzerliği dikkate alınarak farklı
reklam stratejileri geliştirilebilir.
Yapılan çalışmada twitter kullanıcılarının yorumda bulundukları konular
hakkında diğer kullanıcılar ile benzerliği değerlendirilmiştir. Bu benzerlik
hesaplaması için her kullanıcı için vektör uzayı oluşturulmuş ve kosinüs
benzerlik formülü kullanılmıştır. Kosinüs benzerliği ile iki vektör arasındaki
açının kosinüs değeri hesaplanarak vektörlerin benzerliği bulunur. Vektör
boyutundan etkilenmemesi, kosinüs benzerliğinin güçlü bir özelliğidir [63].
Kosinüs benzerliği formülü aşağıdaki gibidir.
cos
ve
| | | |
(8.4)
birbirinden farklı iki kullanıcıyı ifade eden çok boyutlu vektörler, *
işareti vektörlerin iç çarpımını ve | | vektörün uzunluğunu temsil etmektedir
[63].
50
Twitter
kullanıcılarının
göstermektedir.
mesajları
İstedikleri
zaman
konu
bakımından
istedikleri
konu
çok
hakkında
çeşitlilik
yorum
yapabilmeleri ve görüşlerini belirtmeleri sayesinde veriler çeşitlenmektedir.
Kullanıcıların benzerliği hesaplanırken bir konu hakkındaki yaptıkları
yorumlar dikkate alınarak benzerlik hesaplaması yapılmıştır. Twiter da
kullanıcılar belli konular hakkında yorum yaparken hastag (#) işareti
kullanarak konuyu belirtebilmektedirler. Bu sayede konular üzerinde yorum
yapan kişilerin birbirleri ile olan benzerlikleri değerlendirilebilmektedir.
Benzerlik hesaplaması için aşağıdaki nitelikler kullanıcıların yorumlarından
çıkarılarak vektör oluşturulmuştur.
8.3.1. Konuların seçimi(hastag)
Hastagler bir konunun daha iyi aranmasını sağlamak amacıyla kelimenin
başına “#” işareti konularak belirtme işlemidir. Twitter kullanıcıları yorum
yaptıkları konuyu belirtmek için bu işareti kullanmaktadırlar. Bu sayede belli
konu hakkında yapılan yorumları değerlendirmek daha kolay oluyor.
16.12.2011 ve 31.01.2012 tarihleri arasında girilen Türkçe tweetlerden
oluşan veritabanındaki hastag istatistikleri aşağıdaki gibidir.
Çizelge 8.1. Hastag istatistikleri
Hastag
Frekans
Toplam hastag sayısı
109349
Farklı hastag sayısı
26124
8.3.2. Kullanıcıların yorumlarından nitelik çıkarımı
51
Hastag ile belirtilen konuların belirlenmesi ile bu konular hakkında yorum
yapan kullanıcılardan aşağıdaki bilgiler çıkarılarak vektör oluşturulmuştur.
• Mutluluk belirten kelimeleri kullanması
• Üzgünlük belirten kelimeleri kullanması
• Mutluluk karakteri kullanması
• Üzgünlük karakteri kullanması
• Link paylaşması
• Kullanıcı ile paylaşması
V=(m,u,m_k,u_k,l,k)
m mutluluk belirten kelimeler, u üzgünlük belirten kelimeler, m_k mutluluk
karakteri, u_k üzgünlük karakteri, l link, k kullanıcı
Ekler bölümünde verilen mutluluk ve üzgünlük kelimelerine göre her kullanıcı
için mutluluk içeren kelimeleri kullanması durumunda 1, kullanmaması
durumunda 0 olarak belirlenmiştir. Benzer olarak üzgünlük belirten
kelimelerin
twitter
mesajlarında
geçmesi
durumunda
1,
geçmemesi
durumunda 0 olarak belirtilmiştir.
Mutluluk ve üzgünlük karakterleri kişilerin kısa mesaj ve yorumlarda
kendilerini ifade etmek için kullandığı simge ve işaretlerden oluşmaktadır. Bu
karakterler ekler bölümünde verilmiştir. Bu karakterlerin tweet mesajları
içerisinde geçip geçmemesine göre vektördeki alanları 1 veya 0 şeklinde
oluşturulmuştur.
Link paylaşımı, twiter kullanıcılarının herhangi bir video veya internet sitesi
olarak paylaşımlarını içermektedir. Yorumların içerisinde link paylaşımı olup
olmamasına göre vektör 1 veya 0 olarak oluşturulmuştur.
52
Twitter ilk kullanılmaya başlandığında kullanıcıların kişilere özel mesaj
gönderme olanağı yoktu. İnsanlar karşılıklı sohbet etmek ve belli bir kişiye
mesaj gönderebilmek için “@” işaretini kullanmaya başladılar. “@” işareti ile
mesaj göndermek isteğiniz ismi yazarak paylaşımda bulunup bu mesajı
gönderdiğiniz kişinin görmesini sağlanmaktadır. Twitter kullanıcıları bu
şekilde birçok konu hakkındaki görüşlerini veya konu hakkındaki linkleri
arkadaşları ile paylaşabilmektedir. Twitter mesajının “@” işaretini içerip
içermemesi durumunda vektör 1 veya 0 olarak oluşturulmuştur.
8.3.3. Kullanıcılar arası benzerlik
Twitter kullanıcılarının yorum yaptıkları konuların belirlenmesi ile konular
üzerinde yorum yapan tüm kullanıcılar arası benzerlik hesaplaması kosinüs
benzerlik yöntemine göre hesaplanmıştır. Bu sayede herhangi bir konuda
yorum yapan bir kullanıcının kendisi ile benzer şekilde yorum yapan diğer
kullanıcı grubu keşfedilebilmektedir.
Benzerlik oranı 0 ile 1 arasında her kullanıcı için kendisi ile aynı hastag
hakkında tweet mesajına sahip olan kullanıcılar arasında hesaplanmıştır.
Aşağıdaki tabloda “tffistifa” konusu hakkında yorum yapan tweet grubu
incelenmiştir ve benzerlik oranı 0,7’den büyük olanlar gösterilmiştir.
Çizelge 8.2. Bir kullanıcı için benzerlik tablosu
Kullanıcılar
Kullanıcı id
Kullanıcı id
Benzerlik oran
549
2226
0,707106781186547
549
3456
0,707106781186547
53
Çizelge 8.2. (Devam) Bir kullanıcı için benzerlik tablosu
549
3894
0,707106781186547
549
3991
0,707106781186547
549
6397
0,816496580927726
549
6476
0,707106781186547
549
145661
0,707106781186547
549
1976426
1
“tffistifa” adlı hastag hakkında yorum yapan 23 kişiden 549 numaralı id’ye
sahip olan kullanıcı ile diğer kullanıcılar arasındaki benzerlik oranı
incelendiğinde, benzerlik oranı 0,7 ‘ den büyük olanlar tabloda gösterilmiştir.
Diğer kullanıcılardan farklı olarak 549 numaralı id’ye sahip olan kullanıcının
tabloda belirtilen diğer 8 kullanıcı ile benzerliği oldukça yüksek çıkmıştır.
Şekil 8.8’ de her daire bir kullanıcıyı ve id numarasını temsil etmektedir.
“tffistifa” adlı hastag hakkında yorum yapan kullanıcı grubu şekil 8.8’de
gösterilmiştir. Bu grup içerisinde 549 numaralı id’ye sahip olan kullanıcı ile
aralarındaki benzerlik oranı 0,7’ den büyük olan grup etrafı çizgili olarak
belirtilmiştir. Bu sayede gruplar içerisinde birbirleri ile benzer alt gruplar
bulunabilmektedir.
54
Şekil 8.8. Benzerlik oranı yüksek olan grubun gösterimi
55
9. UYGULAMADA KULLANILAN PROGRAMLAR
Uygulama kapsamında twitter yorumların incelenmesi amacıyla aşağıdaki
programlar kullanılmıştır.
• Microsoft Visual Studio
• SPSS
• Mysql Veri Tabanı
Mysql veri tabanındaki veriler form uygulaması aracılığı ile işlenmiş ve analiz
için gerekli veriler oluşturulmuştur. Analiz verileri SPSS ortamına aktarılmıştır
ve SPSS ortamında gerekli analiz ve grafik işlemleri gerçekleştirilmiştir.
9.1. Gerçekleştirilen Form Uygulaması
Twitter’ dan elde edilen verileri işlemek ve gerekli dönüşümleri yapmak
amacıyla Microsoft Visual Studio geliştirme ortamı, verilerin dönüşümü ve
analiz işlemleri için csharp dili kullanılmıştır. Gerçekleştirilen uygulamanın
form ekranı aşağıdaki gibidir.
Şekil 9.1 Form ekranının görüntüsü
56
Form ekranında temel olarak 6 farklı işlem gerçekleştirilmiştir.
• Veri Dönüşüm
• Tarihsel Analiz
• Borsa Geçen Tweet mesajlarının analizi
• Benzerlik Nitelikleri çıkarma
• Kullanıcılar arası benzerlik hesaplama
• Kelime Frekansları hesaplama
Twitter yorumlarının kısa yazı şeklinde olmasından dolayı veri madenciliği
işlemlerini daha kolay yapabilmek amacıyla veri dönüşümü yapılmıştır.
Mutluluk ve üzgünlük belirten kelimelerin yorumlarda geçip geçmemesine
göre yapılan analizler için Bölüm 8 de anlatıldığı gibi matris oluşturulmuştur.
Tarihsel analiz bölümünde veri dönüşüm işleminin yapılmasından sonra
analiz için gerekli sql kodları oluşturulmuştur. Ortalama mutluluk değerlerine
ve
frekansa
göre
analiz
işlemi
için
gerekli
tablolar
bu
kısımda
oluşturulmuştur.
Borsa analiz işlemleri için yorumlarda borsa ve benzeri kelimeler aranmıştır.
Bulunan tweet yorumları için mutluluk, üzgünlük ve ortalama mutluluk analizi
yapılmıştır. Tarihe göre günlük bazda ortalama mutluluk değeri çıkarılmıştır.
Benzerlik işlemleri için veri tabanında bulunan her yorum için nitelik çıkarımı
yapılmıştır ve Mysql veri tabanında saklanmıştır. Yorumlar içerisinde geçen
hastag konularına göre bu konu hakkında paylaşım yapan yorumların
benzerliği hesaplanmıştır.
Kelime frekansları bölümünde mutluluk ve üzgünlük belirten kelimelerden en
çok kullanılanlar belirlenmiştir.
57
9.2. Veri Tabanı ve Analiz İşlemleri
Twitter yorumları mysql veri tabanında saklanmıştır. Veri tabanında tweet
mesajları ile beraber kullanıcılara ait aşağıdaki bilgiler kaydedilmiştir.
• Tweet text
• Tarih
• Kullanıcı ismi
• Takipçi sayısı
• Arkadaş sayısı
• Kaynak
• Profil resmi linki
• Paylaşılan linkler
• Twitter kullanımına başlama zamanı
• En son güncelleme zamanı
Analiz işlemleri için tweet text alanının ve tarih kısmının kullanılarak verinin
dönüştürülmesi ile analiz için aşağıdaki alanlar kullanılmıştır.
• mutlu
• üzgün
• saat
• gün
• ay
• yil
Aşağıdaki şekilde analiz işlemi için kullanılan şekil gösterilmiştir.
58
Şekil 9.2 Analiz işlemi için kullanılan alanların görünümü
Analiz işlemleri için saat, gün, ay ve yıl kısımları kullanılarak aşağıdaki Sql
sorgusu ile zamana göre analiz yapılabilmektedir. Veri dönüşümü sayesinde
her seferinde mutlu ve üzgünlük belirten kelimeleri arama işleminden kurtulup
analiz işlemleri daha kolay yapılabilmektedir.
•
SELECT AVG( ortalamamutluluk ) AS sayi FROM analiz WHERE
ortalamamutluluk >0 AND gun =" " AND ay =" " AND yil =" "
Her gün için çıkarılan mutluluk, üzgünlük ve ortalama mutluluk değerleri
eşitlik 8.1, 8.2, 8.3 kullanılarak günlük bazda çıkarımlar elde edilmiştir.
Çıkarımların herhangi bir word dosyasına program içerisinde tablo
oluşturularak saklanmıştır. Bu tablolar direk olarak Spss programına
aktarılmıştır.
9.3. Spss İle Analiz
SPSS programı ile tarihlere göre temel analizler ve veri madenciliği için
birçok analiz yapılabilmektedir. Analiz işlemleri için oluşturulan değişkenlerin
nitelikleri aşağıdaki şekilde gösterilmektedir.
59
Şekil 9.3 Analiz işlemi için kullanılan değişkenlerin niteliklerinin görünümü
Analiz işlemleri için oluşturulan verinin SPSS ortamındaki tarihsel olarak
görünümü aşağıdaki gibidir.
Şekil 9.4 Analiz işlemi için kullanılan değerlerin görünümü
Verilerin SPSS ortamına aktarılması işleminde sonra analiz işlemleri için
SPSS menüsü içerisinde histogram, frekans gibi tarihsel analizler yapılmıştır.
60
10. SONUÇ ve ÖNERİLER
Sosyal
ağlardaki
son
dönemlerde
yapılan
çalışmalar
incelendiğinde
karşımıza çıkan daha çok insanların etkileşimlerini kullanarak bilgi çıkarımı
yapmak ve bu bilgileri gereken yerlerde kullanmak olarak tanımlanabilir.
Yapılan bu çalışmalar daha çok akıllı sistemlerin geliştirileceği anlamına
gelmektedir. Başka bir deyişle insanların sosyal ağlarda bırakmış olduğu
veriler sayesinde yapılan konu tahmini, ilişki tahmini veya grup tahmini olarak
tanımlanabilir. Bunların yanı sıra kişilerin internet üzerindeki davranışlarının
analizi yapılarak yeni reklam yöntemleri veya yeni uygulamalar geliştirilebilir.
Kişilerin son dönemlerde yazı şeklinde bıraktığı verilerin artması dolayısıyla
bu alanda kişiler hakkında analiz ve fikir madenciliği çalışmaları artmaktadır.
Fikir madenciliği çalışmalarında en çok karşılaşılan sorun dillerin belli bir
ortak
noktası
olmaması
ve
dillerin
yapısına
göre
bu
çalışmaların
çeşitlenmesidir. Bu farklılıkların giderilmesi için çalışmalar yapılmaktadır. Fikir
madenciliğinde sözcük bazında değerlendirmenin yanı sıra cümle bazındaki
kelimelerin analiz edilmesi de gerçekleştirilen işlemler arasındadır. Bloglarda
yapılan çalışmalarda düşünceleri ya da yazıları benzer olan kişilerin birbirleri
ile etkileşim halinde olabilmeleri için bu araştırmalar yapılmaktadır. Sosyal
ağlarda veri madenciliği sayesinde birçok firma ürün analizlerini ve eksik
yönlerini bulabilmekte ve bu yönde iyileştirmeler yaparak kullanıcı sayısını
artırabilmektedir. Bunun yanı sıra sosyal ağlarda veya çeşitli bloglarda
ekonomi ile ilgili veriler çıkarılıp analiz edilerek sosyal ağların bu etkileri de
araştırma konusu olmaktadır. Bu sayede insanların bu alanlardaki tepkileri
duygusal açıdan da değerlendirilebilmektedir.
Bu çalışmada sosyal ağlarda yapılacak çalışmalar için kelime seti
oluşturulmuş ve daha sonra yapılacak çalışmalara destek olmak amacıyla
sosyal ağlar alanında yapılmıştır. Yapılan çalışma ile Türkçe olarak mutluluk
61
ve üzgünlük belirten kelime seti oluşturulmuş ve bu alanda yapılacak olan
çalışmalara destek olması düşünülmüştür. Bu sayede sosyal ağlar alanında
Türkçe dili için yapılacak çalışmalar artacaktır.
Kelime setine göre iki farklı analiz yapılmıştır. Frekans yöntemi ve ortalama
mutluluk değerlerine göre analizler sonucunda, ortalama mutluluk değerlerine
göre yapılan analizler mutluluk ve üzgünlük belirten kelimelerin beraber
geçtiği mesajların değerlendirilmesi açısından daha iyi olmaktadır. İki
yönteme göre de sonuçlar birbirleri ile korelasyon göstermektedir.
Kelime setine göre yapılan analiz sonucunda 47 gün içerisinde genel olarak
mutlu kelime içeren tweetlerin sayısı fazladır. Ortalama mutluluk değerlerine
göre yapılan incelemelerde mutluluk oranı 6 ve üzerinde olmaktadır. Bu
durumun sebebi genel olarak insanların mutluluk ifade eden sözcükleri
kullanım oranın fazla olmasıdır. Yüzdesel olarak mutluluk tweetlerin oranında
yılbaşına yaklaşıldığında gözle görünür şekilde artış olduğu, üzgün tweetlerin
oranında ise azalma olduğu görülmektedir. Benzer olarak ortalama mutluluk
değerlerine göre yapılan analizlerde ortalama mutluluk değerinin maksimuma
yılbaşı
gününde
ulaştığı
görülmektedir.
Belirlenen
kelimeler
değerlendirildiğinde en çok mutluluk belirten Türkçe kelime “mutlu” kelimesi
ve türevleri olarak çıkmaktadır. Üzgünlük için düşünüldüğünde ise “tasa” ve
“dert” kelimesi en çok üzgünlük belirten kelime olarak yer almaktadır.
Borsa kelimesi ve benzeri kelimeler geçen tweetler incelendiğinde ortalama
mutluluk değerinin 5’ in altına düştüğü günler gözlemlenmiştir. Yapılan
analizler sonucunda borsanın ve tweetler arasında günlük olarak %45
eşleşme görülmektedir. Borsadaki hisse senetlerinin artıp azalması borsanın
genel durumu ile birebir korelasyon göstermediğinden twitter mesajları
arasındaki ilişki tam olarak sonuçlara yansımamış gözükmektedir. Bu
62
durumun nedeni borsa ve benzeri kelimeleri içeren tweetlerin duygusal
kelimeleri
az
barındırmasından
kaynaklanmaktadır.
Gelecekteki
çalışmalarda, ekonomik ilişkileri gösteren kelime veri tabanı ile daha iyi
sonuçlar alınabilir.
Son yıllarda sosyal ağlarda yazı biçiminde bırakılan verinin artması ile
kullanıcıların görüşlerini veya birbirleri ile olan ilişkilerinin çıkarımı daha kolay
olmaktadır. Yaptıkları yorumlardan çıkarılan nitelikler ile aralarındaki
benzerlik oranı tahmin edilebilmektedir. Kullanıcıların belli konu hakkındaki
yaptıkları yorumların değerlendirilip birbirleri ile benzer alt grupların keşfi ile
aynı
görüşü
savunun
ya
da
benzer
özellikte
yayın
yapanlar
bulunabilmektedir. Gerçekleştirilen uygulama ile kosinüs benzerlik yöntemi
kullanılarak çıkarılan niteliklerin değerlendirilmesi ile aynı konu hakkında
yorum yapanlar arasından benzerliği yüksek olan alt gruplar belirlenmiştir.
63
KAYNAKLAR
1. Kamber, M., Han J., “Data Mining Concepts and Tecniques 3ed.”, Morgan
Kaufmann Publishers, 5-9, (2006).
2. Aynekin, G., “İnternet içerik madenciliğinde yapay sinir ağları ve bir
uygulama”,Yüksek lisans tezi, Uludağ Üniversitesi Fen Bilimleri
Enstitüsü, Bursa, (2006).
3. Arslan, H., “Web sitesi erişim kayıtlarının veri madenciliği ile analizi”,
Yüksek Lisans Tezi, Sakarya Üniversitesi, Sakarya, (2008).
4. Öğüt S, “Veri madenciliği kavramı ve gelişim süreci”, Veri Madenciliği
Paneli, İstanbul, (2005).
5. Vahaplar, A.,İnceoğlu, M., “Veri madenciliği ve elektronik ticaret”,
Türkiye’de İnternet Konferansları, Harbiye İstanbul, (2001).
6. Akgöbek, Ö. , Çakır, F., “Veri madenciliğinde bir uzman sistem tasarımı”,
Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri
Harran Üniversitesi, Şanlıurfa, (2009).
7. Dalkılıç, G., Türkmen, F., “Karınca kolonisi optimizasyonu”, YPBS2002 –
Yüksek Performanslı Bilişim Sempozyumu, Kocaeli, (2002).
8. Takcı, H., Soğukpınar, İ., “Kütüphane kullanıcılarının erişim desenlerinin
keşfi”, Akademik Bilişim 2002, Selçuk Üniversitesi Konya, (2002).
9. Şimşek, M. U., Özdemir, S., Karacan, H., "Data mining in social
Networks", Bilişim 2011, 26-28 Ekim, Ankara Türkiye, (2011).
10. Erdoğan, Ş. Z., “Veri madenciliği ve veri madenciliğinde kullanılan kMeans algoritmasının öğrenci veri tabanında uygulanması”, Yüksek
lisans tezi, İstanbul Üniversitesi Sosyal Bilimler Enstitüsü,
İstanbul,(2004).
11. Çoşkun, C., “Veri madenciliği algoritmaları karşılaştırılması”, Yüksek
lisans tezi, Dicle Üniversitesi Fen Bilimleri Enstitüsü, Diyarbakır,
(2010).
12. Baloğlu, U. B., “ Dna sıralarındaki tekrarlı örüntülerin ve potansiyel
motiflerin veri madenciliği yöntemiyle çıkarılması”, Yüksek lisans tezi,
64
Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ, (2006).
13. Özçakır, F. C., “ Müşteri işlemlerindeki birlikteliklerin belirlenmesinde veri
madenciliği uygulaması”, Yüksek lisans tezi, Marmara Üniversitesi Fen
Bilimleri Enstitüsü, İstanbul (2006).
14. Kalıkov, A., “ Veri madenciliğinde ve bir e-ticaret uygulaması”, Yüksek
lisans tezi, Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara, (2006).
15. Akbulut, S., “ Veri madenciliği teknikleri ile bir kozmetik markanın ayrılan
müşteri analizi ve müşteri segmentasyonu”, Yüksek lisans tezi, Gazi
Üniversitesi Fen Bilimleri Enstitüsü, Ankara, (2006).
16. Özdamar, E. Ö,, “Veri madenciliğinde kullanılan teknikler ve bir
uygulama”, Mimar Sinan Üniversitesi Fen Bilimleri Enstitüsü,
İstanbul, (2002).
17. Giudici, P., “Applied data mining: Statistical methods for business and
industry”,John Wiley & Sons Inc., Chichester, 85-100 (2003).
18. Timor, M., Erdoğan, Ş. Z.,“A Data mining mpplication in a student
database“,Journal of Aeronautics and Space Technologies, 2(2):
53-57 (2005).
19. Bozkır, A. S., Mazman, S. G. , Akçapınar, S. E., “Identification of user
patterns in social networks by data mining techniques: Facebook case”,
IMCW 2010, 145–153, (2010)
20. Tang, L., Liu, H., “Toward collective behavior prediction via social
dimension extraction”, IEEE Intelligent Systems, 25(4): 19-25
(2010).
21. Domingos, P.,“Mining social networks for viral marketing”, IEEE
Intelligent Systems, 20(1): 80-82 (2005).
22. Agarwal, N., Liu, H., Subramanyay, S., Salernox, J. J., Yu, P. S.,
“Connecting sparsely distributed similar bloggers”, ICDM '09. Ninth IEEE
International Conference, Miami USA, 11-20 (2009).
23. Berendt, B. , Hotho, A., Stumme, G., “Bridging the gap - Data mining and
Social network analysis for Integrating Semantic Web and Web 2.0”,
Journal of Web Semantics, 8(2-3): 95-96 (2010).
65
24. Dodds, P. S., Danforth, C. M.,”Measuring the happiness of large-scale
written expression: Songs, blogs, and presidents”, Journal of Happiness
Study, 11 (4): 441-456 (2010).
25. Jensen, D., Neville, J.,“Data mining in social Networks”, In National
Academy of Sciences workshop on Dynamic Social Network
Modeling and Analysis, (2002).
26. Zhang, X., Fuehres, H., Gloor, P. A., “Predicting stock market indicators
through twitter ‘I hope it is not as bad as I fear’ ”, Procedia - Social and
Behavioral Sciences, 26 (1): 55-62 (2011).
27. Liu, H. , Tang, L., Wang, X., Wang, L., “A Multi-Resolution approach to
learning with overlapping communities”, SOMA '10 Proceedings of the
First Workshop on Social Media Analytics,14-22 (2010).
28. Leskoveç, J., Huttenlocher, D., Kleinberg, J., “Predicting positive and
negative links in online social networks”, WWW '10 Proceedings of the
19th international conference on World Wide Web, 641-650 (2010).
29. Shen, D., Sun, J.T., Yang, Q., Chen, Z. , “Latent friend mining from blog
data”, Sixth IEEE International Conference on Data Mining,
Washington USA,552-561 (2006).
30. Agarwal, N., Liu, H., Salemo, J., Yu, P., “Searching for familiar strangers
on blogosphere: Problems and challenges” , NGDM’07, (2007).
31. Agarwal, N., Liu, H., “Blogosphere: Research Issues, Tools, and
Applications”, ACM SIGKDD Explorations Newsletter, 10(1), 1831 (2008).
32. Ku, L., Liang, Y. , Chen, H., “ Opinion extraction, summarization and
tracking in news and blog corpara” In Proceedings of AAAI-2006
Spring Symposium on Computational Approaches to Analyzing
Weblogs, Palo Alto USA, 100-107 (2006).
33. Demirbaş, M., Sriram, B., Fuhry, D., Demir, E., Ferhatosmanoğlu, H.,
“Short text classification in twitter to improve informative filtering”,
Proceeding of the 33rd international ACM SIGIR conference on
research and development in information retrieval, Genava,
Switzerland, 841-842 (2010).
34. Akcakora, C. G., Bayir, M. A., Demirbaş, M., Ferhatosmanoğlu, H.,
66
“Identifying breakpoints in public opinion”, In Proceedings of the First
Workshop on Social Media Analytics SOMA ’10, Washington, 62-66
(2010).
35. Chen, H., Zimbra, D., “AI and opinion mining”, IEEE Intelligent Systems,
3 (25): 74-76 (2010).
36. Liu, B.,” Sentiment analysis: A multifaceted problem”, IEEE Intelligent
System, 25(3): 76-80 (2010).
37. Kleinberg, J., Backstrom, L., Huttenlocher, D., “Group formation in large
social networks: Membership, growth, and evolution”, KDD’
06 proceedings of the 12th ACM SIGKDD international conference
on Knowledge discovery and data mining , NewYork USA, 44-54
(2006).
38. Bollen, J., Mao, H., Zeng, X. J. , “ Twitter mood predicts the stock
market”, Journal of Computational Science, 2 (1):1-8 (2011).
39. O'Connor, B., Balasubramanyan, R., Routledge, B. R., “From tweet to
polls: Linking text sentiment to public opinion time series”, Fourth
International AAAI Conferance on Web Blogs and Social Media,
Washington, 122-129 (2010).
40. Popescu, A. M., Etzioni, O. , “ Extracting product features and opinions
from reviews”, HLT '05 Proceedings of the conference on Human
Language Technology and Empirical Methods in Natural Language
Processing , USA, 339-346 (2005).
41. Sprenger, T. O., Welpe, I. M., “Tweets and trades: The Information
content of stock microblogs”, Working Paper Series Technische
Universität München (TUM), 89 (2010).
42. Bhattacharyya, P., Garg, A., Wu, S. F., “Analysis of user keyword
similarity in online social networks”, Socaial Network Analysis and
Mining, 1(3):143-158 (2011).
43. Internet: www.facebook.com, (2012).
44. Internet: www.twitter.com, (2012).
45. Internet: www.youtube.com, (2012).
67
46. Internet: http://msnblog.msn.com/, (2012).
47. Internet: http://www.informatik.uni-trier.de/~ley/db/, (2012).
48. Internet: www.imdb.com/, (2012).
49. Internet: http://www.epinions.com/, (2012).
50. Internet: slashdot.org/, (2012).
51. Internet: http://www.wikipedia.org, (2012).
52. Gürbüz, F., Özbakır, L., Yapıcı H., “Türkiye’de bir havayolu işletmesine
ait parça söküm raporlarına ilişkin veri madenciliği uygulaması”, Gazi
Üniv. Müh. Mim. Fak. Dergisi, 24 (1): 73-78 (2011).
53. Yeşilbudak, M., Kahraman, H. T., Karacan, H., ”Veri madenciliğinde
nesne yönelimli birleştirici hiyerarşik kümeleme modeli”, Gazi Üniv. Müh.
Mim. Fak. Dergisi, 26 (1): 27-39 (2011).
54. http://www.blogkatalog.net/, ( 2012).
55. Aktürk, H., “Borsa ve döviz verileri üzerinde veri madenciliği teknolojisi
kullanarak zarar riskini azaltan bir uygulama geliştirimi”, Yüksek lisans
tezi, Ege Üniversitesi Fen Bilimleri Enstitüsü, İzmir, (2008).
56. Kuduğ, H., “Sosyal ağ analizi ölçütlerinin iş alanlarına uyarlanması,
Yüksek lisans tezi, Ege Üniversitesi Fen Bilimleri Enstitüsü, (2011).
57. Akyüz, R., “Sosyal ağlarda emniyet verilerinin incelenmesi”, Yüksek
lisans tezi, Sakarya Üniversitesi Fen Bilimleri Enstitüsü, (2009).
58. Mazman, S. G., “Sosyal ağların benimsenme süreci ve eğitsel bağlamda
kullanımı”, Yüksek lisans tezi, Hacettepe Üniversitesi Fen Bilimleri
Enstitüsü, Ankara, (2009).
59. Ozkan, B., McKenzie, B., “Social networking tools for teacher education.
In K. McFerrin et al. (Eds.)”, Proceedings of Society for Information
Technologyand Teacher Education International Conference, .
Chesapeake, 2772-2776, (2008).
60. İnternet: https://dev.twitter.com/, (2012).
68
61. Parrott, W. G., “Emotions in social psychology: essential readings”,
editör, Psychology Press, (2001).
62. Dodds, P. S., Harris, K. D., Kloumann, I. M., Bliss, C. A., Danforth, C.
M., “Temporal patterns of happiness and information in a global social
network: Hedonometrics and Twitter”, PLoS ONE, 6 (12): 26752
(2011).
63. Işık, M.,Çamurcu, A. Y., “ Web Belgeleri Kümelemede Benzerlik ve
Uzaklık Ölçütleri Başarılarının Karşılaştırılması”, Fen Bilimleri Enstitüsü
Dergisi, 20 (1):35-49,(2008).
64. Internet : http://www.nielsenbuzzmetrics.com/, (2012) .
65. Internet : http://www.tuaw.com/, (2012).
69
EKLER
70
Ek-1 Mutluluk ve üzgünlük karakterleri
Mutluluk karakterleri
":)", "(:", ":D", ":d", ";)", "^_^", "-_-", ":>", "=)"
Üzgünlük karakterleri
:(", "):", ">:(", ":o", ":’(", ":<", ";("
71
Ek-2 Mutluluk ve üzgünlük kelimeleri listesi
mutlu
hoşnut etmek
ümidimi yitirdim
kırıldım
mutluluk
bayram etmek
üzücü olay
umutsuzluk
mutluyum
gülünçlük
memnuniyetsizlik
üzülmek
keyif
mutluluktan uçma hoşnutsuzluk
hüsran
beğendim
neşelilik
hayıflanma
melankoli
eğlence
bayram ettim
ümidini yitirme
küstüm
çok sevindim
mutluluktan ucma yas tuttum
cefa
saadet
mutluluktan
kıvranma
rencide
sansızlık
bunalım
agoni
hayal kırıklığı
uçtum
heves
mutluluktan
uctum
neşe
yerinde
duramama
sevinç
can atma
umudumu kestim
acı çekme
gösteriş
can attım
incittim
depresyon
şenlik
büyülendim
ümitsizlik
çile
hayranlık
can çekişme
kalbini kırma
kırmak
beğenme
can cekisme
acıtma
hüzün
sevinmek
acıttım
çöküntü
üzüldüm
hoşnut
umutsuzluğa
hayal kırıklıgı
keder
acı cekme
sıkıntı
caresizlik
tasa
düş kırıklığı
dert
düşmek
heyacan
umutsuzluğa
düştüm
komiklik
umutsuzluga
dustum
memnuniyet
hüzün çökmek
72
Ek-2 (Devam) Mutluluk ve üzgünlük kelimeleri listesi
oyalanma
yas tutma
şansızlık
acı
neşe kaynağı
dus kırıklıgı
husran
mest oldum
hosnut
ümidini boşa
buhran
çok sevinme
incitme
umudunu
kesmek
çıkarma
mutluluk kaynağı
ümidini boşa
çıkardım
hoşlandım
hosnutsuzluk
kasvet
çaresizlik
eğlenme
hayıflandım
ızdırap
küsmek
hoşlanma
müteessir olmak
daraldım
kalbini kırdım
çoşku
özlemini çekme
kırılmak
üzgün
uzgun
73
Ek-3 Borsa kelimeleri listesi
borsa
IMKB
hisse senedi
imkb
İMKB
endeks
finans
menkul kıymetler
bülten verileri
74
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, adı
: ŞİMŞEK, Mehmet Ulvi
Uyrugu
: T.C.
Dogum tarihi ve yeri
: 28.06.1987, Bolu
Medeni hali
: Bekar
Telefon
: 0 (536) 939 2444
e-mail
: [email protected]
Eğitim
Derece
Eğitim Birimi
Mezuniyet tarihi
Lisans
Gazi Üniversitesi/Bilgisayar Mühendisliği
2010
Lisans
Gazi Üniversitesi/Elektrik Elektronik Müh.
2010
Lise
Bolu Atatürk Süper Lisesi
2005
Yabancı Dil
İngilizce
Yayınlar
1. Şimşek, M. U.,
Ozdemir, S., Karacan, H., "Data Mining in Social
Networks", Bilişim 2011, 26-28 Ekim, Ankara Türkiye, (2011).
2. Şimşek, M. U., Ozdemir, S., "Analysis of the Relation between Turkish
Twitter Messages and Stock Market Index", in Proc. of AICT 2012,
Georgia, Tbilisi, 17-19 October (2012).
Download