SOSYAL AĞLARDA VERİ MADENCİLİĞİ ÜZERİNE BİR UYGULAMA Mehmet Ulvi ŞİMŞEK YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ EYLÜL 2012 ANKARA iii TEZ BİLDİRİMİ Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalışmada bana ait olmayan her türlü fikir ve bilginin kaynağına eksiksiz atıf yapıldığını bildiririm. Mehmet Ulvi ŞİMŞEK iv SOSYAL AĞLARDA VERİ MADENCİLİĞİ ÜZERİNE BİR UYGULAMA (Yüksek Lisans Tezi) Mehmet Ulvi Şimşek GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ Eylül 2012 ÖZET Günümüzde İnternetin yaygınlaşmasıyla son yıllarda ortaya çıkan yeni uygulamalar iletişim ve eğlence amacı ile kullanılmaya başlamıştır. Sosyal medya olarak tanımlanabilecek bu uygulamalar kişiler ve geniş kitleler hakkında büyük miktardaki verilere İnternet üzerinden kolay bir şekilde erişim imkanı vermiştir. Sosyal ağlarda veri madenciliği çalışmaları bu alanın genişlemesi ile son dönemlerde artmıştır. Araştırmacılar geniş kitleler hakkında yararlı bilgiler çıkarmışlardır. Bu bilgilerin reklam, politika, borsa ve çeşitli alanlarda kullanılması ile veri madenciliği uygulamaları ortaya çıkmıştır. Bu tez çalışmasında sosyal ağlarda veri madenciliği ile yapılan uygulamalar, alandaki sorunlar ve açık çalışma alanları incelenmiştir. Bu çalışmada twitter sosyal ağı verileri toplanmış ve duygu belirten Türkçe kelimeler belirlenmiştir. Twitter verileri her gün için ayrı olarak duygu belirten kelimelerin kullanılmasına göre analiz edilmiştir. Türk Twitter kullanıcılarının duygusal durum değişiminin IMKB indeksi ile ilişkili olup olmadığına araştırılmıştır. Twitter mesajlarını analiz etmek için frekans yöntemi ve ortalama mutluluk analizi yöntemi kullanılmış ve bu iki metot karşılaştırılmıştır. Tweet veri seti içerisinde mesajları olan v kullanıcıların yaptıkları yorumlara göre benzerliği incelenmiştir. Bu tez çalışması, alanda Türkçe tweetler ve borsa indeksi üzerinde yapılmış ilk çalışma olması açısından önem taşımaktadır. Bilim Kodu : 902 Anahtar Kelimeler : Veri Madenciliği, Sosyal ağlar Sayfa Adedi : 74 T ez Yöneticisi : Doç. Dr. Suat ÖZDEMİR vi THE APPLICATION RELATED WITH DATA MINING ON SOCIAL NETWORKING (M.Sc. Thesis) Mehmet Ulvi Şimşek GAZİ UNIVERSITY INSTITUTE OF SCIENCE AND TECHNOLOGY September 2012 ABSTRACT Today, the spread of the Internet, new and emerging applications in recent years began to be used for the purpose of communication and entertainment. Applications which is defined social mediahas easily access to large amounts of data about people and the masses over the internet. Data mining aplications have recently been increased with this research area extend. Researchers extract useful information about masses and people. Data mining aplications are came out with this information is used by advertisement, political, stock exchange and various area. In this thesis, data mining in social networks with applications in the field examined the problems and open work areas.In this study, Turkish tweet dataset is collected and emotional words are determined. Twitter data for each day are analyzed by emotional words. An analysis is carried out to see if there is a relation between Turkish tweets and the Turkish stock market index. Frequency analysis and avarage happiness analysis are used for tweet dataset and this two method are compared eachother. Users similarity is analyzed with used users tweet message. vii this study is the first study performed on Turkish tweets and stock market index. Science Code : 902 Key Words : Data Mining, Social Network Page Number : 74 Adviser : Assoc. Prof. Dr. Suat ÖZDEMİR viii TEŞEKKÜR Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren hocam ve değerli tez danışmanım Doç. Dr. Suat ÖZDEMİR’ e, makale ve raporlarda bizden desteğini esirgemeyen Yrd. Doç. Dr. Hacer KARACAN’ a, karşılaştığımız sorunlarda bize her zaman yardımcı olan Uraz YAVANOĞLU’ na, değerli bilgileriyle bana her zaman destek veren Öğr. Gör. Dr. Oktay YILDIZ’ a ve benden desteklerini esirgemeyen aileme teşekkürlerimi borç bilirim. Yüksek lisans öğrenim hayatım boyunca bana karşılıksız olarak burs sağlayan TÜBİTAK’ a teşekkürlerimi borç bilirim. Hepsinden çok daha önemlisi, ailemizin ve de Türkiye Cumhuriyeti Devletinin öğrenimimizin her aşamasında bize imkânlarından dolayı şükranla anıyorum. karşılıksız olarak sağladıkları ix İÇİNDEKİLER Sayfa ÖZET ............................................................................................................. iv ABSTRACT .................................................................................................... vi TEŞEKKÜR.................................................................................................. viii İÇİNDEKİLER ................................................................................................ ix Sayfa .............................................................................................................. ix ÇİZELGELERİN LİSTESİ ............................................................................. xiv ŞEKİLLERİN LİSTESİ ................................................................................... xv SİMGE VE KISALTMALAR .......................................................................... xvi 1. GİRİŞ ......................................................................................................... 1 2.VERİ MADENCİLİĞİ ................................................................................... 4 2.1.Veri Madenciliği Nedir? ......................................................................... 4 2.2. Veri Madenciliğinin Gelişim Süreci....................................................... 5 2.3.Veri Madenciliği Modelleri ..................................................................... 7 2.3.1. Tanımlayıcı model ..................................................................... 7 2.3.2.Tahmin edici model .................................................................... 8 x Sayfa 2.4.Veri Madenciliği Yöntemleri .................................................................. 8 3. VERİ MADENCİLİĞİNİN BAZI UYGULAMA ALANLARI .......................... 10 3.1. Bilimsel ve Mühendislik Verileri.......................................................... 10 3.2. Sağlık Verileri .................................................................................... 10 3.3. İş Verileri ............................................................................................ 10 3.4. Alışveriş Verileri ................................................................................. 11 3.5. Bankacılık ve Finans Verileri ............................................................. 11 3.6. Eğitim Sektörü Verileri ....................................................................... 11 3.7. Internet (Web) Verileri........................................................................ 11 3.8. Doküman Verileri ............................................................................... 12 3.9. Sosyal Ağ Verileri .............................................................................. 12 3.10. Askeri Veriler ................................................................................... 12 4. VERİ MADENCİLİĞİ AŞAMALARI VE TEKNİKLERİ ............................... 13 4.1. Veri Madenciliği Aşamaları ................................................................ 13 4.1.1. Problemin tanımlanması .......................................................... 13 4.1.2. Veri hazırlanması .................................................................... 13 xi Sayfa 4.1.3. Modelin uygulanması ve değerlendirilmesi .............................. 15 4.1.4. Modelin kullanılması ................................................................ 15 4.1.5. Modelin izlenmesi .................................................................... 16 4.2. Veri Madenciliği Teknikleri ................................................................. 16 4.2.1. Sınıflandırma ........................................................................... 16 4.2.2. Kümeleme ............................................................................... 17 4.2.3. Birliktelik kuralları..................................................................... 17 5. SOSYAL AĞLAR ..................................................................................... 18 5.1. Sosyal Ağların Genel Özellikleri......................................................... 18 5.2. Sosyal Ağ Uygulamalarında İletişim .................................................. 19 5.3. Sosyal Ağ Uygulamaları .................................................................... 19 6. SOSYAL AĞLARDA VERİ MADENCİLİĞİ ............................................... 21 6.1. Sosyal Ağlarda Veri Madenciliği İşlemleri .......................................... 21 6.1.1. Sınıflandırma .................................................................................. 22 6.1.2. Davranışsal analiz ve ortaklaşa gerçekleştirilen davranışlar ........... 22 6.1.3. Benzerlik ........................................................................................ 23 xii Sayfa 6.2. Veri Kaynakları .................................................................................. 24 7. SOSYAL AĞLARDA VERİ MADENCİLİĞİ İLE YAPILAN ÇALIŞMALAR . 26 7.1. Benzerlik Üzerine Yapılan Çalışmalar ............................................... 26 7.2. Sınıflandırma ve Davranışsal Analiz Çalışmaları ............................... 28 7.3. Fikir Madenciliği ................................................................................. 31 8. SOSYAL AĞLARDA VERİ MADENCİLİĞİ İLE BİR UYGULAMA............. 38 8.1. Veri Seti ............................................................................................. 38 8.2. Mutluluk ve Üzgünlük Analizi ............................................................. 40 8.2.1. Mutluluk ve üzgünlük belirten kelimelerin seçimi ..................... 40 8.2.2. Mutluluk ve üzgünlük analizi .................................................... 41 8.2.3. Ortalama mutluluk değerlerine göre hesaplama ...................... 44 8.2.4. Borsa verilerinin ortalama mutluluk değerleri ile karşılaştırılması .......................................................................................................... 47 8.3. Twitter Kullanıcılarının Benzerliği....................................................... 49 8.3.1. Konuların seçimi(hastag) ......................................................... 50 8.3.2. Kullanıcıların yorumlarından nitelik çıkarımı ............................ 50 8.3.3. Kullanıcılar arası benzerlik ...................................................... 52 xiii Sayfa 9. UYGULAMADA KULLANILAN PROGRAMLAR....................................... 55 9.1. Gerçekleştirilen Form Uygulaması ..................................................... 55 9.2. Veri Tabanı ve Analiz İşlemleri .......................................................... 57 9.3. Spss İle Analiz ................................................................................... 58 10. SONUÇ ve ÖNERİLER .......................................................................... 60 KAYNAKLAR ............................................................................................... 63 EKLER ......................................................................................................... 69 Ek-1 Mutluluk ve üzgünlük karakterleri ..................................................... 70 Ek-2 Mutluluk ve üzgünlük kelimeleri listesi .............................................. 71 Ek-3 Borsa kelimeleri listesi ...................................................................... 73 ÖZGEÇMİŞ .................................................................................................. 74 xiv ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 8.1. Hastag istatistikleri…………………………………………………50 Çizelge 8.2. Bir kullanıcı için benzerlik tablosu ……………………………….52 xv ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 6.1. Sosyal Ağlarda Yapılan İşlemler ..………………………………..…20 Şekil 7.1. Fikir Madenciliğinde kullanılılan ana unsurlar ..……………………31 Şekil 8.1. Twitter platformundan veri tabanı oluşturma gösterimi ..………....38 Şekil 8.2. Mutluluk ifade eden tweetlerin tüm tweetler içinde günlük yüzdesel değişimi……..………………………………………………41 Şekil 8.3. Üzgünlük ifade eden tweetlerin tüm tweetler içinde günlük yüzdesel değişimi……………..……………………………………....42 Şekil 8.4. Mutlu ve üzgün kelimelerin beraber kullanıldıkları tweet örneği....43 Şekil 8.5. Ortalama mutluluk değerlerine göre kelimelerin dağılımı…………45 Şekil 8.6. Ortalama mutluluk değerinin zamana göre değişimi.……………...46 Şekil 8.7. Ortalama mutluluk değerinin zamana göre değişimi………………48 Şekil 8.8. Benzerlik oranı yüksek olan grubun gösterimi……………………..54 Şekil 9.1 Form ekranının görüntüsü……………………………………………55 Şekil 9.2 Analiz işlemi için kullanılan alanların görünümü…………………....58 Şekil 9.3 Analiz işlemi için kullanılan değişkenlerin niteliklerinin görünümü…………………………………………………….………....59 Şekil 9.4 Analiz işlemi için kullanılan değerlerin görünümü…………………..59 xvi SİMGE VE KISALTMALAR Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Simgeler Açıklama Api Uygulama Programlama Arayüzü ENIAC Elektronik numara entegre f Kelime listesindeki kelime h Özne k Kullanıcı l Link m Mutluluk belirten kelimeler MSN Microsoft Ağı m_k Mutluluk karakteri o Nesne ROC Alıcı Operasyon Karakteri t Zaman u Üzgünlük belirten kelimeler u_k Üzgünlük karakteri W Özellik 1 1. GİRİŞ İnsanlık tarihi boyunca sürekli var olan iletişim ihtiyacı, son yıllarda Internet erişiminin yaygınlaşması ve geliştirilen uygulamalar sayesinde büyük ölçüde Internet üzerinden gerçekleştirilmeye başlanmıştır. Teknoloji devrimi ile birlikte verilerin dijital ortamlarda saklanmasıyla, veri depolama ünitelerinin hacimlerinde ve veri tabanı sistemlerinin kullanımında olağanüstü artış meydana gelmiştir [53]. Geliştirilen uygulamalar insanlara sadece iletişim ve bilgi paylaşımı olanağı değil eğlence ve iyi vakit geçirme imkânı da sunmaktadırlar. Genel olarak “sosyal ağlar” olarak tanımlanabilecek bu uygulamalar kişiler ve geniş kitleler hakkında büyük miktardaki verilere Internet üzerinden kolay bir şekilde erişim imkânı vermektedir. Internet üzerindeki bu veri kaynakları bloglar, bilgi paylaşımı yapılan siteler, online oyun siteleri, haber grupları ve sohbet odaları olarak sıralanabilir [21]. Örneğin Facebook [43] ve Twitter [44] günümüzde en çok kullanılan sosyal ağların başında gelmektedir. Facebook en popüler ve en çok tanınan sosyal ağ sitesi olarak yer almaktadır. 2012 yılı istatistiklerine göre 955 milyon kullanıcısı ile dünya çapında bir sosyal ağ oluşturduğu görülmektedir. Genel eğilim olarak kullanıcıların yarısı 25 yaşının altında ve öğrenci olduğu analiz edilmiştir [19]. Genişleyen ve büyüyen sosyal ağ sadece Facebook ile sınırlı değildir. Twitter, Youtube [45] ve birçok blog sitesi de milyonlarca kullanıcıya sahiptir. Kullanıcılar bu sitelere istedikleri zaman girebilmekte ve birbirleri ile veya herhangi bir konuda istedikleri düşünceyi açıklayabilmektedirler. Bu nedenle sosyal ağlar üzerinde çok büyük miktarda veri birikmekte ve bu veriler genelde dışarıdan erişime açık olmaktadır. Sosyal ağlar sadece kişisel iletişim ve eğlence amacı ile değil kitle erişimi ve ticari uygulamalar için de kullanılabilmektedir [20]. Örneğin, Amerika Birleşik 2 Devletleri başkanı Barack H. Obama birçok seçmenine sosyal medyadan ulaşmıştır [20]. Diğer bir örnek olarak ise bilgisayar firmalarından Dell şirketinin Twiter sitesinden 3 milyon dolar gelir elde ettiği belirtilmiştir [20]. Sosyal ağlar içerisinde veri kaynağı olarak blog siteleri de önemli bir yere sahiptir [22]. Kullanıcıların belirli konularda görüşlerini yazıp yorum alabildikleri blog siteleri, Internet’te geliştirilen sosyal etiketleme sistemleri sayesinde çok daha etkin bir konuma gelmiştir. Etiketleme sayesinde bu siteler araştırmacılara metadata sağlamıştır [23]. Sosyal ağlardaki bu etiketleme sayesinde gerçekleşen etkileşim bir konu yada kişi hakkındaki pozitif veya negatif ilişkileri gösterebilmektedir. Yukarıda yazılanlar dikkate alındığında, sosyal ağ kavramının hızlı gelişen teknolojilerle birlikte günlük hayatta çok önemli bir yere sahip olduğu ve daha birçok uygulamaya açık olduğu anlaşılmaktadır [20]. Sosyal ağlar için geliştirilecek yeni uygulamaların başında bu ağlarda bırakılan verinin analiz edilerek bu ham veriden bilgi çıkartılması işlemi gelmektedir. Veri madenciliği yöntemleri kullanılarak sosyal ağlarda kullanıcıların bıraktığı veriler incelenmesi ile çeşitli bilgiler elde edilmesi mümkündür. Örneğin, kullanıcıların profil analizi ile gruplar arası ilişkiler çıkarılabilir yada kullanıcıların yapmış oldukları yorumların incelenmesi ile bir konunun yada kişinin pozitif veya negatif olarak desteklenip desteklemediği ortaya çıkarılabilir. Benzer olarak kullanıcıların Twitter gibi sitelerde yaptıkları kısa yazıların incelenmesi ile sosyal ağın yâda belli bir grubun duygusal açıdan anlık sınıflandırması yapılabilir. Başka bir uygulama ile kullanıcıların etkileşim halinde oldukları kişilerin analizi yapılarak aralarındaki ilişki tahmin edilebilir. Bunlardan başka kişiler arası beğenilerin benzerliğinin hesaplanması ile öneri sistemleri tasarlanabilir ve geliştirilebilir. Bütün bu 3 olası uygulamaların ortak yönü veri madenciliği yöntemleri kullanılarak yapılabiliyor olmalarıdır. Bu tez çalışmasında sosyal ağlarda son zamanlarda yapılan veri madenciliği çalışmaları incelenerek sosyal ağlarda veri madenciliği üzerine Türkiye’ de yenilikçi araştırmalar yapılmıştır. Sosyal ağların insanlar üzerindeki etkisinin giderek artmasıyla son dönemlerde bu alanda yapılan analizler ile veri madenciliği uygulamaları artmaktadır. Kullanıcıların sosyal ağlarda çok miktarda veri bırakmasıyla veri madenciliği ile bu alandaki bilgilerin değerlendirilmesi kolay olmaktadır. Sosyal ağ sitelerinin başında gelen twitter sitesi kişilerin yorumlarını içerdiğinden bu alanda yoğunlukla çalışılan bir sitedir. Kişilerin istedikleri konular hakkında yorum yapabilmeleri ile bu alanda çok miktarda veri bulunmaktadır. Bu yorumların değerlendirilmesi ile belirli olayların kişiler üzerinde etkisi araştırılabilmektedir. Bu çalışmada da Türkçe tweet mesajlarının duygusal analizleri yapılmıştır ve borsa kelimesi içeren tweet mesajlarının borsa ile ilişkisi değerlendirilmiştir. Twitter kullanıcılarının birbirleri ile olan benzerlikleri yaptıkları yorumlar değerlendirilerek çıkarılmıştır. Bu sayede aynı konu üzerinde yorum yapan belli bir grup içerisinde benzer özellik gösteren diğer grupların bulunmasına olanak sağlanabilmektedir. 4 2.VERİ MADENCİLİĞİ 2.1.Veri Madenciliği Nedir? Veri madenciliği, eldeki büyük miktarlı verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. [1, 5]. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir [2]. Yüksek kapasiteli işlem yapabilme gücünün artması ve ucuzlaması ile birlikte veri saklama işlemi kolaylaşmıştır. Son yıllarda bilgisayarların günümüzün vazgeçilmezi olması ile dünyadaki şirketlerin çoğu işlerini bilgisayarlar ve bilgi sistemleri aracılığı ile yapmaktadırlar [55]. Veri miktarının artması, veriyi toplama ve saklama kapasitesindeki hızlı büyüme, yeni arayışlara yol açmıştır. Bir bilgisayarın işleyebileceği veri miktarından daha fazlası üretilmektedir. İnsanların veri analizinde yetersiz, objektif ve hızlı olmamaları dolayısıyla yeni tekniklere ihtiyaç duyulmuştur. Verilerin hızlı bir şekilde büyümesi, yorumlama ve özümsemede etkin bir veri tabanı analizi için, yeni tekniklere ihtiyaç doğmuştur. Geleneksel sorgu veya raporlama araçları çok miktardaki veriler karşısında yetersiz kalmasından dolayı veri madenciliği gelişmiştir [3]. Veri madenciliği ve veri tabanlarında bilgi keşfi süreci kavramları birçok kaynakta birbirinin yerine kullanılmaktadır. Veri madenciliği, veri tabanlarında bilgi keşfi sürecinde bir adım olarak yer almasına rağmen birçok çalışmada tüm süreci anlatmak için kullanılmaktadır. Bu süreçte istatistik, matematik disiplinleri, modelleme teknikleri, veri tabanı teknolojisi ve çeşitli bilgisayar programları kullanılarak veri madenciliği işlemleri yapılır [3]. 5 Bu programların analizleri ve değerlendirmeleri sonucu karar aşamasındaki kritik bilgiler sonuçların doğruluğuyla orantılıdır. Birçok durumda verdiğimiz kararlar bilgilerin doğruluğunu tam olarak bilmediğimiz için net olmamaktadır. Örneğin; Pazar araştırması yapan bir firma için müşterileri ile ilgili bilgileri kayıtlı ve ne kadar çok olursa olsun açık ve net cevaplara ulaşılması neredeyse imkânsızdır [2]. Büyük miktardaki verilerin altında saklı olan bu bilgilere ulaşmak veri madenciliği sayesinde daha kolay olmaktadır. Genel olarak veri madenciliği, gerçek hayatta yazılım endüstrisinin son yıllarda ürettiği yazılımlarla beraber büyük market veya firmaların gelecek hakkında analiz ve tahmin yapmak için kullandığı bir yöntem olarak günümüzde yerini almaktadır. Ancak son dönemlerde sosyal ağlarda insanların çok vakit geçirmesiyle bu alanda insanların beğenilerinin çıkarılması ve gelecek hakkında tahminlerin ve analizlerin yapılması için kullanılmaktadır. Temel olarak veri madenciliğini tanımlamak istersek? Veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikler bilgisayar yardımı ile belirlenir. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edip günlük yaşamda kolaylık sağlamaktır. Veri madenciliği, zeki yöntemler aracılığıyla büyük miktarda veriden anlamlı bilgilerin çıkarılması sürecidir [52]. 2.2. Veri Madenciliğinin Gelişim Süreci Veri madenciliğinin başlangıç aşaması ilk sayısal bilgisayar olan ENIAC’ a kadar dayanmaktadır. Bilgisayarların verimli şekilde kullanımı verilerin depolanması hesaplamaları ile başlamaktadır. yapmaya yönelik Bilgisayarlar geliştirilmiştir, ilk olarak karmaşık kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlanmıştır. Bu 6 sayede veri tabanları ortaya çıkmıştır. Veri tabanlarının genişlemesi ile donanımsal olarak bu verilerin tutulacakları ortamları ve bu ortamların da genişlemesini gerektirdi. Bu sayede veri ambarı kavramının ortaya çıkışı bu dönemlere rastlamaktadır. Verilerin uzun süre saklanmak istenmesi nedeniyle fiziksel sürücülerde saklanmaktaydı. Bu süreçle beraber büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de buna paralel olarak daha zor bir hal almaya başladı. Bu safhada veri modelleme kavramı ortaya çıktı [4]. İlk geliştirilen modeller Hiyerarşik ve Şebeke modelleridir [4]. Hiyerarşik veri modelleri, ağaç yapısına benzeyip, temelinde bir kök olan ve bu kök vasıtasıyla üstünde her daim bir, altında ise n sayıda düğüm bulunan veri modelleriydi. Şebeke veri modelleri ise kayıt tipi ve bağlantıların olduğu, kayıt tiplerinin varlık, bağlantılarınsa ilişki tiplerini belirlediği bir veri modeliydi. Şebeke veri modelinde herhangi bir eleman bir diğeri ile ilişki içerisine girebiliyordu. Ancak çoklu ilişki kurmak söz konusu değildi. Hiyerarşik veri modellerinde ise bu daha da kısıtlıydı. Dolayısıyla kullanıcıların ihtiyaçlarını tam olarak karşılayamadılar. Bu ihtiyaçlar doğrultusunda Geliştirilmiş Veri Modelleri geliştirildi. Bunlar Varlık İlişki, İlişkisel ve Nesne Yönelimli veri modelleri olarak bilinmektedirler [4]. Veri madenciliği, kavramsal olarak 1960lı yıllarda, veri analiz problemlerini ortadan kaldırmak amacıyla kullanılmasıyla ortaya çıktı. Uzun taramalar sonucunda istenilen verilere ulaşmanın mümkün olduğu anlaşıldı ve bu işleme veri madenciliği yerine önceleri veri taraması, veri yakalanması gibi isimler verildi [4]. 1990lı yıllara gelindiğinde veri madenciliği ismi, bilgisayar mühendisleri tarafından ortaya atıldı. Bu isimlendirmenin amacı, geleneksel istatistiksel 7 yöntemler yerine, veri analizinin algoritmik bilgisayar modülleri tarafından değerlendirmesini vurgulamaktı. Bu aşamadan sonra bilim adamları veri madenciliğine çeşitli yaklaşımlar getirmeye başladılar. Bu yaklaşımların kökeninde istatistik, makine öğrenimi, veri tabanları, otomasyon, pazarlama, araştırma gibi disiplinler ve kavramlar yatmaktaydı. İstatistik verilerin değerlendirilmesini mümkün kılan bir yöntemler topluluğuydu. Bilgisayarların veri analizi için kullanılmaya başlamasıyla istatistiksel çalışmalar hız kazandı. Bilgisayarların gelişmesi ile beraber daha önce yapılması mümkün olmayan istatistiksel araştırmalar mümkün oldu. 1990lardan sonra istatistik, veri madenciliği ile ortak olarak düşünülmeye başladı. Bilginin, çok miktardaki veri yığınları içerisinden çekip çıkarılması ve analizinin yapılarak kullanıma hazırlanması sürecinde veri madenciliği ve istatistik ortak olarak kullanılmaktadır. Bunun yanı sıra veri madenciliği, veri tabanları ve makine öğrenimi disipliniyle birlikte gelişti [4]. 2.3.Veri Madenciliği Modelleri Tanımlayıcı ve tahmin edici model olarak iki çeşit model mevcuttur. 2.3.1. Tanımlayıcı model Tanımlayıcı modeller analiz yapan kişiye daha önceden bir bilgi ve hipoteze sahip olmaksızın, veri kümesinin içinde ne tür ilişkiler olduğunu anlama imkânı sunar. Analizcinin çok büyük veri tabanlarındaki bilgileri incelemek, örüntüleri keşfetmek için doğru soruları sorup hipotezler geliştirmesi pratikte zor olduğundan, ilginç örüntüleri keşfetme önceliği veri madenciliği programına bırakılır. Keşfedilen bilginin kalitesi ve zenginliği, uygulamanın kullanışlılığını ve gücünü oluşturur [3]. 8 2.3.2.Tahmin edici model Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesine çalışılmaktadır. Örneğin bir sınıftaki öğrencilerin bir dersle ilgili almış oldukları vize ve ödev notları gibi veriler bir veri tabanında toplanabilir. Bu verilere uygun olarak kurulan model öğrencilerin o dersin sonunda finalden alacağı notun tahmininde kullanılmaktadır [3]. 2.4.Veri Madenciliği Yöntemleri Tanımlayıcı ve tahmin edici modellerde kullanılan belli başlı teknikler vardır. Bunlar Sınıflandırma[3] ve Regresyon Analizi[3], Kümeleme[18], Ardışık Örüntülerin Bulunması[3], Birliktelik Kuralları Bulunması[3] olarak sıralanabilir. Sınıflandırma modeli tahmin edici, kümeleme, birliktelik kuralları ve ardışık örüntü modelleri tanımlayıcı modellerdir. Sınıflandırma nesnelerin niteliklerini kullanarak veri nesnesini daha önceden belirlenen sınıflardan biriyle eşleştirme işlemidir [3,11]. Regresyon analizi sayısal değişkenlerin matematiksel bir fonksiyona uydurularak tahmin edilmesi yöntemidir [3,11]. Kümeleme, benzer karakteristiklerin belirlenip üyeleri birbirine benzeyen farklı grupların belirlenmesi işlemidir [3,18]. Ardışık örüntülerin bulunması belli bir zaman aralığında sıklıkla olan olayların kümelerini bulma işlemidir [3]. 9 Birliktelik kuralları bir arada olan verinin özelliklerinin keşfedilmesidir [3]. 10 3. VERİ MADENCİLİĞİNİN BAZI UYGULAMA ALANLARI Veri madenciliği verinin yoğun olarak üretildiği her ortamda uygulama alanı bulabilir. Bazı uygulama alanları aşağıdaki gibi özetlenebilir [6]. 3.1. Bilimsel ve Mühendislik Verileri Günümüzde laboratuvar veya bilgisayar ortamında sistemlerin gelişmesi ve artması ile yüksek miktarda bilimsel veri üretilmektedir. Elde edilen bu verilerin anlamlandırılması için veri madenciliği kullanılmaktadır [6]. 3.2. Sağlık Verileri Veri madenciliğinin en çok kullanılan uygulama alanlarından bir tanesi de tıp ve sağlık alanıdır. Özellikle tarama testlerinden elde edilen verileri kullanarak çeşitli kanserlerin ön tanısı, kalp verilerini kullanarak kalp krizi riskinin tespiti, acil servislerde hasta semptomlarına göre risk ve önceliklerin tespiti gibi çok geniş bir uygulama sahası söz konusudur [7]. 3.3. İş Verileri İş süreçleri sırasında büyük miktarda veriler üretilir. Bu verileri karar verme mekanizmalarında kullanmak mümkündür. Müşteri veri tabanlarının analizi ile reklam ve promosyon ile ilgili pek çok faydalı bilgiye ulaşmak mümkündür [6]. Müşteri ve ürün veritabanın ortak kullanılması ile daha faydalı bilgiler çıkarılabilmektedir. 11 3.4. Alışveriş Verileri Bu alanda en çok başvurulan veri madenciliği yaklaşımı sepet analizidir. Sepet analizinde amaç alınan ürünler arasındaki ilişkileri bulmaktır. Bu ilişkilerin bilinmesi işletmenin kârını arttırmak için kullanılabilir [6,16]. 3.5. Bankacılık ve Finans Verileri Bankacılık sektöründe kredi ve kredi kartı sahtekârlığı tahminlerinde, risk değerlendirmede, müşteri eğilim analizlerinde, kar analizi gibi alanlarda veri madenciliği kullanılır [6,16]. 3.6. Eğitim Sektörü Verileri Öğrenci işlerinde veriler analiz edilerek öğrencilerin başarı ve başarısızlık nedenleri, başarının arttırılması için hangi konulara ağırlık verilmesi gerektiği, üniversite giriş puanları ile okul başarısı arasında bir ilişkinin var olup olmadığı gibi soruların cevabı bulunarak eğitim kalitesi ve performansı arttırılabilir [6]. 3.7. Internet (Web) Verileri Internet ve web üzerindeki veriler giderek büyümektedir. Web madenciliği özetle internetten faydalı bilginin keşfi olarak tanımlanabilir. Kaynakların otomatik tarama sistemleri, bilgi alma için kullanılan sistemler ve web siteleri veya online veri tabanlarından seçilmesi web içerik madenciliği konusuna girerken web sunucularından veya online servislerden kullanıcı erişim 12 desenlerinin analiz ve keşfi web kullanım madenciliği konusuna girmektedir [8]. 3.8. Doküman Verileri Doküman veri madenciliğinde ana amaç dokümanlar arasında ayrıca elle bir tasnif gerekmeden benzerlik hesaplayabilmektir. Bu genelde otomatik olarak çıkarılan anahtar sözcüklerin tekrar sayısı sayesinde yapılır. Polis kayıtlarında mevcut rapora benzer kaç adet ve hangi raporlar var. Ürün tasarım dokümanları ve internet dokümanları arasında mevcut tasarım için kullanılabilecek ne tür dosyalar var gibi sorulara yanıt bulunabilir [6] . 3.9. Sosyal Ağ Verileri Günümüzde İnternetin yaygınlaşmasıyla son yıllarda ortaya çıkan yeni uygulamalar iletişim ve eğlence amacı ile kullanılmaya başlamıştır. Sosyal medya olarak tanımlanabilecek bu uygulamalar kişiler ve geniş kitleler hakkında büyük miktardaki verilere İnternet üzerinden kolay bir şekilde erişim imkânı vermiştir [9]. Bu alandaki verinin analiz edilmesi ile insanlar hakkında faydalı bilgiler çıkarılabilmektedir. 3.10. Askeri Veriler Hedef tanıma ve askeri takip sistemlerinde kullanılan veriler ile veri madenciliği çalışmaları yapılabilmektedir. Bunun yanı sıra sensörlerin performans analizleri ve görüntü verileri ile veri madenciliği çalışmaları yapılabilmektedir [10]. 13 4. VERİ MADENCİLİĞİ AŞAMALARI VE TEKNİKLERİ 4.1. Veri Madenciliği Aşamaları Veri madenciliği işlemlerinin gerçekleştirilebilmesi için veri ambarlarında veya veri tabanlarında tutulan verilere belli süreçler uygulanması gerekir. Başarılı bir veri madenciliği projelerinde belirli adımların izlenmesi gerekir [14,16]. 4.1.1. Problemin tanımlanması Veri madenciliğinde başarım oranını etkileyen en önemli faktörlerden birisi projenin ne hangi kurum veya ne amaçla yapıldığının belirlenmesidir [14]. Problemin sonuçlarının faydası ve maliyeti çalışma kimin için yapılıyorsa analiz edilmesi gerekmektedir. Kurumda üretilen sayısal veriler için boyut ve yeterlilik açısından iyi analiz edilmesi gerekir [14,15]. 4.1.2. Veri hazırlanması Veri hazırlanması ve seçimi veri madenciliği süreçlerinde en fazla zaman alan kısımlardan biridir. Bu aşamada bilgi sistemlerinde oluşan bilgi iyi analiz edilmelidir ve problemle ilişkilendirilmelidir. Analizi yapan kişinin veri kalitesini ölçmesi açısından bu aşama önemlidir [14,15]. Büyük miktardaki verilerin tek bir veri tabanı veya veri ambarında birleştirilmesi veri madenciliği uygulaması için gereklidir [13]. Veri hazırlanması veri ön işleme sürecindeki aşağıdaki aşamaları içermektedir. Veri temizleme Veri temizleme işlemi veri madenciliğinin başarısı için önemlidir. 14 Kullanıcı veya programın çalışması esnasında oluşan hatalardan dolayı eksik veya hatalı veriler veri tabanlarında bulunabilir [11,13,14,15]. Veriler üzerinden faydalı ve doğru sonuç çıkarmak için bu hataların düzeltilmesi yâda giderilmesi gerekir. Eksik nitelik taşıyan veriler hesaplamalara alınmayabilir ve silinebilir. Yada bu niteliğe özgü global değerle doldurulabilir veya niteliklerin ortalaması veya en yüksek değeri kullanılarak doldurulabilir [11]. Veri birleştirme Veri madenciliği çalışmasının iyi bir sonuç vermesi için veri miktarının çok olması gerekmektedir. Bu yüzden birçok veri kaynağından yararlanarak veri kümemizi oluşturmak gerekir. Farklı kaynaklardan gelen veriler aynı veri kümesi içerisinde birleştirilir. Aynı nitelik değerleri içeren veriler için dönüşüm yapmak gerekebilir. Gerekli dönüşüm yapılmasa gereksiz veriler oluşabilir ve buda başarım oranını etkileyebilir [11]. Veri dönüşüm Verilerde bazı nitelik tipleri uygulanacak olan algoritmaya uygun olmayabilir [11]. Niteliklerin algoritmaya uygun hale getirilmesi için bu işlem yapılmaktadır. Bunun için normalizasyon ya da nitelik oluşturma işlemleri yapılabilir. Normalizasyon işlemi nümerik değerler için kullanılır. Normalizasyon işleminde min-max normalizasyon (4.1), z-score normalizasyon (4.2) ve ondalık normalizasyon (4.3) teknikleri uygulanabilecek yöntemlerdendir [11]. (4.1) (4.2) 15 (4.3) Sürekli değerlerin ayrık değerlere dönüştürülmeside veri dönüşümü aşamasına girmektedir. Bu sayede veri hacmi küçülmüş olur. Histogram yöntemi kullanılarak veriler gruplanabilir. Her ayrı demet yapısına yarık etiket değeri verilebilir [11, 13]. Veri azaltma Veri madenciliği uygulanacak verinin aşırı büyük olması ve sonucu etkilemeyecek olan verileri içermesi gereksiz işlemlere sebep olur. Bu tip verilerin dönüştürülmesi veya temizlenmesi gerekir [11,13]. Bu tekniğin içerisinde veri birleştirmesi, veri küpü, veri sıkıştırma, boyut indirgeme gibi yöntemlerde bulunmaktadır. 4.1.3. Modelin uygulanması ve değerlendirilmesi Modelin kurulumu süreci denetimli ve denetimsiz öğrenme modellerine göre farklılık göstermektedir. Örnekten öğrenme denetimli öğrenme, denetimsiz öğrenme ise kümeleme analizindeki gibi gözlem ve örnekler arasındaki benzerliklerden faydalanarak sınıfların tanımlanması yapılmaktadır [14,15]. Tanımlanan problem çeşitli modellerin kurulması ve uygulanması ile mümkün olmaktadır [14]. 4.1.4. Modelin kullanılması Geçerliliği kabul edilen model uygulama olarak değerlendirilebilir veya diğer uygulamaların parçası olarak değerlendirilebilir [14,15] 16 4.1.5. Modelin izlenmesi Modelin zaman içerisinde değerlendirilmesi daha uygun olacaktır. Belli zaman aralıklarında verilerde meydana gelen değişiklikler görülerek yenilenen bir şekilde izlenme ve düzenleme gerekecektir. Farklılıkların değerlendirilmesi ile daha uygun bir model seçimi yapılabilir [14,15]. 4.2. Veri Madenciliği Teknikleri Veri madenciliği tekniklerini genel anlamda 3 grupta değerlendirebiliriz [15]. • Sınıflandırma • Kümeleme • Birliktelik Kuralları 4.2.1. Sınıflandırma Sınıflandırma, niteliklerin incelenmesi ile nesnenin önceden tanımlanmış bir sınıfa atamasıdır. Sınıf özelliklerinin iyi şekilde belirlenmesi gerekir. Sonuçlar önceden bilindiği için sınıflandırma denetimli öğrenme grubuna girer [13,15,17]. Sınıflama ve regresyon analizi yöntemlerinde kullanılan başlıca teknikler [3], • K-En Yakın Komşu, • Genetik Algoritmalar, • Yapay Sinir Ağları, • Naïve-Bayes, • Doğrusal Regresyon, Lojistik Regresyon, 17 • Karar Ağaçları olarak verilebilir. 4.2.2. Kümeleme Verilerin belli bir benzerlik kriterine göre gruplanması işlemine kümeleme denir. Sınıflandırma algoritmalarına benzer olarak ortak özellikleri olan veriler aynı küme içerisinde yer alır. Çeşitli kümeleme algoritmaları ile alt kümeler bulunmaya çalışılır [10,13]. Kümeleme algoritmaları olarak k- ortalamalar veya Kohonen şebekesi gibi istatiksel yöntemler kullanılmaktadır [15]. Kümeleme modelinde, kriterlerine göre sınıfları gruplar halinde bulunmayan kümelere veriler ayrılırlar. benzerlik-yakınlık Küme içindeki elemanların benzerliği yüksek olmalı, kümeler arasında ise benzerliğin az olması gerekir [13]. 1- Bölme yöntemleri, 2- Hiyerarşik yöntemler, 3- Yoğunluk tabanlı yöntemler, 4- Izgara tabanlı yöntemler, 5- Model tabanlı yöntemler. 4.2.3. Birliktelik kuralları Birliktelik kuralları denetimsiz veri madenciliği şeklidir. Birliktelik kuralları genelde market sektöründe kullanılır ve “ sepet analizi” olarakta adlandırılır. Birliktelik kuralı, müşterilerin satın aldıkları ürünler arasında ilişkinin değerlendirilmesi ile daha etkin ve kazançlı satışlar yapabilme olanağı sağlar [12,13]. 18 5. SOSYAL AĞLAR Son yıllarda Internet erişiminin yaygınlaşması ve geliştirilen uygulamalar sayesinde büyük ölçüde Internet üzerinden gerçekleştirilmeye başlanmıştır. Geliştirilen bu uygulamalar insanlara sadece iletişim ve bilgi paylaşımı olanağı değil eğlence ve iyi vakit geçirme imkânı da sunmaktadırlar. Genel olarak “sosyal ağlar” olarak tanımlanabilecek bu uygulamalar kişiler ve geniş kitleler hakkında büyük miktardaki verilere Internet üzerinden kolay bir şekilde erişim imkânı vermektedir. İnsanlar arasındaki politik, resmi, resmi olmayan, ailevi, coğrafi ya da herhangi başka bir şekildeki ilişkiler sosyal ağları oluşturur [57]. İnsanların birbirleriyle olan ilişkilerini sanal ortam üzerinde paylaşıp, yönetmelerine olanak veren yapılara sosyal ağ adı verilmektedir [56]. Özellikle internet teknolojilerinin hızla gelişmesi ve tüm dünyada kullanılması ile birlikte, sosyal ağda bulunan insanlar kendilerini çok daha rahat ifade ederek sanal dünya üzerinde daha fazla vakit geçirmektedirler. Sanal ortamda arkadaşlıklar kurarak, birbirleri ile resim, müzik ve video vb. eğlence öğeleri paylaşarak hayatın sosyalliğini sanal ortamda yaşayabilmektedirler. Farklı coğrafyalardan ve farklı kültürden insanların bulunduğu bu büyük ağ sayesinde bireyler birbirleri ile daha hızlı bir şekilde iletişim kurabilmektedirler [56]. 5.1. Sosyal Ağların Genel Özellikleri Sosyal ağların çoğu kullanıcı odaklı olup, kullanıcıların daha fazla vakit geçirebilmeleri için çeşitli ekstra uygulamalar sunmaktadırlar. Sundukları uygulamaların ve işlemlerin çoğu ücretsizdir. Sundukları uygulamalar 19 elektronik posta, anlık mesajlaşma, video, oyun, blogging, dosya paylaşımı, fotoğraf paylaşımı gibi çeşitli hizmetlerdir. Bu hizmetleri sağlayarak, kullanıcıların etkileşimini kolaylaştırır. Sosyal kullanıcılarının kendilerine ait bilgilerinin tutulduğu veri tabanı sayesinde kolaylıkla arkadaşlarının paylaşımlarını ve ilgilendikleri konuları grupları takip edebilirler. Kullanıcılar bunun yanı sıra kullandıkları sosyal ağın özelliklerine göre kendi profillerini oluşturma imkânına sahiptirler. Bunun yanı sıra profillerinde paylaştıkları bilgilerin ve beğenilerin üzerindeki gizlilik ayarlarını yapabilmektedirler [58,59]. 5.2. Sosyal Ağ Uygulamalarında İletişim Sosyal ağ uygulamalarında iletişim kullanıcıların istek göndermesi ve karşı tarafın onaylaması şeklinde gerçekleşmektedir. Bunun yanı sıra öneri sistemlerinin geliştirilmesi ile sizinle benzer özellik ve beğenilere sahip olan kişilerin önerilmesi ile sosyal ağlarda etkileşim başlayabilmektedir. Diğer bir iletişime geçme yöntemi ise tek taraflı olarak gerçekleşmektedir. Bu tek taraflı bağlantılarda hayranlar veya takip edenler olarak adlandırılmaktadır. Sosyal ağ uygulamalarındaki arkadaşlık terimi genellikle yanlış anlaşılabilmektedir. Sosyal yaşamdaki arkadaşlıktan ziyade bireyler arası bağlantıyı temsilen arkadaşlık terimi kullanılmaktadır. Bu bağlantı sadece sanal ortamda olabilir ve gerçek hayatta bu ilişki olmayabilir [56]. 5.3. Sosyal Ağ Uygulamaları Kuduğ, (2011) sosyal ağ uygulamalarını çevrim içi sosyal ağ uygulamaları ve kurum içi sosyal ağ uygulamaları olarak iki farklı grupta incelemiştir. Çevrimiçi sosyal ağ uygulamaları, kullanıcıların sınırları belli olan bir sistem 20 çerçevesinde halka açık ya da gizli profiller oluşturmasına olanak sağlayan, bağlantıda olduğu diğer kullanıcıların bağlantı listelerini görebilen bu listelerde dolaşabilmesine olanak sağlayan web tabanlı hizmetlerdir [56]. Kurum içi sosyal ağ uygulamaları, kuruluşlara özel olarak hazırlanan intranet sosyal ağ uygulamaları, intranete dayalı olarak sosyal ağ oluşturma araçları ile kuruluşların kendi yerel ağları içerisinde oluşturup kullanabildikleri ve sadece kendi üyelerinin katılabileceği bir ağ modeli sunan uygulamalardır. Çevrimiçi sosyal ağlar internet üzerinden herkesin erişebileceği ve katılabileceği bir ortam sunar. Ancak kurum içi sosyal ağlarda ise belirli bir kurumun mensupları bu ağa erişebilmektedir [56]. 21 6. SOSYAL AĞLARDA VERİ MADENCİLİĞİ Sosyal ağlar için geliştirilecek yeni uygulamaların başında bu ağlarda bırakılan verinin analiz edilerek bu ham veriden bilgi çıkartılması işlemi gelmektedir. Veri madenciliği yöntemleri kullanılarak sosyal ağlarda kullanıcıların bıraktığı veriler incelenerek çeşitli bilgiler elde edilmesi mümkündür [9]. 6.1. Sosyal Ağlarda Veri Madenciliği İşlemleri Sosyal ağlarda bulunan kişiler birçok eylemi gerçekleştirebilir. Bunlar birlikte veya dolaylı olarak etkilenme vasıtasıyla gerçekleşebilir, yâda bloglarında bilgi paylaşımı sayesinde ilişkisel bilgiler sunabilirler. Kişilerin bıraktığı yorumlardan veya yazdıkları anlık iletilerden yola çıkarak elde edilen veriler üzerinde yapılabilecek işlemler Şekil 5.1’de verildiği gibi üç farklı kategoride toplanabilir. Sosyal Ağlarda Veri Madenciliği İle Yapılan İşlemler Davranışsal analiz ve ortaklaşa gerçekleştirilen davranışlar Sınıflandırma Şekil 6.1. Sosyal Ağlarda Yapılan İşlemler Benzerlik 22 6.1.1. Sınıflandırma Sınıflandırma çalışmaları sosyal ağlarda kullanıcıların gruplarının belirlenmesi gibi birçok konu üzerinde olabilir. Sosyal ağlardaki birbirini izleyen etkileşimin izlenmesi ile kişilerin beğenilerinin belirlenmesi mümkün olabilmektedir. Sosyal ağlardaki etkileşim pozitif veya negatif ilişkileri göstermektedir. İnsanlar linkler üzerinde beğenip beğenmeme durumlarını veya destekleyip desteklemediklerini gösterirler [28]. Bu diğer bir söylemle etiketleme olarak tanımlanabilir. Kullanıcılar belli sözcüklerle yorum yapabilirler. Etiketlemede kullanıcılar anahtar sözcük belirterek bu işlemi gerçekleştirirler ve bu şekilde kolayca veri elde edilmesi sağlanır [23]. Sosyal ağlarda yayınlanan konu üzerinden kişilerin bıraktığı yorum ve/veya beğeni durumlarına göre konular hakkında analiz yapılıp çıkarımlar elde edilebilir. Kişilerin kısa metin mesajlarından yola çıkarak belli kelimelerin incelenmesiyle kişiler sınıflandırılabilir yada yazılan mesajlar sınıflandırılabilir [9]. 6.1.2. Davranışsal analiz ve ortaklaşa gerçekleştirilen davranışlar Ortaklaşa davranışlar kişilerin sosyal ağlardaki davranışlarını anlatmaktadır. Ortak davranışlar kişisel olarak değil sosyal ağ çevresinde gerçekleştirilen birbirine bağlı işlemlerdir. Bir kişinin yaptığı davranış diğer kişileri etkilemekte ve giderek yayılan bir yapı izlemektedir. Bu kullanıcılar arasındaki davranışsal ilişki olarak tanımlanır [20]. Burada bahsedilen davranışlar; gruplara katılma, insanlarla iletişim kurma, reklamlara tıklama ve benzerleri olarak çeşitlendirilebilir. Ortaklaşa davranışlar, bunların tümünü kapsayan, sosyal medyada bulunan kişilerin maruz kaldığı veya yaptığı işlemlerin bütünü olarak tanımlanabilir. 23 Gerçekleşen işlemlerde dikkat çeken en önemli özellik taklit yöntemine göre gerçekleşmesidir. Örneğin kişilerin herhangi bir reklama tıklayıp alışveriş yapmasıyla başka kişi de onun yaptığı işlemleri takip ederek buradaki davranışını taklit etmektedir. Buna örnek olarak kişilerin bir konu ile ilgili yaptığı yayınlar ve yorumlar verilebilir. Tüm bunlar davranışsal olarak sosyal ağların etkisiyle şekillenmektedir [20]. Davranışsal analizlerin incelenmesi sonucu kişilerin beğeni özellikleri belirlenebilir ve buna göre kişiye özel uygulamalar geliştirilebilir. Örneğin kullanıcının beğendiği gruplar dikkate alınarak kullanıcıya özel reklamlar yapılabilir. 6.1.3. Benzerlik Benzerlik nitelikleri blogların benzerliği, grupların benzerliği ya da sosyal ağlarda yapılan paylaşımların hakkındaki konular üzerinde yapılan benzerlik çalışmaları olarak karşımıza çıkmaktadır [9]. Blogların benzerliği Bloglarına yazı yazan blog sahipleri kendileri ile benzer yayın ve benzer özellikler gösteren diğer blogları bilmemektedirler [30]. Aynı uzantıda bulunan birbirleriyle benzer bloglar benzer ilgi alanlarındaki bilgileri paylaşırlar. Blog Katolog’da [54] yayın yapanlar kategorilere ayrılırlar. Bu kategoriler insanların benzer siteleri veya konuları bulmasına yardımcı olur [22]. Sadece kategorisel açıdan benzerliği değerlendirmemiz diğer alanlardaki benzerlikleri görmememiz anlamına gelebilir. Bloglarda paylaşılan bilgilerin çeşitli olmasından dolayı benzer yazılar farklı kategoriler altında oldukları için görünmeyebilir. Bu problemi çözmek için kategoriler arası benzerlik çalışması 24 önerilmiştir. Benzerlik çalışması için kategori benzerliğinin dışında kullanıcıların profil bilgileri kullanılarak profil benzerlikleri konusunda da çalışmalar yapılabilmektedir [22]. Grupların benzerliği Kullanıcılar sosyal ağlardaki arkadaşlarını okul arkadaşı, iş arkadaşı veya farklı şekilde etiketlerler. Buradan çeşitli gruplara üye olurlar. Bazı gruplar kullanıcılarının benzer olması itibariyle benzerlik açısından değerlendirilebilir [27]. Grupları ve kullanıcıların üye oldukları ağları ve aralarındaki ilişkileri görmek amacıyla çizge teknikleri kullanılmaktadır. Kullanıcıların sosyal ağdaki arkadaş olma sebebi dolayısı ile grup üyelikleri de benzerlik göstermektedir. Buna şöyle örnek verebiliriz. Kullanıcının futbol takımından arkadaşı ile ortak olarak üye oldukları gruplar genelde futbol ile ilgilidir. Kullanıcı benzerliği Kullanıcılar sosyal ağlarda beğendikleri grupları yada yazıları belirtebilmektedirler. Örneğin kullanıcıların ilgi alanlarındaki grupların, spor, müzik ve benzeri şekilde ayrılıp ayrıntılı olarak incelenmesi ile benzerlik çalışmaları yapılabilmektedir. Bu çalışmalarda birbirini tanımayan ancak aynı beğenilere sahip olan kişiler bulunmaya çalışılmıştır [42]. 6.2. Veri Kaynakları Blogların ve sosyal ağlardaki bilgilerin elde edilmesi konusu kritik bir nokta olarak karşımıza çıkmaktadır. Bunlardan bir kısmı kullanıma açık olarak verilmektedir. Bloglarla alakalı olarak BuzMetric [64] veri seti farklı arama deneyimlerini barındıran bir set olarak uygulamalarda kullanılabilir [31]. 25 Benzer olarak The Unofficial Apple Weblogs [65] bloglar hakkında birçok bilgiyi araştırmalar için paylaşmaktadır. Bunun haricinde Twitter Api [60] yardımı ile Twitter’daki verilere erişilebilmektedir. Bunun dışında insanların internet üzerinde paylaştığı yazılar ve bilgileri çeşitli yazılımlar sayesinde elde edilebilmektedir. 26 7. SOSYAL AĞLARDA VERİ MADENCİLİĞİ İLE YAPILAN ÇALIŞMALAR Sosyal ağların hızla gelişmesi ve bu ağlardaki elde edilebilecek olan yararlı bilginin çokluğu araştırmacıları bu alana yönlendirmiştir [19-29]. Yapılan araştırmalar benzerlik ve sınıflandırma eksenli olup, fikir madenciliği alanında yapılan çalışmalarda bulunmaktadır. Bu bölümde bu çalışmalardan öne çıkanlar özetlenmiştir. 7.1. Benzerlik Üzerine Yapılan Çalışmalar Bloglar insanların kişisel olarak bilgilerini veya düşüncelerini paylaştığı bir ortamdır. Belli bir kontrol mekanizması yoktur. Blogların belli bir kontrol mekanizmasının olmaması diğer bloglarla ilişkilerinin tanımlanmamış olması bloglar arası ilişkileri çıkarmak açısından bir problem olarak gözükmektedir. Huan Lui ve arkadaşları yaptıkları çalışmada [22] birbirleriyle yakın olan blogların toplanması problemi ortaya koymuşlardır. Her bir blog için bulundukları blog ağı içerisinde kendi kategorilerini belirtmişlerdir. Problem olarak herhangi bir arama yaptığımızda aynı kategori altındaki ilişkisel bloglara ulaşırken farklı kategori altında olmasına rağmen ilişkili olan bloglara ulaşılamamasını ele almışlardır. Bunun için “collective wisdom based search” algoritması geliştirmişlerdir. Gerçekleştirilmek istenen işlem için sürekli olarak bir linke yönlendirilip oradan başka bir linke tıklayarak aradığımız bilgiye ulaşmak yorucu olabilmektedir. Örnek olarak “ Irak ve toplumu” araması yapan bir kişi için “Irak ve toplumu” kategorisinde bulunan blog sitesi karşımıza çıkabilir. Ancak aynı bilgi buna benzer bir site olan “Irak’daki rahatsız edici gerçekler” adlı sitede politik kategorisi altında yer almaktadır. Burada hangi kategoriler birbiri ile ilişkili olabilir sorusu ortaya çıkabilir [22]. Bunun için 2. Bolümde bahsedilen benzerlik çalışması yapılmıştır. Benzerlik çalışması için “Cossine Similarity” kullanılmıştır. Benzerlik için çıkarılan 27 verilerin matrislerle ifade edilmesinden sonra belli bir eşik değerine göre ilişkisel graf ağı çıkarılabilmektedir. Bloglar üzerindeki verilerden post ve site edilen olarak iki tip veri kullanılmıştır [22]. Burada veri olarak ele alınanlar her bir blog için site level bilgisi, blog site url, blog site title, kategoriler, tagler, hit sayıları, site sıralama sayıları, post level bilgisi, post tag, post zamanları olarak sıralanabilir [22]. Bloglar üzerindeki çalışmalar sadece birbirine yakın konuların bulunması ile sınırlı değildir. Blog verileri kullanılarak “latent friend detection” problemi ortaya konulmuştur [29]. Aslında benzer yayınları ve beğenileri olan farklı kişilerin bulunmasıdır. Belli olmayan arkadaşlıkların çıkarılması için bu problem ortaya konulmuştur. Blog kullanıcıları temel bilgilerini bloglarda paylaşmaktadırlar. Bunun yanı sıra bloglarında daha ilginç veriler de paylaşabilmektedirler. Örneğin MSN [46] bloglarında kullanıcılar sevdikleri şarkı, spor ve resim gibi birçok bilgi paylaşma olanağına sahiptirler. Bu paylaşımların incelenmesiyle farklı iki blog kullanıcısının benzer özelliklerinin bulunması için “kosinüs benzerlik metodu” kullanılarak yapılan benzerlik yaklaşımı, “başlık odaklı” yaklaşım ve “iki boyutlu benzerlik metodu” olmak üzere üç yöntem kullanılmıştır [29]. Bloglar haricinde sosyal ağda bulunan kişiler üzerinde yapılan benzerlik çalışmaları ile kişiler arası tanımlamaların çıkarılması üzerine çalışmalar da yapılmıştır [27]. Birçok sosyal ağda eklediğimiz arkadaşımızı nereden tanıdığımız sorusu karşımıza gelmektedir. Kullanıcılar sosyal ağlardaki arkadaşlarını okul arkadaşı, iş arkadaşı veya farklı şekillerde etiketleyebilmektedirler. Ancak çoğumuz bunun vakit kaybı olduğunu düşünüp etiketlemeleri yapmadan geçebiliriz. Bunun çözümü için sosyal ağ kullanıcılarının beraber üye oldukları grupların incelenmesi ile bu sorunun çözümü yapılabilmektedir. Gruplar benzer ilişkideki kişileri gösteren bir 28 topluluktur. Örneğin futbol takım arkadaşları olan iki kişi aynı futbol grubuna üye olurlar. Ancak okul arkadaşı olan iki kişi bu grupta büyük olasılıkla yer almayacaktır. Bu problemin çözümü için yapılan çalışmada “Overlapping Communities” adında bir algoritma geliştirilmiş ve maksimum benzerliğe göre grupların dendogram ağacı çıkarılmıştır [27]. Sosyal ağlarda benzerlik çalışmaları kişilerin bilgilerine göre de yapılabilmektedir. Facebook veya benzeri sitelerde kişilerin ilgilendikleri alanları yazması ile kullanıcılar için belli sözcük grupları çıkarılabilmektedir. Bununla beraber arkadaş oldukları kişilerin ilgilendikleri alanlar incelenerek ikisi arasında benzerlik çalışmaları da yapılabilmektedir [42]. 7.2. Sınıflandırma ve Davranışsal Analiz Çalışmaları İnsanların sosyal ağları kullanımının giderek artması ve burada daha çok zaman harcamaları bu ortamı araştırmaya ve geliştirmeye cazip hale getirmiştir [19]. Topluluklar ve grupların özelliklerine göre çeşitli çıkarımlar yapılabilmektedir [20]. Toplulukların bir araya gelmesi sırasındaki süreçte yeni üyeleri çekmek, zamanla artan bir ilgiye sahip bir araştırma konusu olmuştur. Bu topluluklara örnek olarak siyasi oluşum grupları ve meslek kuruluşları verilebilir. Sosyal ağların büyümesi ile sosyal gruplar daha belirgin hale gelmeye başlamıştır. Topluluklara katılan bireylerin temel özellikleri ve bireylerin topluluklara katılmasını etkileyenin ne olduğu sorusu araştırmaların temelini oluşturmaktadır. Topluluklardaki en önemli unsur arkadaşlık bağlantılarıdır. Birbirlerine önerme vasıtasıyla gerçekleştiği için arkadaşlık bağlantıları ve gruplar önemli olmuştur. Bireylerin topluluklara katılırken eğilimlerinin ne olduğu belirleyici olmaktadır. Gruplara katılırken katılacak kişinin sadece arkadaş sayısı gruplara katılım oranını etkilemezken bu arkadaşlıkların birbirine nasıl bağlı olduğu önemli bir veri olmuştur [37]. Bu 29 bağlantı için karar ağacı teknikleri kullanılarak bu özelliklerin en önemli yapısal belirleyicileri tanımlanabilmektedir. Temel anlamda üç kavram üzerinde durulmaktadır; Üyeler, büyüme ve değişim. Belli zaman aralıklarında üye olan kişiler için olasılıklar belirlenmiştir. Gruba üye olmayan bir kişinin grupta en az bir arkadaşı olması ve daha sonra gruba üye olması sırasında değişen zaman aralığı içerisinde incelemeler yapılmaktadır. Bu süre içerisinde grupların en az bir kere yayın yapması dikkate alınarak grup üyelerindeki değişim olasılığı hesaplanmıştır. Değerlendirmelerini ROC eğrisi, ortalama kesinlik ve çapraz entropi yöntemlerine göre karşılaştırmışlardır. Grup büyümesindeki sınıflandırma sonucuna göre tüm durumlarda % 70’ büyük sonuçlar elde edilmiştir. DBLP [47] verilerini kullanarak benzer olarak 1 sene içerisinde hiç konferansa makale göndermeyen ve konferansta üye olarak yer alan kişiler için değerlendirme yapılabilmektedir [37]. Grupların ve üye olduğu kişilerin desteklediği görüşler veya desteklemediği görüşler de yapılan çalışmalar sonucu çıkarılabilmektedir. Bu amaçla Huan Liu ve arkadaşlarının yaptığı sosyal boyut çıkarımı çalışmalarında ortaklaşa davranış analizi iki aşamada yapılmıştır [20]: 1-) Topluluk keşfi ile Sosyal boyut çıkarımı 2-) Supervised öğrenme ile ilişki çıkarımı “Düğüm görünümü” ve “kenar görünümü” yöntemleri kullanılarak grupların sigara içmeyi destekleyip desteklemediği şeklinde bir çıkarım veya üyelerinin incelenmesi ile genel anlamda grup için çıkarımlar yapılabilmektedir [2]. Sınıflandırma çalışmaları sosyal ağ kullanıcılarına sorulan sorular veya yapılan anket araştırmaları ile de yapılabilmektedir. Selman Bozkır ve 30 arkadaşlarının yaptığı çalışmada Facebook kullanım zamanı ve Facebook erişim frekansları kullanılarak tahmin edici veri madenciliği teknikleri kullanılmıştır. 570 kişinin verileri ile çalışma yapılmıştır. 10 adet soru bu kişilere sorulmuş ve veriler değerlendirilmek üzere toplanmıştır. Tüm kişilerin hangi gruplara üye oldukları bilgisi tutularak sınıflandırma sonuçları için kullanılmıştır. Bu çalışmada birçok metotla beraber istatistiksel analiz teknikleri, karar ağacı algoritmaları, Yapay sinir ağları ve destek vektör makinesi kullanılmıştır. İstatiksel analizler Facebook kullanıcı zamanı ve erişim frekanslarını çıkarma açısından faydalı olmuştur [19]. Sonuç olarak tahmin işleminde birçok sınıflandırma aracı kullanılmasına rağmen SVM en iyi sonucu vermiştir. Sosyal ağlar sadece grupların bulunduğu sitelerden ibaret değildir. İnsanların etkileşim halinde oldukları birçok siteyle alakalıdır. Benzer olarak insanların çok takip ettiği Imdb [48] sitesinde veri madenciliği üzerine çalışma yapılmıştır. Jensen ve arkadaşı Imdb’nin sitesinden alınan veriler üzerine bir çalışma yapmışlardır. Verilerin film, insanlarla ilişkili nesneleri, yeni filmleri ödüllerini ve bunlarla ilgili olayları içerdiği söylenmiştir [25]. Veri tabanı tüm nesnelerle ilişkilendirilmiş özelliklerini, film başlıklarını, türlerini, ülkelerini ve gişe gelirlerini barındırmaktadır. Film verileri çeşitli ilginç tahmin edici verileri desteklemektedir. Diğer nesnelerin tahmininde (örneğin linkler, sayfanın sonunda gelen insanlar ve önceki filmler) yakınlık ilişkisi üzerine çalışılmıştır [25]. Bu çalışmada sorgulama dili ve öğrenme algoritması olmak üzere iki ilişkisel basit araç kullanılmıştır. Sorgulama dili çizge veri tabanı için geliştirilmiş görsel bir dildir. Algoritma ise “relational probability tree” üzerine kurulmuştur. çekilebilmektedir. Sorgulama dili sayesinde ağaç üzerinden veriler 31 Jon Kleinberg ve arkadaşları Epinions [49], Slashdots [50] ve Wikipedia [51] veri setlerini kullanarak pozitif veya negatif olarak linkleri tahmin etme üzerine çalışmışlardır. Elde ettikleri sonuçlara örnek olarak; wikipedia kullanıcılarının oy kullanır veya başka kişileri admin olarak aday gösterebilir oluşları, Epinions kullanıcılarının güven ve güvenmeme olarak linki etiketleyebilmeleri ve Slashdot kullanıcılarının diğer katılımcıları arkadaş veya düşman olarak bildirebilmeleri gösterilebilir. Genel olarak bir bütün şeklinde düşündüğümüzde bu bilgiler link üzerinde anlaşma veya anlaşmazlıkları belirtirler [28]. Sosyal ağlarda verilen bir link için yukarıdaki sitelerden elde edilen bilgiler ışığında bu linklerin alıcılar tarafından pozitif veya negatif tutumlarını çıkarma işlemi problem olarak ele alınmıştır. Söz konusu çalışmada her bir kullanıcı için u ve v tanımlaması yapılmıştır. Problem olarak ele alınan konuda tanımlanan (u,v) ilişkisinin kenar işaretini bilme sorunudur. Örnek olarak (u,v) ilişkisinin işareti ile Epinions sitesindeki kişilerin güven ve güvenmeme, Slashdot sitesindeki kullanıcıların arkadaş veya düşman olarak tanımlamaları örnek olarak verilebilir. Yöntem olarak makine öğrenmesi kullanılmıştır. Yönlendirilmiş graf tekniği kullanılarak her kenar için işaret belirleme gerçekleştirilmiş ve bu amaçla S(x,y) şeklinde belirtimler kullanılmıştır. S(x,y)=1 ise pozitif, s(x,y)=-1 ise negatif, s(x,y)=0 ise aralarında bir yönlendirilmiş kenar olmadığı anlamını taşır [28]. Bu şekilde gerçekleştirilen uygulama ile linklerin pozitif veya negatif olması üzerine çalışma yapılmıştır. 7.3. Fikir Madenciliği Fikir çıkarımı kişilerin sosyal ağlarda ve bloglarda bırakmış olduğu bilgilerden faydalanarak fikir çıkarma işlemi olarak tanımlanabilir [9]. Temel olarak ana unsur olarak sözcükler ve sözcüklerin oluşturduğu cümleler ele alınmıştır. 32 Şekil 7.1. Fikir madenciliğinde kullanılan ana unsurlar Kullanılan dilin özelliğine göre teknik açıdan incelemeler yapılabilmektedir. Sözcükler duygusal açıdan, pozitiflik/negatiflik ve daha başka birçok konu açısından sınıflandırılabilir. Burada sorun hangi sözcüklerin hangi sınıflar ile temsil edildiğinin bulunmasındadır. Bunun için Harvard Üniversitesinde sözcüklerin gruplandırma işlemi İngilizce dili için yapılmıştır. Sosyal ağlardaki yorumlar ve yazılar kullanılarak bir konu pozitif veya negatiflik açısından analiz edilebilir veya kişiler duygusal açıdan analiz edilebilir. Çoğunlukla fikir madenciliği araştırmalarının çoğu elektronik ticaret uygulamaları için ve ticaretle alakalıdır. Örnek olarak, şirketlerin yatırımcılarının bulunduğu forumlarda fikir madenciliği yaparak hisselerinin performansının değerlendirilmesi, verilebilir. Genel anlamda yerel halkın endişeleri ve fikirleri çıkarılabilir ve politik anlamda araştırmalar yapılabilir [35,36]. Fikirler insanların karar vermesi için önemlidir. İnsanlar karar verirken başkalarının fikirleri duymak isterler. Bu da belli bir etki mekanizması olduğunu gösterebilir. Şirketler genel anlamda ürünleri hakkında insanların ne düşündüğünü öğrenmek isterler. Sosyal ağların gelişmesi ile insanlar bir 33 ürün veya hizmet hakkındaki fikirlerini tartışma forumlarında, bloglarda veya sosyal paylaşım ağlarında paylaşabilmektedirler. Şirketlerin ürünlerine ait birçok bilgi alenen erişilebilirdir. Fakat web üzerinde herhangi bir konuda fikirleri bulmak ve onların takibini yapmak oldukça zordur. Kaynakların çok ve çeşitli olması ve yüksek hacme sahip olması bu zorluklardan bazılarıdır. Kişilerin bunları okuması, özetlemesi ve kullanılabilir formatta organize etmesi gerekir. Bunu bilgisayar yardımı olmadan yapmak oldukça zordur. Otomatik fikir ortaya çıkarma ve özetleme sistemleri bu ihtiyacı karşılamak için geliştirilmiştir [35,36]. Çoğu fikir madenciliği çalışmaları İngilizce için gerçekleştirilmektedir. Kullanılan teknikler ve yenilikler farklı diller için de gerçekleştirilmelidir [35,36]. Dillerin özelliğine göre yapılan çalışmalar değişiklik kazanmaktadır. Çin dilinde yapılan bir çalışmada bu dilin özelliğinden faydalanarak karakter bazında değerlendirme yapılmıştır. Bir cümledeki negatif veya pozitif sözcükler çıkartıldıktan sonra, bu sözcüklerdeki karakterler pozitif veya negatif olarak etiketlenmiştir. Çince özelliğinden dolayı sözcükteki geçen karakterlere göre karakterler pozitif veya negatif olarak etiketlenebilmektedir. Her karakter için olasılıksal olarak çıkarım yapılmıştır. Pozitif ve negatiflik oranlarını birbirinden çıkararak hassaslık değerleri bulunmuş ve bu sayede sözcüklerin ve cümlelerin hassaslıkları değerlendirilmiştir [32]. Fikir madenciliğinde diğer bir önemli adım ise nitelik çıkarma işlemidir. Nitelik çıkarma işleminde dikkat edilmesi gereken birçok nokta vardır. Öncelikle çalışma yaptığımız ürün mü kişisel bir çalışma mı veya genel bir fikir araştırması mı bunun seçimi yapılmalıdır. Örneğin bir ürün hakkında pozitiflik veya negatiflik açısından inceleme yapıyorsak, burada kullanıcıların kendileri hakkında kişisel yorumları önemli değildir. Bunun için öznenin ve hangi niteliklerin çıkarılacağı önemlidir. Örneğin bir ürün için ürün özellikleri 34 belirlenmelidir. Bir ürün için yorumlardan fikir madenciliği çalışması yapılabilmesi için aşağıdaki adımlara dikkat edilmelidir [40]. 1-) Ürün özelliklerinin çıkarılması 2-) Ürünle alakalı yorumların belirlenmesi 3-) Polaritenin belirlenmesi 4-) Fikirlerin destekleyici olup olmamasına göre sıralanması Günümüzde sosyal ağlar arasında popüler olan Twitter’da da birçok yorum ve düşünce paylaşılmaktadır. Bu yorumların ve düşüncelerin sınıflandırılması için sözcük bazında değerlendirme gerekmektedir. Kısa cümlelerden oluşan Twitter verileri kullanılarak kullanıcıların duygusal açıdan sınıflandırılması yapılabilir. Sözcüklerin belirttiği duygusal anlamlara göre sınıflar belirlenerek kişilerin analizi yapılabilmektedir. Bu şekilde gerçekleştirilen bir çalışmada her kullanıcı için belirlenen duygusal sınıflara göre matris oluşturulup, benzer sözcüklerin geçmesi ile matris güncellenmiş ve aynı kişinin farklı zaman aralıklarındaki tweet yazıları dikkate alınarak benzerlik çalışması yapılmıştır [33]. Kişilerin ruhsal durumlarını yansıtan sözcükler dillere göre çeşitlilik kazanmaktadır. Ancak evrensel olarak Twitter verileri kullanılarak yazılar incelenerek kullanıcıların yazılarının kişisel ya da herkese açık haber twetleri olması açısından değerlendirilmesi yapılabilmektedir. H. Ferhatosmanoğlu ve arkadaşları yaptıkları çalışmada Twitter verileri üzerinden 8 nitelik çıkararak bunların sınıflandırılması ile kişisel veya herkese açık veri şeklinde bir ayırma işlemi yapmışlardır [34]. Sosyal ağlardaki kullanıcıların yorumlarının veya yazılarının analiz edilmesi ile kullanıcının bulunduğu ruhsal durum dikkate alınarak farklı reklam 35 stratejileri geliştirilebilir. Fikir madenciliği çalışmalarından bunların yanı sıra borsa, ekonomi ve stoklar içinde çalışmalar yapılmaktadır [35,38,41]. Çalışmalar genelde finans forumlarına odaklanarak geliştirilmiştir. Wall Mart şirketi için yapılan bir çalışmada 4 ana aşama ele alınmıştır. Bunlar yatırımcı analizi, konu analizi, düşünce analizi ve stok modelleme olarak ele alınmıştır. Veri seti olarak Yahoo Finance Wall-Mart Forum’dan 1999 ve 2008 arası veriler kullanılmıştır. Pozitif fikirler forum kullanıcılarının stoklarını elinde tutması ve takip eden günde ticari satışların durgunluk göstermesi, negatif fikirler ise ticaret satışları ile ilişkilendirilmiştir. Fikirlerin herkese göre değiştiğini düşündüğümüzde öznellik yapısı bu kısımda önemli olmaktadır. Öznellik ise bir cümlenin nesnel veya öznel olmasına göre sınıflandırma işlemini gerçekleştirmektir[36]. Anlaşmazlık ve öznellik, değişkenlik ile önemli bir bağlantı kurulmaktadır. [35]. Örneğin bir konu hakkında kişilerin forumda yazdıklarının incelenmesi ile kişisel bilgilerin yani öznelliğin olması değişkenliğin fazla olması ile ilişkilendirilmiştir [35]. Sosyal ağlardaki genel durumun ekonomi ile ilişkisi olup olmadığı, kişilerin duygusal durumlarının bunu etkileyip etkilemediği de araştırma konusu olmuştur. Yapılan bir çalışmada Twitter verileri kullanılarak Dow Jones Industrial Average verileri arasında ilişki kurulmaya çalışılmıştır. Twitter’ın günlük verileri kullanılarak iki araç ile analiz yapılmıştır. OpinionFinder programı ile pozitiflik ve negatiflik açısından, Google Profile of Mood States (GPOMS) ile ise 6 farklı boyutta incelemeler yapılmıştır. İnceleme yapılan alanlar için sakin, emin, kibar, mutlu, uyanık ve hayati olarak çıkarımlar yapılmış ve 2008 şükran günü ile 2008 cumhurbaşkanlığı seçimlerinde halkın tepkisi zaman serilerinde incelenmiştir [39]. Pozitiflik ve negatiflik çalışması yapılarak belli konular hakkında zaman serileri incelemeleri yapılabilmektedir [37] . Cümlelerde duygulara göre analiz yapan Opinionfinder programı ile 36 pozitiflik veya negatiflik ile beraber diğer 6 niteliğin de eklenmesiyle toplamda 7 durum zaman serisinde incelenmiştir [38]. Fikir madenciliği alanındaki çalışmalar hassaslık ve öznellik sınıflandırma çalışmaları ile başlamıştır. Hassaslık sınıflandırma işlemi ile veya dokümanlardan ya da cümlelerden pozitiflik ve negatiflik çıkarımları yapılabilmektedir. Ancak gerçek yaşamdaki uygulamalarda ise daha detaylı inceleme ve araştırma gerekmektedir. Örneğin, ürün denetimini yapmak isteyen bir firma hangi özellikleri kullanıcılar tarafından etkilemiş veya eleştirilmiş bunlar hakkında bilgi sahibi olmak ister [36]. Örneğin aşağıdaki cümleleri incelersek (1)İki gün önce bir iphone aldım. (2) Çok güzel bir telefon. (3) Dokunmatik ekranı gerçekten harika. (4) Ses kalitesi de oldukça açık. (5) Ancak, telefonu almadan önce anneme söylemediğim için beni deli ediyor. (6) telefonun çok pahalı olduğunu düşünüyor ve geri iade etmemi istiyor [18]. Cümleleri pozitiflik ve negatiflik açısından incelediğimizde 2,3ve 4. cümleler pozitif düşünceler barındırmaktadır. 5 ve 6’ncı cümleler ise negatif düşünceler barındırmaktadır. Cümleleri daha detaylı incelediğimizde düşüncelerin bazı hedef veya nesneleri ifade ettiğini görmekteyiz. Örneğin 2’nci cümle telefon hakkında genelleme yapmıştır, 3 ve 4’ncu cümleler ise dokunmatik ekran ve ses kalitesinden bahsetmiştir. 6’ncı cümle ise telefonun fiyatından bahsetmektedir. 5’nci cümlede ise kendinden bahsetmektedir. Bu yazının tamamını ele aldığımızı düşünürsek kişisel bilgiler ve düşünceler bizim için gereksiz olacaktır. Cümlelerin öznesi bu durumda önemli olmaktadır. Örneğin telefon nesnedir ve batarya veya ekran gibi bir takım bileşenlere sahiptir. Ses kalitesi ve büyüklük gibi nitelikleri özellikleri veya 37 nitelikleri olarak adlandırılabilir. Yani bir fikir nesnenin özellikleri olarak ifade edilebilir. Bir ürün ya da kendi hakkında bilgi veren kişi nesnelere göre pozitif veya negatif bilgiler vermektedir. Bu sorun geliştirilen nesne modeli ile aşılmak istenmiştir. Bir nesne için aşağıdaki gibi özellikler belirlenmiştir [36]. F={f1, f2, f3…,fn} Her bir özelliği ifade eden kelimeler belirlenmiştir [36]. Wi={wi1,wi2,…,wim} Bir veri seti için her nesne, öznesi ve kaynağı ile birlikte belirlenmiştir [36]. {o1,o2,o3..,or} {h1,h2,…,hp} Bir fikir aşağıdaki 5 nitelikle incelenmektedir. {oj,fik,ooijkl,hi,tl} oj nesne fik, oj’nin özelliği, ooijkl ise fik niteliğinin oryantasyonu, hi fikrin öznesi, tl ise zaman olarak tanımlanmıştır. Ooijkl pozitif, negatif veya nötr olmaktadır [18]. Bu özellikleri kullanarak aynı türde farklı markaların karşılaştırılması yapılabilir. Örneğin fikir madenciliği çalışması ile çıkarılan özne ve nesnelere göre aynı türde iki farklı markanın karşılaştırılması yapılabilmektedir. 38 8. SOSYAL AĞLARDA VERİ MADENCİLİĞİ İLE BİR UYGULAMA Fikir çıkarımı kişilerin sosyal ağlarda ve bloglarda bırakmış olduğu bilgilerden faydalanarak eğilim belirleme işlemi olarak tanımlanabilir. Temel olarak ana unsur olarak sözcükler ve sözcüklerin oluşturduğu cümleler ele alınmıştır [4]. Sosyal ağlarda bırakılan verilerin artması ile fikir madenciliği araştırmaları çeşitlendirilmiştir. Fikir madenciliği araştırmaları ile ürün yorum analizleri, borsa için yapılan yorumların analizi ve genel olarak duygusal analiz çalışmaları olarak literatürde yer almaktadır. Bunun dışında politik araştırmalar ile halkın tepkisi ölçülmektedir. 8.1. Veri Seti Uygulamanın gerçekleştirilmesinde, sosyal ağlar içerisinde oldukça popüler olan twitter ağında bulunan mesajlardan yararlanılmıştır. Twitter belli konular hakkında en son paylaşılan bilgilere ulaşmanızı sağlayan gerçek zamanlı bir bilgi ağıdır. Daha çok sohbet ortamı olarak düşünüldüğünden kullanıcılar kısa yazıları ile yorumlarını bırakabilmektedirler. Her bir tweet en fazla 140 karakter uzunluğundadır. Kullanıcıları sadece kişisel kullanıcılar değil, yanı zamanda şirketlerdir. Şirketler, müşterileri ile iletişim kurarak ürün ve hizmetleri ile ilgilenen insanlara hızlı ve gerçek zamanlı paylaşım yapabilirler. Aldıkları geri bildirimler ile kullanıcıları ile bağlarını artırabilirler. Twitter’daki veriler herkese açık ve özel olmak üzere iki çeşitte oluşturulmaktadır. Twitter, herkese açık olan bu verilere API [60] yardımı ile ulaşılmasına izin veriyor. Bu API vasıtasıyla istediğimiz filtre kelimeleri girip, o filtre kelimelerin geçtiği tweetler alınabilmektedir. 39 Şekil 8.1. Twitter platformundan veri tabanı oluşturma gösterimi Twitter API yardımı ile oluşturulan Tweet veri tabanı MYSQL veri tabanında twitter kullanıcılarının girdikleri tweetlerden oluşturulmuştur. Tweet kısa yazıları 140 karakter içermektedir. Bu yüzden kısa yazılar olarak değerlendirilmektedir. Bunun yanı sıra bu yazılar içerisinde kullanıcılar link paylaşımı yapabilmektedir. Twitter API yardımı ile yaklaşık olarak 2,5 milyon civarında 16.12.2011 ve 31.01.2012 tarihleri arasında girilen Türkçe tweetler MYSQL veritabanına kayıt edilmiştir. Veri tabanında incelemeler yapıldıktan sonra bazı tweetlerin yabancı kişilere ait olduğu anlaşılmaktadır. Bunların temizlenmesi ile 1,9 milyon civarında Türkçe tweet elde edilmiştir. Veri tabanında tweet mesajları ile beraber kullanıcılara ait aşağıdaki bilgiler kaydedilmiştir. • Tweet text • Tarih • Kullanıcı ismi • Takipçi sayısı • Arkadaş sayısı • Kaynak • Profil resmi linki 40 • Paylaşılan linkler • Twitter kullanımına başlama zamanı • En son güncelleme zamanı 8.2. Mutluluk ve Üzgünlük Analizi Twitter’da bulunan kişilerin duygusal durumlarını ve kullanıcıların genel durumunun nasıl olduğu merak konusudur. Duygusal durum analizi araştırmalarının yapılması ile kullanıcılara özgü reklam politikası ya da çeşitli uygulamalar gerçekleştirilebilir. Bunun yanı sıra halkın belli günlerde tepkileri ölçülebilmektedir. 8.2.1. Mutluluk ve üzgünlük belirten kelimelerin seçimi Mutluluk ve üzgünlük belirten kelimeler sosyal psikoloji alanında sık kullanılan “Sosyal Psikolojide Duygusal Durumlar” [61] adlı eserden faydalanarak oluşturulmuştur. Kelime seti içerisinden 111 adet kelime, mutluluk ve üzgünlük belirten kelimeler seçilerek oluşturulmuştur. 43 kelime mutluluk bildiren, 70 kelime ise üzgünlük bildiren kelime olarak ele alınmıştır. Kelimelerin seçiminde Türkçe dilinde fazla geçmesi düşünülen kelimeler ve kelime grupları ele alınmıştır. Kelimelerin yanı sıra bazı kelime grupları birlikte ele alınmıştır. Örneğin; “mutlu” kelimesinin Türkçe çekimleri ile kullanılması düşünüldüğünden “mutluyum” sözcüğü ek olarak kelime veri tabanında bulunmaktadır. Twitter ortamındaki paylaşımlarda bazı karakter ve yazıma uyulmayacağı düşünülerek kelime gruplarına özgün kelimelerin yanı sıra bu kelimelerde dâhil edilmiştir. Kelime listesi Ekler bölümünde verilmiştir. 41 8.2.2. Mutluluk ve üzgünlük analizi Mutluluk ve üzgünlük analizi için her bir tweet içerisinde bu kelimelerin geçip geçmediğine bakılarak analizler yapılabilmektedir. Tweet içerisinde bu sözcüklerin bulunup bulunmamasına göre değerlendirme yapılmıştır. Mutlu ve üzgün durumları için vektör modeli [34] kullanılmıştır. Bu model her kullanıcı için binary olarak matris oluşturmakta ve matrisin boyutunu nitelikler belirlemektedir. Daha çok benzerlik çalışmalarında kullanılmakla beraber sınıflandırma içinde kullanılmaktadır. Her tweet vektörel olarak mutlu ve üzgün olarak binary şekilde ifade edilmiştir. V={mutlu,üzgün} şeklinde (1,0) mutlu, (0,1) üzgün, (1,1) ve (0,0) diğer olarak değerlendirilmiştir. Örneğin; Tweet mesajı: ” Sen beni çok mutlu ediyorsun...” şeklinde olan bir kullanıcı için “mutlu” kelimesinin mesaj içersinde olması ile V=(1,0) olarak oluşturulmuştur. Tweet mesajı: “ Biri kötü durumdayken ona üzülmek en herkes'in bile yapabileceği bir davranış, asıl önemli olan mutluyken destek olup, onun adına sevinmek. “ şeklinde olan kullanıcı için “üzülmek”, “ mutlu” ve “ sevinmek” kelimeleri hem mutlu hem de üzgün gruptan kelimeleri içerdiğinden V=(1,1) olarak oluşturulmuştur. Aşağıdaki hesaplama formülleri kullanılarak yüzdesel olarak her gün için mutluluk ve üzgünlük durumu çıkarılmıştır. 42 ∑ ∑ ∑ ∑ , k= Mutlu kelime geçen tweet sayısı (8.1) , l= Üzgün kelime geçen tweet sayısı (8.2) Mutluluk ve üzgünlük kelimelerini içeren tweetlerin her gün için yüzdesel değişim grafikleri şekil 8.2 ve şekil 8.3’ de verilmiştir. Şekil 8.2. Mutluluk ifade eden tweetlerin tüm tweetler içinde günlük yüzdesel değişimi 43 Şekil 8.3. Üzgünlük ifade eden tweetlerin tüm tweetler içinde günlük yüzdesel Değişimi Şekil 8.2 incelendiğinde 31.12.2011 ve 01.01.2012 tarihlerinde mutluluk oranının yüzdesinin artığını ve maksimuma ulaştığı görülmektedir. Twiter kullanıcılarının yılbaşı günlerine yaklaştıkça mutluluk ifade eden kelimeleri daha fazla kullandığı görülmektedir. Şekil 8.3 incelendiğinde 31.12.2011 ve 01.01.2012 tarihlerinde üzgünlük ifade eden kelimelerin kullanımının düşük olduğu görülmektedir. Şekil 8.4. Mutlu ve üzgün kelimelerin beraber kullanıldıkları tweet örneği 44 Yukarıda verilen kelimelerin tweetler içerisinde geçip geçmemesine göre yapılan basit frekans analizi yetersiz kalmaktadır. Çünkü bir tweet mutlu ve üzgün kelimelerden her ikisini de içerebilmektedir. Şekil 8.4’ de görüldüğü gibi mutluluk veya üzgünlük ifade eden kelimeler beraber kullanılabilmektedir. Duygusal anlam içeren kelimelerin ağırlıklandırılması ile yapılması tweetlerin sınıflandırılmasında daha net sonuçlar verecektir. 8.2.3. Ortalama mutluluk değerlerine göre hesaplama Kelimelerin sadece tweet içerisinde geçip geçmemesine göre mutluluk ve üzgünlük analizi tweet içerisinde hem mutlu hem de üzgün kelimeleri kullanan biri için yetersiz olmaktadır. İnsanların internet ortamında en çok kullandıkları kelimelerin hangisinin daha çok veya daha az mutluluğu belirttiği literatürde çalışılmıştır [62,24]. Mechanical Turk’ ün insanların değerlendirmesi ile birçok kelime için oylama yaparak, üzgünden mutluya doğru bir spektrum elde etmişlerdir [62]. Her kelime için ortalama mutluluk değerleri belirlenmiştir. 5’den 9’a doğru artan bir şekilde olanlar mutlu, 5’den 1’e doğru azalan şekilde olanlar üzgün olarak değerlendirilmiştir [62]. Mechanical Turk verileri dikkate alınarak, oluşturulan veri setindeki kelimelerin ortalama mutluluk değerlerine bakılarak Türkçe veri seti için ortalama mutluluk değerleri oluşturulmuştur. Aşağıda bir kaç kelime için ortalama mutluluk değerleri verilmiştir. Ort_mutluluk(mutlu)=8,30 Ort_mutluluk(hayranlık)=7,10 Ort_mutluluk(dert)=2,78 Ort_mutluluk(depresyon)=1,98 45 Twiter’daki kısa yazılarda kişiler mutluluk veya üzgünlük belirten kelimeleri beraber kullanabilmektedir. Bu kelimelerin beraber kullanıldığı durumlarda binary etiketleme yöntemi ile yapılan çalışmalarda bu kişiler hem mutlu hemde üzgün olarak etiketlenmektedir. Bu durumda kelimelerin mutluluk ağırlıkları dikkate alındığında her kısa yazı kelimelerin ağırlıklarına göre değerlendirilebilmektedir. Aşağıdaki formül kullanıcıların ortalama mutluluk değerlerine göre tweetlerin değerlendirilmesi için kullanılmaktadır. Bu formül sonucunda 5’den büyük değerler mutlu, 5’den küçük değerler üzgün olarak değerlendirilmiştir. ∑ ∑ , f= i’nci kelime frekansı, Ort_mutluluk( (8.3) )= i’nci kelimenin ortalama mutluluk değeri, Ort(T)= her tweet için ortalama mutluluk değeri Şekil 8.5. Ortalama mutluluk değerlerine göre kelimelerin dağılımı 46 Q-Q plot grafikleri kullanıcıların normal verileri ve aykırılıkları görmesine olanak sağlar. Mutluluk ve üzgünlük içeren kelimelerin ortalama mutluluk değerlerinin grafikte köşegen olarak gösterilen normal çizgisine göre dağılımı Şekil 8.5’de verilmiştir. Grafikte her bir kelime veya kelime grubu daire şeklinde gösterilmektedir. Üzgünlük belirten kelimelerin ortalama mutluluk değerleri 5’den küçük olarak grafiğin sol alt köşesinde toplandıkları, mutluluk belirten kelimelerin ortalama mutluluk değerleri 5’den büyük olarak grafiğin sağ üst köşesinde toplandıkları şekilde görülmektedir. Şekil 8.6. Ortalama mutluluk değerinin zamana göre değişimi Tweetlerin ortalama mutluluk değerlerinin 47 gün için günlük ortalama değişimleri Şekil 8.6’da verilmiştir. Ortalama mutluluk değeri incelendiğinde her gün için 5’den büyük olması mutluluk ifade eden kelimelerin kullanımının 47 daha fazla olmasından kaynaklanmaktadır. Ortalama mutluluk değerlerine göre mutluluk değerinin en yüksek olduğu nokta 28 Aralık-1 Ocak arasını kapsayan yılbaşı dönemi olarak görülmektedir. Frekans değerlerine göre yapılan analiz ile ortalama mutluluk değerlerine göre yapılan analiz korelasyon göstermektedir. Şekil 8.2 ve Şekil 8.6 ‘ dan gözüktüğü üzere iki analiz sonucunda da 28 aralık- 1 Ocak döneminde mutluluk değerlerinde artış görülmektedir. 8.2.4. Borsa verilerinin ortalama mutluluk değerleri ile karşılaştırılması Ekonomik göstergeler kişilerin mutluluğunu veya üzgünlüğünü etkileyebilmektedir. Sosyal ağlarda bulunan kişiler ekonomik değişimlere kısa süre içerisinde tepki verebilmekte ve bu durum hakkında yorumlar yapabilmektedirler. Bu yorumların incelenmesi ile halkın bu durumlara tepkisi ölçülebilmektedir. Borsa bu ekonomik göstergelerin başında gelmektedir. Twitter ve benzeri sosyal ağlarda kullanıcıların borsadaki değişimden etkilenip etkilenmedikleri araştırmacıların ilgisini çekmektedir. Twitter mesajlarındaki duygusal kelimelerin incelenmesi ile korelasyon çalışmaları yapılabilmektedir [26]. Finans forumlarının incelenmesi ile pozitif ve negatif fikirlerin hisse senetleri üzerindeki değişiminin incelenmesi yapılabilmektedir [35] 16.12.2011 ve 31.01.2012 tarihleri arasında elde edilen tweet verileri arasından “borsa”,”imkb” ve benzeri kelimelerin (Ek 6.2 ‘ de verilmiştir) geçtiği tweetler incelenerek, araştırılmıştır. bu tweetlerin borsa ile ilişkili olup olmadığı 48 Yapılan çalışmada “borsa” ve benzeri kelimelerin geçtiği her tweet için ortalama mutluluk analizi yapılmıştır. 16.12.2011 ve 31.01.2012 tarihleri arasındaki imkb100 endeksi kapanış verileri kullanılmıştır. Bu tarihler arasında borsanın bir önceki güne göre artıp azalmasına göre yapılan incelemeye göre her gün için artma ve azalma olarak günler belirlenmiştir. Borsa kelimesi ve benzeri kelimeler geçen her tweet için bu tarihler arasında günlük ortalama mutluluk değerleri çıkarılmıştır. Borsa kelimesi içeren tweetlerin ortalama mutluluk değişimi şekil 8.6’ da verilmiştir. Günlük ortalama mutluluk değerleri 5’ den büyükse “mutlu”, 5’ den küçükse “üzgün” olarak değerlendirilmiştir. Borsa ile twitter kullanıcılarının yapmış olduğu yorumlar arasındaki ilişki şu şekilde ifade edilmiştir. Borsanın artmış olduğu günler mutlu tweetlerin yüksek olması, borsanın azalmış olduğu günler üzgün tweetlerin fazla olması beklenmektedir. Ortalama mutluluk değerlerine göre her gün sonunda elde edilen ortalama mutluluk değerine göre borsa ile benzer özellik gösterip gösterilmediğine bakılmıştır. Bu inceleme sonucunda %45 civarında borsa ile tweet verileri arasında uyuşma olmaktadır. Şekil 8.7. Ortalama mutluluk değerinin zamana göre değişimi 49 8.3. Twitter Kullanıcılarının Benzerliği Benzerlik işlemleri daha çok metin madenciliği uygulamalarında ve veritabanı performansını artırmak için kullanılmasına rağmen son dönemlerde sosyal ağlar alanında da kullanılmaya başlamıştır. Bununla beraber günlük hayatımızın her aşamasında kullandığımız internet arama motorları da temelinde metin benzerliği ve eşlemelerine göre işlem yapmaktadır. Sosyal ağlarda bulunan kullanıcılar birçok konu hakkında görüşlerini çeşitli yollarla belirtebilmektedirler. Kullanıcıların paylaşımlarından yola çıkarak benzerlik çalışmaları yapılabilmektedir. Bu paylaşımlar sosyal ağın verilerine göre değişebilmektedir. Örneğin, twitter sosyal ağında kullanıcıların yorumlarından yola çıkarak kelimelerin analizi ile aralarındaki benzerlik hesaplanabilir ve kullanıcıların ilgi alanlarının benzerliği dikkate alınarak farklı reklam stratejileri geliştirilebilir. Yapılan çalışmada twitter kullanıcılarının yorumda bulundukları konular hakkında diğer kullanıcılar ile benzerliği değerlendirilmiştir. Bu benzerlik hesaplaması için her kullanıcı için vektör uzayı oluşturulmuş ve kosinüs benzerlik formülü kullanılmıştır. Kosinüs benzerliği ile iki vektör arasındaki açının kosinüs değeri hesaplanarak vektörlerin benzerliği bulunur. Vektör boyutundan etkilenmemesi, kosinüs benzerliğinin güçlü bir özelliğidir [63]. Kosinüs benzerliği formülü aşağıdaki gibidir. cos ve | | | | (8.4) birbirinden farklı iki kullanıcıyı ifade eden çok boyutlu vektörler, * işareti vektörlerin iç çarpımını ve | | vektörün uzunluğunu temsil etmektedir [63]. 50 Twitter kullanıcılarının göstermektedir. mesajları İstedikleri zaman konu bakımından istedikleri konu çok hakkında çeşitlilik yorum yapabilmeleri ve görüşlerini belirtmeleri sayesinde veriler çeşitlenmektedir. Kullanıcıların benzerliği hesaplanırken bir konu hakkındaki yaptıkları yorumlar dikkate alınarak benzerlik hesaplaması yapılmıştır. Twiter da kullanıcılar belli konular hakkında yorum yaparken hastag (#) işareti kullanarak konuyu belirtebilmektedirler. Bu sayede konular üzerinde yorum yapan kişilerin birbirleri ile olan benzerlikleri değerlendirilebilmektedir. Benzerlik hesaplaması için aşağıdaki nitelikler kullanıcıların yorumlarından çıkarılarak vektör oluşturulmuştur. 8.3.1. Konuların seçimi(hastag) Hastagler bir konunun daha iyi aranmasını sağlamak amacıyla kelimenin başına “#” işareti konularak belirtme işlemidir. Twitter kullanıcıları yorum yaptıkları konuyu belirtmek için bu işareti kullanmaktadırlar. Bu sayede belli konu hakkında yapılan yorumları değerlendirmek daha kolay oluyor. 16.12.2011 ve 31.01.2012 tarihleri arasında girilen Türkçe tweetlerden oluşan veritabanındaki hastag istatistikleri aşağıdaki gibidir. Çizelge 8.1. Hastag istatistikleri Hastag Frekans Toplam hastag sayısı 109349 Farklı hastag sayısı 26124 8.3.2. Kullanıcıların yorumlarından nitelik çıkarımı 51 Hastag ile belirtilen konuların belirlenmesi ile bu konular hakkında yorum yapan kullanıcılardan aşağıdaki bilgiler çıkarılarak vektör oluşturulmuştur. • Mutluluk belirten kelimeleri kullanması • Üzgünlük belirten kelimeleri kullanması • Mutluluk karakteri kullanması • Üzgünlük karakteri kullanması • Link paylaşması • Kullanıcı ile paylaşması V=(m,u,m_k,u_k,l,k) m mutluluk belirten kelimeler, u üzgünlük belirten kelimeler, m_k mutluluk karakteri, u_k üzgünlük karakteri, l link, k kullanıcı Ekler bölümünde verilen mutluluk ve üzgünlük kelimelerine göre her kullanıcı için mutluluk içeren kelimeleri kullanması durumunda 1, kullanmaması durumunda 0 olarak belirlenmiştir. Benzer olarak üzgünlük belirten kelimelerin twitter mesajlarında geçmesi durumunda 1, geçmemesi durumunda 0 olarak belirtilmiştir. Mutluluk ve üzgünlük karakterleri kişilerin kısa mesaj ve yorumlarda kendilerini ifade etmek için kullandığı simge ve işaretlerden oluşmaktadır. Bu karakterler ekler bölümünde verilmiştir. Bu karakterlerin tweet mesajları içerisinde geçip geçmemesine göre vektördeki alanları 1 veya 0 şeklinde oluşturulmuştur. Link paylaşımı, twiter kullanıcılarının herhangi bir video veya internet sitesi olarak paylaşımlarını içermektedir. Yorumların içerisinde link paylaşımı olup olmamasına göre vektör 1 veya 0 olarak oluşturulmuştur. 52 Twitter ilk kullanılmaya başlandığında kullanıcıların kişilere özel mesaj gönderme olanağı yoktu. İnsanlar karşılıklı sohbet etmek ve belli bir kişiye mesaj gönderebilmek için “@” işaretini kullanmaya başladılar. “@” işareti ile mesaj göndermek isteğiniz ismi yazarak paylaşımda bulunup bu mesajı gönderdiğiniz kişinin görmesini sağlanmaktadır. Twitter kullanıcıları bu şekilde birçok konu hakkındaki görüşlerini veya konu hakkındaki linkleri arkadaşları ile paylaşabilmektedir. Twitter mesajının “@” işaretini içerip içermemesi durumunda vektör 1 veya 0 olarak oluşturulmuştur. 8.3.3. Kullanıcılar arası benzerlik Twitter kullanıcılarının yorum yaptıkları konuların belirlenmesi ile konular üzerinde yorum yapan tüm kullanıcılar arası benzerlik hesaplaması kosinüs benzerlik yöntemine göre hesaplanmıştır. Bu sayede herhangi bir konuda yorum yapan bir kullanıcının kendisi ile benzer şekilde yorum yapan diğer kullanıcı grubu keşfedilebilmektedir. Benzerlik oranı 0 ile 1 arasında her kullanıcı için kendisi ile aynı hastag hakkında tweet mesajına sahip olan kullanıcılar arasında hesaplanmıştır. Aşağıdaki tabloda “tffistifa” konusu hakkında yorum yapan tweet grubu incelenmiştir ve benzerlik oranı 0,7’den büyük olanlar gösterilmiştir. Çizelge 8.2. Bir kullanıcı için benzerlik tablosu Kullanıcılar Kullanıcı id Kullanıcı id Benzerlik oran 549 2226 0,707106781186547 549 3456 0,707106781186547 53 Çizelge 8.2. (Devam) Bir kullanıcı için benzerlik tablosu 549 3894 0,707106781186547 549 3991 0,707106781186547 549 6397 0,816496580927726 549 6476 0,707106781186547 549 145661 0,707106781186547 549 1976426 1 “tffistifa” adlı hastag hakkında yorum yapan 23 kişiden 549 numaralı id’ye sahip olan kullanıcı ile diğer kullanıcılar arasındaki benzerlik oranı incelendiğinde, benzerlik oranı 0,7 ‘ den büyük olanlar tabloda gösterilmiştir. Diğer kullanıcılardan farklı olarak 549 numaralı id’ye sahip olan kullanıcının tabloda belirtilen diğer 8 kullanıcı ile benzerliği oldukça yüksek çıkmıştır. Şekil 8.8’ de her daire bir kullanıcıyı ve id numarasını temsil etmektedir. “tffistifa” adlı hastag hakkında yorum yapan kullanıcı grubu şekil 8.8’de gösterilmiştir. Bu grup içerisinde 549 numaralı id’ye sahip olan kullanıcı ile aralarındaki benzerlik oranı 0,7’ den büyük olan grup etrafı çizgili olarak belirtilmiştir. Bu sayede gruplar içerisinde birbirleri ile benzer alt gruplar bulunabilmektedir. 54 Şekil 8.8. Benzerlik oranı yüksek olan grubun gösterimi 55 9. UYGULAMADA KULLANILAN PROGRAMLAR Uygulama kapsamında twitter yorumların incelenmesi amacıyla aşağıdaki programlar kullanılmıştır. • Microsoft Visual Studio • SPSS • Mysql Veri Tabanı Mysql veri tabanındaki veriler form uygulaması aracılığı ile işlenmiş ve analiz için gerekli veriler oluşturulmuştur. Analiz verileri SPSS ortamına aktarılmıştır ve SPSS ortamında gerekli analiz ve grafik işlemleri gerçekleştirilmiştir. 9.1. Gerçekleştirilen Form Uygulaması Twitter’ dan elde edilen verileri işlemek ve gerekli dönüşümleri yapmak amacıyla Microsoft Visual Studio geliştirme ortamı, verilerin dönüşümü ve analiz işlemleri için csharp dili kullanılmıştır. Gerçekleştirilen uygulamanın form ekranı aşağıdaki gibidir. Şekil 9.1 Form ekranının görüntüsü 56 Form ekranında temel olarak 6 farklı işlem gerçekleştirilmiştir. • Veri Dönüşüm • Tarihsel Analiz • Borsa Geçen Tweet mesajlarının analizi • Benzerlik Nitelikleri çıkarma • Kullanıcılar arası benzerlik hesaplama • Kelime Frekansları hesaplama Twitter yorumlarının kısa yazı şeklinde olmasından dolayı veri madenciliği işlemlerini daha kolay yapabilmek amacıyla veri dönüşümü yapılmıştır. Mutluluk ve üzgünlük belirten kelimelerin yorumlarda geçip geçmemesine göre yapılan analizler için Bölüm 8 de anlatıldığı gibi matris oluşturulmuştur. Tarihsel analiz bölümünde veri dönüşüm işleminin yapılmasından sonra analiz için gerekli sql kodları oluşturulmuştur. Ortalama mutluluk değerlerine ve frekansa göre analiz işlemi için gerekli tablolar bu kısımda oluşturulmuştur. Borsa analiz işlemleri için yorumlarda borsa ve benzeri kelimeler aranmıştır. Bulunan tweet yorumları için mutluluk, üzgünlük ve ortalama mutluluk analizi yapılmıştır. Tarihe göre günlük bazda ortalama mutluluk değeri çıkarılmıştır. Benzerlik işlemleri için veri tabanında bulunan her yorum için nitelik çıkarımı yapılmıştır ve Mysql veri tabanında saklanmıştır. Yorumlar içerisinde geçen hastag konularına göre bu konu hakkında paylaşım yapan yorumların benzerliği hesaplanmıştır. Kelime frekansları bölümünde mutluluk ve üzgünlük belirten kelimelerden en çok kullanılanlar belirlenmiştir. 57 9.2. Veri Tabanı ve Analiz İşlemleri Twitter yorumları mysql veri tabanında saklanmıştır. Veri tabanında tweet mesajları ile beraber kullanıcılara ait aşağıdaki bilgiler kaydedilmiştir. • Tweet text • Tarih • Kullanıcı ismi • Takipçi sayısı • Arkadaş sayısı • Kaynak • Profil resmi linki • Paylaşılan linkler • Twitter kullanımına başlama zamanı • En son güncelleme zamanı Analiz işlemleri için tweet text alanının ve tarih kısmının kullanılarak verinin dönüştürülmesi ile analiz için aşağıdaki alanlar kullanılmıştır. • mutlu • üzgün • saat • gün • ay • yil Aşağıdaki şekilde analiz işlemi için kullanılan şekil gösterilmiştir. 58 Şekil 9.2 Analiz işlemi için kullanılan alanların görünümü Analiz işlemleri için saat, gün, ay ve yıl kısımları kullanılarak aşağıdaki Sql sorgusu ile zamana göre analiz yapılabilmektedir. Veri dönüşümü sayesinde her seferinde mutlu ve üzgünlük belirten kelimeleri arama işleminden kurtulup analiz işlemleri daha kolay yapılabilmektedir. • SELECT AVG( ortalamamutluluk ) AS sayi FROM analiz WHERE ortalamamutluluk >0 AND gun =" " AND ay =" " AND yil =" " Her gün için çıkarılan mutluluk, üzgünlük ve ortalama mutluluk değerleri eşitlik 8.1, 8.2, 8.3 kullanılarak günlük bazda çıkarımlar elde edilmiştir. Çıkarımların herhangi bir word dosyasına program içerisinde tablo oluşturularak saklanmıştır. Bu tablolar direk olarak Spss programına aktarılmıştır. 9.3. Spss İle Analiz SPSS programı ile tarihlere göre temel analizler ve veri madenciliği için birçok analiz yapılabilmektedir. Analiz işlemleri için oluşturulan değişkenlerin nitelikleri aşağıdaki şekilde gösterilmektedir. 59 Şekil 9.3 Analiz işlemi için kullanılan değişkenlerin niteliklerinin görünümü Analiz işlemleri için oluşturulan verinin SPSS ortamındaki tarihsel olarak görünümü aşağıdaki gibidir. Şekil 9.4 Analiz işlemi için kullanılan değerlerin görünümü Verilerin SPSS ortamına aktarılması işleminde sonra analiz işlemleri için SPSS menüsü içerisinde histogram, frekans gibi tarihsel analizler yapılmıştır. 60 10. SONUÇ ve ÖNERİLER Sosyal ağlardaki son dönemlerde yapılan çalışmalar incelendiğinde karşımıza çıkan daha çok insanların etkileşimlerini kullanarak bilgi çıkarımı yapmak ve bu bilgileri gereken yerlerde kullanmak olarak tanımlanabilir. Yapılan bu çalışmalar daha çok akıllı sistemlerin geliştirileceği anlamına gelmektedir. Başka bir deyişle insanların sosyal ağlarda bırakmış olduğu veriler sayesinde yapılan konu tahmini, ilişki tahmini veya grup tahmini olarak tanımlanabilir. Bunların yanı sıra kişilerin internet üzerindeki davranışlarının analizi yapılarak yeni reklam yöntemleri veya yeni uygulamalar geliştirilebilir. Kişilerin son dönemlerde yazı şeklinde bıraktığı verilerin artması dolayısıyla bu alanda kişiler hakkında analiz ve fikir madenciliği çalışmaları artmaktadır. Fikir madenciliği çalışmalarında en çok karşılaşılan sorun dillerin belli bir ortak noktası olmaması ve dillerin yapısına göre bu çalışmaların çeşitlenmesidir. Bu farklılıkların giderilmesi için çalışmalar yapılmaktadır. Fikir madenciliğinde sözcük bazında değerlendirmenin yanı sıra cümle bazındaki kelimelerin analiz edilmesi de gerçekleştirilen işlemler arasındadır. Bloglarda yapılan çalışmalarda düşünceleri ya da yazıları benzer olan kişilerin birbirleri ile etkileşim halinde olabilmeleri için bu araştırmalar yapılmaktadır. Sosyal ağlarda veri madenciliği sayesinde birçok firma ürün analizlerini ve eksik yönlerini bulabilmekte ve bu yönde iyileştirmeler yaparak kullanıcı sayısını artırabilmektedir. Bunun yanı sıra sosyal ağlarda veya çeşitli bloglarda ekonomi ile ilgili veriler çıkarılıp analiz edilerek sosyal ağların bu etkileri de araştırma konusu olmaktadır. Bu sayede insanların bu alanlardaki tepkileri duygusal açıdan da değerlendirilebilmektedir. Bu çalışmada sosyal ağlarda yapılacak çalışmalar için kelime seti oluşturulmuş ve daha sonra yapılacak çalışmalara destek olmak amacıyla sosyal ağlar alanında yapılmıştır. Yapılan çalışma ile Türkçe olarak mutluluk 61 ve üzgünlük belirten kelime seti oluşturulmuş ve bu alanda yapılacak olan çalışmalara destek olması düşünülmüştür. Bu sayede sosyal ağlar alanında Türkçe dili için yapılacak çalışmalar artacaktır. Kelime setine göre iki farklı analiz yapılmıştır. Frekans yöntemi ve ortalama mutluluk değerlerine göre analizler sonucunda, ortalama mutluluk değerlerine göre yapılan analizler mutluluk ve üzgünlük belirten kelimelerin beraber geçtiği mesajların değerlendirilmesi açısından daha iyi olmaktadır. İki yönteme göre de sonuçlar birbirleri ile korelasyon göstermektedir. Kelime setine göre yapılan analiz sonucunda 47 gün içerisinde genel olarak mutlu kelime içeren tweetlerin sayısı fazladır. Ortalama mutluluk değerlerine göre yapılan incelemelerde mutluluk oranı 6 ve üzerinde olmaktadır. Bu durumun sebebi genel olarak insanların mutluluk ifade eden sözcükleri kullanım oranın fazla olmasıdır. Yüzdesel olarak mutluluk tweetlerin oranında yılbaşına yaklaşıldığında gözle görünür şekilde artış olduğu, üzgün tweetlerin oranında ise azalma olduğu görülmektedir. Benzer olarak ortalama mutluluk değerlerine göre yapılan analizlerde ortalama mutluluk değerinin maksimuma yılbaşı gününde ulaştığı görülmektedir. Belirlenen kelimeler değerlendirildiğinde en çok mutluluk belirten Türkçe kelime “mutlu” kelimesi ve türevleri olarak çıkmaktadır. Üzgünlük için düşünüldüğünde ise “tasa” ve “dert” kelimesi en çok üzgünlük belirten kelime olarak yer almaktadır. Borsa kelimesi ve benzeri kelimeler geçen tweetler incelendiğinde ortalama mutluluk değerinin 5’ in altına düştüğü günler gözlemlenmiştir. Yapılan analizler sonucunda borsanın ve tweetler arasında günlük olarak %45 eşleşme görülmektedir. Borsadaki hisse senetlerinin artıp azalması borsanın genel durumu ile birebir korelasyon göstermediğinden twitter mesajları arasındaki ilişki tam olarak sonuçlara yansımamış gözükmektedir. Bu 62 durumun nedeni borsa ve benzeri kelimeleri içeren tweetlerin duygusal kelimeleri az barındırmasından kaynaklanmaktadır. Gelecekteki çalışmalarda, ekonomik ilişkileri gösteren kelime veri tabanı ile daha iyi sonuçlar alınabilir. Son yıllarda sosyal ağlarda yazı biçiminde bırakılan verinin artması ile kullanıcıların görüşlerini veya birbirleri ile olan ilişkilerinin çıkarımı daha kolay olmaktadır. Yaptıkları yorumlardan çıkarılan nitelikler ile aralarındaki benzerlik oranı tahmin edilebilmektedir. Kullanıcıların belli konu hakkındaki yaptıkları yorumların değerlendirilip birbirleri ile benzer alt grupların keşfi ile aynı görüşü savunun ya da benzer özellikte yayın yapanlar bulunabilmektedir. Gerçekleştirilen uygulama ile kosinüs benzerlik yöntemi kullanılarak çıkarılan niteliklerin değerlendirilmesi ile aynı konu hakkında yorum yapanlar arasından benzerliği yüksek olan alt gruplar belirlenmiştir. 63 KAYNAKLAR 1. Kamber, M., Han J., “Data Mining Concepts and Tecniques 3ed.”, Morgan Kaufmann Publishers, 5-9, (2006). 2. Aynekin, G., “İnternet içerik madenciliğinde yapay sinir ağları ve bir uygulama”,Yüksek lisans tezi, Uludağ Üniversitesi Fen Bilimleri Enstitüsü, Bursa, (2006). 3. Arslan, H., “Web sitesi erişim kayıtlarının veri madenciliği ile analizi”, Yüksek Lisans Tezi, Sakarya Üniversitesi, Sakarya, (2008). 4. Öğüt S, “Veri madenciliği kavramı ve gelişim süreci”, Veri Madenciliği Paneli, İstanbul, (2005). 5. Vahaplar, A.,İnceoğlu, M., “Veri madenciliği ve elektronik ticaret”, Türkiye’de İnternet Konferansları, Harbiye İstanbul, (2001). 6. Akgöbek, Ö. , Çakır, F., “Veri madenciliğinde bir uzman sistem tasarımı”, Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri Harran Üniversitesi, Şanlıurfa, (2009). 7. Dalkılıç, G., Türkmen, F., “Karınca kolonisi optimizasyonu”, YPBS2002 – Yüksek Performanslı Bilişim Sempozyumu, Kocaeli, (2002). 8. Takcı, H., Soğukpınar, İ., “Kütüphane kullanıcılarının erişim desenlerinin keşfi”, Akademik Bilişim 2002, Selçuk Üniversitesi Konya, (2002). 9. Şimşek, M. U., Özdemir, S., Karacan, H., "Data mining in social Networks", Bilişim 2011, 26-28 Ekim, Ankara Türkiye, (2011). 10. Erdoğan, Ş. Z., “Veri madenciliği ve veri madenciliğinde kullanılan kMeans algoritmasının öğrenci veri tabanında uygulanması”, Yüksek lisans tezi, İstanbul Üniversitesi Sosyal Bilimler Enstitüsü, İstanbul,(2004). 11. Çoşkun, C., “Veri madenciliği algoritmaları karşılaştırılması”, Yüksek lisans tezi, Dicle Üniversitesi Fen Bilimleri Enstitüsü, Diyarbakır, (2010). 12. Baloğlu, U. B., “ Dna sıralarındaki tekrarlı örüntülerin ve potansiyel motiflerin veri madenciliği yöntemiyle çıkarılması”, Yüksek lisans tezi, 64 Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ, (2006). 13. Özçakır, F. C., “ Müşteri işlemlerindeki birlikteliklerin belirlenmesinde veri madenciliği uygulaması”, Yüksek lisans tezi, Marmara Üniversitesi Fen Bilimleri Enstitüsü, İstanbul (2006). 14. Kalıkov, A., “ Veri madenciliğinde ve bir e-ticaret uygulaması”, Yüksek lisans tezi, Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara, (2006). 15. Akbulut, S., “ Veri madenciliği teknikleri ile bir kozmetik markanın ayrılan müşteri analizi ve müşteri segmentasyonu”, Yüksek lisans tezi, Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara, (2006). 16. Özdamar, E. Ö,, “Veri madenciliğinde kullanılan teknikler ve bir uygulama”, Mimar Sinan Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, (2002). 17. Giudici, P., “Applied data mining: Statistical methods for business and industry”,John Wiley & Sons Inc., Chichester, 85-100 (2003). 18. Timor, M., Erdoğan, Ş. Z.,“A Data mining mpplication in a student database“,Journal of Aeronautics and Space Technologies, 2(2): 53-57 (2005). 19. Bozkır, A. S., Mazman, S. G. , Akçapınar, S. E., “Identification of user patterns in social networks by data mining techniques: Facebook case”, IMCW 2010, 145–153, (2010) 20. Tang, L., Liu, H., “Toward collective behavior prediction via social dimension extraction”, IEEE Intelligent Systems, 25(4): 19-25 (2010). 21. Domingos, P.,“Mining social networks for viral marketing”, IEEE Intelligent Systems, 20(1): 80-82 (2005). 22. Agarwal, N., Liu, H., Subramanyay, S., Salernox, J. J., Yu, P. S., “Connecting sparsely distributed similar bloggers”, ICDM '09. Ninth IEEE International Conference, Miami USA, 11-20 (2009). 23. Berendt, B. , Hotho, A., Stumme, G., “Bridging the gap - Data mining and Social network analysis for Integrating Semantic Web and Web 2.0”, Journal of Web Semantics, 8(2-3): 95-96 (2010). 65 24. Dodds, P. S., Danforth, C. M.,”Measuring the happiness of large-scale written expression: Songs, blogs, and presidents”, Journal of Happiness Study, 11 (4): 441-456 (2010). 25. Jensen, D., Neville, J.,“Data mining in social Networks”, In National Academy of Sciences workshop on Dynamic Social Network Modeling and Analysis, (2002). 26. Zhang, X., Fuehres, H., Gloor, P. A., “Predicting stock market indicators through twitter ‘I hope it is not as bad as I fear’ ”, Procedia - Social and Behavioral Sciences, 26 (1): 55-62 (2011). 27. Liu, H. , Tang, L., Wang, X., Wang, L., “A Multi-Resolution approach to learning with overlapping communities”, SOMA '10 Proceedings of the First Workshop on Social Media Analytics,14-22 (2010). 28. Leskoveç, J., Huttenlocher, D., Kleinberg, J., “Predicting positive and negative links in online social networks”, WWW '10 Proceedings of the 19th international conference on World Wide Web, 641-650 (2010). 29. Shen, D., Sun, J.T., Yang, Q., Chen, Z. , “Latent friend mining from blog data”, Sixth IEEE International Conference on Data Mining, Washington USA,552-561 (2006). 30. Agarwal, N., Liu, H., Salemo, J., Yu, P., “Searching for familiar strangers on blogosphere: Problems and challenges” , NGDM’07, (2007). 31. Agarwal, N., Liu, H., “Blogosphere: Research Issues, Tools, and Applications”, ACM SIGKDD Explorations Newsletter, 10(1), 1831 (2008). 32. Ku, L., Liang, Y. , Chen, H., “ Opinion extraction, summarization and tracking in news and blog corpara” In Proceedings of AAAI-2006 Spring Symposium on Computational Approaches to Analyzing Weblogs, Palo Alto USA, 100-107 (2006). 33. Demirbaş, M., Sriram, B., Fuhry, D., Demir, E., Ferhatosmanoğlu, H., “Short text classification in twitter to improve informative filtering”, Proceeding of the 33rd international ACM SIGIR conference on research and development in information retrieval, Genava, Switzerland, 841-842 (2010). 34. Akcakora, C. G., Bayir, M. A., Demirbaş, M., Ferhatosmanoğlu, H., 66 “Identifying breakpoints in public opinion”, In Proceedings of the First Workshop on Social Media Analytics SOMA ’10, Washington, 62-66 (2010). 35. Chen, H., Zimbra, D., “AI and opinion mining”, IEEE Intelligent Systems, 3 (25): 74-76 (2010). 36. Liu, B.,” Sentiment analysis: A multifaceted problem”, IEEE Intelligent System, 25(3): 76-80 (2010). 37. Kleinberg, J., Backstrom, L., Huttenlocher, D., “Group formation in large social networks: Membership, growth, and evolution”, KDD’ 06 proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining , NewYork USA, 44-54 (2006). 38. Bollen, J., Mao, H., Zeng, X. J. , “ Twitter mood predicts the stock market”, Journal of Computational Science, 2 (1):1-8 (2011). 39. O'Connor, B., Balasubramanyan, R., Routledge, B. R., “From tweet to polls: Linking text sentiment to public opinion time series”, Fourth International AAAI Conferance on Web Blogs and Social Media, Washington, 122-129 (2010). 40. Popescu, A. M., Etzioni, O. , “ Extracting product features and opinions from reviews”, HLT '05 Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing , USA, 339-346 (2005). 41. Sprenger, T. O., Welpe, I. M., “Tweets and trades: The Information content of stock microblogs”, Working Paper Series Technische Universität München (TUM), 89 (2010). 42. Bhattacharyya, P., Garg, A., Wu, S. F., “Analysis of user keyword similarity in online social networks”, Socaial Network Analysis and Mining, 1(3):143-158 (2011). 43. Internet: www.facebook.com, (2012). 44. Internet: www.twitter.com, (2012). 45. Internet: www.youtube.com, (2012). 67 46. Internet: http://msnblog.msn.com/, (2012). 47. Internet: http://www.informatik.uni-trier.de/~ley/db/, (2012). 48. Internet: www.imdb.com/, (2012). 49. Internet: http://www.epinions.com/, (2012). 50. Internet: slashdot.org/, (2012). 51. Internet: http://www.wikipedia.org, (2012). 52. Gürbüz, F., Özbakır, L., Yapıcı H., “Türkiye’de bir havayolu işletmesine ait parça söküm raporlarına ilişkin veri madenciliği uygulaması”, Gazi Üniv. Müh. Mim. Fak. Dergisi, 24 (1): 73-78 (2011). 53. Yeşilbudak, M., Kahraman, H. T., Karacan, H., ”Veri madenciliğinde nesne yönelimli birleştirici hiyerarşik kümeleme modeli”, Gazi Üniv. Müh. Mim. Fak. Dergisi, 26 (1): 27-39 (2011). 54. http://www.blogkatalog.net/, ( 2012). 55. Aktürk, H., “Borsa ve döviz verileri üzerinde veri madenciliği teknolojisi kullanarak zarar riskini azaltan bir uygulama geliştirimi”, Yüksek lisans tezi, Ege Üniversitesi Fen Bilimleri Enstitüsü, İzmir, (2008). 56. Kuduğ, H., “Sosyal ağ analizi ölçütlerinin iş alanlarına uyarlanması, Yüksek lisans tezi, Ege Üniversitesi Fen Bilimleri Enstitüsü, (2011). 57. Akyüz, R., “Sosyal ağlarda emniyet verilerinin incelenmesi”, Yüksek lisans tezi, Sakarya Üniversitesi Fen Bilimleri Enstitüsü, (2009). 58. Mazman, S. G., “Sosyal ağların benimsenme süreci ve eğitsel bağlamda kullanımı”, Yüksek lisans tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, (2009). 59. Ozkan, B., McKenzie, B., “Social networking tools for teacher education. In K. McFerrin et al. (Eds.)”, Proceedings of Society for Information Technologyand Teacher Education International Conference, . Chesapeake, 2772-2776, (2008). 60. İnternet: https://dev.twitter.com/, (2012). 68 61. Parrott, W. G., “Emotions in social psychology: essential readings”, editör, Psychology Press, (2001). 62. Dodds, P. S., Harris, K. D., Kloumann, I. M., Bliss, C. A., Danforth, C. M., “Temporal patterns of happiness and information in a global social network: Hedonometrics and Twitter”, PLoS ONE, 6 (12): 26752 (2011). 63. Işık, M.,Çamurcu, A. Y., “ Web Belgeleri Kümelemede Benzerlik ve Uzaklık Ölçütleri Başarılarının Karşılaştırılması”, Fen Bilimleri Enstitüsü Dergisi, 20 (1):35-49,(2008). 64. Internet : http://www.nielsenbuzzmetrics.com/, (2012) . 65. Internet : http://www.tuaw.com/, (2012). 69 EKLER 70 Ek-1 Mutluluk ve üzgünlük karakterleri Mutluluk karakterleri ":)", "(:", ":D", ":d", ";)", "^_^", "-_-", ":>", "=)" Üzgünlük karakterleri :(", "):", ">:(", ":o", ":’(", ":<", ";(" 71 Ek-2 Mutluluk ve üzgünlük kelimeleri listesi mutlu hoşnut etmek ümidimi yitirdim kırıldım mutluluk bayram etmek üzücü olay umutsuzluk mutluyum gülünçlük memnuniyetsizlik üzülmek keyif mutluluktan uçma hoşnutsuzluk hüsran beğendim neşelilik hayıflanma melankoli eğlence bayram ettim ümidini yitirme küstüm çok sevindim mutluluktan ucma yas tuttum cefa saadet mutluluktan kıvranma rencide sansızlık bunalım agoni hayal kırıklığı uçtum heves mutluluktan uctum neşe yerinde duramama sevinç can atma umudumu kestim acı çekme gösteriş can attım incittim depresyon şenlik büyülendim ümitsizlik çile hayranlık can çekişme kalbini kırma kırmak beğenme can cekisme acıtma hüzün sevinmek acıttım çöküntü üzüldüm hoşnut umutsuzluğa hayal kırıklıgı keder acı cekme sıkıntı caresizlik tasa düş kırıklığı dert düşmek heyacan umutsuzluğa düştüm komiklik umutsuzluga dustum memnuniyet hüzün çökmek 72 Ek-2 (Devam) Mutluluk ve üzgünlük kelimeleri listesi oyalanma yas tutma şansızlık acı neşe kaynağı dus kırıklıgı husran mest oldum hosnut ümidini boşa buhran çok sevinme incitme umudunu kesmek çıkarma mutluluk kaynağı ümidini boşa çıkardım hoşlandım hosnutsuzluk kasvet çaresizlik eğlenme hayıflandım ızdırap küsmek hoşlanma müteessir olmak daraldım kalbini kırdım çoşku özlemini çekme kırılmak üzgün uzgun 73 Ek-3 Borsa kelimeleri listesi borsa IMKB hisse senedi imkb İMKB endeks finans menkul kıymetler bülten verileri 74 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, adı : ŞİMŞEK, Mehmet Ulvi Uyrugu : T.C. Dogum tarihi ve yeri : 28.06.1987, Bolu Medeni hali : Bekar Telefon : 0 (536) 939 2444 e-mail : [email protected] Eğitim Derece Eğitim Birimi Mezuniyet tarihi Lisans Gazi Üniversitesi/Bilgisayar Mühendisliği 2010 Lisans Gazi Üniversitesi/Elektrik Elektronik Müh. 2010 Lise Bolu Atatürk Süper Lisesi 2005 Yabancı Dil İngilizce Yayınlar 1. Şimşek, M. U., Ozdemir, S., Karacan, H., "Data Mining in Social Networks", Bilişim 2011, 26-28 Ekim, Ankara Türkiye, (2011). 2. Şimşek, M. U., Ozdemir, S., "Analysis of the Relation between Turkish Twitter Messages and Stock Market Index", in Proc. of AICT 2012, Georgia, Tbilisi, 17-19 October (2012).