Kütüphane Kullanıcılarının Erişim Desenlerinin Keşfi Hidayet Takcı Gebze Yüksek Teknoloji Enstitüsü Bilgisayar Müh. Bölümü [email protected] İbrahim Soğukpınar Gebze Yüksek Teknoloji Enstitüsü Bilgisayar Müh. Bölümü [email protected] Özet Veri madenciliği büyük miktardaki veriden anlamlı bilginin çıkarılması ile ilgili yeni bir teknik olup pazarlama, bankacılık, sigortacılık ve tıp sektörü başta olmak üzere bir çok sektörde etkin şekilde kullanılmaktadır. Veri madenciliği uygulamalarından biri olan web madenciliği, web verileri üzerinde veri madenciliği fonksiyonlarını yerine getirir. Web içerik madenciliği ve web kullanım madenciliği gibi iki bölüme ayrılan web madenciliği sayesinde web üzerindeki faydalı bilginin keşfi ve analizi yapılmaktadır. Kullanıcı erişim desenlerinin bulunması web içerik madenciliği konusuna girmekte olup veri madenciliği tekniklerinden özellikle link analizi ile yerine getirilmektedir. Bu çalışmada kütüphane sitesi web günlüklerine dayalı olarak kütüphane kullanıcılarının erişim desenleri bulunmaya çalışılmıştır. 1. Giriş Veri madenciliği ve web son zamanların geçerli iki araştırma sahasıdır. Bu iki sahanın doğal kombinasyonu web madenciliği olarak adlandırılır. Web madenciliği kabaca webten faydalı bilginin keşfi olarak tanımlanabilir. Bu tanım içinde otomatik tarama, bilgi alma ve kullanılabilir kaynakların milyonlarca web sitesi veya online veritabanlarından seçilmesi web içerik madenciliği konusuna girerken bir veya birçok web sunucu veya online servisten kullanıcı erişim desenlerinin analiz ve keşfi web kullanım madenciliği konusuna girmektedir. [1] Web içerik madenciliği akıllı yazılım ajanları (web robotları, web spiders vs.) daha doğrusu makine öğrenimi veya yapay zeka (machine learning-artificial intelligence) ile ilgilidir. Son zamanlarda dokümanlardan bilgi çıkarma için XML de kullanılmaya başlanmıştır. Web içerik madenciliği dokümanların içinden bilgi çıkarırken web kullanım madenciliği kullanıcıların erişimlerinden bilgi çıkarmaktadır. Erişimlere dayalı bilgilerle kullanıcı davranışları bulunabilmekte ve kişiye özel hizmet olanağı sağlanabilmektedir. 2. Web Kullanım Madenciliği Web kullanım madenciliği bir veya birçok web sunucudan kullanıcı erişim desenlerinin otomatik keşfinin ve analizin yapıldığı bir tip veri madenciliği etkinliğidir. Birçok organizasyon pazar analizleri için geliştirdikleri stratejileri ziyaretçi bilgilerine dayanarak yerine getirir. Organizasyonlar günlük operasyonlarla hergün yüzlerce MB veri toplamaktadır. 1 Bu bilgilerin çoğu web sunucuların otomatik olarak tuttuğu günlük dosyalarından elde edilir. Günlük dosyaları, istemcinden sunucuya gönderilen her bir isteğin bir kayıt olarak eklenmesi ile meydana gelir. Web verilerinin analizi sonucunda bir ziyaretçinin sitede kalma süresi, hizmet stratejileri, etkin kampanyalar ve diğerleri bulunabilir. Web kullanım madenciliği; ilk işlem (preprocessing), desen keşfi (pattern dsicovery) ve desen analiz (pattern analysis) aşamalarından oluşur. Web kullanım madenciliği esnasında ayrıştırılacak veri şağaıdaki tiplerde olabilir. İçerik verisi (Content) Yapı verisi (Structure) Kullanım verisi (Usage) Kullanıcı profili (User Profile) İlk İşlem Bu aşamada satırlardan oluşan kullanım verisi soyutlamalara dönüştürülür. Soyutlamalar; kullanıcı, sayfa görünümü, click stream, kullanıcı oturumu ve sunucu oturumu şeklinde olabilmektedir. Desen Keşfi Desen keşfi; istatistik, uyum kuralları (association rules), kümeleme (clustering), sınıflama (classification) ve sıralı desenler (sequential patterns) gibi tekniklerle yerine getirilir. Desen Analiz Desen keşfi aşamasında ortaya çıkarılan kural veya desenlerin analiz edilmesi işlemidir. Bilgi sorgulama ve OLAP işlemleri ile derinlemesine analizler yapılabilmektedir.[2] 3. Web Miner Tasarımı Bugün birçok resmi ve özel kurum veya kuruluş işlerini web üzerinde yapmaktadır. Günlük işlemleri dolayısıyla büyük hacimli veriler toplanmakta ve üretilmektedir. Bu veriler genellikle web sunucular tarafından otomatik olarak toplanmakta olup sunucu veya erişim günlüklerinde tutulmaktadır. Bu günlüklerin ayrıştırılması ve analiz edilmesi değerli bilgi sağlamaktadır. Günlük dosyası analizleri sayesinde hedef kitleye ve özel kullanıcı grublarına (kümeler) hizmet verilebilmektedir. Bu çalışmada GYTE kütüphanesinde verilen hizmetler web loglarına dayalı olarak incelenecektir. Veri temizleme ve dönüşüm Veriler veritabanına aktarılmadan önce analiz değeri olmayan ilişkisiz sahalardan arındırılır. Böylece etkinlik sağlanabilmektedir. Çok boyutlu veri küpü oluşturulması 2 Özellikle OLAP analizleri için verinin boyutlarından veri küpü elde edilir. Temizleme işleminden geçmiş veri veritabanına atılır. Bu verilerden tipik özetler elde edilir. Bu işleme soyutlama işlemi de denilebilir. Web logları üzerinde OLAP analizleri Web log veritabanı OLAP analiz teknikleri ile analiz edilebilir. OLAP işlemleri ile basit özetlemeler yapılabilir. Örneğin, bütün bir dönemde veya haftanın bir gününde sisteme erişenlerin sayısı gibi. Daha sonra özel bir işleme odaklanmak mümkündür, zaman boyutununda eklenmesi ile kullanım desenleri ortaya çıkarılabilir. [3] Web Kayıtları Üzerinde Veri Madenciliği Bilgi limitli olduğundan örnekler zaman serileri analizi ile analiz edilir. Zaman serileri analizi web log analizinde önemli bir veri madenciliği işidir çünkü web log kayıtları zaman aralıklarında kayıtlıdır. Analizlerin çoğu zaman uyumlu web erişim davranışlarına odaklanmıştır. Tipik Olay Sıraları Kullanıcıların zaman içindeki davranışları analiz edilmektedir. Uyum Kuralları Tek bir oturumda, sitede bulunan farklı sayfalar arasında, birbirini referans gösterme sıklığının analiz edilmesi sonucunda bulunur. Oturumlarda hangi sayfalar beraber istenmiş bulunur. Pazar sepeti analizi uyum kuralları için en iyi örnek uygulamadır. Trend Analizi Trend analizi zamana bağlı regrasyon analizidir. Regrasyon analizindeki parametrelerden biri zaman olduğunda analiz trend analizi adını alır. Trend analizi zamana bağlı yönelimleri bulmada kullanılır. Mesela şu kadar zaman sonra şu hizmet ne sıklıkta kullanılacak gibi bir soruyu cevaplamaya çalışır. Kısaca iki olay arasındaki trendi bulmaya yarayan bir analiz tipidir. 4. Kütüphanede Web Kullanım Madenciliği Web üzerinde hizmet veren bütün sitelerde web kullanım madenciliği yapılabilir ve her biri sistemin işleyişine yardımcı bilgiler üretir. Web kullanım madenciliği yapılabilecek yerlerden biride kütüphane web siteleridir. Sayısal yöntemlerle kütüphaneciliğin yapıldığı yerlerdeki ilk iş, arşivleme, tarama ve doküman işlemedir. Kütüphaneler artık bu hizmetlerin daha fazlasını yerine getirebilecek duruma gelmişlerdir. Bir sonraki aşamada kütüphanelerdeki kullanılabilir bilginin madenciliği yapılmaya başlanmıştır [4]. Kütüphanede Verilen Hizmetler Arasındaki Uyum Kuralları GYTE kütüphanesinde verilen hizmetlerden katalog tarama (/asp/tum.asp) ile online veritabanları (/html/veritabanlari.htm) hizmetlerinin diğer hizmetlere oranla daha sık kullanıldığı günlük kayıtlarından anlaşılmıştır. Sık kullanılan bu hizmetler arasında bir uyumun varlığı incelenmiş ve aşağıdaki sonuçlara ulaşılmıştır. 3 İşlem adımları şu şekildedir. İlk aşamada analizi yapılacak web log dosyaları seçildi (86 günlük aralık). Seçilen bu dosyalar hazırlanan yazılım sayesinde veri ambarı oluşturmak amacıyla bir dönüşüm işleminden geçirilerek web log veritabanına aktarıldı. Bu aşamada seçim, temizleme ve dönüşüm işlemleri yerine getirilmiş oldu. Bir sonraki aşamada veritabanına atılan kayıtlar üzerinde sql ifadeleri yardımıyla özetler oluşturuldu. Oturum tanımlamaları sayesinde oturum bazında analiz imkanı sağlandı. Elde edilen verilere uygulanan teknikler sayesinde aşağıdaki sonuçlar elde edilmiştir. Bağlantı yapılan toplam gün sayısı= 59 Toplam istek sayısı=1464 Veritabanları (/html/veritabanlari.htm) hizmetinin kullanıldığı gün sayısı=50 Veritabanları için istek sayısı=70 Katalog Tarama (/asp/tum.asp) hizmetinin kullanıldığı gün sayısı=35 Katalog Tarama için istek sayısı=222 Veritabanları ve Katalog Tarama hizmetinin birlikte kullanıldığı gün sayısı=32 Bu sonuçlar ışığında; Verilen iki hizmet arasında yüksek seviyede bir uyum olduğu saptanmıştır. Katalog tarama hizmetinin kullanıldığı her 35 günden 32 sinde veritabanları hizmetide beraber (aynı oturumda) kullanılmaktadır. Her ikisi arasında %91 oranında bir uyum vardır. Aradaki yüksek uyum dolayısıyla bu iki hizmetin verildiği sayfaları birbirine link yardımıyla bağlamak gerekmektedir. Kullanıcıların Kümelenmesi Web kullanım madenciliğinde önemli bir konu web kullanıcılarının kümelenmesidir. Kümelemede kullanıcılar genel özelliklerine dayalı olarak grublara ayrılırlar [5]. Web kullanım madenciliği yapılarak yerine getirilebilecek bir diğer iş kullanıcıların kümelenmesidir. Benzer özellikleri taşıyan kullanıcıları kümelemek ve her bir kümeye uygun hizmet vermek önemli bir veri madenciliği işidir. Kullanıcılar kabaca iyi kullanıcılar ve iyi olmayan kullanıcılar gibi iki gruba ayrılabilir. Erişim yapılan dosyaların niteliği bir bakıma erişimi yapan kullanıcılarında niteliğini ortaya çıkarmaktadır. Örneğin, katalog tarama hizmeti gibi bir hizmeti kullanan kullanıcıyla site tanıtım bilgilerine gözatan kullanıcı aynı nitelikte değildir. Birisi sadece ziyaret maksadıyla siteye uğramışken diğeri ihtiyacını gidermek amacıyla siteye uğramıştır. Web log dosyaları derinlemesine analiz edildiğinde, web sitesinden üç tipte istendiği ortaya çıkmıştır. dosyanın Herhangibir işlevi olan dosyalar (genellikle .asp uzantılı dosyalar ile veritabanlari.htm) Bilgi amaçlı dosyalar (genel.htm veya personel.htm gibi dosyalar ve resimler) Sitede olmayan dosyalar (exe ve dll uzantılı ve siteye saldırı amaçlı dosyalar) Herhangi bir işleve sahip olan dosyaları isteyen kullanıcılar, kullanım yoğunluklarına göre iyi, daha iyi, en iyi şeklinde gruplandırılabilir. 4 Bilgi amaçlı dosyaları isteyen kullanıcılara potansiyel iyi kullanıcı gözüyle bakılabilir. Bilgi amaçlı dosyalar eğer iyi hazırlanmışsa siteye iyi kullanıcı kazandırmakta önemli bir işleve sahip olabilir. Bazı kullanıcılar ise sitede olmayan bazı dosyalara istekte bulunmaktadır. O tip kullanıcıların amacı web sunucu üzerindeki boşluklardan faydalanarak sistemi çalışmaz hale getirmektir. Bu tip dosyaları isteyen kullanıcılar tehlikeli veya kötü kullanıcı olarak tanımlanabilir. Kullanıcılar, erişim yaptıkları dosya adetlerine göre puanlanabilir ve almış oldukları bu puanlara görede değerlendirilebilirler. Hazırlanan yazılım ile elde edilen verilerden bazıları aşağıdadır. Bilg. 1 Bilg. 2 Bilg. 3 Bilg. 4 Bilg. 5 İlk.htm 161 0 0 0 77 *.asp 166 0 0 0 361 *.htm 326 0 0 0 204 *.jpg 55 0 0 141 *.gif 58 0 0 0 117 *.exe 0 1063 843 600 1 *.dll 0 210 167 120 0 *.ida 0 0 0 122 10 Toplam 1464 1273 1010 842 838 Bu verilere dayanarak puanlama yapıldığında 2, 3 ve 4 numaralı bilgisayarların hacker bilgisayarları olduğu ortadadır. Yoğunluk testi ile de aynı bilgisayarların hackerlara ait olduğu bulunabilmektedir. Hitlerden elde edilen katsayılar ile dosya niteliklerinden elde edilen birim puanların belli bir işlemden geçirilmesi sonucu elde edilen puanlar ile kullanıcılar benzer grublar halinde toplanabilir ve böylece kümelenmeleri mümkün hale gelmiş olur. Birim Puanlar İlk.htm 2 *.asp 4 *.htm 2 *.jpg 1 *.gif 1 *.exe -1 *.dll -1 *.ida -1 *.htm 652 0 0 0 408 *.jpg 55 0 0 *.gif 58 0 0 0 117 *.exe 0 -1063 -843 -600 -1 *.dll 0 -210 -167 -120 0 *.ida 0 0 0 -122 -10 Hesap Edilmiş Puanlar IP 1 IP 2 IP 3 IP 4 IP 5 İlk.htm 322 0 0 0 154 *.asp 664 0 0 0 1444 141 PUAN 1751 -1273 -1010 -842 2253 Bu sonuçlara göre 1. ve 5. bilgisayarlar benzer gözatma etkinliği gösterirken, 2., 3. ve 4. bilgisayarlarda kendi aralarında benzer gözatma etkinliği göstermişlerdir. Sapma Bulma Kütüphane web sitesi loglarına dayalı olarak yerine getirilebilecek bir diğer uygulama sapma bulmadır. Sapma bulmada standart veya normal olandan farklı olan durumun bulunması amaçtır. Bu işlem görselleştirme veya istatistik tekniği ile yerine getirilir. Ayrıca bu iş için 5 doğrusal regrasyonda kullanılabilir. En tanınmış uygulaması istisna saptanmasıdır. Kredi kartı yolsuzluklarında kullanılır [6]. Kütüphane için sapma bulma uygulaması yapılacak olursa bu uygulama, sistemi çalışmaz hale getirmeye uğraşan hackerları bulmak için kullanılacaktır. Yukarıdaki veriler görselleştirildiğinde hacker olan kullanıcılara ait veriler hemen göze çarpacaktır. Sistemin Taşınabilirliği Yukarıdaki iki örnekte GYTE kütüphanesi web sitesindeki verilere dayanılarak uyum kurallarının bulunması ve kümeleme işleminin yapılması sağlandı. Sistem log verilerine dayalı olarak yerine getirildiğinden diğer web sitelerine de taşınabilir. Sistemin çalışma prensibi bütün web sitelerinde aynıdır fakat sistemde kullanılan nesneler birbirinden farklı olabilmektedir. Örneğin, uyum kuralları için en iyi örnek uygulama pazar sepeti (market basket analysis) analizidir. Pazar sepeti analizinde sepette yer alan ürünler arasındaki uyum kuralları incelenerek iki ürünün beraber alınma sıklığı bulunmaktadır. Uyum kuralları kütüphane için bulunmak istendiğinde bu sefer ürünlerin yerini web servisleri veya kütüphane hizmetleri almaktadır. 5 .Sonuç Elektronik cihazların zeki davranışlar göstermesinde sensörlerin etkisi ne ise bilgi sistemlerinin zeki davranışlar göstermesindede veri madenciliğinin etkisi odur. İçine girdiği bilgi sistemlerini zeki hale getiren veri madenciliği zekaya ihtiyacı olan ve her geçen gün büyüyen webe de uygulanmış ve ortaya web madenciliği adı verilen kavram çıkmıştır. Kullanıcıları gezdikleri sayfalardan tanıyan bu yeni teknik başta elektronik ticaret olmak üzere bir çok konuda kullanılmaktadır. Bu teknik sayesinde kullanıcılar tanınabilmekte ve onların memnun olacağı hizmetin verilmesi mümkün hale gelmektedir. Tekniğin kütüphane web sitelerinde kullanılması da mümkün olup bu sayede kütüphane hizmetlerinin kalitesi artırılabilmekte ve kütüphane web sitelerinde yeniden tasarımlar ile en iyi kütüphane web siteleri ortaya çıkabilmektedir. Kaynaklar 1. “Web Mining: Information and Pattern Discovery on the World Wide Web”, Robert Cooley, Bamshad Mobasher, Jaideep Srivastava 2. “Web Usage Mining”, Qin Degang, Zeng Zhongtao, Margarita C. S. Paterno 3. Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs, Osmar R. Zaïane, Man Xin, Jiawei Han, in Proc. ADL'98 (Advances in Digital Libraries), Santa Barbara, April 1998. 4. “Data Mining Challenges for Digital Libraries”, Robert L. Grossman, University of Illinois at Chicago 5. “Clustering of Web Users Based on Access Patterns”, Yongjian Fu Kanwalpreet, Sandhu Ming-Yi Shih 6. “Database Systems a Practical Approach to Design Implementation and Management”, Thomas M. Connolly, Carolyn E. Begg. 6