Kullanıcı Erişim Desenlerinin Keşfi

advertisement
Kütüphane Kullanıcılarının Erişim Desenlerinin Keşfi
Hidayet Takcı
Gebze Yüksek Teknoloji Enstitüsü
Bilgisayar Müh. Bölümü
[email protected]
İbrahim Soğukpınar
Gebze Yüksek Teknoloji Enstitüsü
Bilgisayar Müh. Bölümü
[email protected]
Özet
Veri madenciliği büyük miktardaki veriden anlamlı bilginin çıkarılması ile ilgili yeni bir
teknik olup pazarlama, bankacılık, sigortacılık ve tıp sektörü başta olmak üzere bir çok
sektörde etkin şekilde kullanılmaktadır.
Veri madenciliği uygulamalarından biri olan web madenciliği, web verileri üzerinde veri
madenciliği fonksiyonlarını yerine getirir. Web içerik madenciliği ve web kullanım
madenciliği gibi iki bölüme ayrılan web madenciliği sayesinde web üzerindeki faydalı
bilginin keşfi ve analizi yapılmaktadır. Kullanıcı erişim desenlerinin bulunması web içerik
madenciliği konusuna girmekte olup veri madenciliği tekniklerinden özellikle link analizi ile
yerine getirilmektedir.
Bu çalışmada kütüphane sitesi web günlüklerine dayalı olarak kütüphane kullanıcılarının
erişim desenleri bulunmaya çalışılmıştır.
1. Giriş
Veri madenciliği ve web son zamanların geçerli iki araştırma sahasıdır. Bu iki sahanın doğal
kombinasyonu web madenciliği olarak adlandırılır.
Web madenciliği kabaca webten faydalı bilginin keşfi olarak tanımlanabilir. Bu tanım içinde
otomatik tarama, bilgi alma ve kullanılabilir kaynakların milyonlarca web sitesi veya online
veritabanlarından seçilmesi web içerik madenciliği konusuna girerken bir veya birçok web
sunucu veya online servisten kullanıcı erişim desenlerinin analiz ve keşfi web kullanım
madenciliği konusuna girmektedir. [1]
Web içerik madenciliği akıllı yazılım ajanları (web robotları, web spiders vs.) daha doğrusu
makine öğrenimi veya yapay zeka (machine learning-artificial intelligence) ile ilgilidir. Son
zamanlarda dokümanlardan bilgi çıkarma için XML de kullanılmaya başlanmıştır.
Web içerik madenciliği dokümanların içinden bilgi çıkarırken web kullanım madenciliği
kullanıcıların erişimlerinden bilgi çıkarmaktadır. Erişimlere dayalı bilgilerle kullanıcı
davranışları bulunabilmekte ve kişiye özel hizmet olanağı sağlanabilmektedir.
2. Web Kullanım Madenciliği
Web kullanım madenciliği bir veya birçok web sunucudan kullanıcı erişim desenlerinin
otomatik keşfinin ve analizin yapıldığı bir tip veri madenciliği etkinliğidir. Birçok
organizasyon pazar analizleri için geliştirdikleri stratejileri ziyaretçi bilgilerine dayanarak
yerine getirir. Organizasyonlar günlük operasyonlarla hergün yüzlerce MB veri toplamaktadır.
1
Bu bilgilerin çoğu web sunucuların otomatik olarak tuttuğu günlük dosyalarından elde edilir.
Günlük dosyaları, istemcinden sunucuya gönderilen her bir isteğin bir kayıt olarak eklenmesi
ile meydana gelir.
Web verilerinin analizi sonucunda bir ziyaretçinin sitede kalma süresi, hizmet stratejileri,
etkin kampanyalar ve diğerleri bulunabilir.
Web kullanım madenciliği; ilk işlem (preprocessing), desen keşfi (pattern dsicovery) ve desen
analiz (pattern analysis) aşamalarından oluşur. Web kullanım madenciliği esnasında
ayrıştırılacak veri şağaıdaki tiplerde olabilir.




İçerik verisi (Content)
Yapı verisi (Structure)
Kullanım verisi (Usage)
Kullanıcı profili (User Profile)
İlk İşlem
Bu aşamada satırlardan oluşan kullanım verisi soyutlamalara dönüştürülür. Soyutlamalar;
kullanıcı, sayfa görünümü, click stream, kullanıcı oturumu ve sunucu oturumu şeklinde
olabilmektedir.
Desen Keşfi
Desen keşfi; istatistik, uyum kuralları (association rules), kümeleme (clustering), sınıflama
(classification) ve sıralı desenler (sequential patterns) gibi tekniklerle yerine getirilir.
Desen Analiz
Desen keşfi aşamasında ortaya çıkarılan kural veya desenlerin analiz edilmesi işlemidir. Bilgi
sorgulama ve OLAP işlemleri ile derinlemesine analizler yapılabilmektedir.[2]
3. Web Miner Tasarımı
Bugün birçok resmi ve özel kurum veya kuruluş işlerini web üzerinde yapmaktadır. Günlük
işlemleri dolayısıyla büyük hacimli veriler toplanmakta ve üretilmektedir. Bu veriler
genellikle web sunucular tarafından otomatik olarak toplanmakta olup sunucu veya erişim
günlüklerinde tutulmaktadır.
Bu günlüklerin ayrıştırılması ve analiz edilmesi değerli bilgi sağlamaktadır. Günlük dosyası
analizleri sayesinde hedef kitleye ve özel kullanıcı grublarına (kümeler) hizmet
verilebilmektedir.
Bu çalışmada GYTE kütüphanesinde verilen hizmetler web loglarına dayalı olarak
incelenecektir.
Veri temizleme ve dönüşüm
Veriler veritabanına aktarılmadan önce analiz değeri olmayan ilişkisiz sahalardan arındırılır.
Böylece etkinlik sağlanabilmektedir.
Çok boyutlu veri küpü oluşturulması
2
Özellikle OLAP analizleri için verinin boyutlarından veri küpü elde edilir. Temizleme
işleminden geçmiş veri veritabanına atılır. Bu verilerden tipik özetler elde edilir. Bu işleme
soyutlama işlemi de denilebilir.
Web logları üzerinde OLAP analizleri
Web log veritabanı OLAP analiz teknikleri ile analiz edilebilir. OLAP işlemleri ile basit
özetlemeler yapılabilir. Örneğin, bütün bir dönemde veya haftanın bir gününde sisteme
erişenlerin sayısı gibi. Daha sonra özel bir işleme odaklanmak mümkündür, zaman
boyutununda eklenmesi ile kullanım desenleri ortaya çıkarılabilir. [3]
Web Kayıtları Üzerinde Veri Madenciliği
Bilgi limitli olduğundan örnekler zaman serileri analizi ile analiz edilir. Zaman serileri analizi
web log analizinde önemli bir veri madenciliği işidir çünkü web log kayıtları zaman
aralıklarında kayıtlıdır. Analizlerin çoğu zaman uyumlu web erişim davranışlarına
odaklanmıştır.
Tipik Olay Sıraları
Kullanıcıların zaman içindeki davranışları analiz edilmektedir.
Uyum Kuralları
Tek bir oturumda, sitede bulunan farklı sayfalar arasında, birbirini referans gösterme
sıklığının analiz edilmesi sonucunda bulunur. Oturumlarda hangi sayfalar beraber istenmiş
bulunur. Pazar sepeti analizi uyum kuralları için en iyi örnek uygulamadır.
Trend Analizi
Trend analizi zamana bağlı regrasyon analizidir. Regrasyon analizindeki parametrelerden biri
zaman olduğunda analiz trend analizi adını alır. Trend analizi zamana bağlı yönelimleri
bulmada kullanılır. Mesela şu kadar zaman sonra şu hizmet ne sıklıkta kullanılacak gibi bir
soruyu cevaplamaya çalışır. Kısaca iki olay arasındaki trendi bulmaya yarayan bir analiz
tipidir.
4. Kütüphanede Web Kullanım Madenciliği
Web üzerinde hizmet veren bütün sitelerde web kullanım madenciliği yapılabilir ve her biri
sistemin işleyişine yardımcı bilgiler üretir. Web kullanım madenciliği yapılabilecek yerlerden
biride kütüphane web siteleridir.
Sayısal yöntemlerle kütüphaneciliğin yapıldığı yerlerdeki ilk iş, arşivleme, tarama ve
doküman işlemedir. Kütüphaneler artık bu hizmetlerin daha fazlasını yerine getirebilecek
duruma gelmişlerdir. Bir sonraki aşamada kütüphanelerdeki kullanılabilir bilginin madenciliği
yapılmaya başlanmıştır [4].
Kütüphanede Verilen Hizmetler Arasındaki Uyum Kuralları
GYTE kütüphanesinde verilen hizmetlerden katalog tarama (/asp/tum.asp) ile online
veritabanları (/html/veritabanlari.htm) hizmetlerinin diğer hizmetlere oranla daha sık
kullanıldığı günlük kayıtlarından anlaşılmıştır. Sık kullanılan bu hizmetler arasında bir
uyumun varlığı incelenmiş ve aşağıdaki sonuçlara ulaşılmıştır.
3
İşlem adımları şu şekildedir.
 İlk aşamada analizi yapılacak web log dosyaları seçildi (86 günlük aralık). Seçilen bu
dosyalar hazırlanan yazılım sayesinde veri ambarı oluşturmak amacıyla bir dönüşüm
işleminden geçirilerek web log veritabanına aktarıldı. Bu aşamada seçim, temizleme
ve dönüşüm işlemleri yerine getirilmiş oldu.
 Bir sonraki aşamada veritabanına atılan kayıtlar üzerinde sql ifadeleri yardımıyla
özetler oluşturuldu. Oturum tanımlamaları sayesinde oturum bazında analiz imkanı
sağlandı.
Elde edilen verilere uygulanan teknikler sayesinde aşağıdaki sonuçlar elde edilmiştir.
 Bağlantı yapılan toplam gün sayısı= 59
 Toplam istek sayısı=1464
 Veritabanları (/html/veritabanlari.htm) hizmetinin kullanıldığı gün sayısı=50
 Veritabanları için istek sayısı=70
 Katalog Tarama (/asp/tum.asp) hizmetinin kullanıldığı gün sayısı=35
 Katalog Tarama için istek sayısı=222
 Veritabanları ve Katalog Tarama hizmetinin birlikte kullanıldığı gün sayısı=32
Bu sonuçlar ışığında;
 Verilen iki hizmet arasında yüksek seviyede bir uyum olduğu saptanmıştır.
 Katalog tarama hizmetinin kullanıldığı her 35 günden 32 sinde veritabanları hizmetide
beraber (aynı oturumda) kullanılmaktadır. Her ikisi arasında %91 oranında bir uyum
vardır.
 Aradaki yüksek uyum dolayısıyla bu iki hizmetin verildiği sayfaları birbirine link
yardımıyla bağlamak gerekmektedir.
Kullanıcıların Kümelenmesi
Web kullanım madenciliğinde önemli bir konu web kullanıcılarının kümelenmesidir.
Kümelemede kullanıcılar genel özelliklerine dayalı olarak grublara ayrılırlar [5].
Web kullanım madenciliği yapılarak yerine getirilebilecek bir diğer iş kullanıcıların
kümelenmesidir. Benzer özellikleri taşıyan kullanıcıları kümelemek ve her bir kümeye uygun
hizmet vermek önemli bir veri madenciliği işidir.
Kullanıcılar kabaca iyi kullanıcılar ve iyi olmayan kullanıcılar gibi iki gruba ayrılabilir.
Erişim yapılan dosyaların niteliği bir bakıma erişimi yapan kullanıcılarında niteliğini ortaya
çıkarmaktadır. Örneğin, katalog tarama hizmeti gibi bir hizmeti kullanan kullanıcıyla site
tanıtım bilgilerine gözatan kullanıcı aynı nitelikte değildir. Birisi sadece ziyaret maksadıyla
siteye uğramışken diğeri ihtiyacını gidermek amacıyla siteye uğramıştır.
Web log dosyaları derinlemesine analiz edildiğinde, web sitesinden üç tipte
istendiği ortaya çıkmıştır.
dosyanın
 Herhangibir işlevi olan dosyalar (genellikle .asp uzantılı dosyalar ile veritabanlari.htm)
 Bilgi amaçlı dosyalar (genel.htm veya personel.htm gibi dosyalar ve resimler)
 Sitede olmayan dosyalar (exe ve dll uzantılı ve siteye saldırı amaçlı dosyalar)
Herhangi bir işleve sahip olan dosyaları isteyen kullanıcılar, kullanım yoğunluklarına göre iyi,
daha iyi, en iyi şeklinde gruplandırılabilir.
4
Bilgi amaçlı dosyaları isteyen kullanıcılara potansiyel iyi kullanıcı gözüyle bakılabilir. Bilgi
amaçlı dosyalar eğer iyi hazırlanmışsa siteye iyi kullanıcı kazandırmakta önemli bir işleve
sahip olabilir.
Bazı kullanıcılar ise sitede olmayan bazı dosyalara istekte bulunmaktadır. O tip kullanıcıların
amacı web sunucu üzerindeki boşluklardan faydalanarak sistemi çalışmaz hale getirmektir. Bu
tip dosyaları isteyen kullanıcılar tehlikeli veya kötü kullanıcı olarak tanımlanabilir.
Kullanıcılar, erişim yaptıkları dosya adetlerine göre puanlanabilir ve almış oldukları bu
puanlara görede değerlendirilebilirler.
Hazırlanan yazılım ile elde edilen verilerden bazıları aşağıdadır.
Bilg. 1
Bilg. 2
Bilg. 3
Bilg. 4
Bilg. 5
İlk.htm
161
0
0
0
77
*.asp
166
0
0
0
361
*.htm
326
0
0
0
204
*.jpg
55
0
0
141
*.gif
58
0
0
0
117
*.exe
0
1063
843
600
1
*.dll
0
210
167
120
0
*.ida
0
0
0
122
10
Toplam
1464
1273
1010
842
838
Bu verilere dayanarak puanlama yapıldığında 2, 3 ve 4 numaralı bilgisayarların hacker
bilgisayarları olduğu ortadadır. Yoğunluk testi ile de aynı bilgisayarların hackerlara ait olduğu
bulunabilmektedir.
Hitlerden elde edilen katsayılar ile dosya niteliklerinden elde edilen birim puanların belli bir
işlemden geçirilmesi sonucu elde edilen puanlar ile kullanıcılar benzer grublar halinde
toplanabilir ve böylece kümelenmeleri mümkün hale gelmiş olur.
Birim Puanlar
İlk.htm
2
*.asp
4
*.htm
2
*.jpg
1
*.gif
1
*.exe
-1
*.dll
-1
*.ida
-1
*.htm
652
0
0
0
408
*.jpg
55
0
0
*.gif
58
0
0
0
117
*.exe
0
-1063
-843
-600
-1
*.dll
0
-210
-167
-120
0
*.ida
0
0
0
-122
-10
Hesap Edilmiş Puanlar
IP 1
IP 2
IP 3
IP 4
IP 5
İlk.htm
322
0
0
0
154
*.asp
664
0
0
0
1444
141
PUAN
1751
-1273
-1010
-842
2253
Bu sonuçlara göre 1. ve 5. bilgisayarlar benzer gözatma etkinliği gösterirken, 2., 3. ve 4.
bilgisayarlarda kendi aralarında benzer gözatma etkinliği göstermişlerdir.
Sapma Bulma
Kütüphane web sitesi loglarına dayalı olarak yerine getirilebilecek bir diğer uygulama sapma
bulmadır. Sapma bulmada standart veya normal olandan farklı olan durumun bulunması
amaçtır. Bu işlem görselleştirme veya istatistik tekniği ile yerine getirilir. Ayrıca bu iş için
5
doğrusal regrasyonda kullanılabilir. En tanınmış uygulaması istisna saptanmasıdır. Kredi kartı
yolsuzluklarında kullanılır [6].
Kütüphane için sapma bulma uygulaması yapılacak olursa bu uygulama, sistemi çalışmaz hale
getirmeye uğraşan hackerları bulmak için kullanılacaktır. Yukarıdaki veriler
görselleştirildiğinde hacker olan kullanıcılara ait veriler hemen göze çarpacaktır.
Sistemin Taşınabilirliği
Yukarıdaki iki örnekte GYTE kütüphanesi web sitesindeki verilere dayanılarak uyum
kurallarının bulunması ve kümeleme işleminin yapılması sağlandı. Sistem log verilerine
dayalı olarak yerine getirildiğinden diğer web sitelerine de taşınabilir. Sistemin çalışma
prensibi bütün web sitelerinde aynıdır fakat sistemde kullanılan nesneler birbirinden farklı
olabilmektedir.
Örneğin, uyum kuralları için en iyi örnek uygulama pazar sepeti (market basket analysis)
analizidir. Pazar sepeti analizinde sepette yer alan ürünler arasındaki uyum kuralları
incelenerek iki ürünün beraber alınma sıklığı bulunmaktadır. Uyum kuralları kütüphane için
bulunmak istendiğinde bu sefer ürünlerin yerini web servisleri veya kütüphane hizmetleri
almaktadır.
5 .Sonuç
Elektronik cihazların zeki davranışlar göstermesinde sensörlerin etkisi ne ise bilgi
sistemlerinin zeki davranışlar göstermesindede veri madenciliğinin etkisi odur. İçine girdiği
bilgi sistemlerini zeki hale getiren veri madenciliği zekaya ihtiyacı olan ve her geçen gün
büyüyen webe de uygulanmış ve ortaya web madenciliği adı verilen kavram çıkmıştır.
Kullanıcıları gezdikleri sayfalardan tanıyan bu yeni teknik başta elektronik ticaret olmak
üzere bir çok konuda kullanılmaktadır. Bu teknik sayesinde kullanıcılar tanınabilmekte ve
onların memnun olacağı hizmetin verilmesi mümkün hale gelmektedir. Tekniğin kütüphane
web sitelerinde kullanılması da mümkün olup bu sayede kütüphane hizmetlerinin kalitesi
artırılabilmekte ve kütüphane web sitelerinde yeniden tasarımlar ile en iyi kütüphane web
siteleri ortaya çıkabilmektedir.
Kaynaklar
1. “Web Mining: Information and Pattern Discovery on the World Wide Web”,
Robert Cooley, Bamshad Mobasher, Jaideep Srivastava
2. “Web Usage Mining”, Qin Degang, Zeng Zhongtao, Margarita C. S. Paterno
3. Discovering Web Access Patterns and Trends by Applying OLAP and Data
Mining Technology on Web Logs, Osmar R. Zaïane, Man Xin, Jiawei Han, in Proc.
ADL'98 (Advances in Digital Libraries), Santa Barbara, April 1998.
4. “Data Mining Challenges for Digital Libraries”, Robert L. Grossman, University of
Illinois at Chicago
5. “Clustering of Web Users Based on Access Patterns”, Yongjian
Fu Kanwalpreet, Sandhu Ming-Yi Shih
6. “Database Systems a Practical Approach to Design Implementation and
Management”, Thomas M. Connolly, Carolyn E. Begg.
6
Download