ŝM icrosoft W ord - ilk _ s . doc - Selçuk Üniversitesi Dijital Arşiv

advertisement
T.C
SELÇUK ÜNİ
VERSİ
TESİ
FEN Bİ
Lİ
MLERİENSTİ
TÜSÜ
EDEBİ
YAT ESERLERİ
Nİ
N WEB VERİ
LERİ
NE DAYANARAK
SINIFLANDIRILMASI
Ercan CANHASI
YÜKSEK Lİ
SANS TEZİ
Bİ
LGİ
SAYAR MÜHENDİ
SLİ
ĞİANABİ
Lİ
M DALI
Konya, 2007
T.C
SELÇUK ÜNİ
VERSİ
TESİ
FEN Bİ
Lİ
MLERİENSTİ
TÜSÜ
EDEBİ
YAT ESERLERİ
Nİ
N WEB VERİ
LERİ
NE DAYANARAK
SINIFLANDIRILMASI
Ercan CANHASI
YÜKSEK Lİ
SANS TEZİ
Bİ
LGİ
SAYAR MÜHENDİ
SLİ
ĞİANABİ
Lİ
M DALI
Konya, 2007
Bu tez 12/07/2007 tarihinde aş
ağı
daki jüri tarafı
ndan oybirliğ
i ile kabul
edilmiş
tir.
Prof.Dr.Ahmet ARSLAN
(A.B.D Bş
k.- Danı
ş
man)
Prof.Dr. Şirzat KAHRAMANLI
(Üye)
Yrd.Doç.Dr. Nihat YILMAZ
(Üye)
ÖZET
Yüksek Lisans Tezi
EDEBİ
YAT ESERLERİ
Nİ
N WEB VERİ
LERİ
NE DAYANARAK
SINIFLANDIRILMASI
Ercan CANHASI
Selçuk Üniversitesi Fen Bilimleri Enstitüsü
Bilgisayar Mühendisliği Anabilim Dalı
Danı
ş
man: Prof. Dr. Ahmet ARSLAN
2007, 95 Sayfa
Bu tezde bir metin madenciliği uygulamasıyapı
lı
ş
tı
r. Sunulan çalı
ş
mada
metin sı
nı
flama ve kategorileş
tirme yöntemleri kullanı
larak Internet’te bulunan
edebiyat eserlerin sı
nı
flanmasıgerçekleş
tirilmiş
tir. Yapı
lan iş
lem aslı
nda edebiyat
eserleri hakkı
nda , Internet arama motorlarısayesinde web siteler tespit etmek ve
birbirleriyle ilgili web sitelerde tekrarlanan kelimeler ile edebiyat eserleri
tanı
mlamak ve sı
nı
flanmaktı
r. Edebiyat eserlerinin sı
nı
flanmasıiçin vektör destek
makineleri kullanı
lmı
ş
tı
r. Deneysel çalı
ş
ma kapsamı
nda 2 farklı deney
sunulmuş
tur.
Madencilik açı
sı
ndan metnin uygun hale getirilmesi için yapı
lması
gereken en önemli öniş
lemlerden biri terim seçme ve ağı
rlı
klandı
rma iş
lemidir.
Bu çalı
ş
mada bulanı
k mantı
k sistemine dayanan yeni bir terim seçme ş
emasıda
sunulmuş
tur.
Anahtar Kelimeler: Veri madenciliğ
i, Metin madenciliği, Sı
nı
flama, Terim
seçme ve ağ
ı
rlı
klandı
rma, Bulanı
k mantı
k.
ABSTRACT
Master Thesis
LITERATURE WORK CLASSIFICATION ON WEB BASED DATA
Selçuk University
Graduate School of Natural and Applied Sciences
Department of Computer Engineering
Supervisor: Prof. Dr. Ahmet ARSLAN
2007, 95 Page
In this thesis one kind of text mining task is solved. In this work, text
classification and categorization techniques are used for classification of
literature works presented on the Internet. In particular, webpage’s ranked
by search engines are retrieved and analyzed to classify the literature works
in term of word occurrenc frequencies on related pages. In order to classify
the literature works the support vector machines are used. As a part of
experimental work of this thesis 2 experiments are performed.
From the many available methods for making a text suitable to text
mining tasks, the term selecting and weighting schemas are found as most
importants. Additionally a new fuzzy logic system based, term selecting
scheme is proposed.
Key Words: Data mining, Text mining, Term selecting and weighting, Classifying,
Fuzzy Logic.
TEŞEKKÜR
Çalı
ş
maları
m boyunca değerli yardı
m ve katkı
ları
yla beni yönlendiren tez
danı
ş
manı
m değerli Hocam Prof. Dr Ahmet ARSLAN’a teş
ekkürü bir borç bilirim.
İ
Çİ
NDEKİ
LER
ÖZET
ABSTRACT
TEŞEKKÜR
İ
Çİ
NDEKİ
LER
ŞEKİ
LLER, RESİ
MLER VE TABLOLAR
1. Gİ
Rİ
Ş
2. KONU İ
LE İ
LGİ
LİBİ
LGİ
LER
3. MATERYAL VE METOT
3.1 – Materyal
3.1.1 – Veri Madenciliği
3.1.1.1 Veri Madenciliğine Genel Bakı
ş(Tarihçe)
3.1.1.2 VM Çekirdek Sistemi (MÇS)
3.1.1.3 VTBK İ
le Diğer Disiplinler Arası
ndaki İ
liş
ki
3.1.1.3.1 VTBK ile makine öğrenimi arası
ndaki iliş
ki
3.1.1.3.2 VTBK ile istatistik arası
ndaki iliş
ki
3.1.1.3.3 VM ile veri tabanıarası
ndaki iliş
ki
3.1.1.4 Veri Madenciliğinde Karş
ı
laş
ı
lan Problemler
3.1.1.4.1 Veri tabanıboyutu
3.1.1.4.2 Veri madenciliğ
indeki gürültüler
3.1.1.4.3 Null değerler
3.1.1.4.4 Eksik veri
3.1.1.4.5 Artı
k veri
3.1.1.4.6 Dinamik veri
3.1.1.5 Veri Madenciliği Algoritmaları
3.1.1.5.1 Hipotez testi
3.1.1.5.2 Sı
nı
flama algoritması
3.1.1.5.3 Kümeleme algoritması
3.1.1.5.4 Eş
leş
tirme algoritması
3.1.1.5.5 Zaman serileri arası
ndaki bağı
mlı
lı
klar
3.1.1.5.6 Sı
ra örüntüler
3.1.1.6 Veri Madenciliğini Etkileyen Eğilimler
3.1.2 – Metin Madenciliği
3.1.2.1 Giriş
3.1.2.2 Metin Madenciliği Tanı
mı
3.1.2.3 İ
lgili Araş
tı
rma alanları
3.1.2.4 Metin Kodlama
3.1.2.4.1 Metin öniş
leme
3.1.2.4.2 Filtreleme, Lemmatization ve Stemming iş
lemleri
3.1.2.4.3 Endeks Terim Seçimi
3.1.2.4.4 Vektör Uzay Modeli
3.1.2.4.5 Dilbilimi ile öniş
leme
3.1.2.5 Metin için Veri Madenciliğ
i Metotları
3.1.2.5.1 Metin Sı
nı
flama
3.1.2.5.2 Endeks Terim Seçimi
I
II
III
IV
V
1
3
4
4
4
7
8
8
8
9
9
10
10
11
11
12
13
13
14
15
15
16
16
16
17
18
19
19
19
21
21
22
23
23
24
25
25
26
26
3.1.2.5.3 Naive Bayes Sı
nı
flayı
cı
3.1.2.5.4 En yakı
n komş
uluk Sı
nı
flayı
cı
3.1.2.5.5 Karar Ağaçları
3.1.2.5.6 Destek vektör makineleri ve çekirdek metotları
3.1.2.5.7 Kümeleme
3.1.3 – Web Madenciliği
3.1.4 – Bulanı
k Mantı
k
3.1.4.1 Giriş
3.1.4.2 Bulanı
k Sistemler
3.1.4.3 Bulanı
k Kümeler ve Üyelik Fonksiyonları
3.1.4.4 Bulanı
klaş
tı
rma İ
ş
lemi
3.1.4.5 Durulaş
tı
rma İ
ş
lemi
3.1.4.6 Temel İ
ş
lemler
3.1.5 – Terim Seçme ve Ağı
rlı
klandı
rma Şemaları
3.1.5.1 Terim Seçme
3.1.5.1.1 Terim Seçme Metotları
3.1.5.1.2 Doküman frekansı(DF)
3.1.5.1.3 Enformasyon Kazancı
3.1.5.1.4 Müş
terek enformasyon (Mutual information)
2
3.1.5.1.5  istatistiğ
i (CHI)
3.1.5.1.6 Terim güçü
3.1.5.2 Terim Ağı
rlı
klandı
rma
3.1.5.2.1 İ
lgili Araş
tı
rmalar
3.1.5.2.2 İ
kili ağı
rlı
k metodu
3.1.5.2.3 Terim frekans (TF) metodu
3.1.5.2.4 Klasik TFIDF metodu
3.1.5.2.5 CDT metodu
3.1.5.2.6 TFRF metodu
3.1.5.3 Var Olan Metotlar Üstüne Bir Eleş
tiri
3.2 – Metot
3.2.1 Edebiyat Eserlerini Web Verilerine Dayanarak
Sı
nı
flandı
rma
3.2.1.1 Sı
nı
flama modeli ve algoritma
3.2.1.2 Modelin Genel görünümü ve Akı
şş
emaları
3.2.1.3 Sı
nı
flanacak Verilerin Elde Edilmesi
3.2.1.4 Sı
nı
flama için edebiyat eserlerin ve sı
nı
fları
n
seçilmesi
3.2.1.5 Edebiyat eserleri hakkı
nda bilgi içeren web
sitelerin elde edilmesi
3.2.1.6 Yardı
mcıveri tabanıtasarı
mı
3.2.1.7 Gürültü Temizliğ
i ve Öniş
lemler
3.2.1.8 Kelime Vektörün Oluş
turulması
3.2.1.9 Sı
nı
flama İ
ş
lemi
3.2.1.10 Deneyler için geliş
tirilen ve kullanı
lan yazı
lı
mlar
ve araçlar
3.2.2 – Bulanı
k Terim Seçme Şeması
3.2.2.1 Genel bilgi
27
27
28
28
30
33
37
37
41
44
45
46
47
49
49
49
50
50
50
51
51
52
53
53
54
54
54
55
55
56
56
59
59
60
61
62
64
65
68
71
71
73
73
3.2.2.2 Şemanı
n yapı
sı
3.2.2.3 Üyelik fonksiyonlar
3.2.2.4 Kural tablosu
3.2.2.5 Durulaş
tı
rma
3.2.2.6 Çözüm uzayı
3.2.2.7 Bulanı
k sistem için bir örnek
3.2.2.8 Önerilen yeni ş
emanı
n avantajlarıve dezavantajları
4. SONUÇ
KAYNAKLAR
EK-1
76
77
79
80
81
81
82
84
86
93
ŞEKİ
L VE Çİ
ZELGELER
Şekil 3.1 VTBK sürecinde yer alan basamaklar
6
Şekil 3.2 VM MÇS gösterimi
8
Şekil 3.4 Örnek bir doküman ve bu doküman kelime vektör temsili
22
Şekil 3.5 Destek vektör makineler sı
nı
flayı
cı
29
Şekil 3.6 : Web Madenciliği Sı
nı
flandı
rması
34
Sekil 3.7 : Web Madenciliği Sı
nı
flandı
rması
35
Şekil 3.8 Klasik (Aristo) Mantı
k Modeli
39
Şekil 3.9 Bulanı
k Mantı
k Modeli
39
Şekil 3.10 Genel Bulanı
k Mantı
k Sistemi
42
Şekil 3.11 T-S-K Bulanı
k Mantı
k Sistemi
42
Şekil 3.12 Genel Bulanı
k Mantı
k Sistemi
43
Şekil 3.13 Isıdeğerlerinin bulanı
k ve normal kümelerle gösterimi, 44
üyelik fonksiyonları
Şekil 3.15 Üçgen üyelik fonksiyonu
45
Şekil 3.16 Yamuk üyelik fonksiyonu
45
Şekil 3.17 Durulaş
tı
rma iş
lemin genel temsili
46
Şekil 3.18 Kelime uzayı
nda doküman vektörlerin gösterimi
53
Şekil 3.19 Çalı
ş
mayıtemsil eden Akı
şdiyagramı
59
Şekil 3.19 Web site adreslerin elde edileme algoritması
62
Şekil 3.19 Web sitelerin elde edileme algoritması
63
Şekil 3.22 Web sitelerin madenciliğe uygun hale getirilmesi
67
algoritması
Şekil 3.22 Terim seçme ve ağ
ı
rlı
klandı
rma ş
emasıalgoritması
69
Şekil 3.23 Terim seçme ve ağ
ı
rlı
klandı
rma ş
emasıalgoritması
70
Şekil 3.24 Doküman – terim uzayı
nda İ
deal terim dağı
lı
mı
74
Şekil 3.25 Doküman – terim uzayı
nda Gerçek terim dağı
lı
mı
74
Şekil 3.26 Terim seçimi
75
Şekil 3.27 B-TSŞiçin Bulanı
k Sistem
76
Şekil 3.28 B-TSŞiçin Bulanı
k Sistem
77
Şekil 3.28 Kategori içi doküman frekansı
77
Şekil 3.29 Kategori dı
ş
ıtoplam doküman frekansı
78
Şekil 3.30 Terim seçme Ağ
ı
rlı
k değeri için üyelik fonksiyonları
79
Şekil 3.31 Bulanı
k sistemin çözüm uzayı
81
Şekil 3.32 Girişdeğerlerine göre elde edilecek çı
kı
şdeğer örneği
82
1
1. Gİ
Rİ
Ş
İ
nternetinin doğuş
undan bu yana sadece 20 yı
l geçmesine rağmen, sahip
olduğu çevrim içi bilgi ile metinsel bir devrim gerçekleş
tirildi. (Michael W. Berry
2003). Artı
k akı
llıarama motorlarısayesinde herhangi bir konuda bilgiye ulaş
mak
sadece bir sorgu yazı
lmasıile mümkündür. Ancak internete yüklenen veri miktarı
büyük hı
zla büyümeye devam ettiği sürece bu verilere ulaş
mak da zorlaş
acaktı
r.
Geleneksel veri madenciliği yapı
sal veri kaynakları (veri tabanları
) ile
çalı
ş
maktadı
r. Web siteleri ise, çoğu zaman kalı
psı
z yada yarı
-kalı
plıkaynaklar
oldukları
ndan, veri madenciliği onlara yeterli seviyede uygulanamamı
ş
tı
r. Bu
yüzden Internet kaynaklıHTML sayfaları
ndan (içlerindeki düz metinden) bilgi
keş
fetmek için, veri madenciliği temeline dayanan web ve metin madenciliği
kullanı
lmaktadı
r.
Çalı
ş
manı
n temelinde Internet’te mevcut olan fakat öniş
lemler ve bilgi
keş
fi yapı
larak ulaş
ı
labilecek bilgilerin belirli bir amaç doğrultusunda elde edilip
kullanı
lmasıana fikir olarak konulmuşve bu yol ile yaygı
n kitapları
n türlerine
göre sı
nı
flandı
rı
lmasıhedeflenmiş
tir. Burada kastedilen sı
radan bir sı
nı
flama
görevi yerine web den toplanacak veriler sayesinde bir sı
nı
flama gerçekleş
tirmek.
Çalı
ş
manı
n önemi de ayni sebeptendir, sı
nı
flamanı
n web verilerine dayanarak
hangi derecede baş
arı
labileceğini test etmek. Bu denemenin gerçekleş
ebilmesi
için gereken yazı
lı
mlar ve araçları
n geliş
tirilmesi de deneysel çalı
ş
maları
n bir
parçası
dı
r.
Metin madenciliğinde, metinin sayı
sal gösterimini elde etmek için terim
ağı
rlı
klandı
rma ş
emalarıkullanı
lı
r. Metin madencilik yöntemlerinden olan metin
sı
nı
flama tekniği metnin çok boyutluluğuyla çalı
ş
amamaktadı
r. Metnin çok
boyutlu özelik uzayısı
nı
flamaya uygun hale getirilmesi için bu özelik sayı
sı
nı
n
düş
ürülmesi gereklidir. Boyut indirgeme iş
lemi aslı
nda metni oluş
turan terimlerin
içinden bazı
ları
nı
n seçilmesidir. Bu çalı
ş
mada yeni bir terim ağı
rlı
klandı
rma ve
seçme ş
emasıönerilmekte. Tez kapsamı
nda yapı
lan sı
nı
flama görevinde önerilen
bu yeni ş
ema eski var olan ş
emalarla da karş
ı
laş
tı
rı
lmaktadı
r.
2
Tezin amacınispeten detaylıolarak aş
ağı
daki ş
ekilde açı
klanmı
ş
tı
r:
 Genel bir sı
nı
flandı
rma yapmak
o Web sitelerinde geçen kelimelere dayanan bir sı
nı
flama modeli
geliş
tirmek.
o Aş
ağı
da listelenen iş
lemleri otomatik gerçekleş
tirecek bir algoritma ve
yazı
lı
m geliş
tirmek
 İ
lgili web siteleri tespit etmek, yerel veri tabana eklemek
 Web sitelerini düz metne dönüş
türmek
 Metnin madenciliğe uygun hale getirmek
 Sı
nı
flama yani öğrenme sürecini gerçekleş
tirmek
 Sı
nı
flama modelini test etmek
 Yeni bir terim seçme ve ağ
ı
rlı
klandı
rma ş
emasısunmak.
o Önerilen yeniliğin var olan yöntemlerle karş
ı
laş
tı
rmak.
Çalı
ş
manı
n önemi:
Bu çalı
ş
mada denenen sı
nı
flama modeli ve bunun uygulanması
yla elde
edilen sonuçlar çalı
ş
manı
n önemini yansı
tmakta. Çalı
ş
mada web sitelerde hali
hazı
rda bulunan veriler kullanı
larak sı
nı
flama denemesi yapı
lmı
ş
tı
r ve sonuç
olarak %75 e yakı
n bir baş
arı
yla gerçekleş
en sı
nı
flama, kı
smen de olsa web
sitelerde bulunan verilere güvenerek sı
nı
flama yapı
labileceği gösterilmiş
tir.
Ayrı
ca bu çalı
ş
mada, metin dokümanları
nıoluş
turan kelimeler ya da terimlerin
filtrelenmesini sağ
layacak yeni bir terim seçme metodu ve bu terimlerin ağı
rlı
k
değerleri ile temsil edilebilmelerini sağlayan ağı
rlı
klandı
rma ş
emasıönerilmiş
tir.
Tez metnin ilk ana baş
lı
ğ
ı
nda teorik bilgiler verilmekte. Çalı
ş
manı
n
dolaylıveya dolaysı
z ilgili olduğu konular sı
rayla açı
klanmaktalar. İ
lk bölümde
her ş
eyin kaynağı
nda bulunan veri madenciliği ele alı
nmı
ş
tı
r. İ
kinci konuda bu
çalı
ş
manı
n temelinde bulunan fikri bize sunan metin madenciliğ
i konusu
anlatı
lmakta. Devamı
nda web madenciliğine değinilmektedir. Dördünce kı
sı
m
metin madenciliğinde kullanı
lan terim seçme ve ağı
rlı
klandı
rma ş
emaları
anlatı
lmaktadı
r. Son bölümü ise bulanı
k mantı
ğa ayrı
lmı
ş
tı
r.
3
Tez metnin ikinci ana baş
lı
ğ
ı pratik çalı
ş
malarıve uygulamaları
anlatı
lmaktadı
r. Kitapları
n sı
nı
flandı
rı
lmasıiçin hazı
rlanan sı
nı
flama modeli
altyapı
sıve gerçek uygulamasıilk bölümde anlatı
lmakta. İ
kinci kı
sı
mda ise
önerilen yeni terim seçme ve ağı
rlı
klandı
rma ş
emasıtanı
tı
lmaktadı
r.
4
3. MATERYAL VE METOT
3.1 Materyal
3.1.1 Veri Madenciliği
Bu bölümde veri madenciliğinden, veri tabanı
nda bilgi keş
finden, kı
saca
veri madenciliği algoritmaları
ndan, veri madenciliği ön veri iş
lemeden ve veri
madenciliğinde karş
ı
laş
ı
lan sorunlardan bahsedilecektir. En son olarak veri
madenciliğinde kullanı
lan araçlara değinilecektir.
Bilgisayar sistemleri her geçen gün hem daha ucuzluyor, hem de güçleri
artı
yor (Alpaydı
n 1999). İ
ş
lemciler gittikçe hı
zlanı
yor, disklerin kapasiteleri
artı
yor. Artı
k bilgisayarlar daha büyük miktardaki veriyi saklayabiliyor ve daha
kı
sa sürede iş
leyebiliyor Bunun yanı
nda bilgisayar ağ
ları
ndaki ilerleme ile bu
veriye baş
ka bilgisayarlardan da hı
zla ulaş
abilmek mümkün olabilmektedir.
Bilgisayarları
n ucuzlaması ile
sayı
sal
teknoloji
daha
yaygı
n
olarak
kullanı
lı
yor. Veri doğ
rudan sayı
sal olarak toplanı
yor ve saklanı
yor. Bunun
sonucu olarak da ayrı
ntı
lıve doğru bilgiye ulaş
abiliyoruz.
Örneğin eskiden süper marketteki kasa basit bir toplama makinesinden
ibaretti. Müş
terinin o anda satı
n almı
şolduğu malları
n toplamı
nıhesaplamak
için kullanı
lı
rdı
. Günümüzde
ise kasa
yerine
kullanı
lan
satı
ş noktası
terminalleri sayesinde bu hareketin bütün detaylarısaklanabiliyor. Saklanan bu
binlerce malı
n ve binlerce müş
terinin hareket bilgileri sayesinde her malı
n
zaman içindeki hareketlerine ve eğer müş
teriler bir müş
teri numarasıile
kodlanmı
ş
sa bir müş
terinin zaman içindeki verilerine ulaş
mak ve analiz etmek
mümkün olabilmektedir. Bütün bunlar marketlerde kullanı
lan barkot, bilgisayar
destekli veri toplama ve iş
leme cihazlarısayesinde mümkün olmaktadı
r.
Verilen market örneğ
inde olduğ
u gibi ticari, tı
p, askeri, iletiş
im, vb.
birçok alanda benzer teknolojilerin kullanı
lmasıile veri hacminin yaklaş
ı
k olarak
her yirmi ayda iki katı
na çı
ktı
ğ
ıtahmin edilmektedir (Frawley 1991).
5
Verilerin ne kadar hı
zlıtoplandı
ğı
nıve iş
lemesinin imkânsı
z bir noktaya
geldiğini en belirgin bir ş
ekilde NASA kurumunda görmekteyiz (Fayyad 2000).
NASA’nı
n kullandı
ğıuyduları
n sadece birinden, bir günde terabayt’larca veri gelir.
Veri kendi baş
ı
na değersizdir. İ
stediğimiz, amacı
mı
z doğrultusunda
bilgidir. Bilgi bir amaca yönelik iş
lenmişveridir. Veriyi bilgiye çevirmeye veri
analizi veya bilgi keş
fi (BK) denir. Bu tanı
mda keş
if sözcüğünün kullanı
lması
nı
n
amacı
, gizli olan ve daha önceden bilinmeyen örüntülerin bulunması
ndan
kaynaklanmaktadı
r. Bilgi, bir soruya yanı
t vermek için veriden çı
kardı
ğ
ı
mı
z
anlam olarak da tanı
mlanabilir. Veri sadece sayı
lar veya harfler değildir; veri,
sayıve harfler ve onları
n anlamı
dı
r. Veri hakkı
ndaki bu veriye üstveri diyoruz.
Veri hacminin hangi boyutlara ulaş
abileceğ
i ve bunları
n iş
lenmesinin ne kadar güç
olduğu kolayca anlaş
ı
labilmektedir. Süper market örneğ
i incelendiğinde, veri
analizi yaparak her mal için bir sonraki ayı
n satı
ştahminleri çı
karı
labilir;
müş
teriler satı
n aldı
klarımallara bağlıolarak gruplanabilir; yeni bir ürün için
potansiyel müş
teriler belirlenebilir; müş
terilerin zaman içindeki hareketleri
incelenerek onları
n davranı
ş
larıile ilgili tahminler yapı
labilir. Binlerce malı
n ve
müş
terinin olabileceği düş
ünülürse bu analizin gözle ve elle yapı
lamayacağı
,
otomatik olarak yapı
lması
nı
n gerektiğ
i ortaya çı
kar. Veri madenciliği burada
devreye girer:
Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin
yapmamı
zısağ
layacak bağı
ntıve kuralları
n bilgisayar programlarıkullanarak
aranması
dı
r. Geleceğin, en azı
ndan yakı
n geleceğin, geçmiş
ten çok fazla farklı
olmayacağı
nıvarsayarsak geçmişveriden çı
karı
lmı
şolan kurallar gelecekte de
geçerli olacak ve ilerisi için doğ
ru tahmin yapmamı
zısağ
layacaktı
r.
Büyük miktarlarda verinin VT’lerde tutulduğu bilindiğine göre bu verilerin
VM teknikleriyle iş
lenmesine de veri tabanı
nda bilgi keş
fi denir (VTBK). Büyük
hacimli olan ve genelde veri ambarları
nda tutulan verilerin iş
lenmesi yeni kuş
ak
araç ve tekniklerle mümkün olabilmektedir. Bundan dolayıbu konularda yapı
lan
çalı
ş
malar güncelliğini korumaktadı
r. Bazıkaynaklara göre; VTBK daha genişbir
disiplin olarak görülmektedir ve VM terimi sadece
bilgi keş
fi (BK)
metotları
yla uğraş
an VTBK sürecinde yer alan bir adı
mdı
r (Fayyad et al.,
6
1996a). Prof. Dr. Usama Fayyad’a göre VTBK sürecinde yer alan adı
mlar ş
u
ş
ekilde sı
ralanmaktadı
r (Fayyad et al., 1996b):
1. Veri Seçimi: Bu
adı
m veri kümelerinden sorguya uygun verilerin
seçilmesidir. Elde edilen verilere örneklem kümesi denmektedir.
2. Veri Temizleme ve Ön iş
leme: Örneklem kümesi elde edildikten sonra,
örneklem kümesinde yer alan hatalıtutanakları
n çı
karı
ldı
ğıve eksik nitelik
değerlerinin değ
iş
tirildiği aş
amadı
r. Bu aş
ama seçilen veri
madenciliği
sorgusunun çalı
ş
ma zamanı
nıiyileş
tirir.
3. Veri Madenciliğ
i: veri temizleme ve ön iş
lemden geçen örneklem kümesine
VM
sorgusunun
uygulanması
dı
r.
Örnek
VM
sorguları
:
kümeleme,
sı
nı
flandı
rma, iliş
kilendirme, vb. sorgulardı
r.
4. Yorumlama: VM sorguları
ndan ortaya çı
kan sonuçları
n yorumlanma
kesimidir. Burada geçerlilik, yenilik, yararlı
lı
k ve basitlik açı
ları
ndan üretilen
sonuçlar yorumlanı
r.Bu basamaklar Şekil 3.1’de ifade edilmiş
tir.
Yorumlama ve
Doğrulama
Bilgi
Veri Madenleme
İ
ndirgeme
Örünüler
Öniş
leme
Veri Seçimi
İ
ndirgenmi şveri
Öniş
lemlerden
GeçmişVeri
VERİ
Örnekler Kümesi
Şekil 3.1 VTBK sürecinde yer alan basamaklar
7
VM için yapı
lan diğer tanı
mlardan bazı
larıda ş
unlardı
r:
1. Holsheimer tarafı
ndan yapı
lan bir tanı
ma göre VM, büyük veri kümesi
içinde saklıolan genel örüntülerin bulunmasıolarak açı
klanmı
ş
tı
r ( Holsheimer
and Siebes, 1994).
2. VM, önceden bilinmeyen ve potansiyel olarak faydalıolabilecek, veri
içindeki gizli bilgilerin çı
karı
lması
dı
r (Frawley et al., 1991).
3.1.1.1 Veri Madenciliğine Genel Bakı
ş(Tarihçe)
VM yaklaş
ı
mıortaya çı
kmadan önce, büyük veri tabanları
ndan faydalı
örüntüler elde etmek için, çevrim-dı
ş
ıveri üzerinde çalı
ş
an istatistiksel paketler
kullanı
lı
rdı
.İ
statistiksel yaklaş
ı
mları
n kullanı
mı
nda bu paketlerin dezavantajları
ortaya çı
kmaktaydı
. Bu dezavantajlardan en önemlisi;
toplanması
ndan
ve
amacı
n
belirlenerek
istatistiksel
istenen verilerin
yaklaş
ı
mları
n
uygulanması
ndan sonra bir uzman tarafı
ndan değerlendirilmesi gerekliliğidir.
Baş
ka bir dezavantajıise her farklıihtiyaç için bu iş
lemlerin tekrarlanması
dı
r.
Bu sorun VTBK’de kı
smen aş
ı
lmı
ş
tı
r. VTBK (Matheus, 1993) çok büyük
hacimli verilerden anlamlıiliş
kileri otomatik keş
feder.
8
3.1.1.2 VM Çekirdek Sistemi (MÇS)
VTBK farklıdisiplinleri biraraya getiren bir sistemdir. VM Çekirdek Sistemi
(MÇS)
(The
Mining
Kernel
System)
Şekil
3.2’de
gösterilmiş
tir
[http://www.pccc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_2.html,
2002].
Veri Tabanı
Makine
öğrenimi
Kümeleme ya
da Sı
nı
flama
algoritması
Veri Madenciliği
MÇS
İ
statistik
Görüntüleme
Şekil 3.2 VM MÇS gösterimi
VM MÇS’ni oluş
turan diğer disiplinlerle VTBK arası
ndaki iliş
ki izleyen
kesimde anlatı
lacaktı
r.
3.1.1.3 VTBK İ
le Diğer Disiplinler Arası
ndaki İ
liş
ki
3.1.1.3.1 VTBK ile makine öğrenimi arası
ndaki iliş
ki
Makine öğrenimi gözlem ve deneye dayalıampirik kuralları
n otomatik
biçimde bulunmasıolan VTBK sistemleri ile yakı
ndan ilgilidir. Genel olarak
makine öğrenimi ve örüntü tanı
ma alanları
nda yapı
lan çalı
ş
maları
n sonuçları
VTBK’de veri modelleme ve örüntü çı
karmak için kullanı
lmaktadı
r. Bu
çalı
ş
malardan bazı
ları
:
9
Örneklerden öğ
renme, düzenli örüntülerin keş
fi, gürültülü ve eksik veri ve
eksik belirsizlik yönetimi olarak sayı
labilir.
VTBK’nı
n makine öğreniminden en büyük farkıaş
ağı
da sı
ralanmı
ş
tı
r:
 
VTBK büyük veri kümeleriyle çalı
ş
abilir,
 
VTBK gerçek dünya verileriyle uğraş
ı
r.
Veri görselleş
tirmede kullanı
lan yöntemler, VTBK sistemi ile elde edilen
örüntülerin, kullanı
cı
ya grafikler aracı
lı
yla sunumunu sağlar.
3.1.1.3.2 VTBK ile istatistik arası
ndaki iliş
ki
İ
statistik ile VTBK arası
ndaki iliş
kinin ana sebebi veri modelleme ve verideki
gürültüyü
azaltmadan
kaynaklanmaktadı
r. İ
statistiğin
VTBK’de
kullanı
lan
tekniklerinden bazı
larıaş
ağı
da sı
ralanmı
ş
tı
r:
 
Özellik seçimi (Corinna, 1995),
 Veri bağı
mlı
lı
ğı(Zhong and Ohsuga, 1994; Shapiro and Matheus, 1992),
 Tanı
ma dayalınesnelerin sı
nı
flandı
rı
lması(Chan and Wong, 1991),
 
Veri özeti (Shapiro and Matheus, 1992),
 Eksik değerlerin tahmini (Elder-IV and D. Pregibon, 1995),
 Sürekli değerlerin ayrı
mı(Zhong and Ohsuga, 1994; Fayyad and Iranı
,
1993), vb.
3.1.1.3.3 VM ile veri tabanıarası
ndaki iliş
ki
VM sorguları
na girdi sağlamak amacı
yla VT kullanı
lmaktadı
r. VT’deki
sorgu cümlecikleri VM’nin istediği örneklem kümesini elde etmek amacı
yla
kullanı
lmaktadı
r. Özellikle iliş
kilendirme
sorgusunda
fazla miktarda VT
sorgusu yapmak gerekmektedir.
VM, VT’den farklı
dı
r, çünkü VT’de var olan örüntüler için sorgular
çalı
ş
tı
rı
lı
rken, VM’deki sorgular genelde keş
fe dayalıve ortada olmayan
örüntüleri keş
fetmeye dayalı
dı
r.
10
3.1.1.4 Veri Madenciliğinde Karş
ı
laş
ı
lan Problemler
Makina öğrenimiyle VM arası
ndaki farklar sı
ralanı
rken ş
u önemli detay
hemen söylenir: MÖ küçük deneysel verilerle uğ
raş
ı
rken VM büyük hacimli
gerçek dünya verileriyle uğraş
ı
r. Bu fark VM’de büyük sorunlar oluş
turur.
Bundan dolayımesela küçük veri setleriyle ve yapay hazı
rlanmı
şverilerle doğru
çalı
ş
an sistemler büyük hacimli, eksik, gürültülü, NULL değ
erli, artı
k, dinamik
verilerle yanlı
şçalı
ş
abilir. Bundan dolayıbu sorunları
n aş
ı
lmasıgerekmektedir.
3.1.1.4.1 Veri tabanıboyutu
Veri tabanıboyutu 2. bölümün baş
ı
nda verilen NASA örneğinde olduğu
gibi veri hacmi büyük boyutlara ulaş
maktadı
r (Fayyad et al., 2000). VT’de
tutulan verilerin boyutu iki boyutlu olarak geniş
lemektedir:
 
Yatay Boyut: nesnelerin özellik sayı
ları
yla geniş
lemektedir.
 
Dikey Boyut: nesnelerdeki kayı
t sayı
sı
yla geniş
lemektedir.
Geliş
tirilen pek çok algoritma yüzler mertebesindeki verilerle uğ
raş
acak
ş
ekilde geliş
tirildiğinden aynıalgoritmanı
n yüz binlerce kat daha fazla kayı
tlarla
çalı
ş
abilmesi için azami dikkat gerekmektedir. Veri hacminin büyüklüğünden
kaynaklanan sorunun çözümü için uygulanacak alternatif çözümlerden bazı
ları
:
 
Örneklem kümesinin yatay ve dikey boyutta indirgenmesi,
 Yatay indirgeme: Nitelik değerlerinin önceden belirlenmişgenelleme
sı
radüzenine göre, bir üst nitelik değeri ile değiş
tirilme iş
lemi
yapı
ldı
ktan sonra aynıolan çokluları
n çı
karı
lma iş
lemidir.
 Dikey indirgeme: Artı
k niteliklerin indirgenmesi iş
lemidir.
 
VM yöntemleri sezgisel/buluş
sal bir yaklaş
ı
mla arama uzayı
nıtaramalı
dı
r,
vb.
11
Örneklem kümesinin geniş olmasıbulunacak örüntüleri ne kadar iyi
tanı
mlı
yorsa, bu büyük kümeyle uğ
raş
ma zorluğu da o kadar artmaktadı
r.
3.1.1.4.2 Veri Madenciliğindeki gürültüler
Veri giriş
i veya veri toplanmasıesnası
nda oluş
an sistem dı
ş
ıhatalara
gürültü denir. Veri toplanmasıesnası
nda oluş
an hatalara ölçümden kaynaklanan
hatalar da dâhil olmaktadı
r. Bu hataları
n sonucu olarak VT’de birçok niteliğin
değeri yanlı
şolabilir.
Günümüz ticari iliş
kisel veri tabanlarıbu tür hataları
n ele alı
nması
için az bir destek sunmaktadı
r. VM’de kullanı
lan gerçek dünya verileri için bu
sorun ciddi bir problemdir. Bu sebepten dolayıVM tekniklerinin gürültülü
verilere karş
ıdaha az duyarlıolmasıgerekir.
Sistemin gürültülü veriye daha az duyarlıolması
ndan kası
t, gürültülü
verilerin sistem tarafı
ndan tanı
nmasıve ihmal edilmesidir.
Chan ve Wong (1991), gürültünün etkisini azaltmak için istatistiksel
yöntemler kullanmı
ş
tı
r. Sı
nı
flama
üzerine
yaptı
ğı çalı
ş
malardan
tanı
nan
Quinlan’nı
n gürültünün sı
nı
flama üzerine etkileri konusunda yaptı
ğıçalı
ş
mada;
etiketli öğ
renmede
etiket üzerindeki gürültünün öğrenme
algoritması
nı
n
performansı
nıdoğrudan etkileyerek düş
ürdüğünü tespit etmiş
tir (Quinlan, 1986).
Tümevarı
msal karar ağaçları
nda uygulanan metotlar bağlamı
nda gürültülü
verinin yol açtı
ğıproblemler araş
tı
rı
lmı
ş
tı
r (Quinlan, 1986).
3.1.1.4.3 Null değerler
Eğer VT’de bir nitelik değeri NULL ise o nitelik bilinmeyen ve
uygulanamaz bir değere sahiptir. VT’de birincil anahtar haricindeki herhangi bir
niteliğin özelliği NOT NULL (NULL olamaz) ş
eklinde tanı
mlanmadı
ğ
ısürece
bu niteliğin değeri NULL olabilir.
12
Kurulacak bir iliş
kide kullanı
lacak verilerin aynısayı
da niteliğe ve NULL
olsa bile aynısayı
da nitelik değ
erine sahip olmasıgerekir.
Lee NULL değ
erini iliş
kisel veri tabanları
nıgeniş
letmek için aş
ağı
daki
üç gruba girecek ş
ekilde ayı
rmı
ş
tı
r (Lee, 1992):
 Bilinmeyen,
 Uygulanamaz,
 Bilinmeyen veya uygulanamaz.
Bu ayrı
mda ş
u ana kadar sadece bilinmeyen değer üzerinde çalı
ş
malar yapı
lmı
ş
tı
r
(Luba and R. Lasocki, 1994; Grzymala-Busse, 1991; Thiesson,1995).
Veri kümelerinde var olan NULL değerleri için çeş
itli çözümler söz
konusudur [Quinlan, 1986]:
 NULL değerli kayı
tlar tamamı
yla ihmal edilebilir,
 NULL değerli kayı
tlardaki NULL değerleri olasıbir değerle günlenebilir.
Bu günleme için çeş
itli yöntemler söz konusudur:
o NULL değeri yerine o nitelikteki en fazla frekansa sahip bir değer
veya ortalama bir değer konulabilir,
o NULL değeri yerine varsayı
lan bir değer konulabilir,
o NULL değerinin bulunduğ
u kaydı
n diğer özelliklerine göre, NULL
değerinin kendine en yakı
n değerle günlenmesi sağlanabilir, vb.
3.1.1.4.4 Eksik veri
VM’de iliş
kilerin kurulabilmesi ve istenen problemin çözümüne ulaş
abilmek
için gereken örneklem kümesindeki 2 boyutun (bölüm 2.4.1’de tanı
mlanan
yatay ve dikey boyutun) eksik olmamasıgerekir. Bu boyuttaki eksiklikler ş
u
ş
ekilde olabilir:
Yatay boyutta: Yatay boyuttaki eksiklik, örneklem kümesinde olmasıgereken

nitelik veya niteliklerin olmaması
dı
r. Örneğin: eğer insanları
n göz rengiyle
13
alakalıbir hastalı
ğı
n neye bağlıolduğu bulunmaya çalı
ş
ı
lı
yorsa, niteliklerden
göz renginin örneklem kümesinde bulunmasıgerekir.

Dikey boyutta: Dikey boyuttaki eksiklik örneklem kümesindeki kayı
tları
n eksik
olması
dı
r. Örneğ
in bir süper markette yaş
ı10 ve 25 yaş
ı
ndaki kiş
iler her
yaptı
kları alı
ş
veriş
te
bir
ürünü
sürekli
alı
yorlarsa,
bu
örüntünün
keş
fedilmesi için örneklem kümesinde yeterli sayı
da 10-25 yaşaralı
ğ
ı
na
giren kayı
tları
n bulunmasıgerekir. Eğer örneklem kümesinde bu kayı
tlar
bulunmazsa gerçek hayatta var olan bir örüntü kaçı
rı
lmı
şolur.
3.1.1.4.5 Artı
k veri
Artı
k veri, problemde istenilen sonucu elde etmek için kullanı
lan
örneklem kümesindeki gereksiz niteliklerdir.
Artı
k nitelikleri elemek için geliş
tirilmişalgoritmalar, özellik seçimi olarak
adlandı
rı
lı
r. Özellik seçimi arama uzayı
nıküçültür ve sı
nı
flama iş
leminin
kalitesini de artı
rı
r (Deogun et al., 1995; Kira and Rendeli, 1992; Almuallim and
Dietterich, 1991; Pawlak, 1986).
3.1.1.4.6 Dinamik veri
İ
çeriği sürekli değiş
en veri tabanları
dı
r. Bunlara örnek
kurumsal
çevrim-içi veri tabanlarıgösterilebilir. Bir veri tabanı
ndaki içeriğin sürekli
değiş
mesi VM uygulamaları
nı
n uygulanabilmesini önemli ölçüde zorlaş
tı
rı
cı
sorunlar doğurmaktadı
r. Bu sorunlardan bazı
larış
unlardı
r:
 Ortaya çı
kan VM örüntülerinin sürekli değiş
im halinde olan verilerden
hangisini ifade ettiğinin tespitinin zorluğu ve bu üretilen sonuçları
n zaman
içinde eski üretilen sonuçlardan farkı
nı
n tespiti ve gereken yerlerin günlenme
zorluğu,
 VM algoritmaları
nı
n çalı
ş
abilmesi için verilerin üzerine okuma kilidi
konulmasıgerektiğinde, bu verilerin baş
ka uygulamalar tarafı
ndan değ
iş
ime
14
açı
k olmaması
,
 VM
algoritmaları
nı
n ve
çevrim-içi
VT
uygulamaları
nı
n
aynı anda
uygulanması
ndan kaynaklanan ciddi performans düş
üş
lerinin olması
, vb.
3.1.1.5 Veri Madenciliği Algoritmaları
Veri madenciliği algoritmalarıverilerde var olan bilgiyi anlaş
ı
labilecek
kurallar olarak çı
kartmaya yarayan metotlardı
r.
Veri madenciliği algoritmalarıgenel olarak iki ana gruba ayrı
lı
r (Simoudis,
1996): Doğrulamaya dayalıalgoritmalar: Kullanı
cıtarafı
ndan ispatlanmak
istenen bir hipotez ortaya sürülür ve VM algoritmaları
yla bu hipotez
ispatlanmaya çalı
ş
ı
lı
r. Çok boyutlu analizlerde ve istatistiksel analizlerde tercih
edilen metottur. Hipotez testi buna örnektir.
Keş
fe dayalıalgoritmalar: Doğrulamaya dayalıalgoritmaları
n tersine bu
algoritmalarda ortada ispatlanmasıistenen hipotezler yoktur. Tam tersine bu
algoritmalar otomatik keş
fe dayanmaktadı
r. Keş
fe dayalıalgoritmaları
n birçok
kullanı
m alanıvardı
r: istisnai durumları
n keş
fi, karar ağacı
, kümeleme gibi
algoritmalar bu yaklaş
ı
ma göre kurulmuş
tur.
VM algoritmaları
ndan önemli olanları
na izleyen kesimlerde değinilecektir.
15
3.1.1.5.1 Hipotez testi
Hipotez
testi
algoritmaları doğrulamaya
dayalı algoritmalardı
r.
Doğ
rulanacak hipotez VT üzerindeki verilerle belli doğruluk ve destek değerlerine
göre sı
nanı
r.
 Sı
nama iş
lemi uzman tarafı
ndan aş
ağı
daki ihtiyaçlardan dolayıyapı
lı
r:
 Bir kural ortaya çı
karı
lmak istendiğinde,
 Ortaya çı
karı
lmı
şbir kuralı
n budanmasıveya geniş
letilmesinde.
3.1.1.5.2 Sı
nı
flama algoritması
Sı
nı
f olmak için her kaydı
n belli ortak özellikleri olmasıgerekir. Ortak
özelliklere sahip olan kayı
tları
n hangi özellikleriyle bu sı
nı
fa girdiğ
ini
belirleyen algoritma, sı
nı
flama algoritması
dı
r.
Sı
nı
flama algoritması
, denetimli öğrenme kategorisine giren bir öğrenme
biçimidir. Denetimli öğ
renme, öğrenme ve test verilerinin hem girdi hem de
çı
ktı
yıiçerecek ş
ekilde olan verileri kullanması
dı
r.
Sı
nı
flama sorgusuyla, bir kaydı
n önceden belirlenmişbir sı
nı
fa girmesi
amaçlanmaktadı
r (Weiss
and Kulikowski,
1991).
Bir
kaydı
n önceden
belirlenmişbir gruba girebilmesi için sı
nı
flama algoritması ile öğrenme
verileri kullanı
larak hangi sı
nı
fları
n var olduğu ve bu sı
nı
flara girmek için bir
kaydı
n hangi özelliklere sahip olmasıgerektiği otomatik olarak keş
fedilir. Test
verileriyle de bu öğrenmenin testi yapı
larak ortaya çı
kan kurallar optimum
sayı
sı
na getirilir.
Sı
nı
flama algoritması
nı
n kullanı
m alanlarısigorta risk analizi, banka
kredi kartısı
nı
flaması
, sahtecilik tespiti, vb. alanlardı
r.
16
3.1.1.5.3 Kümeleme algoritması
Kümeleme algoritması denetimsiz öğrenme kategorisine giren bir
algoritmadı
r. Kümeleme algoritması
ndaki amaç verileri alt kümelere ayı
rmaktı
r
(Michalski and Stepp, 1993). Sı
nı
flama algoritması
nda olduğu gibi ortak
özellikleri olan veriler bir kümeye girer. Alt kümelere ayrı
lmak için keş
fedilen
kurallar yardı
mı
yla bir kaydı
n hangi alt kümeye girdiği kümeleme algoritması
sayesinde bulunur. Kümeleme algoritmasıgenelde astronomi, nüfus bilimi,
bankacı
lı
k uygulamaları
, vb. uygulamalarda kullanı
lı
r.
3.1.1.5.4 Eş
leş
tirme algoritması
Eş
leş
tirme
algoritması denetimsiz öğrenme
kategorisine
giren bir
algoritmadı
r. Eş
leş
tirme algoritmasısı
nı
flama algoritması
nı
n benzeridir (Seidman,
2000, syf:63). Sı
nı
flama algoritmalarıile eş
leş
tirme algoritmalarıarası
ndaki
fark, eş
leş
tirmede sı
nı
flandı
rmada olduğ
u gibi bir sı
nı
fa sokulmasıamaçlanmaz.
Eş
leş
tirmedeki amaç örneklem kümesindeki nesnelerin nitelikleri arası
ndaki
iliş
kilerin saptanması
dı
r.
Nitelikler arası
ndaki bütün kombinasyonlar çı
karı
larak bütün niteliklerin
farklıkombinasyonları
ndaki farklıdeğerleri denenerek örüntüler keş
fedilmeye
çalı
ş
ı
lı
r (Agrawal
et
al.,
1993).
Bu,
iliş
kilendirme
algoritması
nı
n
sı
nı
flandı
rma algoritması
ndan farkı
dı
r. Her bir iliş
kilendirme kuralıfarklı
ifadeleri verecek ş
ekilde ortaya çı
kar.
3.1.1.5.5 Zaman serileri arası
ndaki bağı
mlı
lı
klar
Zaman serilerindeki örüntü belli bir periyotta, belli bir sı
klı
kta
gerçekleş
en olaylardı
r. Belli frekansla tekrarlanan bu olaylar zaman serileriyle
yapı
lan VM algoritmalarısayesinde keş
fedilir. Örneğ
in, müş
teriler e-ticarette
yazı
n yazlı
k ürünlere, kı
ş
ı
n da kı
ş
lı
k ürünlere rağbet gösteriyorsa bu 6 ay
periyotla tekrarlanan bir örüntüdür.
17
3.1.1.5.6 Sı
ra örüntüler
Belli bir olayı
n bir baş
kası
nıizlemesi sı
ra örüntülerini oluş
turur (Agrawal
and Srikant, 1995). Sı
ra örüntülerine örnek ş
uş
ekilde olabilir: Tenis raketi alan
birinin az bir süre sonra tenis topu, daha sonra tenis raketinin tellerini ayarlamak
için aleti alması
dı
r. Sı
ra örüntüleri perakende satı
ş
, telekomünikasyon ve tı
p
alanı
nda kendine genişbir uygulama alanıbulmaktadı
r.
3.1.1.6 Veri Madenciliğini Etkileyen Eğilimler
Temel olarak veri madenciliğini 5 ana harici eğ
ilim etkiler (Vahaplar ve
İ
nceoğ
lu,2001):
a) Veri: Veri madenciliğinin bu kadar geliş
mesindeki en önemli etkendir.
Son
yirmi
yı
lda
sayı
sal
verinin
hı
zla
artması
, veri
madenciliğindeki geliş
meleri hı
zlandı
rmı
ş
tı
r. Bu kadar fazla
veriye bilgisayar ağlarıüzerinden eriş
ilmektedir. Diğer yanda bu
verilerle uğrasan bilim adamları
, mühendisler ve istatistikçilerin
sayı
sıhala aynı
dı
r. O yüzden, verileri analiz etme yöntemleri ve
teknikleri geliş
tirilmektedir.
b) Donanı
m: Veri madenciliği, sayı
sal ve istatistiksel olarak büyük veri
kümeleri üzerinde yoğun iş
lemler yapmayıgerektirir. Geliş
en
bellek ve iş
lem hı
zıkapasitesi sayesinde, birkaç yı
l önce
madencilik yapı
lamayan veriler üzerinde çalı
ş
mayımümkün hale
getirmiş
tir.
c) Bilgisayar Ağları
: Yeni nesil Internet, yaklaş
ı
k 155 Mbits/sn lik hatta
belki de daha da üzerinde hı
zlarıkullanmamı
zısağlayacak. Bu da
günümüzde kullanı
lan bilgisayar ağları
ndaki hı
zı
n 100 katı
ndan
daha fazla bir sürat ve tası
ma kapasitesi demektir. Böyle bir
bilgisayar ağıortamıoluş
tuktan sonra, dagı
tı
k verileri analiz
etmek ve farklıalgoritmalarıkullanmak mümkün olacaktı
r.
18
Bundan 10 yı
l önceki bilgisayar ağlarıteknolojisinde hayal
edilemeyenler artı
k kullanı
labilmektedir. Buna bağlıolarak, veri
madenciliğine uygun ağları
n tasarı
mıda yapı
lmaktadı
r.
d) Bilimsel Hesaplamalar: Günümüz bilim adamlarıve mühendisleri,
simülasyonu teori ve deneyden sonra bilimin üçüncü yolu olarak
görmektedirler. Veri madenciliği ve bilgi keş
fi, bu 3 metodu
birbirine bağ
lamada önemli rol almaktadı
r.
e) Ticari Eğilimler: Günümüzde ticaret ve isler çok karlıolmalı
, daha hı
zlı
ilerlemeli ve daha yüksek kalitede servis ve hizmet verme
yönünde olmalı
, bütün bunlarıyaparken de minimum maliyeti ve
en az insan gücünü göz önünde bulundurmalı
dı
r. Bu tip hedef ve
kı
sı
tları
n yer aldı
ğıis dünyası
nda veri madenciliğ
i, temel
teknolojilerden biri haline gelmiş
tir. Çünkü veri madenciliği
sayesinde müş
terilerin ve müş
teri faaliyetlerinin yarattı
ğ
ıfı
rsatlar
daha
kolay
tespit
görülebilmektedir.
edilebilmekte
ve
riskler
daha
açı
k
19
3.1.2 METİ
N MADENCİ
Lİ
Ğİ
3.1.2.1 Giriş
Metin madenciliği, doğal dil metinleri içinden yararlıbilgi keş
fetme
amacı
yla geliş
tirilmişbir özel veri madenciliği kavramı
dı
r. Kı
smen yeni bir
araş
tı
rma alanıolsa da, uzun süredir araş
tı
rmalara tabi bir konudur. Belirli bir
amaç için kullanı
ş
lıbilgi keş
fetme için metnin analiz iş
lemi olarak da
tanı
mlanabilir, metin madenciliği. Veri tabanları
ndaki yapı
sal verilerle kı
yasla
metin
yapı
sı
z ve
madencilik
algoritmaları
n uygulanabilirliği açı
sı
ndan
kullanı
ş
sı
zdı
r. Yine de metin, modern yaş
am ve kültürlerde, resmi bilgi alı
ş
veriş
araçları
ndan en önemlisi ve en çok kullanı
lanı
dı
r.
Bilgisayar ağları
n bilim ve ekonominin omurgasıhaline gelmesiyle
birlikte makineler tarafı
ndan okunabilir dokuman sayı
sı
nda patlama oldu. Ticari
bilgilerin %85 metin formatı
nda olduğunu gösteren değerlendirmeler mevcuttur
(Text mining summit conference brochure,2005) Ne yazı
k ki, dokümanlarda
bulunan genelde bulanı
k ve birçok anlamıolan bağı
ntı
ları
n, değerlendirilmesinde
geleneksel mantı
k-tabanlıprogramlama paradigmalarıyetersiz kalmaktadı
rlar.
Metin madenciliği bu bulanı
klı
k ve çok anlamlı
lı
kla bir taraftan, çok boyutlu
veriler ve yapı
sı
z doğal dil metinleriyle diğer taraftan, idare edecek metotları
n
birleş
imi olarak da görülebilir.
Bu bölümde metin madeniliği kavramı
n, bilgi keş
fetme, bilgi yeniden
getirme, makine öğrenmesi, istatistik ve özelikle veri madenciliği, disiplinleri ile
iliş
kisi acı
sı
ndan tanı
mıyapı
lacak. Devamı
nda metin madenciliği metotlarıve
bunalar hakkı
nda bilimde son durum (state of the art) raporu verilecek.
3.1.2.2 Metin Madenciliği Tanı
mı
Metin madenciliğ
i metinden bilgi keş
fetme iş
lemidir. Bu iş
lem makine
destekli bir analizdir. Bu tanı
m ilk olarak Feldman tarafı
ndan yapı
lmı
ş
tı
r (R.
Feldman ve I. Dagan, 1995). Metin madeniliği, bilgi keş
fetme ve yeniden bulma
(information retrivial), bilgi çı
karma ve doğal dil iş
leme tekniklerini kullanı
r ve
20
bunlarıistatistik, makine öğrenmesi, veri tabanı
ndan bilgi keş
fetme ve veri
madenciliği metotlarıve algoritmalarıile birleş
tirir. Bütün bu yukarı
da sayı
lan
disiplinlerle bu kadar iç içe olmasıonlardan metotlar ve algoritmalar devralması
,
metin madenciliğinin anlamı
nıve gerekliliğini sorgulamamı
za sebep olabilir.
Ancak, metin madenciliğinin sunduğ
u yenilik de bu nokta da ortaya çı
kmaktadı
r.
Metin madenciliği diğer disiplinlerin aksine metin yani yapı
sal olmayan veriler ile
çalı
ş
ı
r. Metin madenciliğini tanı
mlamayıdenesek en kolay yol yukarı
da sözü
geçen ve metin madenciliğ
inin yakı
n bağlantı
sıolan araş
tı
rma konuları
na atı
fta
bulunmak olurdu. Her bir saha için birer metin madenciliği tanı
mıortaya çı
kardı
.
Metin Madenciliği – Bilgi çı
karma (Information Extraction). Gerçeklerin
metinden elde edilmesi.
Metin Madenciliği – Metin Veri Madenciliği. Veri madenciliğine benzer
olarak- Kullanı
ş
lı
, anlamlıörüntülerin bulunmasıamacı
yla makine öğrenmesi ve
metin istatistiği alanları
ndan metotları
n ve algoritmaları
n bir uygulaması
dı
r. Bu
amaçla metin ilk önce uygun ön iş
lemlerden geçer. (U. Nahm ve R. Money, 2002)
(R. Gaizauskas, 2003).
Metin Madenciliği – Veri Tabanları
ndan Bilgi Keş
fetme Literatürde metin
madenciliği, sadece veri madenciliği ve istatistik algoritmaları
nıkullanan yeni bir
alan olarak tanı
mlanmaz. Bunun yanı
nda metin madenciliği veri tabanı
ndan bilgi
keş
fi prosesinin bir çok adı
mı
nıkendi iş
lemlerinde kullanan bir proses olarak da
tanı
mlanmakta (cri 1999). Hearst ise (M. Hearst 1999) bu tanı
mış
öyle
özetlemekte: genişmetin koleksiyonundan henüz keş
fedilememişbilgilerin bulma
iş
lemi. Kadratoff (1999) ve Gomez (2002) de metin verilerine uygulanan proses
yönelimli bir yaklaş
ı
m olarak tanı
mlamakta metin madenciliğini.
21
3.1.2.3 İ
lgili Araş
tı
rma alanları
Metin betimleme, sı
nı
flama, kümeleme, bilgi keş
fi, gizli paternlerin
bulunmasıve modellenmesi konuları
, metin madenciliğinde aktüel araş
tı
rmaları
n
yoğunlaş
tı
ğı konulardı
r. Bununla birlikte veri madenciliğinde bilinen ve
uygulanan metotları
n ve algoritmaları
n metin verilerine uygulanabilmesi için
gerekli adaptasyonları
nı
n gereksimi de bir ek araş
tı
rma alanı
dı
r. (M. Hearst,
1999), (Sparck-Jones ve P. Willett, 1997), (G. Salton ve ark. 1975), (Y. Wilks
1997). İ
lerleyen bölümlerde sözü geçen araş
tı
rma alanları
na bir çok defa atı
fta
bulunarak daha açı
klayı
cıbilgiler verilecek.
3.1.2.4 Metin Kodlama
Metin kodlama, genişmetin doküman koleksiyonları
nı
, yani düz metin
verilerini belirli öniş
lemler ile madencilik prosesine daha uygun hale getirme
iş
lemidir. Daha geleneksel bir yöntem olan kelime çuvalı(bag of words)
yönteminde dokümanlar bir kelime kümesi ile temsil edilirler. Geliş
tirilen yeni
yöntemler ise dokümanlardaki sözdizimi, kelime ve cümle yapı
larıve anlamları
nı
göz önünde bulunduran geleneksel yöntemlere kı
yasla çok daha geliş
mişve
verimli sonuçlar vermektedirler. Kelime çuvalıyönteminde ise bir dokümanı
n
sadece alt kümesi olan bir küme ile temsil edilmesi yetmemektedir, bunun
yanı
nda alt kümenin elemanlarıolan kelimelerin dokümana göre önemini
gösterecek bir sayı(ağı
rlı
k) içermeleri lazı
m. Kelime kümesindeki elemanlar için
bir vektör oluş
turularak kelimelerin dokumandaki tekrarlanma sayı
sıuygun
kelime endeksine göre vektöre kaydedilmesiyle iş
lem tamamlanı
r. Bu mantı
kla
geliş
tirilen metin betimleme ş
emalarıvektör uzay modeli (G. Salton 1975),
olası
lı
k modeli (S. E. Robertson 1977) ve mantı
k modelidir (C. J. van Rijsbergen
1986).
22
Metin kodlama, genişmetin doküman koleksiyonları
nı
, yani düz metin
verilerini belirli öniş
lemler ile madencilik prosesine daha uygun hale
getirme iş
lemidir. Daha geleneksel bir yöntem olan kelime çuvalı(bag
of words) yönteminde dokümanlar bir kelime kümesi ile temsil edilirler.
KELİ
MELER
metin
kodlama
geniş
doküman
koleksiyonları
n
düz
verilerini
belirli
öniş
lemler
madencilik
prosesine
uygun
FREKANS
3
1
1
1
1
1
1
1
1
1
1
1
hale
getirme
iş
lemidir
geleneksel
yöntem
olan kelime
çuvalı
yönteminde
dokümanlar
kelime
kümesi
temsil
edilirler
1
1
1
1
1
1
1
1
1
1
1
Şekil 3.4 Örnek bir doküman ve bu dokümanı
n kelime vektör temisli
3.1.2.4.1 Metin öniş
leme
Bir dokümanda bulunan bütün kelimelerin elde edilmesi için iş
aretleme
(tokenization) iş
lemi yapı
lı
r. Bu iş
lem esası
nda dokumanıoluş
turan metinden
noktalama iş
aretleri, bir tek boş
luk karakterinden daha fazla beyaz boş
luklarıve
diğer metin-olmayan karakterleri silme iş
lemidir. İ
ş
lemin sonunda kelimeler ve
araları
nda birer boş
luk karakteri kalı
r.
Dokuman koleksiyonunu oluş
turan bütün dokümanları
n bileş
imi ile oluş
an
metin X olsun. X metnine uygulanan iş
aretleme iş
lemi sonrası
nda ve kelimelerin
bir
defa
tekrarlanma
koş
uluyla
oluş
an
kelime
kümesine
“dokuman
koleksiyonunun Sözlüğü” denir.
Yukarda anlatı
lan algoritmanı
n daha resmi bir tanı
mıiçin ilk önce bazı
terimler ve değ
iş
kenler tanı
mlayalı
m: D dokuman kümesi olsun, ve
T {t 1,..., t m } D küme sözlüğ
ü olsun, o zaman D kümesinde bulunan d D
dokümanı
nda bulunan herhangi bir t T terimin (kelime) frekansı(tekrarlanma
23
sayı
sı
) tf(d,t)
ile
gösterilir.

t d (tf (d , t1 ),..., tf ( d , t m )) olur.
O
zaman
terim
vektör
tanı
mı da
3.1.2.4.2 Filtreleme, Lemmatization ve Stemming iş
lemleri
Sözlük büyüklüğ
ünü yani dokümanıtarif eden çok boyutlu yapı
nı
n boyut
indirgenmesi için, sözlüğü oluş
turan kelimeler kümesi filtreleme, lemmatization
ve stemming iş
lemleri ile küçültülmeli.
Filtreleme metotları sözlükte bulunan kelime sayı
sı
nı
, terimlerden
bazı
ları
nıkümeden tamamen çı
kartarak, azaltmakta. Standart filtreleme stop
terimlerin filtrelenmesidir. Stop kelime filtrelemesi fikri bazıkelimelerin
cümleden çı
kartı
lmalarıile cümlede bir değiş
ikliğe neden olunmayacağı
dı
r. Bu
kelimeler genelde bağlaçlar (ve, veya, and, or …), İ
ngilizcide prepositions,
articals gibi kelimeler de bu guruba girmektedirler. Bu kelimelerin listeleri
Internet ve değiş
ik kaynaklarda mevcutlar. Ayrı
ca dokümanlar içinde bir
kelimenin diğ
er kelimelere kı
yasla çok veya az defa tekrarlanmasıbu kelimenin
ayrı
ş
tı
rı
cıbir değeri olmadı
ğı
ndan stop kelimesi olarak görülebilir ve filtrelenerek
sonuç sözlüğünden çı
kartı
labilir.
Stemming metodu ise kelimelerin değiş
ik ş
eklerini tespit edip kökünü
bulma iş
lemi olarak tanı
mlanı
yor. Kelimenin ön ve son eklerinden arı
narak sadece
kök kelimeye indirgenip öyle sayı
lması
, aynıanlamıolan kelimelerin birkaç defa
tekrarlanmasıönlenir. Sonuçta da amacı
mı
z olan sözlük büyüklüğü küçülür.
Lemmatization metotlarıise kelimelerin zaman değiş
iklikleri ve değiş
ik
gramer kuralarıile formunu değiş
tirmesiyle ortaya çı
kan farklıama ayni anlamı
olan kelimelerin tespit ederler.
3.1.2.4.3 Endeks Terim Seçimi
Terim sayı
sı
nıdaha da azaltmak için endeks yada kelime seçme
algoritmalarıkullanı
lmalı
dı
r. (S. Deerwester ve ark. 1990), (I. H. Witten ve ark.
1999). Bu algoritmaları
n uygulanmasıile sadece seçilmişyada endekslenmiş
terimler ile sözlük oluş
maktadı
r. En basit kelime seçim metotları
ndan entropi
24
temeli kelime seçme algoritması
dı
r. Sözlükteki bütün t terimleri için entropi
değeri bu formül ile hesaplanı
r:
1
W (t ) 1 
log 2 D
burada
P (d , t ) log
dD
2
P( d , t )
tf (d , t )
dı
r.
nl1 tf (d l , t )
P (d , t ) 
Burada entropi bilindiği üzere bir terimin dokümanlarıayı
rı
ma baş
arı
nıtemsil
eder. Yani bir terim eğer bir doküman kümesinde her dokumanda ayni sayı
da
tekrarlanı
yorsa o terimin ayrı
ş
tı
rma özelliği düş
üktür ve dolayı
sı
yla entropi değeri
de düş
üktür.
3.1.2.4.4 Vektör Uzay Modeli
Vektör uzay modeli çok büyük dokümanlarıanaliz etmenin zorluğu
karş
ı
sı
nda geliş
tirilen bir metnin temsil modeldir. Ası
l amacıendeksleme ve
bilginin yeniden getirilme disiplinlerinde kullanı
lmak olsa da (G. Salton 1975), bu
model metim madenciliği sürecin en önemli adı
mıoldu. Bu model bir doküman
koleksiyonu m-boyutlu uzay vektörü ile temsil eder, yani her dokuman d bir
özellik vektörü ile temsil edilir
w(d ) ( x (d , t1 ),.., x (d , t m )) .
Vektörün her elemanıbir kelimeyi temsil eder. Dokumanı
n bu vektore
gömülmesi için kullanı
labilecek en basit yöntem ikili sistemdir. İ
kili terim
vektöründe her eleman terimi temsil eder ve alabileceği değer bir yada sı
fı
rdı
r, bir
terimin o dokümanda bulunması
nıve terimin sı
fı
r değeri bulunmaması
nıgösterir.
Biraz daha geliş
miş vektör oluş
turma metodu ikili sistem yerine bir
ağı
rlı
klandı
rma fonksiyonu kullanmaktı
r. Kelimenin denk geldiği dokümanda
tekrarlanma sayı
sı(frekansı
), yada o dokümana ve diğer dokümanlara göre
önemini yansı
tan bir fonksiyon (G. Salton ve C. Buckley 1988) vektör oluş
turma
için kullanı
labilir.
25
3.1.2.4.5 Dilbilimi ile öniş
leme
Çoğu uygulamalarda bu tür öniş
lemlere gerek duyulmaz. Ancak diğer
yöntemlerin yetmemesi durumunda dilbilgisi kuralarıkullanı
larak (C. D. Manning
ve H. Schutze 2001) terimlerin secimi ve terim vektörü oluş
turma iş
lemleri
yapı
labilir. Bunun için alta sı
ralanmı
şyaklaş
ı
mlar kullanı
lı
r.
Cümle öğe iş
aretleme (POS Part-of-Speech tagging) yaklaş
ı
mıiş
e cümle
kurmakta kullanı
lan öğeler (isim, fiil, zarf, bağlaç) tespit edilip öniş
lemde
kullanı
lı
rlar.
Metin külçe (text chunking) yaklaş
ı
mıile dokümanda tekrarlanan kelime
grubu kalı
plarıtespit edilirler. Örneğin “cari açı
k”, her iki kelime tek bası
na bir
anlam taş
ı
sa da ikisi bir arda daha çok kullanı
lmakta.
Parsing yaklaş
ı
mı
nda cümle içindeki kelimelerden bir pars ağacı
oluş
turularak kelimelerin birbirleriyle olan iliş
kisi ve kelimelerin cümleye göre
önemi incelenir.
Kelime çokanlamlı
lı
ğıtespiti yaklaş
ı
mıise kelimenin dokunmada farklı
anlamlarla bulunması
nıtespit etmeyi amaçlar.
3.1.2.5 Metin için Veri Madenciliği Metotları
.
Veri madenciliği metotları
nı
n metin dokümanları
na uygulanması
n temel
nedeni metne bir yapıkazandı
rmak. Dokümanları
n yapı
sal olmasıulaş
ı
m ve
kullanı
m acı
sı
ndan kullanı
cı
ya büyük derecede kolaylı
k sağlar. Dokümanlara
ulaş
ı
m örneği çok iyi bilinen ve kütüphanelerde kullanı
lan endeksleme
yöntemidir. Ancak ele yapı
lmasıdurumunda endeksleme iş
lemi özelikle de
doküman sayı
sıbüyük olan durumlarda zorlaş
maktadı
r. İ
çeriği çok sı
k değ
iş
en
WWW ve Internet gibi doküman kaynakları
ndan endeksi manule yenilenmiş
yapı
lar sunmak imkânsı
zdı
r. Var olan sistemler genellikle doküman kümelerine
anahtar kelimeler atayarak (sı
nı
flama ve kategorileş
tirme algoritmaları
) yada
otomatik
bir
iş
lem
ile
dokümanları gruplandı
rarak
endekslemeyi
gerçekleş
tirmektedirler. İ
lerleyen baş
lı
klar iş
te bu konular hakkı
nda daha detaylı
bilgiler vermektedirler.
26
3.1.2.5.1 Metin Sı
nı
flama
Metin sı
nı
flama önceden belirlenmişsı
nı
flara doküman atamayıhedefler
(T. Mitchell 1996) Örneğin bir merkeze ulaş
ı
lan her bir haberin otomatik bir
ş
ekilde “spor”, “sanat”, “siyaset” gibi etiketlerden birini atama iş
lemidir.
Uygulanacak sı
nı
flama metoduna bağlıkalmadan temelde yapı
lan iş
lemi
açı
klayalı
m: sı
nı
flama önceden belirlenmişsı
nı
flara
kümesi yani bir eğitim seti tespiti
L L atanmı
şdokumanlar
D (d1 ,..., d n ) ile baş
lar. Bir sonraki adı
m
yeni ve sı
nı
fıbeli olmayan dokümanları
n sı
nı
flanmasıiçin kullanı
lacak modelin
temsilidir:
f : D  L f (d ) L
Bir sı
nı
flama modelinin baş
arıölçümü için sı
nı
fıbeli dokümanlardan
rasgele ve sayı
sıküçük olan bir gurup oluş
turulur. Bu doküman grubuna test
kümesi denir. Test kümesi elemanlarısı
nı
flama modeli ile sı
nı
flandı
ktan sonra
gerçek sı
nı
flara atanı
p atanmadı
klarısayı
lı
r ve elde edilen değer sı
nı
flama
modelin doğruluk (accuracy) ölçüsüdür.
3.1.2.5.2 Endeks Terim Seçimi
Sı
nı
flanacak dokümanlar genellikle yüz binlerce terim içerdiklerinden
sı
nı
flama problemi karmaş
ı
klı
ğıyüksek bir algoritma üstüne kurulmasılazı
m.
Sı
nı
flama problemi basitleş
tirmenin yolu terim sayı
sı
nıazaltmaktı
r. En çok
kullanı
lan terim eleme metodu enformasyon kazancıverisidir. Bir
terimi için
enformasyon kazancıbu formül ile hesaplanı
r:
2
1
2
1
1
IG (t j ) p( Lc ) log 2
p(tj m)p( Lc | t j m) log2
p ( Lc ) m 0
p( Lc | t j m)
c1
c1
27
3.1.2.5.3 Naive Bayes Sı
nı
flayı
cı
Olası
lı
k sı
nı
flama olarak adlandı
rı
lan bu sı
nı
flama modeli
d i dokümanı
oluş
turan kelimelerin olası
lı
k mekanizmasıile üretildikleri kabulü ile baş
lar.
L(d i ) sı
nı
fı
na ait d i dokümanı
n içindeki kelimeler sözü geçen sı
nı
fla bir iliş
kisi
olduğunu farz edelim. Bu iliş
ki de koş
ulu dağı
lı
m formülü
p (t1 ,.., tni | L (d i ))
olsun. O zaman Bayesian fomülu ş
uş
ekilde tanı
mlanı
r (T. Mitchell. 1997 ):
p(t1 ,..., t ni | Lc ) p (Lc )
p (Lc | t1 ,..., t ni ) 

LL
p (t1 ,..., tni | L ) p (L )
Burada her bir dokümanı
n sadece bir L sı
nı
fı
na ait olmalıve t1 ,.., t n kelimelerden
oluş
malı
.
3.1.2.5.4 En yakı
n komş
uluk Sı
nı
flayı
cı
Her bir sı
nı
fıtanı
yacak acı
k bir model geliş
tirmek yerine hedef setindeki
sı
nı
flanacak dokümanlara benzeyen ve eğitim setinde bulunan dokümanlarıtespit
edebiliriz. Hedef setinde bulunan dokümanları
n sı
nı
fı eğitim setindeki
dokümanlara benzerliğinden adı
m adı
m çı
kartı
labilir. Eğer k tane benzer doküman
tespit edilirse bu yaklaş
ı
m k-yakı
nlı
kta komş
u sı
nı
flaması(k-nearest neighbor
classı
fı
cation).
Burada
önemli
bir
nokta
dokümanları
n
benzerliğini
değerlendirecek bir ölçü bulmaktı
r. En basitlerinden karsı
laş
tı
rı
lan dokümanları
n
kelime sayı
larıkarş
ı
laş
tı
rı
lması
dı
r. Daha geliş
miş
i kosinüs benzerliğidir. (R.
Baeza-Yates ve B. Ribeiro-Neto, 1999)
Bir di dokümanı
n Lm sı
nı
fı
na ait olup olmadı
ğı
nıbulmak için eğ
itim
S(di,dj) benzerlik testi ile dj eğ
itim seti nde bulunan dokümanlar ve di dokumanı
karş
ı
laş
tı
rı
lı
r. İ
lk k tane en çok benzeyen doküman seçilir.
28
3.1.2.5.5 Karar Ağaçları
Karar ağaçlarıbir kuralar kümesidir. Bu kurallar ağaç topolojisi
ş
eklindendirler. Kökten baş
layarak belirli bir sı
ra içinde uygulanan kulalar
sayesinde bir karara verilir, burada amaç sı
nı
flama olduğuna göre bir dizi testten
sonra sı
nı
flama gerçekleş
ir. Burada önemli olan bu kural setinin nası
l oluş
tuğu ve
ağacı
n nası
l kurlduluğudur. Bu iş
lem aslı
nda öğreneme iş
lemi olarak adlandı
rı
lı
r.
Bir eğitim seti ile baş
lar ve böl ve yönet yöntemiyle çalı
ş
an bir öğrenim
sürecidir.Bir M eğitim seti içinden bir ti terimi seçilir, bu terim eğitim setindeki
dokümanları
n sı
nı
fı
nıtarifeme özelliği bulunmalı
dı
r yani enformasyon kazancı
yüksek bir terim olmalı
dı
r. Ti terimini içeren dokümanlar M+ olarak, terimi
içermeyen dokümanlar ise M- olarak adlandı
rı
larak eğitim seti ikiye bölünür. Bu
süreç recursif bir ş
ekilde eğitim setindeki bütün dokümanları
n birer sı
nı
fa
atanması
yla biter. Öğrenme ile oluş
turulan ağaç artı
k sı
nı
flamayıgerçekleş
tirecek
yapı
dı
r. Sı
nı
fıbeli olmayan dokümanlarısı
nı
flamak için bu yapı
daki testlerden
geçirmek yetmektedir.
Karar ağaçlarıstandart veri madenciliği tekniğ
idir (J. R. Quinlan 1986).
Metnin çok boyutlu doğasıyüzünden metin madenciliğine uygulanmalarıdaha
zordur.
3.1.2.5.6 Destek vektör makineleri ve çekirdek metotları
Destek vektör makinesi (SVM), son zamanlarda metin sı
nı
flama
görevlerinde genişkullanı
m bulan bir gözetmeli sı
nı
flama algoritması
dı
r (T.
Joachims, 1998), (S. Dumais ve ark 1998 ), (E. Leopold ve J. Kindermann, 2002).
Her zamanki gibi bir d dokümanı
nıoluş
turan terimlerin ağ
ı
rlı
k değerlerinden bir
vektör oluş
turularak baş
lanı
r. Tek vektör ile sadece iki sı
nı
f tespit edilir. Pozitif
sı
nı
f L1 (y = +1) ve negatif sı
nı
f L2 (y = -1). Girişvektörler uzayı
nda alttaki
formülde y = 0 tanı
mlayarak bir düzlem tanı
mlanabilir.
N

y f (t d ) b0 b j t dj
j
1
29
VDM algoritmasıeğitim setinden çekilen pozitif ve negatif eğ
itim
elemanları
n arası
nda bulunan bir düzlem bulmaktadı
r. Bj parametresi ise en yakı
n
pozitif ve negatif eğ
itim elemanıve bu düzlem arası
ndaki uzaklı
k olan
değerini
maksimuma çekecek ş
ekilde uyarlanmaktadı
r.
Şekil 3.5 Destek vektör makineler sı
nı
flayı
cı
Burada ayrı
ş
tı
rı
cıdüzlemden
uzaklı
ğı
nda
bulunan dokümanlar destek
vektörleri olarak adlandı
rı
lı
rlar ve esas ayrı
ş
tı
rma düzlemin uzaydaki yerini bunlar
belirlerler. Genellikle dokümanları
n küçük bir kı
smıdestek vektörüdür. Sı
nı
fıbeli
olmayan yeni bir dokümanı
n vektörü td olsun. Bu dokümanı
n vektörü f(td)>0 ise
o zaman doküman L1 sı
nı
fı
na tersi durumunda L2 sı
nı
fı
nda atanı
r. Ancak bazen
dokümanlar vektörleri lineer bir düzlem ile ayrı
ş
tı
rı
lamazlar, o zaman bazı
doküman vektörleri bilerek yanlı
ştarafa atanı
rlar.
Girişvektörlerinin bulunduğu uzayıayrı
ş
tı
racak düzlem lineer olmadı
ğı
durumlarda, destek vektör makinelerinin aynen uygulanabilmesi için giriş
parametreleri bir dönüş
üm ile lineerleş
tirilmekteler. Örneğin özellik haritası
tanı
mlanı
r.
30
(t1 ,.., t N ) (t1 ,..., t N , t12 , t1t 2 ,..., t N t N 1 , t N2 )
3.1.2.5.7 Kümeleme
Kümeleme metotlarıgenişdoküman kümelerde benzer içeriklere sahip
doküman guruplarıtespit etmeyi amaçlar. Kümeleme iş
lemleri sonucunda
kümeler oluş
ur. Her küme d sayı
sı
nda doküman içerir. Kümeye ait nesneler, bu
örnekte dokümanlar, diğer kümedeki nesnelere göre benzerlik göstermemeleri
gerek. Bir kümeleme iş
leminin baş
arı
sıkümeler arasıfarkı
n büyüklüğüne bağlı
dı
r.
Yani bir kümeye ayı
t nesne, doküman diğer kümelerdeki nesnelerden ne kadar
farklıise kümeleme iş
lemi de o derecede baş
arı
lı
dı
r. Kümeleme metotları
doküman uzayı
ndaki dağı
lı
mı
nıkullanarak guruplar oluş
tururlar. Kümeleme
algoritmalarıparametre olarak bir farklı
lı
k ölçüsü ve dokümanları
n özelliklerini
kullanarak iş
lem yapmaktadı
rlar. Değiş
ik kümeleme algoritmalarıve bunları
n
performans testleri (SEK03) çalı
ş
mada mevcuttur.
Hangi yöntem olursa olsun kümeler birbirine benzer özellik gösteren
nesnelerden oluş
turulur. Böylece kümeler kendi içinde aynıözelliği taş
ı
yan
nesneleri içermişolur. Manhattan ve Euclid uzaklı
k fonksiyonlarıçoğunlukla
benzerliklerin bulunması
nda kullanı
lı
r. Uzaklı
k fonksiyonunun sonucu yüksek bir
değer ise az benzerlik, düş
ük bir değer ise çok benzerlik olduğunu ifade eder. Pboyutlu veri nesneleri i : (x i1 , xi2 ,..., xip ) , j : ( x j1 , x j 2 ,..., x jp ) için aş
ağı
da verilen
uzaklı
k fonksiyonlarıtanı
mlanabilir.
Euclid Uzaklı
k fonksiyonu:
2
2
d ij  x i1 x j 1 x i 2 x j 2 ... xip x jp
Manhattan Uzaklı
k Fonksiyonu:
d ij x i1 x j 1 xi 2 x j 2 ... x ip x jp
2
31
Veri kümeleri için uygulanacak uzaklı
k fonksiyonları
nı
n verimleri farklı
olabilir, bundan dolayıEuclide ve Manhattan’ı
n haricindeki uzaklı
k fonksiyonları
bazıveri kümeleri için daha uygun olabilir.
Kümeleme Analizinin özellikleri aş
ağı
da kı
saca özetlenmiş
tir:
 Denetimsiz (unsupervised) öğrenmedir.
 Kümelerin yapı
ları
nıdoğrudan verilen veriden bulmadı
r.
 Önceden
tanı
mlanan
sı
nı
f ve sı
nı
f-etiketli öğrenme
örnekleriyle çalı
ş
mamaktadı
r.
 Bir veri madenciliği fonksiyonudur.
 Kümeleme;
o Veri dağ
ı
lı
mı
nıanlamada fayda sağlar,
o Her bir kümenin özelliklerini izler.
Kümeleme probleminde;
 Bir d-boyutlu metrik uzayda n veri noktasıverilmiş
tir,
 Veri noktalarık küme içine paylaş
tı
rı
lı
r.
Kümeleme algoritma türleri aş
ağı
daki gibi sı
nı
flandı
rı
lmı
ş
tı
r:
 Bölümleme Kümeleme Algoritması( Partioning Clustering
Algorithms )
 k-Ortalamalar
 k-medoid (CLARANS)
 EM (Beklenen Maksimizasyon) ALGORİ
TMASI
 Hiyerarş
ik kümeleme Algoritması
 Toplayı
cı
(Agglomerative)
Hiyerarş
ik
Kümeleme
Algoritması
 Bölücü (divisive) Hiyerarş
ik Kümeleme Algoritması
En çok kullanı
lan kümeleme algoritmasıK-ortalamalar algoritması
dı
r.
K-ortalamalar algoritmasıbölümleme (partitioning) yöntemleri oalrak adlandı
rı
lan
algoritmalardan biridir. Bölünme kümeleme problemi ş
öyle ifade edilmiş
tir: d
32
boyutlu metrik uzayda verilen n nesne – bu durumda doküman, aynıkümedeki
nesneler diğer kümelerdekine kı
yasla daha benzer olacak ş
ekilde k kümeye
yerleş
tirerek bölümlenmesinin yapı
lması
dı
r. K değeri probleme göre bilinebilir
yada bilinmez. Hata kareler ölçütü gibi bir kümeleme ölçütünün olmasıgerekir.
33
3.1.3.1 Web Madenciliği
Veri madenciliği ve Web son zamanları
n geçerli iki araş
tı
rma sahası
dı
r. Bu
iki sahanı
n doğal kombinasyonu Web madenciliği olarak adlandı
rı
lı
r. Veri
madenciliği uygulamaları
ndan biri olan Web madenciliği, Web verileri üzerinde
veri madenciliği fonksiyonları
nıyerine getirir (Özakar ve Püskülcü 2002).
Birçok yazara göre web madenciliği terimi ilk kez Etzioni tarafı
ndan
1996’da ortaya atı
lmı
ş
tı
r. Bu bildiride Etzioni Web madenciliğinin veri
madenciliği tekniklerini kullanarak Word Wide Web’de bulunan dosya ve
servislerden otomatik olarak paternler bulmak ve öngörülmeyen bilgiye ulaş
mak
olduğunu iddia etmektedir (Etzioni 1996). Araş
tı
rmacı
ları
n çoğu çalı
ş
maları
nda
bu tanı
mlamayıesas almı
ş
lardı
r Burada bu iş
lemlerden bazı
ları
nı
n rahatlı
kla
arama motorlarıtarafı
ndan yapı
labileceğ
i akla gelebilir. Bu durumda Web
Madenciliğ
ine ihtiyaç duyulması
nı
n iki sebebi vardı
r. Bunlar:
1. Google, Yahoo gibi arama motorları
nıkullanı
ldı
ğı
nda genelde iki çeş
it
sorunla karş
ı
laş
ı
lı
r: “Veri madenciliği” ile ilgili dokümanlar araş
tı
rı
lı
rken sonuç
olarak çok fazla doküman listelenebilir ama bunları
n birçoğu araş
tı
rı
lan konuyla
yeteri kadar ilgili değ
ildir. Ayrı
ca dokümanlar sı
ralanı
rken araş
tı
rı
lan konuyla en
çok ilgili olandan en az ilgili olana doğru sı
ralanmı
şdeğildir. Ancak dokümanlar
incelendikten sonra istenilen sı
rada konuyla ilgili siteler bulunabilmektedir.
2. Arama motorları
nda yine “veri madenciliği” konusunun araş
tı
rı
ldı
ğı
varsayı
lı
rsa, bu konu ile yakı
ndan ilgili olan makine öğrenmesi , bilgi keş
fi ile
ilgili dokümanlar içerisinde “veri madenciliği ” kelimeleri geçmediği için sonuç
olarak listelenmeyecektir. Bu sebeple son zamanlarda araş
tı
rmacı
lar veri
madenciliği kavramı
nıWeb’e uyarlamı
ş
lardı
r (Sakiroglu ve ark. 2003).
Web madenciliği kabaca Web’ten faydalıbilginin keş
fi olarak da
tanı
mlanabilir. Bu tanı
m içinde otomatik tarama, bilgi alma ve kullanı
labilir
kaynakları
n milyonlarca web sitesi veya online veritabanları
ndan seçilmesi web
içerik madenciliği konusuna girerken bir veya birçok web sunucu veya online
34
servisten kullanı
cıeriş
im desenlerinin analiz ve keş
fi Web kullanı
m madenciliği
konusuna girmektedir (Takcıve Sogukpı
nar, 2002).
Web üç tip veri bulundurur; içerik, Web log dosyalarıve Web yapıverisi.
Sekil 3.8 ‘de madencilik yapı
labilecek verinin sı
nı
flandı
rmasıincelenmektedir.
Bunlar Web içerik madenciliği, Web yapımadenciliğ
i ve Web kullanı
m
madenciliğidir.
Web Madenciliği
Web İ
çerik
Madenciliği
Web Sayfa
İ
çerik
Madencliği
Web Yapı
Madenciliği
Arama
Sonuç
Madenciliğ
Genel Web
Kullanı
m
Madenciliği
Web Kullanı
m
Madenciliği
Site
Günceleme
Sistemleri
Kiş
iseleş
tirme
Şekil 3.6: Web Madenciliği Sı
nı
flandı
rması
1. Web içerik Madenciliğ
i: Web içerik madenciliğ
i temel olarak Internet de
saklıbilgiyi bulma üzerine yoğunlaş
mı
ş
tı
r (arama motorları
, vs.). Kı
saca konusu,
site içeriğidir. Adı
ndan da anlaş
ı
lacağıgibi web dokümanları
nı
n içeriklerini
yorumlamak ile ilgilenir. Web içerik madenciliği akı
llıyazı
lı
m ajanları(web
robotları
, web örümcekler vs.) daha doğrusu makine öğrenimi veya yapay zeka ile
ilgilidir. Son zamanlarda dokümanlardan bilgi çı
karma için XML de kullanı
lmaya
baş
lanmı
ş
tı
r. Burada; saniyede binlerce web sayfası
nıinceleyen genişölçekli
programlara “derleyici” (Crawler) denilmektedir (Belen ve ark. 2003). Web içerik
verilerinin çoğu belli bir düzene sahip olmayan düz metinlerdir. Lycos, Alta
Vista, Web Crawler gibi bilinen çeş
itli arama motorlarıbu tekniklerden
faydalanı
rlar.
Web içerik madenciliği, arama motorları
ndaki yapı
nı
n geniş
letilmişhali
olarak düş
ünülebilir. Internet de arama yapı
lı
rken birçok teknik kullanı
lmaktadı
r.
35
Bu tekniklerden, klasik arama motorları
nda en çok kullanı
lan kelime tabanlı
arama yaklaş
ı
mı
dı
r. Bunun dı
ş
ı
nda, içerik hiyerarş
isi, kullanı
cıdavranı
ş
larıve
sayfalar arasılink iliş
kileri de kullanı
lan en temel yaklaş
ı
mlardandı
r.
Derleyicide, çekirdek URL adres setine bakarak değerlendirme baş
lamakta
ve çekirdek URL adreslerindeki linkler kaydedilip arama bu linklerden devam
etmektedir. Web’deki muazzam büyük yapı
, özelleş
mişderleyici yapı
ları
nı
n
geliş
tirilmesine neden olmuş
tur. Sekil 3.9’da genel derleyici ve özelleş
miş
derleyicilerdeki arama mantı
ğ
ıgörülmektedir. Şekildeki siyah gölgeli kı
sı
mlar
derleyicinin değerlendirmeye aldı
ğısayfalarıtemsil etmektedir. Buna göre
özelleş
mişderleyici bir sayfayıilgili bulduysa sayfanı
n linklerini değerlendirmeye
almakta, aksi halde diğer sayfalarıdeğerlendirmeye geçmekte bir alt seviyeye
inmemektedir (Dunham 2003).
Sekil 3.7: Web Madenciliği Sı
nı
flandı
rması
2. Web YapıMadenciliği: Web yapımadenciliğ
i sitenin yapı
sal dizaynı
nı
iyileş
tirmek için kullanı
lı
r. Web sayfalarıarası
ndaki bağlantı
ları
nı(hyperlink)
iliş
kilerini keş
fetmekle ilgilenir. Yani HTML kodları
ndaki <a href> </a> etiketleri
arası
nda yer alan veriyi yorumlar. Web içerik madenciliği web sayfası
nı
n içeriği
ile ilgilenirken, web yapımadenciliğ
i doğrudan web sayfalarıarası
ndaki
bağlantı
lar ile ilgilenir (Sakiroglu ve ark. 2003).
3. Web Kullanı
m Madenciliği: Web kullanı
m madenciliği; bir veya birçok
web sunucudan kullanı
cıeriş
im desenlerinin otomatik keş
finin ve analizin
yapı
ldı
ğıbir tip veri madenciliği etkinliğidir. Birçok organizasyon pazar analizleri
için geliş
tirdikleri stratejileri ziyaretçi bilgilerine dayanarak yerine getirir.
36
Organizasyonlar günlük operasyonlarla her gün yüzlerce MB veri toplamaktadı
r.
Bu bilgilerin çoğu web sunucuları
n otomatik olarak tuttuğu günlük dosyaları
ndan
elde edilir. Günlük dosyaları
nda, istemcinden sunucuya gönderilen her bir istek
bir kayı
t olarak tutulur (Takcıve Sogukpı
nar 2002).
Web verilerinin analizi sonucunda bir ziyaretçinin sitede kalma süresi,
hizmet stratejileri, etkin kampanyalar ve diğerleri bulunabilir. Ayrı
ca siteye
bağlanan bir kullanı
cı
nı
n hangi amaçla siteye bağlandı
ğ
ı
, kötü niyetli bir kullanı
cı
olup olmadı
ğıda bulunabilmektedir. Bir elektronik ticaret sitesi için en iyi müş
teri
veri madenciliği sayesinde bulunabildiği gibi bir “hacker” da aynıyöntemlerle
bulunabilir.
Web kullanı
m madenciliği baslı
ca üç fazdan oluş
maktadı
r: (Belen ve ark.
2003)
1. Ön İ
sleme : Ön isleme veri kaynağı
ndan alı
nan verinin desen bulmaya
hazı
r hale getirilmesi adı
mı
dı
r. Belki de web kullanı
m madenciliğinin en önemli
aş
aması
dı
r. Çünkü etkili bir ş
ekilde yapı
ldı
ğı
ndan zaman ve kaynak tasarrufu
sağlayacaktı
r. Bu adı
mda esas olarak veri gürültüden temizlenir.
2. Desen Bulma: Veri madenciliğinde desen bulmak için kullanı
lan bir çok
yöntem ve algoritma vardı
r ve bunları
n çoğu web kullanı
m madenciliğinde de
kullanı
lmaktadı
r.
3. Desen Analizi: Desen analizi web kullanı
m madenciliğinin son adı
mı
dı
r.
Desen analizinin amacıbulunan desenlerden ilginç olmayan desenleri elemektir.
Desen analizinin en çok karş
ı
laş
ı
lan sekli SQL gibi bilgi sorgulama dilleri ile
yapı
lan uygulamalardı
r. Bir baş
ka yöntem ise verilerin veri küplerine yüklenerek
OLAP iş
lemlerinin yapı
lması
dı
r.
Web içerik madenciliği dokümanları
n içinden bilgi çı
karı
rken web
kullanı
m madenciliği kullanı
cı
ları
n eriş
imlerinden bilgi çı
karmaktadı
r. Eriş
imlere
dayalıbilgilerle kullanı
cıdavranı
ş
larıbulunabilmekte ve kiş
iye özel hizmet
olanağısağlanabilmektedir.
37
3.1.4.1 BULANIK MANTIK
3.1.4.1 Giriş
Bilimde, özelikle de bilim dalları
nı
n gövdesi sayı
lan matematikte,
görecelilik yada belirsizlik genelde istenmeyen ve kaçı
nı
lan bir durum olarak
tanı
mlanı
r. Klasik bilimcilere göre, bilim bütün ortaya koyduğu açı
klamalarda
kesinlik için uğraş
malı
dı
r ve bundan dolayıda belirsizlik bilimsel olmayan bir ş
ey
olarak kabul görmüş
tür. Ancak bununun yanı
nda bir de alternatif bakı
şaçı
sı
vardı
r ve buna göre, belirsizlik sadece kaçı
nı
lmasımümkün olmayan bir durum
değil aynızamanda büyük bir fayda alanıaçan ve zerinde çalı
ş
ı
lmasıgereken bir
durumdur.
Newton fiziğinde, belirsizliğe yer vermeyen matematiksel analizin rolü
istatistiksel mekanikte, olası
lı
k teorisi tarafı
ndan karş
ı
lanmı
şve bu teori aslı
nda
belirli bir tipteki belirsizliklerin giderilmesini amaçlamı
ş
tı
r (Klir ve Yuan, 1995).
Bulanı
k Mantı
ğı
n tarihi çok eskilere dayanmaktadı
r. Aristoteles’in “Var ya
da Yok” yasaları
na karş
ı
n Heraclitus, bir ş
eyin hem doğru hem yanlı
şolabileceği
fikrini ortaya sürmüş
tür. Plato ise bu durumu ileriye götürerek “doğru” ve
“yanlı
ş
” olmanı
n dı
ş
ı
nda, doğru ve yanlı
ş
ı
n iç içe olduğu üçüncü bir durumdan
bahseder. Ancak ilk kez Lukasiewicz 1900’lerin baş
ı
nda “olası
” kavramı
nıortaya
atmı
ş
tı
r. Bu kavram Bulanı
k Mantı
ğı
n temelini oluş
turur. Lukasiewicz, Doğru ile
Yanlı
şarası
nda sonsuz farklıdeğer olduğundan bahsetmişve ancak bu mantı
k
uygulamalarda çok baş
arıelde edememiş
tir. (Koyuncu E. 2004)
1930’larda ünlü Amerikan filozofu Max Black tarafı
ndan belirsizliği
açı
klayı
cıöncü kavramlar geliş
tirilmişolsa bile, bugün 1965’te Lütfü Askerzade
tarafı
ndan
yayı
nlanan
makale
modern
anlamda
belirsizlik
kavramı
nı
n
değerlendirilmesinde önemli bir nokta olarak kabul edilmiş
tir. Askerzade, bu
makalede kesin olmayan sı
nı
rlara sahip nesnelerin oluş
turduğu bulanı
k küme
teorisini ortaya koymuş
tur. Askerzade’nin bu makalesinin önemi sadece ihtimaller
teorisine karş
ıduruş
u ile ilgili değil, ayrı
ca ihtimaller teorisini oluş
turan Aristo
mantı
ğı
na karş
ıda bir meydan okuma ş
eklinde geliş
miş
tir. Bulanı
k küme
38
teorisinin üyelikten üye olmamaya dereceli geçiş
i ifade etmesindeki yeteneği
genişfaydalarıolan bir yetenektir. Bize, belirsizliğin ölçülmesinde güçlü ve
anlamlıaraçlar sunması
nı
n yanısı
ra, doğal dilde ifade edilen belirsiz kavramları
n
anlamlıbir ş
ekilde temsilini de vermektedir. Fakat Aristo mantı
ğıüzerinde
temellenen klasik küme teorisi, verilen bir alana ait bütün bireyleri incelenen
özelliğe göre ikiye ayı
rı
r: kümeye ait olan elemanlar ve ait olmayan elemanlar.
Kümeye üye ve üye olmayan elemanlar arası
nda kesin ve belirsiz olmayan bir
ayrı
m vardı
r. Doğal dilde ifade edilen ve üzerinde çalı
ş
ı
lan çoğu sı
nı
flandı
rma
kavramı
, bu türde bir karakterde değildir. Örneğin; uzun insanlar kümesi, birden
çok büyük sayı
ları
n oluş
turduğu küme, gibi kavramlar klasik kümenin öngördüğü
ş
ekilde incelenemezler. Bu kümeler, kesin olmayan sı
nı
rlara sahip olarak kabul
edilir ve üyelikten üye olmamaya geçiş
in dereceli olduğunu göz önüne alı
narak
iş
lem yapı
lı
r (Klir ve Yuan, 1995).
Bulanı
k Mantı
k ile çözümleme yapı
lı
rken problemin çözümü için gerekli
tecrübe, gözlem bilgileri gibi klasik mantı
kta ve matematik formüleri ille
problemin çözümünde yararıolmayan bilgiler kullanı
lmaktadı
r. Bulanı
k Mantı
k
iş
lemlerinde, yargı
lar öznel (bilirkiş
i) gözlemlere dayanı
r ve bu yargı
lar
matematiksel olarak analize hazı
r bir ş
ekilde modellenir. Matematik kural
olmaktan çı
kar, hayat için birkaç rakam oluverir. (Koyuncu E. 2004)
Bulanı
k mantı
k ve geleneksel Aristo mantı
ğı
nı
n karş
ı
laş
tı
rmı
ş
ı
nıalttaki
ş
eklerde görebilirsiniz. İ
lk grafikle belirsizliği,göreceliğ
i, öznelliği içermeyen
kesin bir çerçeve içinde bir kiş
inin yaş
ı
na göre genç olup olmadı
ğı
nıgösteren bir
grafik görülmekte. Buradaki sorun bir kiş
inin yaş
ı45 iken genç sayı
lmasıbir
sonraki sene 46 yaş
ı
nda yaş
lıkabul edilmesi. Gündelik hayata bu ve benzeri
kavramlar belirli bulanı
klı
k içerirler. İ
kinci ş
ekil ise geleneksel mantı
ğ
a karş
ıgenç
ve yaş
lıkavramları
, gerçekteki bulanı
klı
ğ
ıve kesinsizliği içererek yansı
tmakta.
39
Şekil 3.8 Klasik (Aristo) Mantı
k Modeli
Şekil 3.9 Bulanı
k Mantı
k Modeli
Bulanı
k Mantı
ğı
n uygulama alanlarıgünden güne geniş
liyor. Bulanı
k
mantı
ğıkonu eden çok sayı
da makale de yayı
nlanmakta. Endüstriyel Sistem
modellemelerinden, yazı
lı
m geliş
tirmeye; otomatik kontrol sistemlerinden, veri
analizine; yöneylem araş
tı
rma tekniklerinden, sosyolojik değiş
im kuralları
nı
izleme gibi birçok alanda Bulanı
k Mantı
k uygulamaları
nıbaş
arı
lıbir ş
ekilde
görmek mümkün. Özellikle Modern Kontrol Sistemleri ve Otomatik Kontrol
Sistemleri, Örnek olarak, günümüzde Robotik Hareket Sistemlerinin karmaş
ı
k
kontrol problemleriyle çoğ
unlukla Bulanı
k Mantı
k ilgileniyor (Koyuncu E. 2004).
Bulanı
k mantı
ğ
ı
n bu kadar uygulamaya yatkı
nlı
ğı gerçek hayat
problemlerinin matematiksel modeller ile temsil edilmesi güç olduğu durumlarda,
basit if-then kuralarla tarif edilebilmesinden gelir.
40
Bulanı
k mantı
ğı
n çok değiş
ik alanlarda ve bu kadar çok kullanı
lması
nı
n
sebeplerini sı
ralayalı
m: bulanı
k mantı
ğıanlamak kolaydı
r, bulanı
k mantı
k
esnektir, bulanı
k mantı
k açı
k olmayan data bulunmasıdurumunda tolerans
gösterir bulanı
k mantı
kla karmaş
ı
k lineer olmayan fonksiyonlar modellenebilir,
bulanı
k mantı
k geleneksel kontrol teknikleriyle birlikte kullanı
labilir, bulanı
k
mantı
ğı
n ana fikri konuş
ma dilidir. (Matlab 6.5)
Standart olası
lı
k teorisi, kesinliğin bulunmadı
ğıdurumlarda iyi bir çözüm
sağlar. Fakat bir çok basit problemde olası
lı
k teorisinin hiçbir çözüm önerisi
yoktur. Birkaç tipik örnek aş
ağı
da verilmiş
tir.
1) Yağmurun yağ
ma olası
lı
ğınedir?
2) Otelden havaalanı
na taksiyle ne kadar sürer?
3) Robert genellikle iş
ten saat 18:00’da döner. Saat 18:30’da evde olma
olası
lı
ğınedir?
5) Zayı
flı
k çekicidir. Cindy zayı
ftı
r. Cindy’nin çekiciliği hakkı
nda ne
söylenebilir?
Bu tip sorularla insanlar rutin olarak karş
ıkarş
ı
ya gelebilir ve cevap verirler.
Cevaplar sayıdeğildir. Cevaplar bulanı
k algı
lamanı
n dil ile ifadesidir. “Çok
yüksek değil, yaklaş
ı
k 0.8, hemen hemen olanaksı
z” vb. gibi insanlar gündelik
hayatı
nda karş
ı
laş
tı
ğıbu gibi problemlere cevap bulurlar (Askerzade, 2001).
Bulanı
k mantı
ğı
n genel özellikleri Askerzade tarafı
ndan ş
u ş
ekilde ifade
edilmiş
tir:
 Bulanı
k mantı
kta, kesin değerlere dayanan düş
ünme yerine, yaklaş
ı
k
düş
ünme kullanı
lı
r.
 Bulanı
k mantı
kta her ş
ey [0,1] aralı
ğı
nda belirli bir derece ile
gösterilir.
 Bulanı
k mantı
kta bilgi büyük, küçük, çok az gibi dilsel ifadeler
ş
eklindedir.
 Bulanı
k çı
karı
m iş
lemi dilsel ifadeler arası
nda tanı
mlanan kurallar ile
yapı
lı
r.
 Her mantı
ksal sistem bulanı
k olarak ifade edilebilir.
41
 Bulanı
k mantı
k matematiksel modeli çok zor elde edilen sistemler için
çok uygundur.
 Bulanı
k mantı
k tam olarak bilinmeyen veya eksik girilen bilgilere göre
iş
lem yapma yeteneğine sahiptir (Elmas, 2003).
3.1.4.2 Bulanı
k Sistemler
Bulanı
k sistemler kural-temelli sistemlerdir. Bu kuralar probleme özgü
tanı
mlanı
rlar ve uzman kiş
ilerin problem ile ilgili tecrübelerini yansı
tı
rlar.
Bulanı
k sistemlerin merkezinde Eğer-İ
se (If-Then) ifadeler tablosu bulunur.
Örneğin: Eğer hizmet kötü ise fiyat ucuzdur, cümlesi bir bulanı
k sistem
kuralıolsun. Bu kuraldaki “hizmet” giriş“fiyat” ise çı
kı
şparametresidir. “Kötü”
ve “ucuz” kelimeleri de belirsizlik ve görecelilik içeren iki kavram olduklarıiçin
üyelik fonksiyonlarıile temsil edilen girişve çı
kı
şdeğerlerdirler.
Bulanı
k sistemlerin literatürde çoğunlukla kullanı
lan üç ş
ekli vardı
r. Genel
bulanı
k sistem, Takagi-Sugeno-Kank bulanı
k sistemi (T-S-K) ve bulanı
klaş
tı
rma
durulaş
tı
rma birimli bulanı
k sistemi (Wang, 1997).
Geleneksel bulanı
k sistemlerdeki girişve çı
kı
ş
lar bulanı
k kümeler yani
cümlelerden oluş
urlar (Şekil 3.9). Bu sistemler bu ş
ekilde mühendislik
uygulamaları
nda kullanı
lamazlar. Mühendislikte bulanı
k giriş ve çı
kı
ş
ları
n
kullanı
labilmesi için bu değerlerin bulanı
klı
ğıortadan kaldı
rı
larak gerçek
matematiksel değerle dönüş
türülmeleri gerek.
42
Bulanı
k Kural
Tabanı
Bulanı
k Giriş
Kümeleri (cümleler)
Bulanı
k Çı
kı
ş
Kümeleri (cümleler)
Bulanı
k Sistem
Motoru
Şekil 3.10 Genel Bulanı
k Mantı
k Sistemi
Bulanı
k Kural
Tabanı
Bulanı
k Olmayan
Bulanı
k Olmayan Çı
kı
ş
Ağı
rlı
klı
Ortalama
GirişX
y=F(x)
Şekil 3.11 T-S-K Bulanı
k Mantı
k Sistemi
Bu problemi çözmek üzere Takagi, Sugeno ve Kang, girişve çı
kı
ş
değerlerinin geleneksel değerler alması
nısağlayan bir bulanı
k sistem kurdular.
Takagi-Sugeno-Kang
bulanı
k
sistemi
Şekil
3.10’de
görülmektedir.
Bu sisteme bir örnek verelim : EĞER hizmetin x değeri yüksek İ
SE fiyat değeri
y = cx’ tir. T-S-K bulanı
k sisteminin ana problemi, İ
SE kı
smı
ndan sonra
matematik formül bulunması
dı
r ve sözel bilgileri modelleyememesi ve giriş
-çı
kı
ş
değiş
kenleri arası
nda yazı
lmasımümkün olan tüm kuralları
n son kı
sı
mları
nı
n
bulanı
k olmamasıdolayı
sıile yazı
lamaması
dı
r. Bu sistem bulanı
k mantı
ğı
n çok
yönlü uygulamaları
nda araş
tı
rmacı
lara gerekli kolaylı
ğısağlamamaktadı
r (Wang,
1997.
43
Bulanı
k Kural
Tabanı
Giriş
Çı
kı
ş
Bulanı
klaş
tı
rı
cı
Durulaş
tı
rı
cı
Verisi
Bulanı
k Çı
karı
m
Motoru
GirişBulanı
k
Kümeleri
Verisi
Çı
kı
şBulanı
k
Kümeleri
Şekil 3.12 Genel Bulanı
k Mantı
k Sistemi
Bütün bu elveriş
siz durumlarıortadan kaldı
ran sistem ‘Bulanı
klaş
tı
rmaDurulaş
tı
rma’ birimli bulanı
k sistemdir (Şekil 3.12). Mühendislik istemlerinde
kullanı
labilmesi için genel bulanı
k sistemlere, girişkı
smı
na gerçek değerleri
bulanı
k kümelere çevirecek bulanı
klaş
tı
rı
cıve çı
kı
ş
a da bulanı
k kümeleri gerçek
değerlere çevirecek durulaş
tı
rı
cıeklemektir (Wang, 1997).
Bulanı
k sistemlerin baş
lı
ca özellikleri arası
nda en önemli, konu olarak,
çoklu girdileri, kural tabanıve çı
karı
m motoru ile iş
leyerek tek çı
ktıhaline
dönüş
türmesi gelir. Bazıözel durumlarda, çı
ktı
lar birden fazla olabilir. Ancak,
hemen her mühendislik çalı
ş
ması
nda en az bir tane çı
ktıbulunur. Bulanı
k sistem
doğrusal olmayan bir ş
ekilde girdileri oluş
turan değiş
kenleri, Çı
ktıdeğiş
kenine
dönüş
türerek, sistemin davranı
ş
ı
nıtespit eder. Böylece bilgi tabanı
nı
n doğ
rusal
olmayan dönüş
ümlere maruz bı
rakı
lmasıile istenen sonuçlara ulaş
mak için
incelenen sistemin kontrol altı
na alı
nmasımümkün olmaktadı
r. Bulanı
k sistemler
sayesinde mühendislikte görüntü iş
leme, zaman serileri esaslıtahmin yapmak,
kontrol sorunları
nıçözmek ve haberleş
me yani iletiş
im konuları
nda uygulamalar
yapmak mümkün olmaktadı
r. Bunun dı
ş
ı
nda bulanı
k sistemler mühendislik, tı
p,
sosyoloji, psikoloji, iş
letme, uzman sistemler, yapay zekâ, sinyal iş
lenmesi,
ulaş
tı
rma, kavş
ak sinyalizasyon onu gibi birçok alanda rahatlı
kla kullanı
labilir.
(Zekai Ş. 2001)
44
3.1.4.3 Bulanı
k Kümeler ve Üyelik Fonksiyonları
Klasik küme teorisinde elemanlar ya kümeye dâhildir ya da değ
ildir. Bu
karakteristik fonksiyonla aş
ağı
daki gibi ifade edilebilir:
U A ( x) {10,, xxAA
1965 yı
lı
nda Lütfü Askerzade daha esnek üyelik değerlerinin mümkün
olduğu bulanı
k kümeler teorisini ortaya atmı
ş
tı
r. Bulanı
k kümeler teorisinde çok
değiş
ik üyelik değerleri bulunabilmektedir. Bu üyelik değerleri 0 ile 1 aralı
ğı
nda
değiş
ebilmektedir. Bu karakteristik fonksiyonla ş
ekil 3.13’te gösterilmiş
tir
(Tsoukalas, 1997).
A ( x) : X  [0,1]
 (x ) (x )
 (x )
X { A 1  A 1 ...} { A i }
x1
x1
xi
Ü
y
e
l
i
k
Çok Düş
ük
0
20
Düş
ük
40
Orta Seviye
60
80
Yüksek
Çok Yüksek
100
Isı°C
Şekil 3.13 Isıdeğerlerinin bulanı
k ve normal kümelerle
gösterimi, üyelik fonksiyonları
45
Literatürde kullanı
lan üyelik fonksiyonları
: üçgen üyelik fonksiyonu,
yamuk üyelik fonksiyonu, Gauss üyelik fonksiyonu, genelleş
tirilmişçan üyelik
fonksiyonu ve sigmoidal üyelik fonksiyonudur. Bunlardan en yaygı
n olarak
kullanı
lanıve bize kolaylı
k sağ
layan üçgen üyelik fonksiyonu ve yamuk üyelik
fonksiyonudur. Üçgen üyelik fonksiyonlarıve yamuk üyelik fonksiyonları
sı
rası
yla Şekil 3.15 ve Şekil 3.16’da gösterilmiş
tir (Wang, 1997).
{
A(r) 
1 ( a t ) / | a t a
1 (t a) / | a t a 
0
Şekil 3.15 Üçgen üyelik fonksiyonu
{
A(r) 
1 (a t ) / | a t a
1 | a t b
1 (t a) / | a t a 
0
Şekil 3.16 Yamuk üyelik fonksiyonu
3.1.4.4 Bulanı
klaş
tı
rma İ
ş
lemi
Genel olarak, klasik küme ş
eklinde beliren değiş
im aralı
kları
nı
n
bulanı
klaş
tı
rı
lması
, bulanı
k küme, mantı
k ve sistem iş
lemleri için gereklidir.
Bunun için, bir aralı
kta bulunabilecek öğelerin hepsinin, 1' e eş
it üyelik derecesine
sahip olacak yerde, 0 ile 1 arası
nda değ
iş
ik değerlere sahip olmasıdüş
ünülür. Bazı
46
öğelerin belirsizlik içerdikleri kabul edilir. Bu belirsizliğin sayı
sal olmayan
durumlardan kaynaklanmasıhalinde bulanı
klı
ktan söz edilir.
Klasik küme iş
lemlerinde bir girdi eğer üyelik fonksiyonu söz konusu ise
ya 1 değerini yada 0 değerini alı
r. Bulanı
k üyelik fonksiyonlarıile bulanı
klaş
tı
rı
lan
girdi değeri artı
k üye olmasıdorumunda bile koş
ulsuz 1 değerini almak yerine
üyelik fonksiyonunda aldı
ğıdeğer ile sisteme girer.
3.1.4.5 Durulaş
tı
rma İ
ş
lemi
Bulanı
k sistemlerin çalı
ş
abilmesi için girdiler üyelik fonksiyonlarıile
bulanı
klaş
tı
rı
larak sisteme verilirler sistemin içinde gereken iş
lemler gerçekleş
ir ve
sonuçlar bulanı
k kümeler ş
eklinde dı
ş
a verilir. Ancak bu formattaki çı
ktı
mühendislik çalı
ş
maları
nda kullanı
lamaz. Bulanı
k sistem çı
ktı
larıgerçek değerler
(sayı
lar) olarak alı
nmalarılazı
m. Bu sorunu çözen iş
lemlerine durulaş
tı
rma
(defuzzification) iş
lemleri adıverilir.
Durulaş
tı
rma iş
lem çeş
itleri çoktur, ancak burada detaya inmeden hepsinin
temelinde yatan fikri açı
klayalı
m.
Şekil 3.17 Durulaş
tı
rma iş
lemin genel temsili
47
Şekil 3.17 de görülen örnekte 2 tane bulanı
k girdimiz var. Her iki girdi denk
geldikleri üyelik fonksiyonlarda kestikleri noktaları
n bileş
imi ile birer alan
oluş
turmaktadı
rlar. Atla görülen grafikte bu alanları
n bileş
imi görülmekte. Bu bileş
ik
alanı
n değerlendirilmesiyle durulaş
tı
rma iş
lemi gerçekleş
ir. Örneğin bu alanı
n ağ
ı
rlı
k
noktası
, ya da entegrali, yada alanıoluş
turan doğ
runun tepe noktasıbizim için
gerçek durulaş
mı
şdeğer olabilir.
3.1.4.6 Temel İ
ş
lemler
Ayrı
ş
ma (Veya)
: v(a V b) = en-büyük (v(a), v(b))
Birleş
me (Ve)
: v(a b) = en-küçük (v(a), v(b))
Olumsuzlama (not)
: v(~a) = 1 - v(a)
İ
ki değerli mantı
klarda ‘değilleme’, ‘karş
ı
t anlamlıolma’ya karş
ı
lı
k gelir.
Bulanı
k sistemlerde ‘doğ
ru değil’ ş
eklindeki bir ifade, ‘yanlı
ş
’ anlamı
na
gelmeyebilir. Bazıdurumlarda ‘doğ
ru değil’i, ‘doğru’ya ‘yanlı
ş
’ı
n olduğundan daha
yakı
n olarak algı
lamak daha anlamlıolabilir.
Kolayca görülebileceğ
i gibi, değer kümesi, [0, 1] yerine {0, 1} alı
ndı
ğı
nda
bu iş
lemlerden klasik mantı
klardaki sonuçlar elde edilecektir.
En-büyük ve en-küçük fonksiyonları
nı
n kullanı
mı
nı
n uygunluğ
u 1973’te
Bellman ve Giertz tarafı
ndan gösterilmiş
tir. Fung ve Fu ise 1975’te en-büyük ve enküçük’ün tek olası iş
lemler olabileceğini bulmuş
tur. Matematiksel olarak
doğrulanması
nı
n yanı
nda, en-büyük ve en-küçük fonksiyonları
nı
n etkisi, insan
nedensellemesinin nası
l olduğ
unu da ifade ediyor görünmektedir. n tane,
derecelendirilmişdoğruluk değerlerine sahip önerme olsun. Her hangi bir kimsenin
bunlarıkullanarak akı
l yürüteceğini varsayı
n. Bunları
n hepsi ‘veya’ bağlacı
yla bağ
lı
olduğunda, doğ
ruluk durumuna olabildiğince yakı
n olmak isteyecek, ve bu yüzden
bu önermeler gurubunun ortak doğruluk değeri olarak, önermeler içinde doğruluk
değeri en yüksek olanı
nkini seçecektir. Bunları
n hepsi ‘ve’ bağlacı
yla bağ
lı
olduğundaysa, en kötü durumu bilmek isteyecektir, bu yüzden bu önermeler
gurubunun ortak doğruluk değeri olarak, önermeler içinde doğruluk değeri en düş
ük
olanı
nkini seçecektir.
48
Diğer mantı
k teorilerinde geçerli olan iş
lemler, bulanı
k mantı
k için de
geçerlidir. Bulanı
k mantı
ğı
, diğ
er mantı
k sistemlerinden ayı
ran önemli özelliklerden
birisi, ‘dı
ş
lanmı
şorta kanunu’ ve ‘çeliş
mezlik ilkesi’ olarak adlandı
rı
lan, ve
v(a V ~a) = Doğru , ve v(a ~a) = Yanlı
ş
ş
eklinde ifade edilen, diğer mantı
k sistemleri için oldukça önemli olan, hatta
temel kural denebilecek, iki özelliğ
in, bulanı
k mantı
k için geçerli olmaması
dı
r.
Bulanı
k mantı
kta
v(a V ~a) != Doğru , ve v(a ~a) != Yanlı
ş
olur. Burada ‘!=‘, 'eş
it değildir' demektir. Bunu sözlü olarak ş
öyle ifade
edebiliriz; bulanı
k mantı
kta ‘bir önerme ya doğ
rudur ya da yanlı
ş
tı
r’ diyemezsiniz,
aynızamanda ‘bir önerme aynızamanda hem doğru hem yanlı
şolamaz’ da
diyemezsiniz. Bu, doğruluğun çok değerli oluş
undan ve bu çerçevede ‘V ve ‘
bağlaçları
na yüklenen anlamdan kaynaklanmaktadı
r.
Bulanı
klı
k, bir önermeyle (a), ‘değili’ (~a) arası
ndaki belirsizlikten
kaynaklanı
r. Eğer v(a)’yıkesin olarak bilmiyorsak, v(~a)’yıde kesin olarak
bilmiyoruz demektir. Bu belirsizlik, çeliş
mezlik ilkesini ihlal edip ‘v(a ~a) != Yanlı
ş
’
olması
na, aynızamanda dı
ş
lanmı
şorta kuralı
nıihlal edip ‘v(a V ~a) != Doğ
ru’
olması
na yol açar.
49
3.1.5 Terim Seçme ve Ağı
rlı
klandı
rma Şemaları
3.1.5.1 Terim Seçme
Metin sı
nı
flama ya da kategorileş
tirme iş
lemi kategorisi beli olmayan
dokümanı
n önceden belirlenmişkategoriliden birine otomatik atama iş
lemidir.
Çevrim içi yani Internet sayesinde ulaş
ı
labilen metin formatı
nda dokümanları
n ve
bilgilerin günden güne artı
ş
ı
yla, verimli doküman endeksleme ve kategorileş
tirme
tekniklerine de ihtiyaç artmakta. Geçmişsenelerde bu problemi çözecek bir dizi
çalı
ş
ma yapı
lmı
ş
tı
r: regresiyon (gerileme) modelleri (N. Fuhr ve ark, 1991), (Y.
Yang ve W.J. Wilbur 1996), en yakı
n komş
uluk sı
nı
flaması(R.H. Creecy ve ark.
1992), (Y.Yang 1994), Beyes olası
lı
k yaklaş
ı
mları(K. Tzeras ve S. Hartman
1993) (D.D. Lewis ve M. Ringuette, 1994), karar ağaçlarısı
nı
flayı
cı
lar (D.D.
Lewis ve M. Ringuette 1994), yapay sinir ağları(E. Wiener 1995).
Metin sı
nı
flama problemlerinin en önemli özellikleri aynızamanda
zorluklarımetinin özellik uzayı
nı
n çok boyutluluğudur. Metnin doğal özellik
uzayıtekil terimlerden (kelimeler) den oluş
ur ve bunları
n sayı
sıbinlerce
olabilirler. Bu sayı
daki özelik bir öğrenme algoritmasıiçin idare edilemeyecek bir
sayı
dı
r. Burada en uygun çözüm sı
nı
flama iş
lemi doğruluğ
undan ödün vermeden
özellik uzayı
nı
n boyut küçültülmesini gerçekleş
tirmek. Yani terim sayı
sı
nı
azalmak. Aynızamanda bu iş
lemi yapacak bir otomatik yöntem geliş
tirmek
olmalı
dı
r çözümün bir baş
ka amacı
.
Otomatik özellik seçme metotlarıile amaçlanan doküman kümesine göre
bilgi taş
ı
yı
cıolmayan yani önemi olmayan terimlerin özellik uzayı
ndan elemek.
3.1.5.1.1 Terim Seçme Metotları
Bu bölümde, terim seçme metotları
n kullandı
klarıbeşfarklıterim eleme
kriteri incelenecektir, doküman frekansı
, enformasyon kazancı
, müş
terek
enformasyon, 2 istatistiği ve terim gücü.
50
3.1.5.1.2 Doküman frekansı(DF)
Doküman frekansıbir terimin (kelimenin) bulunduğu doküman sayı
sı
dı
r
(Yiming Yang ve Jan O. Pedersen 1997). Terim eleme için doküman frekans eş
ik
değeri seçilir ve her bir terim için doküman frekansıhesaplandı
ktan sonra eş
ik
değerini aş
amayan terimler elenir. Burada kullanı
lan basit bir varsayı
mdı
r:
doküman kümesinde az tekrarlanan bir terim değerli enformasyon taş
ı
mamaktadı
r.
3.1.5.1.3 Enformasyon Kazancı
Makine öğrenmede sı
k kullanı
lan bir özellik seçme kı
stası
dı
r (J.R. Quinlan
1984) (Tom Mitchell 1996). Enformasyon kazancı
, terimin doküman içinde
mevcut
olup
olmaması
nı kullanarak
kategori
tahmininde
kullanı
lacak
enformasyon bit sayı
sı
nıölçerek hesaplanmaktadı
r.
G( t) i 1 Pr (ci ) log Pr (ci )
m
Pr (t ) i 1 Pr (ci | t) log Pr ( ci | t )
 m


Pr ( t ) i 1 Pr (ci | t ) log Pr ( ci | t )
m
Enformasyon kazancı
na dayanan terim eleme metodu, enformasyon
kazancı belirli bir eş
ik değerden daha düş
ük terimlerin elenmesi ile
gerçekleş
mektedir.
3.1.5.1.4 Müş
terek enformasyon (Mutual information)
Bu kriter kelime iliş
kilerini modelleyen istatistikisel diller ve bunarlı
n
uygulamaları
nda genişkullanı
mıvardı
r. (R. Fano 1961 ),(Kenneth Ward Church
ve Patrick Hanks 1989). İ
ki sütunlu bir tablo olduğunu farz edelim burada bir
sütün t terimleri bir sütün de c kategorileri temsil etsin. O zaman: A sayı
sıt’nin ve
c’nin ayni anda var olduklarısayı
sı
, B t’nin c siz bulunma sayı
sı
, C ise c’nin t siz
tekrarlanma sayı
sıve N de toplam doküman ş
ayisi olur. T terimi ve c kriteri için
müş
terek enformasyon kriterinin hesaplanmasıalttaki formüler ile yapı
lı
r.
51
I ( t, c) log
Pr ( tc)
Pr (t ) Pr ( c)
I ( t, c) log
A N
( A C ) ( A B)
3.1.5.1.5
2 istatistiği (CHI)
Bu ölçü t terim ve c kategori arası
ndaki bağı
msı
zlı
ğıverir ve alttaki formül
ile hesaplanı
r:
N ( AD CB ) 2
 (t , c) 
( A C ) (B D) ( A B) (C D)
2
Burada A t nin ve cinin birlikte bulunma sayı
sı
, B t’nin c siz tekrarlanma sayı
sı
,C
c nin t siz tekrarlanma sayı
sı
, D t nin ve c nin birlikte bulunmama sayı
sıve N de
toplam dokuman sayı
sı
dı
r. Genel bakı
ldı
ğı
nda  değeri bir önceki anlatı
lan
2
2
kriterden farklıolmadı
ğıdüş
ünülebilir.  Değeri normaliz edilmişyani
doküman ve terim sayı
sı
ndan etkilenmeyen bir değerdir.
3.1.5.1.6 Terim güçü
Wilbur ve Sirotkin (1992) tarafı
ndan Metin madenciliğinde kelime tabanı
küçültme için tanı
tı
lan ve sonralarda Yang ve Wilbur (1996) ile metin sı
nı
flama
iş
lemlerine uyarlanan bir terim eleme kriteridir. Bu kriter, terimin benzer
dokümanlar içinde tekrarlanma sayı
sı
nı
n terim için bir önem taş
ı
dı
ğıvarsayı
mı
na
dayanarak geliş
tirilmiş
tir. Doküman kümesi içinde birbirlerine benzeyen
dokümanlar tespit edilerek baş
lanı
r iş
leme. Terim gücü ise bir terimin bu iki
benzer dokümandan ilkinde koş
ulu bulunma ihtimaline eş
ittir,
s( t ) Pr ( t y | t x).
52
3.1.5.2 Terim Ağı
rlı
klandı
rma
Internet’in dünya çapı
nda gerçekleş
en geliş
imi ile web site, elektronik
posta, haber gurupları
, literatür veritabanlarıgibi dijital formda bulunan doküman
sayı
sı
nda da patlama gerçekleş
ti. Bu büyük sayı
daki dokümanları
n analizi için
Metin madenciliği teknikleri kullanı
lı
r.
Metin madenciliği görevinin en önemli adı
mlardan biri metni oluş
turan
kelimelerin bir ağ
ı
rlı
klandı
rma ş
emasıile doğru değerlere endekslenmesidir
(M.A.Andrade ve A.Valencia 1998). Burada doğru ağı
rlı
klandı
rma’dan kastedilen
dokuman
profilini
bozmadan
sayı
sal
(ağrı
lı
k
değ
erleri)
bir
temsil
gerçekleş
tirmektir. Terim ağı
rlı
klandı
rma ş
emalarımetin madenciliği prosesinin
baş
arı
sı
nda çok kritik bir yer alı
r (E. Leopold ve J.Kinderman 2002),(M .Lan, ve
ark. 2005). Bu konuda bir çok araş
tı
rma yapı
lmı
ş
tı
r ve geliş
tirilen ş
emalar geniş
kullanı
m bulmuş
lardı
r. En bilindik ş
emalar: ikili ağı
rlı
k, terim frekansı
(TF) ve
terim frekansıters dokuman frekansı
dı
r (TFIDF) (G.Salton ve C.Buckley 1988).
Bu ş
emalar yanısı
ra tamamen istatistik dağı
lı
m analizler temeli ş
emalar da
mevcuttur CTD (B. How ve K.Narayanan 2005), TFRF (M .Lan ve ark. 2005),
SQRT-IGFF ve SQRT-IGFS (E.Chisholm ve T. Kolda, 1999) .
Terim ağı
rlı
klandı
rma ş
emaları
n çoğu temelinde istatistiksel veriler ile bir
ağı
rlı
klandı
rma gerçekleş
tirmektedir. Terimin bulunduğu dokumandaki frekansı
TF olsun ve bu terimin bulunduğu dokuman dı
ş
ı
nda kaç tane dokümanda
tekrarlandı
ğıbilgisi de DF olsun. TF ve DF hemen hemen bütün ş
emaları
n
temelinde yatan bilgilerdir, değ
iş
en sadece bunlarıkullanan formülerdir.
53
3.1.5.2.1 İ
lgili Araş
tı
rmalar
Son yı
larda sı
nı
flama, kümeleme, kategorileş
tirme gibi metin madenciliği
metotları
nda on iş
lem olarak kullanı
lan birçok terim ağ
ı
rlı
klandı
rma ş
eması
geliş
tirmekte. Bu ş
emaları
n araları
ndaki görünürde büyük farklara rağmen
amaçları
; dokümanı
, terimler (kelime) uzayı
nda bir vektör ile temsil edebilmektir.
ş
ekil 3.18.
Şekil 3.18 Kelime uzayı
nda doküman vektörlerin gösterimi
3.1.5.2.2 İ
kili ağı
rlı
k metodu
Kelimenin bir dokümanda bulunması(1) yada bulunmaması
nıtemel alan
bir ş
ema olan İ
kili ağı
rlı
kş
emasıalta görünen formüle göre hesaplanı
r:
wi, j
{
1 eğer i terimi j dokümanı
nda bulunuyor ise
0 diğer durumlarda
54
3.1.5.2.3 Terim frekans (TF) metodu
Bu metot ile bir terimin ağı
rlı
ğ
ıçok basit bir mantı
kla i teriminin j
dokümanı
nda tekrarlanma sayı
sı
na eş
itlenir.
wi , j tf i , j
3.1.5.2.4 Klasik TFIDF metodu
TFIDF kı
saltması
; terim frekansı
, ters doküman frekansıanlamı
nda
kullanı
lı
r. Bu ş
ema iki önemli elemanıbileş
tirmekte: t terimin d dokümanı
nda
tekrarlanma sayı
sıyani dokümana göre yerel bir ağı
rlı
k verisini (terim frekansı
);
ve aynıterimin küresel bir ağı
rlı
k değeri olan doküman setindeki dokümanları
n
içindeki dağ
ı
lı
m frekansı(doküman frekansı
). Bir terimin beli bir dokümana göre
önemi yani ağı
rlı
k değeri TF in yüksekliğine ve DF in düş
üklüğüne bağlı
dı
r. Tf in
yüksek çı
kmasıterimin o dokumana göre önemli olduğunu, DF in düş
ük çı
kması
ise bu terimin diğer dokümanlarda az tekrarlandı
ğı
nıyani sadece söz konusu
doküman için önemli olduğunu ifade eder.
Otomatik sı
nı
flama, kümeleme ve benzeri metin madenciliği iş
lemlerinde
genellikle öniş
lem olarak TFIDF ağı
rlı
klandı
rma ş
emasıkullanı
lmaktadı
r. TFIDF
in bir ağı
rlı
klandı
rma ş
eması
nda kullanı
lmasıalttaki formül ile gerçekleş
ir:
wi , j tf i , j log(
N
).
dfi
Bu formülde tf, i terimin j dokümanı
ndaki frekansı
, N toplam doküman sayı
sıve
df de i terimini içeren doküman sayı
sı
. (G.Salton ve C.Buckley, 1988) (Y. Liu ve
ark. 2004) …
3.1.5.2.5 CDT metodu
TFIDF ağ
ı
rlı
klandı
rma ş
eması
nıgeliş
tirerek yeni bir ş
ema ortaya koyan
araş
tı
rma (B. How ve K.Narayanan, 2006) da sunulmuş
tur. TFIDF in tek
55
doküman üstünden değil de bir kategoriye uygulanmasıile ortaya yeni bir
ağı
rlı
klandı
rma ş
emasıçı
kmı
ş
tı
r CTF, kategori-temeli frekans.
CTDt ,c CTFt , c IDFt ,c ICFt
ICF log
C
CFt
3.1.5.2.6 TFRF metodu
Yerel terim frekansı
nıve yeni tanı
mlanan ilgi frekans bilgisini yeni bir
ş
emada birleş
tiren araş
tı
rma (M.Lan ve ark. 2006) bu yeni ş
emaya TFRF adı
nı
vermiş
tir. Bu ş
ema ile ağı
rlı
k hesaplanmasıiçin
wi , j tf i , j rf
Formülü kullanı
lmakta. Burada tf bilindiği üzere i teriminin j dokümanı
ndaki
frekansı
dı
r. Rf kı
smıise alta bulunan formül ile tanı
mlanı
r:
n
rf log(1  i )
ni
burada ni , i terimin bulunduğ
u doküman sayı
sı
, ve ni  de i terimini içeren ancak
kümede bulunmayan doküman sayı
sı
dı
r.
3.1.5.3 Var Olan Metotlar Üstüne Bir Eleş
tiri
Yukarı
da anlatı
lan bütün metotları
n eksikleri var. En büyük eksikleri basit
istatistiksel yöntemleri temel almalarıve genellikle sadece bir dokümanla ilgili
olmaları
. Bu tez çalı
ş
mamda terimlerin ağı
rlı
k hesaplanmasıiçin yeni bir ş
ema
öneriyorum, ilerleyen bölümlerde bu ş
emanı
n detaylarıverilecek.
56
3.2 – Metot
3.2.1 Edebiyat eserlerini web verilerine dayanarak sı
nı
flandı
rma
Nesneleri özelliklerine göre ayrısı
nı
flara ayı
rma iş
lemine sı
nı
flandı
rma
denir. Sı
nı
flandı
rma algoritmaları
, sı
nı
flanacak nesnelerin özelliklerini öğrenme
esnası
nda inceleyerek bir sı
nı
flandı
rma gerçekleş
tirirler. Sı
nı
flanacak nesne
özelliklerinin değerlerini içeren veri kaynakları
na eğitim örnekleri denilmektedir.
Web tabanlısı
nı
flandı
rma modelleri normal sı
nı
flandı
rma uygulamaları
ndan bu
noktada ayrı
lmaktadı
rlar. Web tabanlısı
nı
flandı
rma modelleri sı
nı
flanacak
nesnelerin özellik değerlerinin web sitelerinden elde edilebileceğini var sayarak
geliş
tirilmiş
lerdir.
Web tabanlısı
nı
flandı
rma uygulamaları
ndan biri müzik sanatçı
ları
nı
n
yaptı
klarımüzik tarzları
nı
n internet aracı
lı
ğıile öğrenilmesi ve sı
nı
flanması
uygulaması
dı
r (Peter Knees ve ark. 2003). Bu problem, yı
llarca sanatçı
ları
n müzik
parçaları
nı
n, ses iş
leme modelleri ve filtreleri ile incelenerek, çözülmeye
çalı
ş
ı
lmı
ş
tı
r ve ulaş
ı
lan doğruluk %80leri geçmemiş
tir. Yukarı
da atı
fta bulunulan
makalede ise %90 lara varan bir doğrulukla müzik sanatçı
larıyaptı
klarımüzik
tarzları
na göre sı
nı
flanmı
ş
lardı
r. Bu modelin baş
arı
sıbiraz da eski yöntemlerle
toplanan bilgilerin kullanı
lmasa bağlı
dı
r. Baş
langı
ç parametrelerin değerleri bu
bilgilere göre seçilmiş
lerdir.
Veri toplama iş
lemi bu uygulamalarıdiğer benzer uygulamalardan farklı
kı
lan iş
lemdir. Web tabanlıveri ile sı
nı
flandı
rma, denilmesinin sebebi de burada
ortaya çı
kmaktadı
r. Sı
nı
flanacak nesneler hakkı
nda veri web sitelerinden elde
edilmektedir.
Burada
web
sitelerinin
bulunması değiş
ik
yöntemler
ile
gerçekleş
tirilmektedir, ancak en geneli web arama motorları
nı
n kullanı
lması
dı
r.
Uygulamalar birbirlerinden kullandı
kları arama motorları
, bunlara
gönderdikleri arama sorgusu ve gelen sonuçlarıdeğerlendirme yöntemlerine göre
farklı
lı
k göstermektedirler. Örneğin, yukarı
da atı
fta bulunulan müzik sanatçı
ları
nı
sı
nı
flayan uygulamada arama motoru olarak google ve yahoo, arama sorgusu
57
olarak “sanatçı+ müzik tarzı
” , gelen sonuçları
n da değerlendirilmesi için ilk ellisi
seçilmiş
tir. Bu değerlerin seçimi söz konusu çalı
ş
mada önceki araş
tı
rmalara atı
fta
bulunarak açı
klanmı
ş
tı
r. Ancak temel teş
kil edecek araş
tı
rmaları
n olmaması
durumunda buna benzer modellerde sı
kı
ntı
lar yaş
anabileceği ortadadı
r. Bu
problemin çözümü için ileriki bölümlerde yeni bir model tanı
tı
lmaktadı
r.
Web tabanlıveri ile sı
nı
flandı
rma web sitelerinden bilgi keş
fetmektir. Web
siteleri belirli bir yapıgöstermedikleri ve genelde resim, video, metin vs den
oluş
tuklarıiçin gürültüye ve istenmeyen verilere sahiptirler. Web tabanlı
sı
nı
flandı
rma yöntemleri ilgilendikleri veriler dı
ş
ı
ndaki verileri özellikle html
kodları
, bannerler, reklamlar vs gürültü olarak değerlendirmekteler.
Web sitelerindeki gürültü temizliğ
ini konu alan bir çok çalı
ş
ma mevcutur.
Bazı
larıhtml sayfaları
nıhtml ağaçlar ile temsil ederek gereksiz verileri eleme
yoları
nıgeliş
tirmiş
lerdir (Lan Yi ve Bing Liu 2003). Bazıçalı
ş
malarda ise
algoritmik bir yaklaş
ı
m ile adı
m adı
m eleme yaparak sadece ilgilenilen verilere
ulaş
ı
lmaktadı
r.
Müzik sanatçı
ları
nısı
nı
flayan çalı
ş
mada veri temizliği adı
na html kodlar,
bağlaçlar (stop words), noktalama iş
lemleri, problemi ilgilendirmeyen kelimeler
ve metin dı
ş
ı
ndaki bütün verilerin eleme iş
lemi yapı
lmı
ş
tı
r.
Web tabanlıveri ile sı
nı
flandı
rma çalı
ş
maları
, açı
sı
ndan öniş
lem süreci
veri madenciliğine hazı
rlı
ktı
r. Metin madenciliği açı
sı
ndan bu hazı
rlı
k web
sitelerin bir temsil modeli ile madenciliğe uygun hale getirmektir. Müzik
sanatçı
ları
nısı
nı
flayan uygulamada kelime vektör temsili kullanı
lmı
ş
tı
r ve benzer
çalı
ş
malarda genelde bu model kullanı
lmaktadı
r. Doğal dil iş
leme yöntemleri
tavsiye edilen temsil modelleridirler. Kelime vektör modellerini geliş
tirmeyi amaç
edinmişmakaleler de mevcuttur (Fabrizio Sebastiani ve Franca Debole 2004).
Örnek teş
kil etmesi açı
sı
ndan atı
fta bulunulan çalı
ş
manı
n içeriğine
değinelim: “Müzik sanatçı
ları
nı
n web tabanlıbilgiler ile sı
nı
flanması
” (Peter
Knees1 ve ark. 2003) isimli makalede müzik sanatçı
larıgoogle arama motoru ile
sorgulanmı
ş
lardı
r. Sorgu, sanatçıismi + müzik tarzıolarak seçilmiş
tir. Gelen
58
sonuçlar genelde sanatçı
ları
n fan siteleridir. Gelen sonuçlardan ilk ellisi ele
alı
nmı
ş
tı
r. Sonuç siteleri html taglardan ve bağlaçlardan arı
ndı
rı
lmı
ş
tı
r. Her a
sanatçı
sı
na bağlıdokümanıiçin, her a sanatçı
sıve her t terimi için t terimin
tekrarlanma sayı
sı(frekansı
) tfta hesaplanmı
ş
tı
r. Ayrı
ca t terimin geçtiği doküman
sayı
sı
, (frekansı
) dfta hesaplamı
ş
tı
r. Bu hesaplanan terim ve doküman frekansları
sayesinde sı
nı
flandı
rma için kullanı
lacak terimlere birer ağı
rlı
k değeri
verilmektedir.
(1log 2 tf ta )log 2
wta {0,
N
dft
Terim frekansıtfta sı
fı
r olduğ
unda, ağı
rlı
k değeri Wta sı
fı
r olarak
seçilmektedir. 200 sanatçıiçin yapı
lmı
şaramalar sonucunda 200,000 farklıterim
elde edilmiş
tir. Bu sayı
yıazaltmak için ek bir terim eleme iş
lemi uygulanmı
ş
tı
r.
2
İ
statistikte  kare olarak bilinen dağı
lı
m kullanı
larak terimler sayı
sı%70 kadar
azaltı
lmı
ş
tı
r. 2 kare testi sayesinde t terimin c sı
nı
fı
yla bağı
msı
zlı
ğıtest
edilmektedir.
N(AD BC)
2
χtc 
(A B)(A C)(B D)(C D)
Formülde c kategorisindeki t terimini içeren doküman sayı
sıA , c
kategorisinde olmayan t yi içeren doküman sayı
sıB , c de olan t yi içermeyen C ,
c de olmayan ve t yi içermeyen doküman sayı
sıda D ile gösterilmektedir, N ise
arama motorundan elde edilen toplam doküman sayı
sıile gösterilmektedir. Her
2
terim için  kare değeri hesaplandı
ktan sonra her c kategorisi için en yüksek test
değerine sahip ilk 100 terim seçilmiş
tir. Bütün kategoriler (müzik tarzısı
nı
fı
) için
seçilmişolan yüzer tane terim bir araya getirilmiş
tir.
Terimler seçimi sonucunda her sanatçıterimlerin ağı
rlı
k değerlerine göre
bir kelime (terim) vektörü ile temsil edilmiş
lerdir. Burada ağı
rlı
k değerleri kosinüs
normalizasyonu ile (-1,1) normaliz edilmiş
lerdir.
59
Sanatçı
larısı
nı
flandı
rmak için destek vektör makineleri kullanı
lmı
ş
tı
r.
Sonuçları
n gösterimi de SOM algoritmasıile yapı
lmı
ş
tı
r. 14 farklısı
nı
f yani
müzik tarzı(pop,rok vs) için 200 sanatçısorgulanmı
ş
tı
r ve %90 lara varan
doğrulukla sı
nı
flandı
rma gerçekleş
tirilmiş
tir
3.2.1.1 Sı
nı
flama modeli ve algoritma
Bu kı
sı
mda tezin deneysel çalı
ş
masıanlatı
lacak. Tezin amacıedebiyat
eserlerinin web verilerine dayanarak sı
nı
flanması
dı
r. Önceki bölümlerde teorik
bilgiler verildiğinden metnin devamı
nda gerektiğinde bunarla atı
fta bulunulacak.
3.2.1.2 Modelin Genel görünümü ve Akı
şş
emaları
Alta görülen akı
şş
eması
ndaki her adı
m ilerleyen alt bölümlerde ayrı
ntı
lı
anlatı
lacaklar, bu bölümde sadece genel bir bakı
şile model tanı
tı
lacaktı
r.
Şekil 3.19 Çalı
ş
mayıtemsil eden Akı
şdiyagramı
60
Bu modelin amacıinternette ortak kullanı
ma açı
k genel web sitelerindeki
bilgilerden yararlanı
larak bir sı
nı
flandı
rma gerçekleş
tirmektir. Sı
nı
flandı
rı
lacak
nesneler edebiyat eserleri, sı
nı
flar ise edebiyat türleridir (Roman, Öykü, Masal,
Tiyatro, Deneme, bilim kurgu, vs).
Şekil 3.19 de görünen akı
şdiyagramı
ndan da anlaş
ı
lacağıgibi model
önceden belirlenmişparametrelere göre çalı
ş
arak (öğrenerek) bir sı
nı
flandı
rma
problemini çözecektir. Optimal sonuçlarıüretmesi için uygun öniş
lem ve
madencilik teknikleri yanısı
ra parametrelerin doğru seçilmesini de gerektirir.
İ
nternetteki
verilerden
yararlanarak
sı
nı
flandı
rma
gerçekleş
tiren
benzer
çalı
ş
malarda bu parametrelin baş
langı
ç değerleri için bazıöneriler bulunabilir
ancak bu çalı
ş
maya temel alı
nabilecek bir çalı
ş
ma bulanamadı
ğıiçin bu baş
langı
ç
değerleri ancak sistemin gerçekleş
tirilmesi esnası
nda tespit edilmiş
tir.
3.2.1.3 Sı
nı
flanacak Verilerin Elde Edilmesi
Sı
nı
flandı
rma iş
lemini gerçekleş
tirmek için bir veri tabanı(eğitim
örnekleri) gereklidir. Sı
nı
flandı
rma iş
lemi bir görerek öğrenme yöntemidir. Yada
diğer tanı
mıile örneklerden öğrenme iş
lemidir. Dolayı
sı
yla örnekleri temsil
edecek veri tabanı
n oluş
turulmasıiçin internet kullanı
lacaktı
r. Sı
nı
flandı
rı
lacak
nesneler (kitaplar) hakkı
nda bilgi tabanıweb siteleridir. Bu sitelere ulaş
manı
n
yolu Web içerik madenciliği ve Bilgi keş
fi yöntemleridir. Ancak günümüzde
yaygı
n olarak kullanı
lan akı
llıarama motorlarızaten bu iş
lemi yaptı
klarıiçin
onları
n kullanı
lmasıdaha mantı
klı
dı
r. Bu yüzden istenilen web sitelerinin elde
edilmesi arama motorlarıile gerçekleş
tirilecektir. Uygun bir sorgu ile internette
kitabı
n ismi ve türü hakkı
nda bilginin birlikte geçtiği siteler arama motoru ile elde
edilmektedir.
Örnek sorgu => “romeo and juliet” + “book” + “review”
İ
nternet arama motorları
nı
n sonuçlarısı
ralama iş
lemini birçok kı
stasa
bağlıolarak yapmaktadı
rlar. Ancak sı
ralamada en öne alı
nan siteler genelde baş
ka
sitelerden kendilerine link alan sitelerdir. Bu bizim sı
nı
flandı
rma iş
lemi için bir
61
ş
ey ifade etmez çünkü bizi ilgilendiren sonuç olarak gelen sitelerin içinde
sı
nı
flandı
rmaya yarayacak bilgilerin olması
dı
r.
3.2.1.4 Sı
nı
flama için edebiyat eserlerin ve sı
nı
fları
n seçilmesi
Sı
nı
flama modelin geliş
tirilmesi için ilk önce sı
nı
flar ve bu sı
nı
flara ait
eğitim ve test örnekleri tanı
mlanmalı
dı
r. Bu çalı
ş
manı
n amacıedebiyat eserlerinin
yani kitapları
n sı
nı
flanmasıolduğu için ilk aş
ama bir test için edebiyat sı
nı
fları
n
ve eserlerin belirlenmesidir. Birinci test altısı
nı
f ve her sı
nı
fa ait sekizer kitaptan
oluş
maktadı
r.
Alta görünen listeler wikkipendia.com Internet ansiklopedisi ve bir çok
baş
ka kaynaktan yararlanı
larak elde edilmiş
tir. Kitapları
n sı
nı
flamasıhakkı
nda bir
çok kaynak literatür bulunması
na rağmen bu çalamaya uygun ş
eklinin bulunması
zahmetli bir süreçti. Bu listelerin oluş
turulmasıiçin seçilen çalı
ş
malar İ
ngilizce
konuş
ma bölgelerinde yapı
lan ve İ
ngilizce dilinde yazı
lmı
şeserlere verilen
ödülleri kapsamaktadı
r. Ödülleri veren kurumlar da İ
ngiliz dili bölgelerindendirler
(Amerika, İ
ngiltere , vs). Bu yöntemin seçilme sebebi bu eserler hakkı
nda web
sitelerinde daha kolay verimli bilgilere ulaş
ma fikrine dayanı
r.
Edebiyat eserleri için seçilmis sı
nı
flar :
1. Çocuk kitapları(Children's Boks)
2. Esrarengiz (Mystery )
3. Bilim kurgu – Fantezi (Sci-fi/Fantasy)
4. Genel edebiyat (General Nonfiction)
5. Edebiyat Kurgu (Literary Fiction)
6. Şiir (Poetry)
Her bir sı
nı
f için seçilen kitaplar son senelerde büyük edebiyat ödülleri
kazanmı
şeserlerdir. Bunları
n tam listesini ek-A da görülebilir.
İ
kinci ve daha büyük bir test de bilgisayar kitapları
n sı
nı
flandı
ğıçalı
ş
madı
r. Bu
test için seçilen sı
nı
flar ve örnekler ek-B de mevcutlar.
62
3.2.1.5 Edebiyat eserleri hakkı
nda bilgi içeren web sitelerin elde edilmesi
Edebiyat eserleri isimleri tespit edildiğinde, bunlar hakkı
nda bilgi toplayı
p
sı
nı
flamaya hazı
r hale getirmek gerekmektedir. Veri tabanı
n uygun tablosunda
kitap isimleri kayı
tlıolduğunu farz edersek o zaman sı
nı
flamada kullanı
lan
yazı
lı
m bu tablodan okuduğu her kitap ismi için uygun bir sorgu gerçekleş
tirerek
bir arama motoruna gönderir. Arama motorundan cevap olarak gelen ilk 50 link
kitap ID sine göre link tablosuna kitap id ve gelen linkler olarak kaydedilir.
Baş
la
Kitap tablosundan kitap ismi oku
Kitap ismini kullanarak uygun
sorgu oluş
tur
Sorguyu Google gönder
Gelen cevaplar arası
nda ilk 50
tanesini Link tablosuna kaydet
Kitap veri
tablonun sonuna
ulaş
ı
ldımı
?
Hayı
r
Evet
Bitir
Şekil 3.20 Web site adreslerin elde edileme algoritması
Algoritmada uygun arama sorgusu olarak kastedilen internet arama
motoruna gönderilecek arama cümlesinin oluş
turulması
dı
r. Arama motorları
anahtar kelimelerine göre çalı
ş
ı
rlar ve birçok denemeden sonra bu çalı
ş
ma için en
63
uygun arama cümlesi ,“ kitap ismi ” + book + review -amazon.com –pdf ,
olduğu görülmüş
tür. Burada ilk parametre kitap ismidir, ve program tarafı
ndan
veri tabanı
ndan okunarak elde edilmektedir. Ayrı
ca eklenen book ve review
kelimeleri ile sonuçları
n filtrelenmesi amaçlanmı
ş
tı
r. Eksi amazon.com ve pdf
parametreleri ile amazon.com web sitesi ve alt domainler ve pdf tipinde dosyaları
sonuçlar arası
na getirilmesi engellenmiş
tir. Amazon sitesinden sı
nı
flamayı
yanı
ltan ve devamlıtekrarlanan cümle yapı
larıgeldiğ
inden, linkleri sonuçlardan
elenmiş
tir.
Her bir kitap için 50 web site adresi elde edildikten ve bu adreslerin link
tablosuna uygun kitap referansıile kaydedildikten sonra artı
k web siteleri yerel
veri tabanı
na kaydedilmeleri gerekmektedir. Bu iş
lemin özetlenmişhali ş
ekil 3.21
de görülmekte.
Baş
la
Link tablosundan link oku
Linkin yani web adreste
bulunan web siteyi indir
İ
ndirilen web siteyi
öniş
lemlerden geçirerek içerik
tabloya kaydet
Link veri
tablonun sonuna
ulaş
ı
ldımı
?
Evet
Bitir
Şekil 3.21 Web sitelerin elde edileme algoritması
Hayı
r
64
4.2.4 Yardı
mcıveri tabanıtasarı
mı
Deneylerin gerçekleş
tirildiği yazı
lı
m bir veri tabanıbağlantı
sısayesinde
gereken verileri internetten toplamaktadı
r. Verilerin toplandı
ğıalanda bir MS
Access veri tabanı
dı
r. Veri tabanıtasarı
mıalta görülmektedir.
Kitap Tablosu
Link Tablosu
İ
d
Kitap_adı
İ
d
link
İ
çerik Tablosu
İ
d
içerik
Web verileri için Veri Tabanı
Veri tabanıüç tablodan oluş
maktadı
r. Kitap tablosu, Link tablosu ve İ
çerik
tablosu. Kitap tablosu indeks alanıolan id, ve kitap isimlerini içeren Kitap_adı
alanı
ndan oluş
maktadı
r. Bu tablo sı
nı
flama modelin gerçekleş
mesi için gerek
eğitim ve test örneklerini oluş
turacağı
mı
z kitap örneklerini kaydetmek için
kullanı
lmaktadı
r.
Kitap tablosuna kitap isimleri kaydedilmiş
tir, kullanı
lan index ise iki dijitlik bir
numaradı
r ilk numara 0-5 arasıyazı
lı
r ve sı
nı
fıtemsil eder ikinci dijit de 0-7 arası
seçilir ve kitap sayı
sı
nıtemsil eder. Tablonun birkaç kaydıalttaki ş
ekilde
görülmekte.
id Kitap_ismi
00 The Hello, Goodbye Window
01 Kitten's First Full Moon
Örnekte 00 sı
fı
rcısı
nı
fa yani çocuk kitapları
na ait sı
fı
r numarali eserdir. 63
koduna sahip kitap Şiir sı
nı
fı
na ait 4 numaralıkitaptı
r.
65
İ
kinci tablo Link tablosu kitap tablosuyla bağlı
dı
r. Tablonun amacıher bir
kitap için arama motorundan elde edilecek linkleri kaydetmektir. Üçüncü tablo da
içerik tablosudur, ve yardı
mcıprogramı
n link tablosunda okuduğu linklerde
bulunan web sitelerin içeriğ
inin indirip kaydedildiği tablodur.
Deneylerin yapı
lmasıiçin bu çalı
ş
ma kapsamı
nda geliş
tirilen yazı
lı
m veri
toplama iş
lemlerini yukarı
daki sı
raya göre yapmaktadı
r. Girdi olarak okunan kitap
isimlerine göre google web servislerini kullanarak kitapla ilgili web siteler veri
tabana indirilirler. Bu iş
lemler doğal olarak uzun sürmekteler.
İ
lk teste altısı
nı
f ve her bir sı
nı
fa ait sekiz kitapla, 46 elemanlıbir set oluş
muş
tur.
46 kitap için 50 ş
er web site yani 2800 tane web dokümanıtespit edilip veri
tabanı
na kaydedilmesi gereklidir. İ
kinci teste ise yerel veri tabanı
na 10 sı
nı
f, her
sinifa ait 14 kitap ve toplam 10x14x50 = 7000 web dokümanıkaydedilmekte.
Burada önemli bir nokta web dokümanları
n yazı
lı
m tarafı
ndan sadece
HTML kodlarıolarak veri tabanı
na transfer edilmeleridir. İ
lk testin sonucunda
oluş
an veri tabanıboyutu yaklaş
ı
k 70 MB dı
r.
3.2.1.7 Gürültü Temizliği ve Öniş
lemler
İ
nternet aracı
lı
ğıile elde edilen sonuçlar birer web site olduklarıiçin bir
sonraki adı
mda bu web siteler bir öniş
lemden geçmektedirler.
Web siteler sadece düz metinden oluş
mazlar, içlerinde resimler, video
görüntüler, reklâmlar, banerler vs. bulunmaktadı
r. Metin dı
ş
ı
ndaki veriler bizim
için bu çalı
ş
ma acı
sı
nda gürültü sayı
lmaktadı
r. Gürültüden siteyi arı
ndı
rma iş
lemi
veri temizleme iş
lemidir ve birçok yöntem geliş
tirilmiş
tir.
Genel olarak gürültü temizliği iki iş
lemden oluş
ur:
1) metin dı
ş
ı
ndaki verilerin elenmesi
2) ve HTML kodları
ndan arı
ndı
rı
lması
.
66
Gürültü temizliğ
i gerçekleş
tirdikten sonra kalan saf metnin içinde de
istenilmeyen veriler vardı
r. Bunlar noktalama iş
aretleri (nokta, virgül, soru
iş
areti), İ
ngilizcede stop words olarak tanı
mlanan kelimeler (ve,veya, evet hayı
r,
vs), konuyu ilgilendirmeyen kelimeler, vs.
Bu çalı
ş
mada yapı
lan öniş
leme, noktalama iş
aretlerinin ve stop wordları
n
çı
karı
lması
ndan oluş
maktadı
r. Herhangi bir iş
lemde veri içindeki gürültü,
sonuçları
n beklenenin çok altı
nda olması
na sebep olmaktadı
r. Metin madenciliğ
i
yapı
sal olmayan verilerle çalı
ş
tı
ğıiçin gürültüye ve istenmeyen sonuçlara açı
ktı
r.
Metin madenciliği tekniklerinin baş
arı
sı gürültünün azaltı
lması oranı
nda
değiş
mektedir. Yani daha iyi öniş
leme metodu sonuçları
nı
n daha iyi olması
na
sebep olmaktadı
r.
Yazı
lı
mda önceki adı
mlarda elde edilen binlerce web site bu öniş
lemlere
tabi tutulurlar. İ
lk önce HTML formatı
nda olan doküman HTML Parser adı
nı
verdiğ
im nesne tarafı
ndan HTML kodları
ndan arı
ndı
rı
lı
r. Burada html kodları
n
tespit
edilmesi
için
regular
expression
isimli
string
iş
leme
metotları
kullanı
lmaktadı
r. Elde edilen düz metinden de ikinci aş
amada stop kelimeler ve
noktalama iş
aretleri çı
kartı
lı
r. Geriye kalan kelime seti de içerik veri tablosundaki
eski yerine yazı
lı
r. Şekil 3.22 de bu iş
lemin algoritmasıgörülmekte.
67
Baş
la
İ
çerik tablosundan web doküman
içeriğ
ini oku
Web içeriğ
inden HTML
kodlarısil
Web içeriğinden stop
kelimeleri ve noktalama
iş
aretleri sil
İ
çerik
tablonun sonuna
ulaş
ı
ldımı
?
Hayı
r
Evet
Bitir
Şekil 3.22 Web sitelerin madenciliğe uygun hale getirilmesi algoritması
68
3.2.1.8 Kelime Vektörün Oluş
turulması
İ
nternetten, arama motoru ile elde edilen web siteleri kaydedilip,
gürültüden arı
ndı
rı
lı
p öniş
lemlerden geçirildikten sonra elimizde düz metin
kalmaktadı
r. Ancak bu haliyle metin henüz madencilik için uygun değildir. Bir
sonraki aş
amada metin bir temsil modeli ile madencilik için uygun hale
getirilmelidir. En basit ve sı
kça kullanı
lan metin temsil modeli kelime-vektör
temsilidir (baş
ka bir ismiyle kelime-çuvalıbag-of-words representation) . Fikir
gayet basittir metinden kelimeler sı
ra ve yapıgözetmeksizin bir çuvala atarcası
na
toplanmaktadı
r. Her bir kelime için kelime-vektöründe o kelimenin metin içinde
tekrarlanma sayı
sıtutulur. Bu model en basit olması
na rağmen uzun metinlerde en
iyi temsil yöntemidir. Kelime vektörü modelinin yetersiz kaldı
ğıproblemlerde
model geliş
tirilmiş
tir; mesela tek kelime yerine kelimeler ikiş
er ya da üçer olarak
gruplanmı
şve o ş
ekilde kelime-vektörüne yerleş
tirilmiş
lerdir. Bazıuygulamalarda
bu
temsilerin
ötesinde
metnin
cümle
yapı
sı
na
göre
temsil
modelleri
geliş
tirilmiş
tir. Çalı
ş
mamı
zda kelime-vektörü temsili yeterli olacaktı
r. Yetmemesi
durumunda hybrid bir yönteme baş
vurulacak.
Kelime- vektörü temsil modelinin tez çalı
ş
ması
na uygulanması
nıgenel
hatları
yla açı
klayalı
m. Her bir kitap için web sayfaları
ndan elde edilen düz
metinler birleş
tirildikten sonra içlerinde geçen kelime sayı
sıbinlerce hatta on
binlerce olabilir. Bu sayı
yıazaltmanı
n yöntemleri mevcuttur. Genelde 3 harften
kı
sa kelimeler atı
lı
r, yada konuyla ilgi olup olmadı
klarıincelenir. Bu çalı
ş
madaki
kelimeler dokümanlar içinde bulunma frekansları
na göre sı
ralanarak, en yüksek
frekansa sahip ilk n tanesi seçilerek kelime-vektör temsili oluş
turulmaktadı
r.
Sı
nı
flama iş
lemine baş
lamadan önce son adimdir kelime vektör
oluş
turulması
. Teorik esaslarıönceki bölümlerde verilen bu iş
lem burada sadece
uygulama açı
sı
ndan incelenecek. Önceki adı
mlardan geriye her bir kitap için
kalan birer kelime seti, bu adı
mda uygun iş
lemler ile ağı
rlı
klarıhesaplanı
p birer
sayı
sal değere dönüş
türülmeleri gerek. Şekil 3.22 de bu adı
mda uygun yazı
lı
m
tarafı
ndan gerçekleş
tirilen algoritma görülmekte
69
Baş
la
Her bir dokuman için kelime
setini veri tabanı
ndan oku
Dokumanda bulunan her bir t
terimi için Tf ve iDf i hesapla
(1log 2 tf ta )log 2
wta {0
Bütün
dokümanlar
okundu mu?
N
dft
Hayı
r
Evet
Bitir
Şekil 3.22 Terim seçme ve ağı
rlı
klandı
rma ş
emasıalgoritması
Burada ağirlı
k değeri hesabı
nda kullanı
lan yöntem TFIDF olarak bilinen
ve yaygı
n kullanı
lan yöntemdir.
(1log 2 tf ta )log 2
wta {0,
N
dft
Bu çalı
ş
mada terim seçme ş
emasıolarak sunulan Bulanı
k terim seçme
yönteminden elde edilen çı
kı
şdeğeri yukarı
daki formülde dft yerine konulabilir.
Bu da terim ağı
rlı
klandı
rma da bir yeniliktir, ancak verimi hakkı
nda henüz yeteri
kadar bilgi edinilmemiş
tir.
Daha önce de bir çok yerde vurgulandı
ğıgibi dokümanları
n kelime seti
oluş
turulduğunda çok sayı
da kelime kalmaktadı
r. Bu çalı
ş
mada ilk aş
ama kelime
70
yani terim filtreleme olarak 4 harften kı
sa kelimelerin ve harf ile baş
lamayan
kelimelerin elenmesidir. Ancak bu iş
lem de kelime sayı
sı
nı
n istenilen sı
nı
rlarda
olması
nı sağ
layamamaktadı
r. Teorik bilgiler arası
nda bu durumlar için
geliş
tirilmişterim eleme ş
emalarıanlatı
lmaktadı
r. Bu çalı
ş
mada terim elem için çi
kare metodu ve bu çalı
ş
ma kapsamı
nda önerilen yeni Bulanı
k terim seçme ş
eması
kullanı
lmı
şve sonuçlarıtest edilmiş
tir. Önerilen yeni ş
ema daha sonraki bölümde
daha ayrı
ntı
lıincelenecek. Çi kare testi teorik bilgilerde ayrı
ntı
lıaçı
klanmı
ş
tı
r.
Uygulamada kullanı
lma ş
ekli ise her bir terim için çi ağı
rlı
klandı
rma ile bir değer
üretilir ve en yüksek değere sahip ilk 100 terim dokümanıtarif edecek terimler
olarak seçilmekteler.
Terim seçme iş
lemini gerçekleş
tiren modülün kullandı
ğıalgoritma ş
ekil
3.23 da görülmekte. Bu algoritmada kullanı
lacak terim seçme ş
eması
belirlenmeden genel bi algoritma tanı
tı
lmakta. Yazı
lı
mda seçilen ş
ema parametre
olarak verilir ve seçime göre bir çı
kı
şelde edilmektedir.
Baş
la
Kitap tablosundan kitap ismi oku
Kitap ismini kullanarak uygun
sorgu oluş
tur
Sorguyu Google gönder
Gelen cevaplar arası
nda ilk 50
tanesini Link tablosuna kaydet
Kitap veri
tablonun sonuna
ulaş
ı
ldımı
?
Hayı
r
Evet
Bitir
Şekil 3.23 Terim seçme ve ağı
rlı
klandı
rma ş
emasıalgoritması
71
Bu aş
amada yazı
lı
m bir önceki adı
mdan seçilmişterim eleme yönteminden
gelen terimler ve bunarlı
n ağı
rlı
k değerlerinden 46 kitap için sayı
sal değerler
içeren 46 tane vektör oluş
turmakta ve bunlarıbir dosyaya kaydetmektedir. Bu
dosya sonradan Matlab yazı
lı
mı
na aktarı
larak sı
nı
flama modeli kurulmaktadı
r.
3.2.1.9 Sı
nı
flama İ
ş
lemi
Kelime vektörleri oluş
turulduktan sonra metin madenciliğ
i teknikleri
uygulanarak çalı
ş
manı
n amacıyerine getirilmektedir. Sı
nı
flanacak nesneler
(kitaplar) sı
nı
flara (edebiyat türleri) otomatik atama iş
lemi bir metin madencilik
sı
nı
flama algoritmasıolan destek vektör makineler ile yapı
lamaktadı
r. Bu yöntem
sı
nı
fları
n önceden bilinmesi durumunda kullanı
ldı
ğı
ndan ve özellikle de çok
boyutlu yapı
larla iyi performans gösteren bir sı
nı
flandı
rma yöntemi olduğu için
seçilmiş
tir.
Destek vektör makineleri bir öğrenme metodudur. Çekirdek tabanlı
doğrusal olmayan sı
nı
flandı
rı
cı
ları
n sinyal iş
leme, yapay öğrenme ve VM
alanı
ndaki pratik problemlerde iyi sonuçlar verdiği bulunmuş
tur. Matlab yazı
lı
mı
için geliş
tirilmişaçı
k kodlu ve birçok makalede en iyi SVM implementasyonu
olarak tavsiye edilen Lİ
BSVM toolbox u sı
nı
flama iş
lemlerinde kullanı
lmaktadı
r.
(http://www.csie.ntu.edu.tw/c̃jlin/libsvm).
Önceki aş
amalarda kı
taları
n birer ağı
rlı
k değerler vektörleri ile temsileri
yapı
lmı
şve bu veriler bir dosyaya kaydedilmiş
tir. Artı
k bu verilerin bir kı
smı
nı
n
eğitim verisi olarak kullanı
larak Lİ
BSVM aracıile bir sı
nı
flama modeli
oluş
turulur. Sonunda da model rasgele seçilmişkelime vektörleri ile test
edilmiş
tir.
4.7 Deneyler için geliş
tirilen ve kullanı
lan yazı
lı
mlar ve araçlar.
Edebiyat eserlerinin web verilerine dayanarak sı
nı
flandı
rma süreci üç
temel aş
amadan oluş
maktadı
r:
72
1. Ön hazı
rlı
k aş
aması
, analiz surecini kapsamaktadı
r. Sadece bu aş
ama
otomatik değildir ve yazı
lı
m kullanı
lmadan uygulanmaktadı
r.
2. Sı
nı
flama için verilerin Internet ten toplanması
, öniş
lemler ile
sı
nı
flamaya uygun hale getirilmesi aş
aması
, tamamen otomatik ve özel
olarak bu deneyler için geliş
tirilmişyazı
lı
m ile yapı
lamaktadı
r.
3. Terim seçme ve ağı
rlı
klandı
rma aş
aması
, tamamen otomatik ve aynı
yazı
lı
m ile gerçekleş
tirilmektedir.
4. Sı
nı
flama modelin oluş
turulmasıve test edilmesi, Matlab ve Lİ
BSVM
isimli sı
nı
flama aracıile otomatik yapı
lmaktadı
r.
Matlab yazı
lı
mıiçin geliş
tirilmişLİ
BSVM bir SVM sı
nı
flama aracı
dı
r. Bu
araç seti verilerin bir dosyadan Matlaba aktarı
lması
nı
, aktarı
lan verilerden
sı
nı
flama modelinin kurulması
nıve test edilmesini sağlamaktadı
r.
Sı
nı
flamanı
n gerçekleş
tirilmesi için gereken verilerin internete tespit
edilip, yerel veri tabana aktarı
lması
, gereken öniş
lemlerin uygulanması
, metinin
terim seçme ve eleme ş
emaları
nı
n uygulanmasıiş
lemlerini bir yazı
lı
m aracı
lı
ğ
ıile
yapı
lmaktadı
r. Yazı
lı
m deneysel çalı
ş
malar için, Microsoft un. NET 2.0 ve
VS2005 yazı
lı
m geliş
tirme ortamı
nda geliş
tirilmiş
tir. Yukarı
da anlatı
lan çalı
ş
ma
sürecin her adı
mıiçin uygun sı
nı
flar yazı
larak tam modüler ve para metrik bir
yazı
lı
m geliş
tirilmiş
tir. Web den gereken site adreslerinin tespit edilmesi için
google web servisleri kullanı
lmaktadı
r. Web site içeriklerin veri tabana
kaydedilmesi için html protokolünü gerçekleş
tiren uygun C# yazı
lı
m dili sı
nı
fları
kullanı
larak veri tabanı
na sadece html kodlar aktarı
lmaktadı
r. Web site içerikleri
Html Parser adıverilen bir sı
nı
f ile Html kodlardan arı
ndı
rı
lmakta. Bulanı
k
mantı
k terim seçme ve ağı
rlı
klandı
rma ş
emasıise Matlab Fuzzy Toolbox ile
gerçekleş
tirilmiş
tir.
73
3.2.2 Bulanı
k Terim Seçme Şeması(B-TSŞ)
3.2.2.1 Genel bilgi
Terim seçme ve ağı
rlı
klandı
rma ş
emalarıhakkı
nda teorik bilgi bu metnin
3.1.5 numaralıbölümde ayrı
ntı
yla verilmektedir. Bunun yanı
nda mevcut olan
ş
emalar hakkı
nda eleş
tiri metnin üçüncü bolümün sonunda verilmektedir.
Tez kapsamı
nda yapı
lan sı
nı
flama görevi için ön iş
lem olarak kullanı
lan
terim seçme ş
emalarıaraş
tı
rı
lmı
ş
tı
r. Birçoğ
unun probleme özgü değil de istatistik
yöntemlerinin özelik seçme iş
lemine uyarlanmı
şhalidir. Buna karş
ı
n değ
iş
ik
araş
tı
rmalar ideal terim seçme ş
eması
nısöyle tanı
tmaktadı
r: İ
deal terim seçme
ş
emasıya da algoritmasıprobleme özgü kurulmuşolandı
r. Bu algoritma
sı
nı
flamayıen verimli sonuca yaklaş
tı
racak terimlerin bir alt kümesini seçip
uygun bir ağ
ı
rlı
klandı
rma gerçekleş
tirmelidir. Metin madenciliğinde terim seçme
ve ağı
rlı
klandı
rma algoritmalarıdokümanları
n birbirlerinden farklı
lı
kları
nıortaya
çı
karacak terimleri seçmeyi amaçlarlar.
Bulanı
k mantı
k sistemlerin en büyük avantajı bilirkiş
ilerin öznel
bilgilerini kullanabilmeleridir. Bilirkiş
ilerden alı
nacak bilgiler ile girişçı
kı
şüyelik
fonksiyonlarıve kural tablosu oluş
turulur. Bu parametrelere göre bulanı
k
sistemler bir çı
kı
şvermekteler.
Bulanı
k sistemlerin terim seçme da kullanı
labilir, sonucuna ulaş
abiliriz bu
noktada. Terim ağı
rlı
klandı
rma için ise dolaylı kullanı
labilirler. Bulanı
k
sistemlerde üyelik fonksiyonları
n probleme göre uyarlamakla terim seçme
ş
emaları
n probleme özgü olmalarısağlanı
r.
Bu çalı
ş
mada metin madenciliği yöntemlerinden olan sı
nı
flama tekniğ
i
kullanı
lmı
ş
tı
r. Her bir dokümanıtarif eden birer terim kümesi oluş
turulmuş
tur.
Sı
nı
flamanı
n baş
arı
lıolmasıiçin bu terim kümelerini oluş
turan terimler,
dokümanları bir birinden ayrı
ş
tı
racak ve özeliklerini yansı
tacak ş
ekilde
seçilmeleri lazı
m.
74
Dokumanlar genelde yüzlerce farklıterimden oluş
urlar. Bu da doküman terim
uzayı
nda gösterilecek iki doküman setinin binlerce elemanıoluş
turması
na sebep
olmaktadı
r. Şekil 3.24 de ideal ve Şekil 3.25 de gerçek doküman – terim
uzayı
ndaki terim dağı
lı
mı
nıgörebilmekteyiz.
Şekil 3.24 Doküman – terim uzayı
nda İ
deal terim dağı
lı
mı
Şekil 3.25 Doküman – terim uzayı
nda Gerçek terim dağı
lı
mı
Şeklilerden de anlayabileceğimiz gibi dokümanlarıtarif eden terimler çok
sayı
dadı
rlar. Bütün bu terimlerle sı
nı
flamayıgerçekleş
tirmek imkânsı
zdı
r,
ayrı
ş
tı
rı
cıdüzlem bulunamaz. Bir çözüm terimlerin dokümanlarıayrı
ş
tı
racak
75
ş
ekilde seçmektir. Şekil 3.26 de iki dokümanıayrı
ş
tı
racak bir düzlem bulunacak
ş
ekilde terim seçimi yapı
lmı
ş
tı
r.
Şekil 3.26 Terim seçimi
Terimlerden sı
nı
flamayıkolaylaş
tı
racak olanlarıseçmek terim seçimi ve
ağı
rlı
klandı
rma ş
emaları
nı
n amacı
dı
r. Bu çalı
ş
mada değiş
ik terim seçme
ağı
rlı
klandı
rma ş
emalarıuygulandıve ayrı
ca bir de yeni bir ş
ema denendi.
Önerilen ş
emanı
n temelinde yatan mantı
k bir kaç varsayı
mdan yola
çı
kı
larak bulunmuş
tur: ”Bir D dokümanı
nda bulunan t terimi, D dokümanı
nda çok
tekrarlanı
yor ve diğer dokümanlarda az tekrarlanı
yor ise t terimi D dokümanıiçin
önemlidir”.
“Bir t terimi bir doküman setinde bulunduğu doküman ve bulunmadı
ğıdoküman
sayı
larıkarş
ı
laş
tı
rı
ldı
ğı
nda terim ayrı
ş
tı
rı
cı
lı
ğıhakkı
nda bilgi verir, öyle ki bir
dokuman seti olsun, bu setin içinde de belli dokuman kategorileri olsun, bir
kategori deki D dokumanıiçinden seçilen bir terim, bu kategoride doküman
frekansıdüş
ük diğer kategorilerdeki toplam dokuman frekansıyüksek ise bu terim
ayrı
ş
tı
rı
cıbilgi taş
ı
r ve seçilmesi lazı
m ”.
76
Yukarı
da sayı
lan ve örnekleri çoğaltı
labilen varsayı
mlar ve kurallar ile bir
bulanı
k sistem kurulabileceğ
inden, bir Bulanı
k Terim ağı
rlı
klandı
rma ş
eması
tanı
mlanı
p denendi bu çalı
ş
mada.
3.2.2.2 Şemanı
n yapı
sı
Bulanı
k sistemler, gerçek girişve çı
kı
şdeğerleri ile çalı
ş
ı
rlar. Giriş
değerlerini girişfonksiyonlarıile bulanı
klaş
tı
rı
rlar, çı
kı
şdeğerlerini durulaş
tı
rı
cı
adıverilen bir yöntem ile gerçek değere dönüş
türler. Şekil 3.27 de B-TAŞiçin
tasarlanan bulanı
k sistem verilmekte.
Şekil 3.27 B-TSŞiçin Bulanı
k Sistem
Önerilen bulanı
k sistemi 2 girişve bir çı
kı
ş
ıvardı
r. Her bir terim için
ağı
rlı
k değeri bu sistem sayesinde hesaplanacak. Bir t terimi için 2 değer
belirlenecek. Birincisi, terimin bulunduğu dokümandaki tekrarlanma sayı
sıyani
terim frekansı
, ikinci değer ise t terimin bulunduğu dokuman sayı
sıyani doküman
frekansı
. Çı
kı
şdeğeri ise bulanı
k sistemden alı
nacak ve t terimin hesaplanan
ağı
rlı
k değeri olacak. Şekil 3.27 görünene B-TSŞş
emasıŞekil 3.28 de bu yeni
bilgilerle tamamlanmaktadı
r.
77
Şekil 3.28 B-TSŞiçin Bulanı
k Sistem
B-TSŞ için bulanı
k sistemi genel hatlarıtanı
tı
ldı
. Metnin devamı
nda
bulanı
klaş
tı
rma ve durulaş
tı
rma iş
lemlerini gerçekleş
tirmek amacı
yla kullanı
lan
girişve çı
kı
şüyelik fonksiyonlarıincelenecektir.
3.2.2.3 Üyelik fonksiyonlar
Bulanı
k sistemler
giriş değerlerini
bulanı
klaş
tı
rmak
için
üyelik
fonksiyonları
nıkullanı
rlar. B-TSŞsisteminde iki girişverisi tanı
mlamı
ş
tı
k. İ
lki
kategorideki doküman frekansı
, ikincisi ise diğer kategorilerdeki toplam dokunma
frekansı
dı
r. Kategori içindeki doküman frekans değ
erini bulanı
klaş
tı
racak giriş
Şekil 3.28 da görülmekte.
Şekil 3.28 Kategori içi doküman frekansı
78
Kategori içi dokuman frekansı
nıbulanı
klaş
tı
ran ve ş
ekil 3.29 da görünen üyelik
fonksiyonlar, düş
ük frekans orta frekans ve yüksek doküman frekansıolarak
tanı
mlanmı
ş
lardı
r. Şekilde görünen grafik ilk testini yaptı
ğı
mş
emadan alı
nmı
ş
tı
r,
ondan dolayı8 ş
ayisi en yüksek değer olarak tanı
mlanmı
ş
tı
r.
Normal bir uygulamada üyelik fonksiyonları
n sı
fı
r noktalarıprobleme
özgü tanı
mlanmalı
lar. Bu örnekte bir kategoride 8 tane kitap bulunduğ
undan
kategori içi en büyük değer 8 olabileceğ
inden üyelik fonksiyona bu değer atandı
.
Şekilde görüldüğü gibi frekans değeri 0-3 arasıise düş
ük, 1-7 arasıorta ve 5-8
arasıyüksek kabul edilecek. Bu değerler bu uygulamada uygun oldukları
göründüklerinden bunlar tavsiye edilmekteler. Ancak baksa uygulamalarda bu
parametreler uygun sonuç bulunana kadar değiş
tirilmeleri lazı
m.
Şekil 3.29 Kategori dı
ş
ıtoplam doküman frekansı
İ
kinci bulanı
klaş
tı
rı
lacak girişdeğeri kategori dı
ş
ıtoplam doküman
frekansı
dı
r. Bu uygulamada 6 tane sı
nı
f ve her sı
nı
fa ait 8 er kitap belirlenmiş
tir.
C kategorideki t terimi için hesaplanacak bu ikinci değer, söz konusu C kategori
dı
ş
ı
ndaki bütün kategoriler de t terimin bulunduğu doküman sayı
sı
dı
r. C dı
ş
ı
ndaki
5 kategoride 8 er kitap 40 değerini vermektedir. Bu yüzden bulanı
klaş
tı
rı
cıüyelik
fonksiyonlarıda en yüksek değer olarak 40 değ
erini alabilmekte.
Girişdeğeri 0-15 arası
nda ise düş
ük frekans, 5-35 arasıorta frekans ve 25-40 arası
da yüksek frekans olarak değerlendirilmektedir.
79
Çı
kı
şdeğeri olarak bulanı
k sitemden alı
nacak bulanı
k değer çı
kı
şüyelik
fonksiyonu ile elde edilir. Bu değer 0-1 arasıbir terim seçme ağı
rlı
k değeri olarak
tasarlandı
.
Şekil 3.30 Terim seçme Ağı
rlı
k değeri için üyelik fonksiyonları
Şekilde
iki
üyelik
fonksiyonu
görünüyor.
Çı
kı
ş olarak
seçilen
fonksiyonları
n ilki düş
ük terim seçme ağı
rlı
ğı
nıtemsil eder ve yapı
sıda sonucun
sı
fı
r değerine yakı
nsayacak ş
ekilde seçilmiş
tir. Diğer üyelik fonksiyonu ise
yüksek terim seçme ağı
rlı
ğı
nıtemsil etmektedir. Çı
kı
şdeğeri yükselirken ağı
lı
k
değeri de bire yakı
nsamasılazı
m olduğu için fonksiyon da eğriliği ile bu koş
ulu
gerçekleş
tirmektedir.
1.2.2 Kural tablosu
Bulanı
k sistemlerin en önemli elemanıkural tablosudur. Bu tablo, giriş
değerleri ve bunarlı
n üyelik fonksiyonları
nda aldı
klarıdeğerler ile çı
kı
şüyelik
fonksiyonları
nda haritalanacaklarıdeğerler, eğer-ise kuralarıile tanı
mlandı
kları
bir tablodur. Bulanı
k terim seçme sisteminde tanı
lanan eğer ise karaları
listelemeden önce g1 ile kategori içi frekansıyani birinci giriş
, g2 ile kategori dı
ş
ı
dokuman frekansıyani ikinci giriştanı
mlansı
n.
 Eğer g1 = düş
ükF ve g2 = düş
ükF ise ağı
rlı
k = düş
ükA
 Eğer g1 = düş
ükF ve g2 = ortaF ise ağı
rlı
k = yüksekA
 Eğer g1 = düş
ükF ve g2 = yüksekF ise ağı
rlı
k = yüksekA
 Eğer g1 = ortaF ve g2 = düş
ükF ise ağı
rlı
k = yüksekA
80
 Eğer g1 = ortaF ve g2 = ortaF ise ağı
rlı
k = düş
ükA
 Eğer g1 = ortaF ve g2 = yüksekF ise ağı
rlı
k = yüksekA
 Eğer g1 = yüksekF ve g2 = düş
ükF ise ağı
rlı
k = yüksekA
 Eğer g1 = yüksekF ve g2 = ortaF ise ağı
rlı
k = yüksekA
 Eğer g1 = yüksekF ve g2 = ortaF ise ağı
rlı
k = yüksekA
 Eğer g1 = yüksekF ve g2 = yüksekF ise ağ
ı
rlı
k = düş
ükA
Kı
saca bu kuraları
n ne anlama geldiklerine bakacak olursak daha önce
terim seçme ş
emaları
nda kullanı
lan fikri bulabiliriz. Bir terim bir kategoride az
tekrarlanı
yor ancak diğer kategorilerde çok tekrarlanı
yor ise bu terim ayrı
ş
tı
rı
cı
değer taş
ı
maktadı
r ve terim seçme ağ
ı
rlı
ğıyüksek olmalı
dı
r. Diğer yandan bir
terim kategoride çok tekrarlanı
yor ancak diğer kategorilerde de aynen çok
tekrarlanı
yor ise o zaman bu terim ayrı
ş
tı
rı
cıdeğer taş
ı
mamaktadı
r ve terim seçme
ağı
rlı
ğıolan çı
kı
şdeğeri de düş
ük olması
dı
r.
3.2.2.4 Durulaş
tı
rma
Bulanı
k sistemin durulaş
tı
rı
cıyöntemi için, durulaş
tı
rma metotları
ndan
“Ağı
rlı
klıOrtalama Yöntemi” kullanı
lmı
ş
tı
r. Bu yöntem en çok kabul gören
yöntemlerden biridir.
ü
Z 
ü(n)
81
Çözüm uzayı
Şekil 3.31 de görünen grafik problem için kurulan deneme bulanı
k
sistemin çözüm uzayı
nıtemsil etmektedir.
Şekil 3.31 Bulanı
k sistemin çözüm uzayı
3.2.2.7 Bulanı
k sistem için bir örnek
Kurulan bulanı
k sistemin daha kolay anlaş
ı
lmasıve bir örnekle test
edilmesi
için
birkaç
giriş için
elde
edilecek
çı
kı
ş
ı inceleyelim.
İ
lk örnek için C kategorisinde bulunan D dokümanı
nda t terimi için C
kategorisinde bulunduğu dokuman sayı
sıyani dokuman frekansı7 olsun, ve diğer
kategorilerin toplamı
nda bulunduğ
u dokuman sayı
sıda 5 olsun.
82
Şekil 3.32 Girişdeğerlerine göre elde edilecek çı
kı
şdeğer örneği
Şekil 3.32 da birinci değer 7olarak verildiği görünüyor. Bu değer yüksek
frekans üyelik fonksiyonunu ve orta frekans isimli üyelik fonksiyonu kesmektedir.
Diğer girişdeğeri ise 8 olarak seçilmiş
ti, bu da kategori dı
ş
ıdeğiş
keninde düş
ük
frekans üyelik fonksiyonu ve orda frekans isimli üyelik fonksiyonu kesmektedir.
Durulaş
tı
rma iş
lemi sonrası
nda elde edilen çı
kı
şdeğeri 0.668 dı
r.
Girişdeğerleri 7 ve 8 olarak seçilen giriş
ler terimin bulunduğu kategoride
çok tekrarlanı
yor diğer kategorilerin toplamı
nda az tekrarlandı
ğı
nıtemsil
etmektedir. Beklenen çı
kı
şdeğ
eri orta ve biraz üstünde bir çı
kı
şdeğeridir, elde
edilen değer de 0.668 dir. Giriş
lerin arası
ndaki fark büyüdükçe çı
kı
şdeğeri de
yükselmektedir ve tam tersi. Bu da tam istenilen bir ağı
rlı
klandı
rma dı
r.
3.2.2.8 Önerilen yeni ş
emanı
n avantajlarıve dezavantajları
Çalı
ş
mada önerilen yeni terim seçme ş
eması
nı
n en büyük avantajıbulanı
k
sisteme dayanmasıve probleme özgü uyarlanmasıkolaylı
ğı
dı
r. Bulanı
k sistemleri
tanı
mlayan üyelik fonksiyon ve kural tabloları
n değiş
imiyle sistemin istenilen
sonuçlarıvermesi sağlanı
r. Bu da ideal bir terim seçme ş
eması
nı
n ön ş
artı
dı
r.
83
Bulanı
k terim seçme ş
eması
nı
n ağı
rlı
klandı
rma için kullanı
labilmesi de
mümkündür. TFIDF isimli ve terim frekansıçarpıters dokuman frekansıolan
ş
emada ikinci elemanıBulanı
k terim seçme çı
kı
şdeğeri olan ağı
rlı
kla değiş
tirsen
yeni bir terim ağ
ı
rlı
klandı
rma elde edilir.
wi , j tfi , j x log(
N
)
df i
Burada dfi elemanı
nıbulanı
k sistem çı
kı
ş
ıolan terim seçme ağı
rlı
ğıile yer
değiş
tirebiliriz. Sonuçta önerilen yeni ş
emanı
n formülü :
wi , j tfi , j x log(
N
)
tsAi, j
Deneysel çalı
ş
malarda istenilen sonuçlar elde edilememiş
tir. Gelecek
çalı
ş
malarda bunun nedeni araş
tı
rı
labilir.
Önerilen yeni terim seçme ş
eması
nı
n en büyük dezavantajıvar olan
yöntemlerden hesaplanabilirliği daha yüksek ve benzer sonuçlar vermesinde.
Yeni ş
emanı
n bu çalı
ş
ma kapsamı
nda sadece iki defa test edilmesi mümkün
olmuş
tu. Daha büyük ve verimli testlerle bu ş
emanı
n gerçek değeri anlaş
ı
labilir
84
4 SONUÇ
Bu çalı
ş
ma da web verilerine dayanarak edebiyat eserlerin sı
nı
flaması
gerçekleş
tirilmiş
tir. Deneysel çalı
ş
malar ile web sitelerde bulanan verilere göre bir
sı
nı
flamanı
n gerçekleş
tirilmesi mümkün olduğu gösterilmiş
tir. En iyi sonuçlar
“kitap ismi” + book + review –amazon.com –pdf sorgu ile elde edilmiş
tir.
Deneylerden elde edilen bir baş
ka ilginç sonuç ise sadece 2 tane eğitim örneği ile
%70 lik baş
arıgösteren sı
nı
flama modelinin gerçekleş
tirilebilmesidir.
Terim seçme yöntemlerinden 2 kare ile en iyi sonuçlar elde edilmiş
tir.
2
Ayrı
ca bu çalı
ş
mada geliş
tirilen bulanı
k terim seçme ş
emasıile de  kareye
yakı
n sonuçlar elde edilerek hibrid sistemlerin de kullanı
labileceği gösterilmiş
tir.
Ancak bu çalı
ş
manı
n web de bulunan verileri kullanması
ndan dolayıbazı
sı
nı
rlamalar da tespit edilmiş
tir. En büyük sı
nı
rlama edebiyat eserlerini tarif
edecek web sitelerin elde edilmesi için kullanı
lan arama motorları
nı
n bulduğu
sitelerde
problemle
ilgili
verilerin
bulunup
bulunmadı
ğı
nı önceden
bilemememizdir. Edebiyat eserlerini yukarı
daki sorgu ile sorguladı
ğı
mı
zda
karş
ı
mı
za gelen siteler genelde çevrimiçi satı
şyapan web sitelerdir. Bu sitelerin
içerisinde kitabi tarif eden bilgiler diğer konu ile ilgili olmayan kelimeler sayı
sı
yla
kı
yasla çok azdı
rlar. Örneğin en yüksek ağı
rlı
ğıolan kelimeler, items, books,
order gibi kelimelerdir, sebebi ise bu kelimelerin en çok defa tekrarlanmaları
dı
r.
Bütün bu problem ile ilgisi olmayan kelimeler sı
nı
flamayıyanı
ltan faktörlerdir.
2
Bu kelimelerin elenmesi için  kare testi kullanı
lmı
şve ayrı
ca da bulanı
k
mantı
k sistemini temel alan yeni bir terim eleme metodu tanı
tı
lmı
ş
tı
r. Burada
önemli bir baş
ka sonuç da önerilen yeni terim seçme ve ağı
rlı
klandı
rma ş
emanı
n
diğer denenen ş
emalar ile yakı
n sonuçlar verebilmesidir.
85
6 sı
nı
f ve her bir sı
nı
f için 8 er kitaptan oluş
an test kümesi ve bir kaç farklı
terim eleme ve ağı
rlı
klandı
rma ş
emasıile aş
ağı
daki sonuçlara ulaş
ı
ldı
. Burada t ve
d ile sı
nı
flama modelin kaç tane eğ
itim ve test örneğ
i ile kurulup test edildiği
gösterilmekte.
Terim seçme
t2-d6
ş
eması/ test ve
eğitim örnek sayı
sı
tf*idf
16.6667%
(500 özellik)
(2/12)
2
83.3333%
 kare
(10/12)
(100 özellik )
Bulanı
k terim
75%
eleme ş
eması
(9/12)
(100 özellik)
Tablo 4.1 Sı
nı
flama sonuçları
.
t4-d4
t6-d2
20.8333%
(5/24)
87.5%
(21/24)
27.7778%
(10/36)
77.7778%
(28/36)
89.333
(20/24)
72.222
(26/36)
86
KAYNAKLAR
Agrawal, R., Imielinski, T. and Swami, A., May 1993, Mining association
rules between sets of items in farge databases, In ACM SIGMOD Conf.
Management of Data.
Almuallim, H. and Dietterich, T., 1991, Learning with many irrelevant
features, In Proceedings of AAI 91, (Menlo Park, CA), AAAI Press, pp. 547552.
Alpaydı
n, E., 1999, Zeki veri madenciliği: Ham veriden altı
n bilgiye
ulaş
ma
yöntemleri,
www.cmpe.boun.edu.tr/~ethem/files/papers/verimaden_2k-notlar.doc .
Askerzade, L., 2001. Toward a Perception-based Theory of Probabilistic
Reasoning with İ
mprecise Probabilities. Journal of Statistical Planning and
İ
nference 105 (2002) 233-264.
B. How and K.Narayanan, Categorical term descrtiptor: A proposed
term weighting shememe for fuature selection, in The 2005
IEEE/WIC/ACM International Conference on Web Intelligence [WI 2005],
France, 2005, pp. 313-316
Belen, E. Özgür, Ç. ve Özakar, B., 2003. WALA : Web Erisim Kütük
Arastı
rmacı
sı
. Türkiye Bilisim Dernegi 3. Bilisim Haftası
, _stanbul.
http://kurultay.tbd.org.tr/kurultay20/Bildiriler/Belgin_Ozakar/bildiri.pdf
C. D. Manning and H. Sch¨utze. Foundations of Statistical Natural
Language Processing. MIT Press, Cambridge, MA, 2001
C. J. van Rijsbergen. A non-classical logic for information retrieval. The
Computer Journal, 29(6):481–485, 1986.
Chan, K. C. C. and Wong, A. K. C., 1991, A statistical technique for
extracting classifı
catory knowledge from databases, In Knowledge Discovery
In Databases (G. Piatetsky-Shapiro and W. J. Frawley, eds.), pp. 107-123,
Cambridge, MA: AAAI/MIT.
Corinna, C., Drucker, H., Hoover, D. and Vapnik, V., Capacity and
complexity control in predicting the spread between harrowing and lending
interest rates, In The First International Conference on Knowledge Discovery
and Data Mining (U. Fayyad and R. Uthurusamy, eds.), (Montreal,
Quebec,Canada), pp. 51-76, aug 1995.
Cross industry standard process for data mining. http://www.crispdm.org/, 1999.
87
D.D. Lewis and M. Ringuette. Comparison of two learning algorithms for
text categorization. In Proceedings of the Third Annual Symposium on
Document Analysis and Information Retrieval (SDAIR'94), 1994.
Deogun, J. S., Raghavan, V. V. and Sever, H., 1995, August, Exploiting
upper approximations in the rough set methodology, In The First International
Conference on Knowledge Discovery and Data Mining (U. Fayyad and R.
Uthurusamy, eds.), (Montreal, Quebec, Canada), pp. 69-74.
Dunham, M.H. 2003. Data Mining Introductory and Advanced Topics.
Prentice Hall, New Jersey, 5-19 P, 195-220 P.
E. Leopold and J.Kindermann, Text weighting and ranking with support
vector machines. How to represent text in input space? Machine Learning, 46
(2002), pp. 423-444.
E. Wiener, J.O. Pedersen, and A.S. Weigend. A neural network approach to
topic spotting. In Proceedings of the Fourth Annual Symposium on Document
Analysis and Information Retrieval (SDAIR'95), 1995.
E.Chisholm and T. Kolda, New term weighting formulas for the vector
space method in information retrival, Technical report, ORNL/TM-13765,
Computer Science and Mathematics Division, Oak Ridge National
Laboratory, (1999)
Elder-IV, J. F. and Pregibon, D., 1995, August, A statistical perspective on
KDD, In The First International Conference on Knowledge Discovery and
Data Mining (U. Fayyad and R. Uthurusamy, eds.), (Montreal, Quebec,
Canada), pp. 87-93.
Elmas, Ç., 2003. Bulanı
k Mantı
k Denetleyiciler. Seçkin Yayı
ncı
lı
k San.
Tic. A.Ş.
Etzioni, O. 1996. The World Wide Web: Quagmire or gold mine.
Communications
ofthe
ACM,
65-68.
http://www.cs.washington.edu/homes/etzioni/papers/cacm96.pdf
Fayyad, P. S. U. M., Piatetsky-Shapiro, G. and Uthurusamy, R., 1996a,
Advances in knowledge discovery and data mining, Cambridge, MA: Mİ
T
Press.
Fayyad, P. S. U. M., Weir, N., Djorgovski, S.G., 2000, Mart 22, Automated
analysis of a large-scale sky survey: The SKİ CAT System,
http://techreports.ipl.nasa.gov/1993/93-0597.pdf .
Fayyad, P.S.U. M., Piatetsky-Shapiro, G. , 1996b, The KDD process for
extracting useful knowledge from volumes of data, Communications Of ACM
39, 11, 27-34.
88
Frawley, W. J., Piatetsky-Shapiro, G., Matheus, C. J., 1991, Knowledge
discovery databases: An overview, In Knowledge Discovery In Databases (G.
Piatetsky-Shapiro and W. J. Frawley, eds.), Cambridge, MA: AAAI/M1T pp.
1-27.
G. Salton and C. Buckley. Term weighting approaches in automatic text
retrieval. Information Processing & Management, 24(5):513–523, 1988.
G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic
indexing. Communications of the ACM, 18(11):613–620, 1975. (see also
TR74-218, Cornell University, NY, USA).
G.Salton and C.Buckley, Term weighting approaches in automatic text
retrival, Information Processing and Management, 24 (1988), pp 513-523.
Grzymala-Busse, J. W., 1991, On the unknown attribute values in learning
from examples, In Proceedings of Methodologies for Intelligent Systerrzs (Z.
W. Ras and M. Zeı
nankowa, eds.), Lecture Notes in Al, New York: SpringerVerlag, 542, pp. 368-377.
Holsheimer, M. and Siebes, A.P J. M., 1994, Data mining: the search for
knowledge in databases.,Technical Report CS-R9406, CWJ, P .0. Bo x 94079,
1090 BG Amsterdam, The Netherlands.
I. H. Witten, A. Moffat, and T. C. Bell. Managing Gigabytes: Compressing
and Indexing Documents and Images. Morgan Kaufmann Publishers, San
Francisco, 1999.
J. M. G. Hidalgo. Tutorial on text mining and internet content filtering.
J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81–106,
1986.
J.R. Quinlan. Induction of decision trees. Machine Learning, 1(1):81-106,
1986.
J.W. Wilbur and K. Sirotkin. The automatic identication of stop words. J.
Inf. ci., 18:45 - 55,1992.
K. Sparck-Jones and P. Willett, editors. Readings in Information Retrieval.
Morgan Kaufmann, 1997.
K. Tzeras and S. Hartman. Automatic indexing based on bayesian inference
networks. In Proc 16th Ann Int ACM SIGIR Conference on Re-search and
Development in Information Retrieval (SIGIR'93), pages 22-34, 1993.
89
Kenneth Ward Church and Patrick Hanks. Word association norms,
mutual information and lexicography. In Proceedings of ACL 27, pages 7683, Vancouver, Canada, 1989.
Kira, K. and Rendeli, L., 1992, The feature selection problem; Tradational
methods and a new algorithm, In Proceedings of AAAI 92, AAAI Press pp.
129-134.
Klir, G.J. and Yuan, B., 1995. Fuzzy Sets and Fuzzy Logic: Theory and
Application. Prentice Hall, New Jersey
Koyuncu E., (2004), Yeni Matematiksel Kod; Bulanı
k Mantı
k, Teknolojist,
ITU IEEE
Lee, S. K., 1992, An extended relational database model for uncertain and
imprecise İ
nformation, In Proceedings Of The 1sth VLDB conference,
Vancouver, British Columbia, Canada, pp. 211-218.
Luba, T. and Lasocki, R., 1994, On unknown attribute values in functional
dependencies, In Proceedings Of The International Workshop On Rough Sets
And Soft Computing, San Jose, CA, pp. 490-497.
M. A. Andrade and A.Valencia, Automatic extarction of keywords from
scientific text: Aplication to the knowledge domain of protein families,
Bioinformatics,14 (1998), pp. 600-607
M. Hearst. Untangling text data mining. In Proc. of ACL’99 the 37th Annual
Meeting of the Association for Computational Linguistics, 1999.
M.Lan, S.-Y. Sung,H.-B. Low, and C.-L. Tan, A comparative stydy on term
weighting schemes for text categorization, in International Join Conferece on
Neural Network IJCNN, Montreal, Canada, 2005.
Matheus, C. J., Chan, P. K., and Piatetsky-Shapiro, G., 1993, Systems for
knowledge discovery in databases, IEEE Trans. On Knowledge And Data
Engineering, vol. 5, no. 6, pp. 903-912.
MatLab 6.5, Fuzzy logic toolbox.
Michalski, R. S. and Stepp, R. E., 1983, Learning from observation:
Conceptual clustering, In R. S. Michalski, J, G, Oneli C., and Mite T. M., hell
editors, Machine Learning: An Artifîcial Intelligence Approach , Vol 1,
Morgan Kaufmann, pp 331-363.
N. Fuhr, S. Hartmanna, G. Lustig, M. Schwantner, and K. Tzeras. Air/x a rule-based multistage indexing systems for large subject _elds. In 606-623,
editor, Proceedings of RIAO'91, 1991.
90
Özakar, B. ve Püskülcü, H., 2002. Web içerik ve web kullanı
m madenciligi
tekniklerinin entegrasyonu ile olusmus bir veri tabanı
ndan nası
l
yararlanı
labilir?.Türkiye’de
_nternet
Konferansları
-VIII.
http://inettr.org.tr/inetconf8/bildiri/119.doc
Pawlak, Z., Slowinski, K., and Slowinski, R., 1986, Rough classifı
cation of
patients after highly selective vagotomy for duodenal ulcer, International
Journal Of Man-Machine Studies, vol. 24, pp. 413-433.
Peter Knees, Elias Pampalk, Gerhard Widmer, Artist Classification with
Web Based Data 1Austrian Research Institute for Artificial Intelligence
Freyung 6/6, A-1010 Vienna, Austria 2Department of Medical Cybernetics
and Artificial Intelligence Medical University of Vienna, Austria
Quinlan, J. R., 1986, Induction of decision trees, Machine Learning, vol. l,
pp. 81- 106.
R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval.
Addison Wesley Longman, 1999.
R. Fano. Transmission of Information. MIT Press, Cambridge, MA, 1961.
R. Feldman and I. Dagan. Kdt - knowledge discovery in texts. In Proc. of
the First Int. Conf. on Knowledge Discovery (KDD), pages 112–117, 1995.
R. Gaizauskas. An information extraction perspective on text mining: Tasks,
technologies
and
prototype
applications.
http://www.itri.bton.ac.uk/projects/euromap/TextMiningEvent/Rob_Gaizausk
as.pdf, 2003.
R.H. Creecy, B.M. Masand, S.J. Smith, and D.L. Waltz. Trading mips and
memory for knowledge engineering: classifying census returns on the
connection machine. Comm. ACM, 35:4863, 1992.
S. Deerwester, S.T. Dumais, G.W. Furnas, and T.K. Landauer. Indexing
by latent semantic analysis. Journal of the American Society for Information
Sciences, 41:391–407, 1990.
S. Dumais, J. Platt, D. Heckerman, and M. Sahami. Inductive learning
algorithms and representations for text categorization. In 7th Int. Conf. on
Information and Knowledge Managment, 1998. E. Leopold and J.
Kindermann. Text categorization with support vector machines. How to
represent texts in input space? Machine Learning, 46:423 – 444, 2002.
S. E. Robertson. The probability
Documentation, 33:294–304, 1977.
ranking
principle.
Journal
of
91
Sakiroglu, M. Tug, E. ve Bulun, M., 2003. Web Log Dosyaları
ndan Genetik
Algoritma Yöntemiyle Sı
ralıErisimlerin Tespit Edilmesi.Türkiye Bilisim
Dernegi,
3.
Bilisim
Haftası
,
_stanbul.
http://kurultay.tbd.org.tr/kurultay20/Bildiriler/Merve_Sakiroglu/bildiri.pdf
Shapiro, G. P. and Matheus, C. J., 1992, Knowledge discovery workbench
for exploring business databases, International Journal of Inteldigent Systems,
vol. 7, pp. 675-686.
Simoudis, E., October 1996, Reality check for data mining, In IEEE Expert:
Intelligent Systems and Their Applications , pages ll(5):26-33.
T. Joachims. Text categorization with support vector machines: Learning
with many relevant features. In C. Nedellec and C. Rouveirol, editors,
European Conf. on Machine Learning (ECML), 1998.
Takcı
, H. ve Sogukpı
nar, 2002. Erisim Desenleriyle Saldı
rıTespiti. Bilgi
Teknolojileri Kongresi, Pamukkale Üniversitesi, 6-8 Mayı
s 2002, Denizli.
Text mining summit conference brochure. http://www.textminingnews.com/,
2005.
Tom Mitchell. Machine Learning. McCraw Hill, 1996.
Tsoukalas, L.H., 1997. Fuzzy and Neural Approaches in Engineering. John
Wiley and Sons, İ
nc. Publication, Canada.
Tutorial Notes Online: http://ecmlpkdd.cs.helsinki. fi/pdf/hidalgo.pdf, 2002.
U. Nahm and R. Mooney. Text mining with information extraction. In
Proceedings of the AAAI 2002 Spring Symposium on Mining Answers from
Texts and Knowledge Bases, 2002.
Vahaplar, A. ve İ
nceoglu, M.M. 2001. Veri Madenciligi ve Elektronik
Ticaret Türkiye’de _nternet Konferansları
-VII. Elektronik Poster Bildiri.
http://inettr.org.tr/inetconf7/eposter/inceoglu.doc
Wang, L., 1997. A course in fuzzy systems and control. Prantice Hall
Publishers, Toronto.
Weiss, S. M. and Kulikowski, C. A., 1991, Computer systems that learn:
classifı
cation and prediction methods from statistics, Neural Nets, Machine
Learning, and Expert Systems , Morgan Kaufman.
Y. Kodratoff. Knowledge discovery in texts: A definition and applications.
Lecture Notes in Computer Science, 1609:16–29, 1999.
92
Y. Liu, B.J. Ciliaxi K.Borges, V. Dasigi, A. Ram, S.B.Navathe and
R.Dİ
ngledine, Comparasion of two schemes for automatic keyword
extraction from MEDLINE for functionla gene clustering, in Proc. Of 2004
IEEE Computational System Bioinformatics Conference (CSB2004), Stanford
University, 2004,pp 394-404.
Y. Wilks. Information extraction as a core language technology. In M-T.
Pazienza, editor, Information Extraction. Springer, Berlin, 1997.
Y. Yang and W.J. Wilbur. Using corpus statistics to remove redundant
words in text categorization. In J Amer Soc Inf Sci, 1996.
Y. Yang. Expert network: E_ective and e_cient learning from human
decisions in text categorization and retrieval. In 17th Ann Int ACM SI-GIR
Conference on Research and Development in Information Retrieval
(SIGIR'94), pages 13-22, 1994.
Yen-Cheng Tseng, Tsung-Ying Sun, (2005), Adaptive Fuzzy Search
Algorithm for Improving the Efficiency of Block Motion Estimation.
Zekai Şen, (2001), Bulanı
k Mantı
k ve Modelleme İ
lkeleri,.
Zhong, N. and Ohsuga, S., 1994, Discovering concept clusters by
decomposing databases, Data & Knowledge Engineering, vol. 12, pp. 223244.
93
EK-1
Deneysel çalı
ş
mada sı
nı
flamasıgerçekleş
tirilen edebiyat eserler listesi.
Children's Books
00
01
02
03
04
05
06
07
2006 The Hello, Goodbye Window
2005 Kitten's First Full Moon by Kevin Henkes
2006 Criss Cross by Lynne Rae Perkins
2005 Kira-Kira by Cynthia Kadohata
2006 Remember: The Journey to School Integration by Toni Morrison
2005 The First Part Last by Angela Johnson
2006 Fat Kid Rules the World by K. L. Going
2006 The House of the Scorpion by Nancy Farmer
Mystery
10
11
12
13
14
15
16
17
2006 Citizen Vince: A Novel by Jess Walter
2005 California Girl by T. Jefferson Parker
2004 Resurrection Men: An Inspector Rebus Novel by Ian Rankin
2003 Winter and Night by S. J. Rozan
2003 Fox Evil by Minette Walters
2002 The Athenian Murders by Jose Carlos Somoza
2001 Sidetracked by Henning Mankell
2000 Motherless Brooklyn by Jonathan Lethem
Sci-fi/Fantasy
20
21
22
23
24
25
26
27
2006 Spin by Robert Charles Wilson
2005 Jonathan Strange and Mr. Norrell by Susanna Clarke
2004 Paladin of Souls by Lois McMaster Bujold
2003 Hominids by Robert J. Sawyer
2005 Camouflage by Joe Haldeman
2004 Paladin of Souls by Lois McMaster Bujold
2003 The Speed of Dark by Elizabeth Moon
2002 American Gods by Neil Gaiman
General Nonfiction
30
2003 From the Land of Green Ghosts: A Burmese Odyssey by Pascal Khoo Thwe
31
2002 River Town: Two Years on the Yangtze by Peter Hessler
32
2006 The Worst Hard Time: The Untold Story of Those Who Survived the Great
American Dust Bowl by Timothy Egan
33
2005 The Year of Magical Thinking by Joan Didion
34
2005 Plague and Fire: Battling Black Death and the 1900 Burning of Honolulu's
Chinatown by James C. Mohr
35
2004 Portland: People, Politics, and Power, 1851-2001 by Jewel Lansing
36
2006 Imperial Reckoning: The Untold Story of Britain's Gulag in Kenya by Caroline
Elkins
37
2005 Ghost Wars: The Secret History of the CIA, Afghanistan, and Bin Laden, from the
Soviet Invasion to September 10, 2001 by Steve Coll
94
Literary Fiction
40
2005 The Time in Between by David Bergen
41
2005 Small Island by Andrea Levy
42
2006 March by Geraldine Brooks
43
2005 War Trash by Ha Jin
44
2006 On Beauty by Zadie Smith
45
2006 How I Paid for College: A Novel of Sex, Theft, Friendship, and Musical Theater by
Marc Acito
46
2006 The March by E. L. Doctorow
47
2006 Rocks That Float by Kathy B. Steele
Poetry
50
51
52
53
54
55
56
57
2006 Splay Anthem by Nathaniel Mackey
2005 Migration: New & Selected Poems by W. S. Merwin
2006 Late Wife: Poems by Claudia Emerson
2005 Delights & Shadows by Ted Kooser
2005 Refusing Heaven by Jack Gilbert
2004 The School Among the Ruins: Poems 2000-2004 by Adrienne Rich
2003 Columbarium by Susan Stewart
2004 Early Occult Memory Systems of the Lower Midwest by B. H. Fairchild
Download