HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI

advertisement
T.C.
Ġstanbul Üniversitesi
Sosyal Bilimler Enstitüsü
ĠĢletme Anabilim Dalı
Sayısal Yöntemler Bilim Dalı
Doktora Tezi
HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI ĠLE
DEĞĠġKEN SEÇĠMĠ VE TAHMĠNLEME: MENKUL
KIYMET YATIRIM KARARLARINA ĠLĠġKĠN BĠR
UYGULAMA
Oğuz Akbilgiç
2502050244
DanıĢman: Prof.Dr. Mehmet Erdal Balaban
Ġkinci DanıĢman: Prof.Dr. Hamparsum Bozdoğan
Ġstanbul, 2011
I
II
ÖZ
Radyal Tabanlı Fonksiyon Ağları, kullandıkları özel bir tür aktivasyon
fonksiyonu
nedeniyle
yapay
sinir
ağlarının
özel
bir
biçimi
olarak
değerlendirilmektedir. Radyal tabanlı fonksiyonlar olarak adlandırılan bu özel
fonksiyonlar, modelin girdi uzayının farklı bölgelerinde saklı olan farklı yapıların
modellenmesine imkan vermektedir. Diğer taraftan radyal tabanlı fonksiyon ağları
modelinde, gizli katman nöron sayısının deneme yanılma yolu ile belirlenmesi,
merkez ve yayılım parametrelerinin uzun zaman alabilen iteratif yöntemlerle
belirlenmesi ve tasarım matrisinin tekilliği gibi sorunlar ortaya çıkmaktadır.
Bağımsız değişkenlerinin hangilerinin bağımlı değişken ile ilişkili olduğunun
belirlenememesi ise radyal tabanlı fonksiyon ağlarının eksikliklerinden biridir. Bu
çalışmada radyal tabanlı fonksiyon ağları sözü edilen sorun ve eksikliklere çözüm
getirecek şekilde uygun istatistik yöntemlerle entegre edilerek, Hibrit Radyal Tabanlı
Fonksiyon Ağları modeli oluşturulmuştur. Oluşturulan Hibrit Radyal Tabanlı
Fonksiyon Ağının performansı ve geçerliliği, İMKB Ulusal 100 endeksinin yönünün
belirlenmesi üzerine bir çalışma ile test edilmiştir.
III
ABSTRACT
Radial Basis Function Networks are one of the sub division of artificial
neural networks with their special activation functions called radial basis functions.
These functions allow us to model the patterns hidden in the different locations of
input space. On the other hand, defining the number of neuron in hidden layer by
method of trial and error, finding the center and radius parameters using iterative
learning methods, and the singularity of design matrix are are common problems in
radial basis function networks modeling. However, not to being able to define which
variables are correlated with dependent variable is another problem with radial basis
function networks. In this study, we constructed a Hybrid Radial Basis Function
Network model to handle the problems mentioned. The performance of Hybrid
Radial Basis Function Network model is tested by a case study on forecasting the
direction of movement of Istanbul Stock Exchange National 100 index.
IV
ÖNSÖZ
Yapay Zeka, bilim dünyasında son 60 yılın en popüler konularından birisidir. Yapay
zekanın bir çok alt çalışma kolu olmakla beraber Yapay Sinir Ağları, yapay zekanın
lokomotifi olmuş bir sahadır. Klasik istatistik yöntemlere alternatif çözümler
üretebilen yapay sinir ağlarının da kendi içinde birçok türü vardır. Bu türlerden birisi
olan Radyal Tabanlı Fonksiyon Ağları, özellikle sınıflandırma ve tahminleme
problemlerine başarı ile uyarlanmaktadır. Klasik istatistik yöntemlere göre daha az
varsayıma sahip olmaları nedeniyle gerçek hayat problemlerinin çözümüne oldukça
uygun olmakla beraber bu ağlar, bazı dezavantajlara da sahiptir. Bu dezavantajların
başında eldeki veriye en iyi uyum gösterecek ağ mimarisinin deneme yanılma yolu
ile belirlenmesi yer almaktadır. Dolayısıyla her zaman elde edilen çözümden daha iyi
bir çözüm olabileceği varsayılmaktadır. Diğer taraftan en uygun ağ parametrelerinin
belirlenmesi aşaması olan öğrenme, genellikle çok zaman alan, işlem yüküne neden
olan ve yerel en iyi çözüme takılması olası iteratif algoritmalar ile gerçekleştirilir. Ağ
parametrelerinin başlangıç değerlerinin rastgele olarak belirlenmesi de, en iyi ağın
bulunuşunun rastlantısallık içermesine neden olur. Ayrıca oluşturulan ağın parametre
değerleri, bağımsız değişkenler arasından hangilerinin en iyi olduğu ile ilgili bilgi
içermemektedir.
Bu çalışmada radyal tabanlı fonksiyon ağları modeli ile ilgili ifade edilen
problemler ve eksiklikler ele alınarak, bu sorunlara çözümler geliştirilmesi
amaçlanmıştır. Bu bağlamda, ağ mimarisini ve aktivasyon fonksiyonlarına ait
parametreleri belirlemek için Regresyon Ağaçları, ağırlık parametrelerini belirlemek
için Ridge Regresyon, bağımlı değişken üzeride etkili olan girdi değişkenlerini
belirlemek içinse Bilgi Kriterleri ve Genetik Algoritma yöntemleri, Radyal Tabanlı
Fonksiyon Ağları ile entegre edilerek sözü edilen sorunların üstesinden gelecek hibrit
bir model oluşturulmuştur. Hibrit Radyal Tabanlı Fonksiyon Ağları olarak
adlandırdığımız modelin geçerliliği öncelikle benzetim verisi üzerinde test edilmiştir.
Ayrıca modelin gerçek veriler üzerindeki geçerliliği, İMKB Ulusal 100 Endeks
yönünün tahmini üzerine yapılan bir uygulama ile sınanmıştır.
V
Bu çalışmanın her aşamasında bilgi ve tecrübelerini benimle paylaşan
danışman hocam Prof.Dr. Mehmet Erdal Balaban‟a teşekkür ederim. Ayrıca beni
University of Tennessee‟de bir yıl süreyle misafir eden ve bu süreçte gerek verdiği
fikirlerle tezimi şekillendiren gerekse sağladığı kaynaklarla tez çalışmalarımı
hızlandıran ve kolaylaştıran eş danışman hocam Prof.Dr. Hamparsum Bozdoğan‟a
teşekkürü bir borç bilirim.
Tezimin finans uygulamasında her zaman fikirlerini benimle paylaşan Dr.
Ebru Demirci‟ye, tezimin yazım kısımlarının gözden geçirilmesinde desteklerini
esirgemeyen arkadaşlarım Dr. Eylem Deniz Howe, Dr. Seda Tolun ve Dr. Elif Ünal
Çoker‟e Matlab programı ile ilgili verdiği destekler için Dr. John Andrew Howe‟a
teşekkür ederim.
Verdikleri burslar ile tez çalışmamın bir yılını ABD‟de sürdürebilmemi
sağlayan başta TÜBİTAK olmak üzere YÖK ve İstanbul Üniversitesi‟ne
teşekkürlerimi sunarım.
Son olarak çok severek yaptığım akademisyenlik mesleğini bana kazandıran
hocam Prof.Dr. Nalan Cinemre‟ye ve geldiğim her noktada benden çok emekleri
olan ailem Nurten, Ahmet ve Fatih Akbilgiç‟e sonsuz teşekkürlerimi sunarım.
Oğuz Akbilgiç
Haziran 2011
VI
ĠÇĠNDEKĠLER
ÖZ ......................................................................................................... III
ABSTRACT ..........................................................................................IV
ÖNSÖZ ................................................................................................... V
ĠÇĠNDEKĠLER .................................................................................. VII
KISALTMALAR LĠSTESĠ ............................................................... XII
ġEKĠLLER LĠSTESĠ ....................................................................... XIII
TABLOLAR LĠSTESĠ ....................................................................... XV
GĠRĠġ ....................................................................................................... 1
BÖLÜM 1 YAPAY ZEKA ................................................................. 4
1.1
Yapay ZekaYaklaşımları .............................................................................. 4
1.1.1
İnsan Gibi Davranmak: Turing Testi Yaklaşımı ................................... 5
1.1.2
İnsan Gibi Düşünmek: Bilimsel Modelleme Yaklaşımı ....................... 5
1.1.3
Rasyonel Düşünme: Düşünce Kanunları Yaklaşımı ............................. 6
1.1.4
Rasyonel Davranmak: Rasyonel Ajan Yaklaşımı ................................. 6
1.2
Yapay Zeka Çalışmalarının Tarihçesi .......................................................... 8
1.3
Yapay Zekanın Alt Çalışma Alanları ......................................................... 10
1.3.1
Uzman Sistemler ................................................................................. 10
1.3.2
Bulanık Mantık ................................................................................... 11
1.3.3
Yapay Sinir Ağları .............................................................................. 12
1.3.4
Genetik Algoritma ............................................................................... 13
BÖLÜM 2 YAPAY SĠNĠR AĞLARI .............................................. 14
2.1
Yapay Sinir Ağlarının Kullanım Alanları .................................................. 17
2.2
Biyolojik Sinir Sistemi ve İşleyişi .............................................................. 18
VII
2.3
Yapay Sinir Ağlarının Genel Yapısı .......................................................... 19
2.4
Yapay Sinir Ağlarının Bileşenleri .............................................................. 20
2.4.1
Katmanlar ............................................................................................ 20
2.4.2
Bağlantılar ........................................................................................... 22
2.4.3
Aktivasyon Fonksiyonları ................................................................... 22
2.5
Yapay Sinir Ağı Modelleri ve Öğrenme Algoritmaları .............................. 23
2.5.1
Hebb Kuralı ......................................................................................... 23
2.5.2
Perseptron ............................................................................................ 24
2.5.3
Delta Kuralı ......................................................................................... 30
2.5.4
Sezgisel Optimizasyon Algoritmaları ile Öğrenme ............................ 34
2.6
Yapay Sinir Ağlarının Avantajları ve Dezavantajları ................................ 34
2.7
Radyal Tabanlı Fonksiyon Ağları .............................................................. 36
BÖLÜM 3 HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI
........................................................................................... 37
3.1
Radyal Tabanlı Fonksiyon Ağları .............................................................. 37
3.2
Radyal Tabanlı Fonksiyon Ağlarının Yapısı .............................................. 39
3.3
Radyal Tabanlı Fonksiyonlar ..................................................................... 42
3.4
Radyal Tabanlı Fonksiyon Ağlarında Öğrenme .......................................... 46
3.4.1
Radyal Tabanlı Fonksiyonların c ve r Parametrelerinin Belirlenmesi 46
3.4.2
Radyal Tabanlı Fonksiyonların w Bağlantı Ağırlıklarının Belirlenmesi 50
3.5
RTFA ile Diğer Çok Katmanlı Yapay Sinir Ağlarının Karşılaştırılması ... 52
3.6
Radyal Tabanlı Fonksiyon Ağlarında Mevcut Sorunlar ve Eksiklikler ..... 52
3.7
Hibrit Radyal Tabanlı Fonksiyon Ağları .................................................... 53
BÖLÜM 4 REGRESYON AĞAÇLARI ......................................... 57
4.1
Regresyon Ağaçlarının Yapısı .................................................................... 58
VIII
4.2
Regresyon Ağaçlarının Oluşturulması ....................................................... 59
4.3
Ayırma Kuralları ........................................................................................ 61
4.3.1
En Küçük Kareler Kuralı .................................................................... 61
4.3.2
En Küçük Mutlak Sapma Kuralı ......................................................... 62
4.4
Regresyon Ağaçlarının Budanması ............................................................ 62
4.5
Regresyon Ağaçlarında Maliyetler ............................................................. 63
4.5.1
Açıklayıcı Değişken Sayısı ve Yanlış Sınıflandırmaya Bağlı Maliyetler 63
4.5.2
Ağaç Karmaşıklığı Maliyeti ................................................................ 63
4.6
Regresyon Ağaçlarının Hibrit Radyal Tabanlı Fonksiyon Ağlarına Entegre
Edilmesi ................................................................................................................ 64
BÖLÜM 5 RĠDGE REGRESYON .................................................. 66
5.1
Çoklu Doğrusal Regresyon ........................................................................ 66
5.1.1
En Küçük Kareler Kestirimi ................................................................ 69
5.1.2
Çoklu Doğrusal Regresyon Modelinin Varsayımları .......................... 70
5.2
Ridge Regresyon ........................................................................................ 73
5.2.1
Varlık Teoremi .................................................................................... 75
5.2.2
Ridge Kestiricisinin Özellikleri .......................................................... 76
5.2.3
Genellestirilmiş Ridge Regresyon ....................................................... 77
5.3
En İyi Ridge Sabitinin Belirlenmesi ........................................................... 77
5.3.1
Ridge İzi Diyagramı ............................................................................ 77
5.3.2
Ridge Sabitinin Belirlenmesinde Kullanılan Diğer Yöntemler .......... 78
5.4
Hibrit RTFA Modelinde Ridge Regresyonun Kullanımı ........................... 80
BÖLÜM 6 DEĞĠġKEN SEÇĠMĠ ..................................................... 82
6.1
Uyum İyiliği ve Bilgi Ölçümü.................................................................... 84
6.1.1
Entropi ................................................................................................. 84
IX
6.1.2
Kullback-Leibler Uzaklığı .................................................................. 84
6.1.3
Fisher Bilgi Matrisi ............................................................................. 86
6.2
Akaike-Tipi Değişken Seçim Kriterleri ...................................................... 87
6.2.1
Akaike Bilgi Kriteri ............................................................................. 88
6.2.2
Schwartz Bilgi Kriteri ......................................................................... 89
6.2.3
Tutarlı Akaike Bilgi Kriteri (CAIC) ................................................... 90
6.2.4
Fisher Bilgi Matrisine Dayalı Tutarlı Akaike Bilgi Kriteri ( CAICF) 90
6.3
ICOMP Tipi Değişken Seçim Kriterleri ..................................................... 91
6.4
AIC-Tipi Kriterler ile ICOMP-Tipi Kriterlerin Karşılaştırılması .............. 94
6.5
En İyi Model Değişkenlerinin Genetik Algoritma ile Belirlenmesi ........... 95
6.5.1
Genetik Algoritma ............................................................................... 95
6.5.2
Genetik Algoritmanın Yapısı 96
6.5.3
Genetik Algoritmanın Parametreleri ................................................... 97
6.5.4
Hibrit RTFA Modelinde Değişken Seçimi Problemi için Genetik
Algoritma ........................................................................................................ 102
BÖLÜM 7 UYGULAMA ................................................................ 103
7.1
Hibrit RTFA Modeli için MATLAB Kullanıcı Arayüzü .......................... 103
7.2
Benzetim Verisi için Uygulama ............................................................... 107
7.2.1
Benzetim Verisi için Uygun Radyal Tabanlı Fonksiyonun Seçimi .. 109
7.2.2
Değişken Seçimi ................................................................................ 111
7.2.3
Benzetim Verisi için Tahminleme .................................................... 112
7.2.4
Benzetim Çalışmasının Sonuçları ..................................................... 115
7.3
Hibrit RTFA Modeli ile İMKB Ulusal 100 Endeks Yönünün Tahmini ... 115
7.3.1
Değişkenlerin Belirlenmesi ............................................................... 116
7.3.2
Verilerin Analiz için Hazırlanması ................................................... 119
7.3.3
İMKB Ulusal 100 Endeksi İçin Değişken Seçimi ............................ 120
X
7.3.4
İMKB Ulusal 100 Endeksinin Yönünün Tahmini ............................ 122
7.3.5
Çapraz Doğrulama ile Model Tutarlılığının Kontrolü ...................... 131
7.3.6
İMKB Ulusal 100 Endeks Yönü Tahmini Uygulama Sonuçların
Yorumlanması ................................................................................................. 133
SONUÇ VE ÖNERĠLER ................................................................... 135
KAYNAKÇA ...................................................................................... 137
ÖZGEÇMĠġ ........................................................................................ 150
XI
KISALTMALAR LĠSTESĠ
AIC
: Akaike Bilgi Kriteri
BIC
: Schwartz Bilgi Kriteri
BM
: Bulanık Mantık
CAIC
: Tutarlı Akaike Bilgi Kriteri
CAICF
: Fisher Bilgisine Dayalı Tutarlı Akaike Bilgi Kriteri
ÇDB
: Çoklu Doğrusal Bağlantı
ÇDR
: Çoklu Doğrusal Regresyon
EKK
: En Küçük Kareler
GA
: Genetik Algoritma
GÇD
: Genelleştirilmiş Çapraz Doğrulama
ICOMP
: Bilgi Karmaşıklığı
IFIM
: Ters Fisher Bilgi Matrisi
RA
: Regresyon Ağaçları
RR
: Ridge Regresyon
RTF
: Radyal Tabanlı Fonksiyon
RTFA
: Radyal Tabanlı Fonksiyon Ağları
SBC
: Schwartz Bilgi Kriteri
US
: Uzman Sistemler
VIF
: Varyans Artış Faktörü
YSA
: Yapay Sinir Ağları
YZ
: Yapay Zeka
XII
ġEKĠLLER LĠSTESĠ
Şekil 2-1 Nöron Genel Görünümü ve Nöronu Oluşturan Birimler (Fraser, 1998, s. 1)
.................................................................................................................................... 18
Şekil 2-2Bir yapay sinir ağının genel görünümü ....................................................... 20
Şekil 2-3 Tek katmanlı perseptron örneği .................................................................. 25
Şekil 2-4 İki girdi ve bir çıktılı perseptron ................................................................. 25
Şekil 2-5 AND, OR ve XOR problemleri için karar düzlemleri (Nascimento, 1994) 28
Şekil 2-6 m girdi ve n çıktılı tek katmanlı bir yapay sinir ağı (Fuller 2000, 174) ..... 32
Şekil 3-1 İki kategorili sınıflandırma problemi .......................................................... 38
Şekil 3-2 Boyut yükseltme yolu ile doğrusal ayrıştırılabilirlik .................................. 39
Şekil 3-3 RTFA Mimarisi .......................................................................................... 40
Şekil 3-4 Radyal Tabanlı Fonksiyonlar (c=0.5 ve r=0.2) .......................................... 43
Şekil 3-5 İki girdili bir RTFA mimarisinde RTF'lerin görünümü ............................. 44
Şekil 3-6 Aşırı Uyum ve Yetersiz Öğrenme Örneği .................................................. 45
Şekil 3-7 Karar Ağaçları ............................................................................................ 49
Şekil 3-8 Aşırı belirli model örneği (Bozdogan H. , 2007, s. 17) .............................. 51
Şekil 3-9 Hibrit Radyal Tabanlı Fonksiyon Ağı ........................................................ 56
Şekil 4-1 Örnek Regresyon Ağacı Gösterimi ............................................................ 58
Şekil 4-2 Regresyon Ağacının Dikdörtgenler Yardımı ile Gösterimi ........................ 59
Şekil 5-1 Ridge İzi Diyagramı (Bjorksrtrom, 2001, s. 8)........................................... 78
Şekil 6-1 Tek nokta çaprazlaması ............................................................................ 100
Şekil 6-2 İki nokta çaprazlaması .............................................................................. 100
Şekil 7-1 Hibrit RTFA kullanıcı arayüzü karşılama ekranı ..................................... 104
Şekil 7-2 Hibrit RTFA modeli ile değişken seçimi arayüzü .................................... 105
Şekil 7-3 Hibrit RTFA modeli ile tahminleme için kullanıcı arayüzü ..................... 106
Şekil 7-4 Benzetim verisi uygulaması için akış diyagramı ...................................... 108
Şekil 7-5 Bağımlı değişken ve doğru bağımsız değişkenler arasındaki ilişki .......... 109
Şekil 7-6 Eğitim veri kümeleri için tahminlenen ve gözlenen değerler ................... 114
Şekil 7-7 Test veri kümeleri için tahminlenen ve gözlenen değerler ....................... 114
XIII
Şekil 7-8 Endeks yönü tahmini uygulaması için akış diyagramı ............................. 118
Şekil 7-9Tahmin dönemi boyunca Hibrit RFTA modeli ile verilen al-sat kararları ve
IMKB100 endeksinin seyri ...................................................................................... 128
XIV
TABLOLAR LĠSTESĠ
Tablo 2-1 Örnek Aktivasyon Fonksiyonları .............................................................. 23
Tablo 2-2 AND, OR ve XOR problemlerinin girdi ve çıktı değerleri ....................... 28
Tablo 3-1 Hibrit RTFA modeli bileşenlerinin işlevleri.............................................. 55
Tablo 6-1 Genetik Algoritma Parametreleri .............................................................. 97
Tablo 6-2 Göze Genişlikleri ....................................................................................... 99
Tablo 6-3 Bireylerin Alt ve Üst Seçim Aralıkları ...................................................... 99
Tablo 7-1 Farklı örneklem büyüklüğü ve radyal tabanlı fonksiyonlar için doğru
değişken seçim yüzdeleri ......................................................................................... 110
Tablo 7-2 Farklı Örneklem Büyüklüğü ve Radyal Tabanlı Fonksiyonlar için Doğru
Model Seçim Yüzdeleri............................................................................................ 111
Tablo 7-3 Çapraz doğrulama sonuçları .................................................................... 113
Tablo 7-4 Modelde kullanılan endeksler.................................................................. 118
Tablo 7-5 Değişken seçimi için model parametreleri .............................................. 120
Tablo 7-6 Değişken Seçimi Sonuçları...................................................................... 121
Tablo 7-7 Değişken Seçimi Sonucu Oluşan Modeller ............................................. 122
Tablo 7-8 Yapılan Tahminlerin ele alınan 7 model üzerinden ortalamaları ............ 124
Tablo 7-9 Tüm Modeller ve Eğitim veri kümesi büyüklükleri üzerinden ortalamalar
.................................................................................................................................. 125
Tablo 7-10 Tüm eğitim veri kümesi büyüklükleri ve RTF‟lar üzerinden ortalamalar
.................................................................................................................................. 126
Tablo 7-11 Model 2 için 200 işlem günlük tahmin .................................................. 127
Tablo 7-12 20 işlem günlük tahminler için yatırımın seyri...................................... 129
Tablo 7-13 En iyi model için çapraz doğrulama sonuçları ...................................... 132
XV
GĠRĠġ
Yapay Sinir Ağları, insana özgü düşünce ve öğrenme sisteminin taklit
edilerek, mevcut verilerden öğrenen ve daha önce karşılaşılmamış durumlarda uygun
çıktılar üretecek şekilde yapılandırılan modellerdir. Bu özelliği ile bir yapay zeka
türü olan yapay sinir ağları, insan sinir sisteminin bilgisayar ortamındaki benzetimi
olarak değerlendirilebilir. Yapay sinir ağları, özellikle bağımlı ve bağımsız
değişkenler arasındaki doğrusal olmayan matematiksel ilişkilerin modellenmesinde
kullanılmaktadır. Bu bağlamda yapay sinir ağları, tahminleme, sınıflandırma,
kümeleme, sinyal işleme, görüntü ve ses tanıma v.b. birçok alanda başarıyla
uygulanabilmektedir.
İleri beslemeli yapıda bir tür yapay sinir ağı olan Radyal Tabanlı Fonksiyon
Ağları ise özellikle sınıflandırma ve tahminleme problemlerinde kullanılmaktadır.
Radyal tabanlı fonksiyon ağları, klasik istatistik yöntemlere göre daha az varsayıma
sahip
olmaları
nedeniyle
gerçek
hayat
problemlerine
daha
kolay uyum
sağlamaktadır. Diğer taraftan her yöntemde olduğu gibi radyal tabanlı fonksiyon
ağlarında da karşılaşılan sorunlar ve eksiklikler vardır. Bu sorunların en
önemlilerinden biri, gizli katman nöron sayısının deneme yanılma yolu ile
belirlenmesidir. Ayrıca gizli katman nöronlarında kullanılan radyal tabanlı
aktivasyon fonksiyonlarının merkez ve yarıçap parametrelerinin öğrenilmesi,
oldukça zaman ve işlem yükü getiren iteratif algoritmalarla gerçekleştirilmektedir.
Bu zaman ve işlem yükünün göze alındığı durumlarda bile daha iyi bir parametre
kombinasyonunun var olmadığı garanti değildir. Diğer taraftan ağırlık değerlerinin
doğrusal regresyon ile öğrenilmesi aşamasında sıklıkla tekillik sorunu ortaya
çıkmaktadır.
Radyal tabanlı fonksiyon ağlarının yukarıda ifade edilen sorunlarının yanında
diğer bir önemli eksikliği, model parametrelerinin, bağımsız değişkenlerden
hangilerinin bağımlı değişken üzerinde daha etkili olduğu konusunda bilgi
1
içermemesidir. Bu bağlamda model karmaşıklığını azaltacak bir bileşenin eksikliği
söz konusudur.
Bu çalışmada radyal tabanlı fonksiyon ağları, sözü edilen sorunları ve
eksiklikleri açısından ele alınarak daha sağlam bir hibrit model ortaya konulması
amaçlanmıştır. Buradan hareketle Bölüm 1 ve Bölüm 2‟de sırasıyla yapay zeka ve
ileri beslemeli yapay sinir ağları üzerinde durularak radyal tabanlı fonksiyon ağları
için bir altyapı oluşturulmuştur. Sözü edilen sorunlara çözüm olacak şekilde öne
sürülen Hibrit Radyal Tabanlı Fonksiyon Ağları Bölüm 3‟te tanıtılmıştır. Ayrıca
modelde kullanılan diğer yöntemlerin detaylı açıklamasına ise Bölüm 3‟ü takip eden
bölümlerde yer verilmiştir.
Radyal tabanlı fonksiyonlarda, gizli katman nöron sayısının ve aktivasyon
fonksiyonlarının merkez ve yarıçap parametrelerinin belirlenmesi sorunlarını çözmek
üzere modele Regresyon Ağaçları entegre edilmiştir. Bu bağlamda öncelikle girdi
uzayı, hiper-dikdörtgenlerden oluşan alt uzaylara ayrılmaktadır. Daha sonra girdi
uzayındaki her bir hiper-dikdörtgene gizli katmanda bir nöron karşılık getirilerek
gizli katman nöron sayısı belirlenmektedir. Ayrıca her bir hiper-dikdörtgenin merkez
koordinatları ve bu merkeze kenarların uzaklık bilgileri, karşılık getirilen gizli
katman nöronundaki aktivasyon fonksiyonunun merkez ve yarıçap parametrelerinin
belirlenmesinde kullanılmaktadır. Bu bağlamda Bölüm 4, Regresyon Ağaçlarının
detaylı açıklanmasına ayrılmıştır. Ağırlık parametrelerinin doğrusal regresyon ile
öğrenilmesinde karşılaşılan tekillik sorunu ise bu aşamada Ridge Regresyon
kullanılarak aşılmıştır. Ridge Regresyon yönteminin detaylarına Bölüm 5‟te yer
verilmiştir.
Radyal tabanlı fonksiyon ağlarının bağımsız değişkenlerden hangilerinin
bağımlı değişken üzerinde etkili olduğunu belirleyememesi noktasındaki eksiklik,
bilgi kriterleri temelli değişken seçim kriterleri modelle entegre edilerek
giderilmiştir. Böylece radyal tabanlı fonksiyon ağlarının doğrusal olmayan
modelleme gücü ile bilgi kriterlerine dayalı kriterlerin değişken seçim yöntemlerinin
etkinliği birleştirilmiştir. Model karmaşıklığının indirgenmesinde oldukça etkin
olması beklenen bu birleşimin uygulamasında karşılaşılan eniyileme problemi ise
2
Genetik Algoritmalar ile gerçekleştirilmektedir. Bu bağlamda Bölüm 6‟da yer alan
Değişken Seçimi bölümünün içinde Genetik Algoritmalar konusuna da yer
verilmiştir.
Son olarak Bölüm 7, geliştirilen Hibrit Radyal Tabanlı Fonksiyon Ağının
değişken seçimi ve tahminleme açısından performansının test edilmesine ayrılmıştır.
Bu bağlamda öncelikle model performansı çok yüksek dereceden doğrusal olmayan
yapıda matematiksel ilişki barındıracak şekilde oluşturulmuş benzetim verisinde test
edilmiştir. Daha sonra modelin gerçek veri üzerindeki performansını test etmek
amacıyla İMKB Ulusal 100 endeksinin yönünün uluslararası endeks değerleri
kullanılarak tahmini üzerine bir uygulama gerçekleştirilmiştir. Çalışmada ortaya
konulan bulgular Sonuçlar ve Öneriler kısmında yer almakla beraber tüm çalışmanın
akışı aşağıdaki diyagram ile özetlenmektedir.
YAPAY ZEKA
ĠLERĠ BESLEMELĠ YAPAY SĠNĠR AĞLARI
HĠBRĠT RADYAL TABANLI
FONKSĠYON AĞLARI
RADYAL
REGRESYON
RĠDGE
DEĞĠġKEN
TABANLI
AĞAÇLARI
REGRESYON
SEÇĠMĠ VE
FONKSĠYON
GENETĠK
AĞLARI
ALGORTĠMA
ĠMKB ULUSAL 100 ENDEKS YÖNÜ TAHMĠNĠ
3
BÖLÜM 1 YAPAY ZEKA
İnsanoğlu tarih boyunca hayatını kolaylaştıracak icatlar peşinde koşmuştur.
İnsanlık ilerledikçe icatlar gelişmiş, icatlar geliştikçe insanlık ilerlemiştir. Buluşların
ve icatların temel çıkış noktasını ise insanın ihtiyaçları oluşturmaktadır. Bu bağlamda
insan, bedeninin fiziksel veya zihinsel yönden sınırlarını alet, araç, makine vb.
teçhizatları geliştirerek sürekli genişletmiştir.
İnsan karar verme, muhakeme ve idrak etme gibi çok karmaşık işlemleri çok
kısa sürede yapabiliyorken, sayısal işlemlerde aynı başarıyı gösterememektedir.
Örneğin sabah camdan dışarıya bakarak, hava koşullarından bedeninin olumsuz
etkilenmesini engelleyecek kıyafetleri birkaç saniyede seçebilen insan beyni, dört
basamaklı iki sayının çarpılması işlemini aynı hızla yapamamaktadır. Bu bağlamda
hesap makineleri, insanın eksik olan bu özelliğine destek olmak üzere geliştirilmiş
ilk bilgisayarlar olarak kabul edilmektedir. Günümüz bilgisayarları çok karmaşık
matematiksel
işlemleri
bile
saliselerle
ölçülebilecek
kadar
kısa
sürelerde
yapabilmektedir. Ancak bilgisayarların bu işlem kapasitesi, kullanıcı tarafından
verilen talimatları gerçekleştirmekle sınırlıdır. İnsana ait olan, içinde bulunulan
durumu idrak etme ve buna göre karar verme işlemlerini bilgisayarlar ancak daha
önceden tanımlanmış sınırlı sayıda durum içinden seçim yapmak suretiyle
gerçekleştirebilmektedir. Bu yönü ile bilgisayarlar insan beyninin çok gerisindedir.
Yapay Zeka (Artificial Intelligence) kavramı, bilgisayarların bu eksikliğini gidermek
üzere ortaya atılmıştır. Temelinde, insan gibi düşünebilen, yorum yapabilen ve karar
verebilen sistem ve algoritmaların geliştirilmesi vardır.
1.1 Yapay ZekaYaklaĢımları
Yapay Zeka (YZ), son 60 senedir bilim adamlarının dikkatini yoğunlaştırdığı
başlıca konulardan birisi haline gelmiştir. Genel olarak amacı, insan düşünce yapısını
anlayarak bunun benzerini ortaya koyacak bilgisayar işlemlerini gerçekleştirmek,
diğer bir ifade ile insan gibi düşünebilen bilgisayar teknolojisini yaratmaktır.
Literatürde Yapay Zeka ile ilgili birçok tanım yer almaktadır. Heugeland
4
(1985, s. 2) yapay zekayı “Makineleri düşünebilir hale getirmek için heyecan verici
bir çaba… Yani tam anlamıyla, akıllı makineler.” şeklinde tanımlamaktadır. Luger
(2009, s. 1) ise yapay zeka için “Bilgisayar biliminin, zeki davranışların
otomasyonunu konu edinen alt kolu” tanımını vermektedir. Bu tanımların temelinde
insan gibi düşünme, insan gibi davranma, rasyonel düşünme ve rasyonel davranma
kavramları yatmaktadır. İfade edilen bu kavramların her biri aynı zamanda yapay
zeka çalışmalarının amaçlarına göre alt kollarını da ifade etmektedir. Bu alt çalışma
kolları takip eden kısımda daha ayrıntılı incelenmiştir.
1.1.1
Ġnsan Gibi Davranmak: Turing Testi YaklaĢımı
Alan Turing (1950) tarafından önerilen Turing Testi, zekanın tatmin edici
işlemsel tanımını vermektedir. Turing, bir makinenin zeki olup olmadığının
anlaşılabilmesi için bir deney önermektedir. Turing Testi olarak adlandırılan bu
deneye göre bir makine kendisine soru soran bir insana verdiği cevaplarla kendisinin
bir insan sanılmasını başarabiliyorsa, zeki bir makine olarak adlandırılır (Turing,
1950). Günümüzde bile böyle bir testi geçebilecek bir program yazmak, üzerinde
çalışılmaya değer bir konudur. Böyle bir bilgisayar aşağıda belirtilen özelliklere
sahip olmalıdır.
Doğal Dil ĠĢleme: İletişim kuracağı insanın dilini düzgün şekilde
konuşabilmek.
Bilgi Gösterimi: Sorgu öncesinde veya sorgu sırasında üretilen bilgiyi
saklayabilmek.
Muhakeme: Sorulan soruyu cevaplayabilmek ve yeni görüşler öne sürebilmek
üzere depolanan bilgiyi kullanabilmek.
Makine Öğrenmesi: Yeni durumlara adapte olabilmek ve daha önce görmüş
olduğu bir örnekle karşılaştığında bunu belirleyebilmek ve tahmin yürütebilmek.
1.1.2
Ġnsan Gibi DüĢünmek: Bilimsel Modelleme YaklaĢımı
Verilen bir programın insan gibi düşündüğünün söylenebilmesi için insan
düşünce sisteminin bazı yönlerinin bilinmesi ve insan beyninin çalışma prensibinin
incelenmesi gerekmektedir. Bunu gerçekleştirmenin iki yolu vardır. Bunlardan
5
birincisi, kendi düşünce ve duygularımızın izlenmesi, ikincisi ise psikolojik
deneylere başvurulmasıdır. Öncelikle, teoriyi bilgisayar programına dönüştürebilecek
insan aklına sahip olunması gereklidir. Örneğin, bir yapay zeka programı olan Genel
Problem Çözücüyü geliştiren Newell ve Simon (1961), programlarının problemi
doğru bir şekilde çözme başarısından çok programlarının problem çözmede izlediği
yol ile benzer bir problemi çözen insanın izlediği yol arasındaki benzerliklere
odaklanmışlardır.
1.1.3
Rasyonel DüĢünme: DüĢünce Kanunları YaklaĢımı
“Rasyonel düşünme” ilk defa Aristo tarafından aksi iddia edilemeyecek şekilde
bir sisteme bağlanmıştır. Aristo‟nun doğru düşünce sistemi, verilen doğru
önermelerden her zaman doğru çıkarımlar yapacak şekilde tasarlanmıştır. Bunun bir
örneği, “Sokrates bir erkektir ve tüm erkekler bir ölümlüdür. O zaman, Sokrates‟de
ölümlüdür.” önermesi ile verilebilir (Kodratof, 1988, p. 11). Aristo‟nun rasyonel
düşünce için tanımladığı bu kurallar, insan beyninin düşünce sistemi olarak kabul
edilir ve mantık biliminin temellerini oluşturur.
On dokuzuncu yüzyılın sonları ve yirminci yüzyılın başlarında modern mantık,
bilimin hemen her dalı için bir notasyon ortaya koymuştur. 1965‟li yıllarda, yeterli
zaman ve bellek sağlandığında, mantık operatörleri ile ifade edilebilmiş problemlerin
varsa çözümünü bulabilen programlar geliştirilmiştir. Yapay zekanın düşünce
kanunları yaklaşımı, bu tip zeki sistemler yaratmakla ilgilenir.
Yapay zekanın düşünce kanunları yaklaşımında iki temel zorluk vardır.
Bunlardan birincisi, formal olmayan bilgiyi mantık operatörlerinin kullanılabileceği
formal hale getirebilmektir. İkincisi ise bir problemi teorik olarak çözmek ile bunu
gerçek hayata uygulanması önündeki büyük zorluktur.
1.1.4
Rasyonel Davranmak: Rasyonel Ajan YaklaĢımı
Rasyonel
davranmak,
kişinin
kendisini
mevcut
hedefine
ulaştıracak
davranışları seçmesi olarak tanımlanmaktadır. Burada ajan, durumu algılayan ve ona
göre hareket belirleyen birimdir. Bu yaklaşımda yapay zeka, rasyonel bir ajan elde
etmenin bir aracı olarak görülür.
6
Yapay zekanın düşünce kanunları yaklaşımında sadece doğru çıkarsama yapma
üzerine odaklanılmaktadır. Doğru çıkarsama yapabilmek bazen rasyonel bir ajan
yaratmanın bir parçası olarak görülmektedir. Çünkü doğru çıkarsama yapabilmek, bir
kişinin hedefine ulaşması sürecinde uygulaması gerekenlerden sadece birisidir. Diğer
taraftan, doğru çıkarsama yapmak rasyonel olmak anlamına gelmez. Çünkü bazen
öyle durumlar vardır ki, bu durumda uygulanacak kanıtlanmış doğru bir davranış
şekli bulunmaz. Bununla birlikte, çıkarsama içermeyen rasyonel davranış biçimleri
de vardır. Örneğin, birinin elini sıcak sobadan refleks olarak aniden kaldırması,
mevcut durumu değerlendirip uygun çözüm yolları arasından elini kaldırmak
yönünde çıkarımda bulunması ve uygulamasından daha iyidir. Refleks de çıkarsama
da aynı sonucu üretmiştir, ancak çıkarsamaya başvuran kişinin eli artık yanmıştır.
Turing Testinin gerektirdiği tüm muhakeme yetenekleri rasyonel davranışı
bulmak içindir. Bu nedenle, hangi durumda ne yapılacağı bilgisini ifade edebilme
yeteneğine ihtiyaç duyulmaktadır. Çünkü bu yetenek, mevcut farklı durumlar
arasında doğru olanı seçme becerisini sağlamaktadır.
Yapay zekanın rasyonel ajan dizayn etme çalışmalarının iki önemli avantajı
bulunmaktadır. Bu avantajlardan ilki, düşünce kanunları yaklaşımından daha genel
olmasıdır. Çünkü doğru çıkarım sadece rasyonelliğe ulaşmanın mekanizmalarından
birisi olarak görülebilir ve gerekli değildir. İkincisi ise bilimsel gelişmelere katkı
açısından, insan gibi davranma ve insan gibi düşünme yaklaşımlarından daha önemli
olmasıdır. Çünkü rasyonelliğin standartları kesin çizgilerle belirlidir ve bilgisayara
anlatılması çok daha kolaydır. Ayrıca insan düşüncesi yaklaşımı, daha belirgin
durumlara uyarlanabilir niteliktedir ve genel sorunların çözümünde yetersiz
kalmaktadır (Russell & Norvig, 2009, s. 5).
Bu kısma kadar yapılan açıklamalardan anlaşılacağı gibi yapay zekanın temel
amacı, görüntü tanıma, dil ve konuşma işleme, planlama ve tahminleme gibi
genellikle akıllı insanlar tarafından yürütülen işleri makinelerin yapmasını
sağlayacak yöntem ve sistemler geliştirmek suretiyle, yaşayan organizmaları simüle
edebilecek bilgisayar bilgi sistemlerini geliştirmek ve insan beyninin işleyişi ile ilgili
bilgilerimizi arttırmaktır (Kasabov, 1998, s. 1).
7
1.2 Yapay Zeka ÇalıĢmalarının Tarihçesi
Yapay Zeka fikrinin izleri eski Mısır‟a kadar dayanıyor olsa da, makine zekası
kavramı, elektronik bilgisayarın geliştirilmesi ile ortaya çıkmıştır. 1941 yılında
Amerika ve Almanya‟da eş zamanlı olarak icat edilen bilgisayar, hafıza ve bilgi
işleme konusunda bilinenleri tamamıyla değiştirmiştir. İlk bilgisayarlar geniş ve
soğutmalı yerlere ihtiyaç duymakta ve bir programın çalışmasında bile ayrı ayrı
binlerce kablonun yeniden düzenlenmesini gerektirmekteyken, 1949 yılındaki
gelişmeler sayesinde bilgisayara program girilmesi daha kolay hale gelmiştir.
1955 yılının sonlarında Newel ve Simon, birçok bilim adamı tarafından ilk
yapay zeka programı olarak kabul edilen Mantık Teorisyeni1 adlı programı
geliştirmiştir. Her bir problemi bir ağaç diyagramı olarak ele alan program, problemi
doğru çözümü vermesi en olası dalları seçerek çözme esasına dayanmaktadır. Mantık
Teorisyeni, YZ alanındaki en önemli kilometre taşlarından birisi olarak tarihe
geçmiştir.
Modern Yapay Zeka biliminin temelleri ise, 1956 yazında Dartmooth
College‟da düzenlenen bir konferansta atılmıştır. Başta John McCarthy, Marvin
Minsky, Allen Newell ile MIT, CMU ve Stanford Üniversitesi‟ndeki yapay zeka
laboratuarlarının kurucusu olan Herbert Simon olmak üzere, bu konferansa katılan
kişiler on yıllarca yapay zeka çalışmalarının liderliğini yürütmüşlerdir. Bu konferansı
takip eden yedi yıl içerisinde yapay zeka çalışmaları büyük bir hız kazanmıştır. Bu
konferansta yapay zeka bir bilim dalı olarak henüz tanımlanmamış olmasına rağmen,
konferansta şekillenen fikirler üzerine çalışılarak büyük bir bilgi birikimi
sağlanmıştır. Konferansı takiben Carnegie Mellon ve MIT‟ de yapay zeka
araştırmaları merkezleri kurulmuş ve yeni fikirler ortaya çıkmaya başlamıştır.
Konferansa katılan kişiler ve onların öğrencileri, cebirdeki bazı problemleri çözen,
mantık teoremlerini ispatlayan ve İngilizce konuşan birçok program yazmışlardır. Bu
çalışmalar, 1960‟lı yılların ortalarında Amerika Savunma Departmanı tarafından da
desteklenmeye başlanmıştır.
1
Mantık Teorisyeni (Logic Theorist): Birçok mantık teoreminin ispatını, insana ait problem çözme
yöntemlerini taklit edecek şekilde yazılmış olan ilk yapay zeka programıdır.
8
O zaman için yeni bir program olan Genel Problem Çözücü1 (Newell, Shaw, &
Simon, 1959)‟nün ilk versiyonu 1957 yılında test edilmiştir. Genel problem
çözücüden birkaç yıl sonra IBM, yapay zeka çalışmaları yapmak üzere bir araştırma
grubu kurmuştur ve Herbert Gelerneter bu grupta, geometri teoremlerini çözecek bir
program üzerinde üç yıl boyunca çalışmıştır.
Farklı çalışma grupları tarafından birçok programın üretildiği sıralarda
McCharty, yapay zeka tarihinde devrim sayılacak bir çalışma ile meşgul olmuş ve
1958 yılında, günümüzde hala kullanılmakta olan LISP programlama dilini
tanıtmıştır.
1960‟lı yıllarda yapay zeka alanına olan yoğun ilgi ve ortaya koyulan
çalışmalar, bu alanda çalışan birçok bilim adamının yapay zeka çalışmalarında
karşılaşacakları zorlukları tahmin edememelerini de beraberinde getirmiştir. Bu
nedenledir ki, Simon (1965) ve Minsky (1967) gibi birçok bilim adamı yapay
zekanın geleceği ile hayale varan iyimserliğe kapılmış, 1980‟li yıllara gelindiğinde
yapay zeka yaratma probleminin tamamen çözülmüş olacağını ve makinelerin
insanın yapabildiği her işi yapabileceğini öngörmüşlerdir.
Yapay Zeka çalışmalarında diğer bir önemli gelişme, 1970‟lerde Uzman
Sistemlerin ortaya çıkması ile gerçekleşmiştir. Uzman Sistemler, belirli koşullar
altında alternatif bir çözümün seçilmesi olasılığını tahmin etmekte ve daha sonra
alternatif çözümlerden en yüksek olasılık değerini alan alternatifin problemin
çözümü olarak belirlenmesi esasına dayanmaktadır. Olasılıkların belirlenmesinde ise,
bu problemle karşılaşan bir uzman kişinin değerlendirme süreci ve değerlendirme
sürecinde tanımladığı kurallar uzman sisteme eğer-ise yapısı ile kodlanarak, benzer
problemde uzman sistemin, uzman kişi ile benzer çözüm bulması amaçlanmaktadır.
1980‟ler yapay zeka çalışmalarının artık özel sektör tarafından da yürütüldüğü
ve dolayısıyla çok büyük bir ivme kazandığı yıllar olmuştur. 1986 yılında ABD‟nin
1
Genel Problem Çözücü (General Problem Solver): Herbert Simon (1965) tarafından geliştirişmiş
olan ve matematiksel sembollerle ifade edilebilen cebir teoremlerini ve geometri problemlerini
çözebilecek şekilde yazılmış olan bir yapay zeka programıdır.
9
yapay zeka ile ilgili yazılım satışından kazancı $425 milyona ulaşmıştır. Aynı
dönemde Uzman Sistemlere ise etkin kullanımı nedeni ile özel bir talep olmuştur.
Digital Electronics, DuPont, General Motors ve Boing firmaları, uzman sistemleri
aktif olarak kullanmaya ve uzman sistemlere dayalı ürünler satmaya başlamışlardır.
Yapay zekanın alt çalışma alanlarından birisi olarak görülen ve belirsizlik
altında karar verme konusunda tek alternatif olarak görülen Bulanık Mantık ise ilk
olarak Lotfi Zadeh (1965) tarafından ortaya atılmıştır. Bulanık mantık esasına
dayanan teknolojilerin geliştirilmesi 1980‟lerin sonlarından itibaren Japonya‟da
başlamıştır. Bu tarihlerde yapay sinir ağları da yapay zekanın bir alt çalıma alanı
olarak yeniden ele alınmaya başlanmıştır. 1980‟li yıllar yirmi birinci yüzyılın anahtar
bilimi olan yapay zekanın ve yapay zeka ürünlerinin gerçek hayatla bütünleştiği ve
günümüze kadar devam eden sürecin başlangıcı sayılabilir.
1.3 Yapay Zekanın Alt ÇalıĢma Alanları
Yapay zeka çalışmaları, insanın taklit edilen özelliğine göre Uzman Sistemler,
Bulanık Mantık, Yapay Sinir Ağları ve Genetik Algoritmalar olmak üzere dört ana
başlıkta toplanabilir. Uzman Sistemler, bir konu üzerinde uzman olan insanların o
konu ile ilgili bilgi ve tecrübelerinin “eğer-ise” kuralları ile bilgisayara aktarılarak,
mevcut işin makine tarafından yapılmasını sağlamaktan ibarettir. Bulanık Mantık ile
bilgisayarın, matematikteki klasik mantık sistemi ile çalışan ve sınırları çok keskin
olan kararlar yerine, insan beyninin yaklaşımına daha yakın olan ve kararlar arasında
yumuşak geçiş esasına dayanan bir sistem ile çalışması sağlanır. İnsanın öğrenme,
tecrübe edinme ve karşılaştığı yeni durumlar karşısında karar verebilme özelliğinin
bilgisayarda modellenmesi de yapay sinir ağları çalışmaları kapsamındadır. Genetik
algoritmalar ise genellikle, insanı bugünkü varlığına ulaştıran evrim sürecinin
unsurlarından “doğal seçilimi” taklit eden eniyileme algoritmaları olarak
tanımlanabilir. Buradan hareketle sözü edilen yapay zeka alt çalışma alanları aşağıda
özetlenmiştir.
1.3.1
Uzman Sistemler
Edward Feigenbaum (1983) tarafından ortaya atılan Uzman Sistemler (US)
sınırlı bir alanda geniş bir veri tabanına sahip ve sadece o işin uzmanı tarafından
10
yapılabilecek bir işi, karmaşık dolaylı muhakeme yeteneği ile yapabilen bilgisayar
programlarıdır. Bu tanıma göre bir uzman sistem, yapay bir uzman olarak da
adlandırılabilir. Karar verme gibi çok geniş bir yelpazeye hitap etmesi nedeniyle tıp,
hukuk, eczacılık, mühendislik, işletmecilik gibi çok farklı disiplinlerde uygulama
alanı bulmuştur.
İnsan nasıl yaşamı boyunca sürekli yeni bilgiler edinmekte, zaman içerisinde
görüşlerini derinleştirmekte, değiştirmekte ve olgunlaştırmakta ise US‟de benzer
şekilde bilgi tabanını genişletebilmeli ve her yeni bilgi eklemesinde yeniden program
yazılmasını gerektirmemelidir. Bir sistemin uzman sistem olarak adlandırılabilmesi
için bu sistemin, kullanıcı hatalarını algılama ve bu hataların kaynağını tespit ederek
kullanıcıyı hata ile ilgili bilgilendirme yapma becerisinin de olması gerekmektedir
(Nabiyev, 2005, s. 445).
1.3.2
Bulanık Mantık
İlk defa Azeri matematikçi Lotfi A. Zadeh (1965) tarafından ortaya atılan
Bulanık Mantık (BM), daha sonraları hızlı bir gelişme göstermiştir. Tam ve kesin
bilginin bulunmadığı, belirsizliğin hakim olduğu durumlarda karar verme esasına
dayanan BM, karar verme gibi çok geniş bir alanda kullanıldığı için bilim ve
teknolojinin hemen her alanında uygulanmaktadır. BM‟de amaç, belirsizlik ifade
eden, tanımlanması güç veya anlamı zor kavramlara üyelik derecesi atayarak onlara
belirlilik getirmektir (Türkşen, 1985).
Bulanık Mantığın tanımı iki anlamda yapılabilir. Dar anlamda düşünüldüğünde
BM, 1865 yılında Alman matematikçi Cantor tarafından ortaya koyulan klasik ikili
mantık sistemine dayanan Kümeler Teorisinin genelleştirilmişidir. Daha geniş
anlama bakıldığında ise BM kesin mantığı da içine alan Bulanık Kümeler Teorisi ile
eş anlamdadır (Pop, 2004, s. 111).
Klasik mantıkta bir önerme doğru ise 1, yanlış ise 0 değeri olmak üzere,
yalnızca iki değer alabilir. BM‟da ise bir önerme, doğruluk derecesine göre
kapalı aralığında sonsuz farklı değer alabilmektedir. Bu da gerçek hayata
uygulandığında çok keskin kararlar yerine daha esnek kararlar verilmesini
sağlamaktadır.
11
Bulanık mantığın en geçerli olduğu iki durumdan biri, incelenen olayın çok
karmaşık olması ve bu olayla ilgili yeterli bilginin bulunmaması durumunda kişilerin
görüş ve değer yargılarına yer verilmesi, ikincisi ise insan kavrayış ve yargısına
gerek duyulan hallerdir. İnsan düşüncesinde sayısal olmasa bile belirsizlik, yararlı bir
bilgi kaynağıdır. İşte bu tür bilgi kaynaklarının, olayların incelenmesinde
kullanılmasında bulanık mantık ilkelerinden faydalanılır (Baykal & Timur, 2004).
1.3.3
Yapay Sinir Ağları
Yapay Sinir Ağları (YSA), insan beyninin özelliklerinden olan öğrenme yolu
ile yeni bilgiler türetebilme ve keşfedebilme gibi yetenekleri herhangi bir yardım
almadan, otomatik olarak gerçekleştirebilmek amacı ile geliştirilen bilgisayar
sistemleridir. YSA insan beyninden esinlenerek, öğrenme sürecinin matematiksel
olarak modellenmesi uğraşısı sonucu ortaya çıkmıştır. Bu nedenle YSA üzerindeki
çalışmalar, ilk olarak beyni oluşturan biyolojik birimler olan nöronların
modellenmesi ve bilgisayar sistemlerinde uygulanması ile başlamış, daha sonraları
bilgisayar sistemlerinin gelişimine paralel olarak birçok alanda kullanılır hale
gelmiştir. İnsan beyninin çalışma prensibini taklit ederek çalışan bu sistemler, her ne
kadar bilgisayar teknolojisi hızlı bir gelişim göstermiş, işlem hızları nano saniyeler
düzeyine inmiş olsa da, değil insan beyni, ilkel bir canlıya ait sinir sisteminin
yanında bile çok ilkel kalmaktadır. Nano saniyeler bazındaki işlem hızları ile yapay
sinir ağları, mili saniyeler mertebesindeki işlen hızları ile işlem yapan insan beyninin
işlevselliğinin henüz çok uzağındadır.
İnsan beyninde yaklaşık 10¹¹ sinir hücresinin var olduğu düşünülünce, bu
sayının bilgisayar ortamında modellenmesi şu an için mümkün görünmemektedir.
Fakat karar hızı açısından insan beyni ile henüz yarışamasalar bile, YSA
yapısallıkları ve hassas eşleştirmeleri başarı ile gerçekleştirebilmeleri nedeni ile gün
geçtikçe daha fazla uygulama alanı bulmaktadır.
Yapay sinir ağları başlı başına bir çalışma alanı olmakla birlikte, diğer birçok
alanda bir araç olarak da kullanılmaktadır. Bu bağlamda YSA, bilimin hemen her
alanında uygulanmaktadır. Bu uygulamalarda başlıcaları, uzay araştırmaları,
12
bankacılık, sigortacılık, kalite kontrol, elektronik, savunma sanayi, yönetim bilimleri,
insan kaynakları ve robotik olarak sayılabilir.
1.3.4
Genetik Algoritma
Milyonlarca yıldan beri organizmalar, değişen dünya koşullarına ayak
uydurabilmek ve varlıklarını sürdürebilmek için biyolojik evrimden geçmektedir.
Yaşayan her organizma genlerden oluşan ve kromozom adı verilen genetik
materyallere sahiptir. Bu kromozomların dizilişleri ve düzenlenmesi, türlerin
varlığını sürdürebilmesinde anahtar rol oynamaktadır. Doğal seçilim süreci ve en
güçlü olanın yaşamını sürdürme ilkesi, evrimin önemli dayanaklarındandır. Genetik
Algoritma (GA), evrimin bu ilkeleri üzerine kurulmuştur. Bu bağlamda GA,
problemin alternatif çözümlerini birer birey, mevcut çözümden daha iyi bir çözüme
geçme aşamasını ise doğal seçilim olarak kabul eden sezgisel bir eniyileme
algoritmasıdır.
Çalışmamızda özel bir ileri beslemeli YSA türü olan Radyal Tabanlı Fonksiyon
Ağları, sorunları ve eksiklikleri bakımından ele alınmış ve bu sorun ve eksiklikler
karşısında çözüm olarak önerilen Hibrit Radyal Tabanlı Fonksiyon Ağları modeli
oluşturulmuştur. Oluşturulan modelin daha iyi anlaşılabilmesi amacıyla Bölüm 2„de
ileri beslemeli ağlara odaklanılarak YSA‟a yer verilmiştir.
13
BÖLÜM 2 YAPAY SĠNĠR AĞLARI
İnsan beyni üzerine yapılan çalışmalar binlerce yıl öncesine kadar uzanır. Ancak
insan beyninin ve düşünce sisteminin taklit edilmesi çalışmaları modern elektroniğin
ortaya çıkışı ile gerçekleşebilmiştir. YSA çalışmalarına olan ilginin ilk dalgaları, Warren
McCulloch ve Walter Pitts (1943) isimli nöro-psikologların gerçekleştirdikleri
çalışmalarında basitleştirilmiş nöron yapılarını tanıtmaları ile başlamıştır. Yaşamlarının
yirmi yılını düşünme ve hissetme gibi sinirsel olayları araştırmaya harcayan McCulloch
ve Pitts‟in çalışması, insan beyninin nasıl düşündüğünü ortaya çıkarmak için basit
elektrik devrelerini kullanan ilkel bir YSA dizaynı üzerinedir. Onların bu çalışması,
McCulloch ve Pitts‟in Formal Sinir Ağı Teorisi olarak anılmaktadır (Haykin, 1994, p.
38).
Yapay Sinir Ağları teknolojilerindeki diğer bir büyük gelişme, Donald Hebb
(1949) tarafından yayınlanan “The Organization of Behavior” adlı kitapla sağlanmıştır.
Bu kitap, McCulloch ve Pitts‟in nöronlar ve bunların nasıl işlediklerine ilişkin teorisini
destekler niteliktedir. Hebb‟in kitabı ile ortaya koyulan en önemli bilgi, nöral
bağlantıların her kullanılışlarında daha da güçlendiklerinin gösterilmesidir. Bu bilginin
doğruluğu, YSA‟nın öğrenme algoritmalarının geliştirilmesi ile pekiştirilmiştir (Haykin,
1994, p. 39).
1950‟li yıllarda YSA çalışmaları yavaşlama olmuştur. Bununla birlikte bazı
araştırmacılar bireysel olarak bu alandaki çalışmalarına devam etmiştir. Marvin Minsky
(1954) yazdığı "Theory of Neural-Analog Reinforcement Systems and its Application to
the Brain-Model Problem" isimli doktora tezinde YSA‟nı kullanmıştır. Ayrıca Minsky,
ilk defa YZ konusunu detaylı olarak ele alan “Steps Towards Artificial Intelligence"
isimli bir de bilimsel makale yayınlamıştır (Minsky, 1963). Bu makale, YSA‟nı anlatan
geniş bir bölüm içermektedir. 1956 yılında Dartmouth‟ta yapılan Yapay Zeka Yaz
14
Araştırma Projesi kapsamındaki çalışmalar, çok basit düzeyde olsalar da YSA
çalışmalarının ilk örnekleri sayılır.
1950‟li yıllarda John Von Neuman‟ın, telgraf aleti ve vakum tüpleri kullanılarak
basitleştirilmiş nöron fonksiyonlarının taklit edilebileceği üzerine ortaya attığı fikir, Von
Neumann Makinesi1 keşfine de zemin hazırlamıştır.
McCulloch and Pitts‟in çalışmalarından 15 yıl sonra YSA‟da yeni bir yaklaşım
tanıtılmıştır. 1958 yılında Cornell Üniversitesinde nöro-biyolog olarak görev yapan
Frank Rosenblatt, Perseptron üzerinde çalışmaya başlamıştır. Perseptron, uygulamaya
elverişli ilk YSA modeli olarak kabul edilmektedir. Perseptronun oluşturulmasında o
zamanların bile en ilkel donanım malzemeleri kullanılmıştır. Perseptronun ilham
kaynağı ise sineklerin gözleri olmuştur. Yaklaşan bir tehlikeyi gören bir sineğin kaçma
kararını alma süreci, perseptron ile modellenmiştir (Masters, 1993).
1959 ve 1960 yıllarında ABD‟nin Stanford Üniversitesi‟nden Bernard Wildrow
ve Marcian Hoff, ADALINE2 ve MADALINE3 modellerini geliştirmişlerdir. Bu
modeller, sinyal işleme gibi gerçek hayat problemlerine uygulanabilen ilk yapay sinir
ağları olarak ortaya çıkmaktadır. (Rojas, 1996, s. 476).
Yayınlanmasını takiben oldukça popüler hale gelen perseptrondaki büyük çöküş,
Marvin Minsky ve Seymour Papert (1969) tarafından yayınlanan “Perceptrons” isimli
kitapta perseptronların sınırlı problem çözme kapasitelerinin ispatlanması ile
gerçekleşmiştir (Masters, 1993). Minsky ve Papert‟in YSA‟nın eksikliklerini ortaya
koymaları ile beraber, birçok bilim adamı yapay sinir ağı çalışmalarını bırakmaya
1
Von Neumann Makinesi: Matematikçi John Von Neumann tarafından geliştirilen, komutlar ve verinin
aynı depolama biriminde saklandığı bir çeşit bilgisayar tasarımıdır.
2
ADALINE (ADAptive LINear Elements): 1960 yılında Bernard Widrow ve doktora öğrencisi Tedd
Hoff tarafından geliştirilen tek katmanlı bir yapay sinir ağı örneğidir.
3
MADALINE (Çokluple ADALINE): ADALINE ağında girdi ve çıktı arasına paralel olarak yerleştirilen
bir katmanla elde edilen bir çeşit iki katmanlı yapay sinir ağıdır.
15
başlamıştır. Başlıcaları Teuvo Kohonen, Stephen Grosberg, James Anderson ve
Kunihiko Fukushima olmak üzere az sayıda bilim adamı ise YSA çalışmalarına devam
ettirmişlerdir (Kröse & Smagt, 1996). 1969‟dan 1981 yılına kadar geçen süreçte YZ ve
YSA‟na bilim adamlarının ilgisi azalmış olsa da yapay zeka ve robotlar konusunu
işleyen birçok roman, film ve televizyon programı ile konu gündemde kal mıştır.
Yapay Sinir Ağlarına olan ilginin yeniden artmaya başlaması, özellikle
bilgisayarların işlem kapasitelerinin artması ve hatanın geri yayılımı algoritmasının
keşfini takiben 1980‟li yılların başlarına kadar beklemiştir (Kröse & Smagt, 1996, s. 13).
Bu tarihlerde YSA‟da önemli bir yenilik sayılan Özdüzenleyici Haritalar1 öne çıkmaya
başlamıştır. 1982 yılında California Teknoloji Enstitüsünden John Hopfield, YSA‟ya
yeni bir yaklaşım getiren çalışmasını bilim dünyasına sunmuştur. Hopfield çalışmasında,
YZ yaklaşımlarının insan beynini tam olarak taklit etmesinin mümkün olmamasına
rağmen, dinamik problemleri çözebilecek makinelerin yapımının sağlanabileceğini ifade
etmiştir. Hopfield‟in fikirleri YSA‟da yeni bir alanın doğmasını sağlamıştır. Hopfield‟in
fikrine dayanan YSA modelleri ise Hopfield Modeli olarak anılmaktadır (Haykin,
Neural Networks, 1994, s. 41).
Yaklaşık aynı zamanlarda Japonya‟da gerçekleştirilen YSA konulu bir
konferansta Japonlar, YSA‟nın kabiliyetlerinin yeniden araştırılmaya başlanacağını
duyurmuşlardır. Bu duyuru, Amerika Birleşik Devletleri‟ni YZ ve YSA çalışmalarında
geride kalmak korkusuna sevk etmiş ve bu alandaki çalışmalara büyük fonlar
ayırmalarına neden olmuştur.
Yapay sinir ağları konulu yıllık konferansların ilki 1986 yılında 1800 bilim
insanının katılımı ile gerçekleştirilmiştir. Aynı yıl Rumelhart, Hinton ve Williams
(1986), geri yayılım algoritmasındaki gelişmeleri konu alan bir rapor hazırlamışlardır.
1
Özdüzenleyici Haritalar (Self-Organizing Maps-SOM): Danışmansız öğrenme algoritmalarını kullanan
bir çeşit yapay sinir ağıdır. Genellikle çok boyutlu girdi uzayının, harita olarak adlandırılan düşük
boyutlarla ifade edilmesinde kullanılır (Kohonen, 2001, s. 106).
16
Bu çalışmalarında, geri yayılım algoritmasının çok katmanlı perseptronların eğitiminde
neden en önemli yöntem olarak ortaya çıktığı üzerinde durmuşlardır. 1990‟lı yıllar
teknolojide ve dolayısıyla da YSA konusunda birçok ileri düzeyde araştırma ve
ilerlemenin gerçekleştiği yıllar olmuştur. Günümüzde ise YSA ilkelerinin elektronik
uygulamaları oldukça popülerdir.
2.1 Yapay Sinir Ağlarının Kullanım Alanları
Yapay sinir ağları, birimleri sınıflara ayırmada oldukça başarılı bir yöntemdir.
Walzack ve Sincich (1999) çalışmalarında, üniversite adaylarını, kabul edildikleri
takdirde kayıt yaptırıp yaptırmayacak adaylar olmak üzere YSA ile iki kategoriye
ayırmışlardır. Calderon ve Cheh (2002) ise yapay sinir ağlarını, iş başarısızlığı riskinin
ölçülmesinde kullanmıştır. Huang v.d. (2008) iş başarısızlığı tahmininde YSA ve
finansal analiz metotlarını bir araya getirerek hibrit bir model kurmuştur. Angelini v.d.
(2008) ise kredi başvurularını değerlendirmede YSA modeli kullanmışlardır.
Yapay sinir ağlarının çok başarılı olduğu diğer bir alan ise tahminlemedir. Palaez
(2006) çalışmasında, işsizliğin tahmini için ekonomik modeller ile YSA modelini
karşılaştırmış ve YSA‟nı başarılı bir tahminleyici olarak bulmuştur. Dawson v.d. (2002),
Çinin Yangtze nehri için yağış miktarı-akış sürecinin ölçülmesinde iki farklı YSA
modeli kullanılmıştır. Yangtze nehrine ait 1991-1993 arası 6 saatlik yağış miktarı-akış
verileri kullanılmış ve her iki YSA modelinin de nehrin akışını başarı ile tahmin ettiğini
görmüşlerdir.
Yapay sinir ağları çalışmalarının geleneksel istatistik tekniklerin kullanıldığı her
alanda kendilerini göstermesi ile YSA ve istatistik tekniklerin karşılaştırıldığı çalışmalar
literatürde sıkça yer almaya başlamıştır. Akbilgiç ve Keskintürk (2008), çoklu regresyon
analizi ve YSA‟nı bir benzetim örneği için karşılaştırmış ve hata kareler ortalaması ve
bilgi karmaşıklığı (ICOMP) kriterleri açısından YSA‟nın daha iyi bir tahminleyici
olduğunu göstermiştir. Eastaugh v.d. (1997), erken doğuma bağlı riskli gebeliklerin
belirlenmesinde YSA ve lojistik regresyon modellerini karşılaştırmıştır. Bu çalışmada,
17
kullanılan açıklayıcı değişkenlerin her iki modelde de başarılı tahmin yapmaya yeterli
olmadıkları görülmüştür.
2.2 Biyolojik Sinir Sistemi ve ĠĢleyiĢi
İnsan sinir sistemi bütün olarak düşünüldüğünde oldukça karmaşık bir yapıda
olmasına rağmen, kendisini oluşturan birimler oldukça basittir. Sinir sistemini oluşturan
bu basit hücrelere nöron adı verilir. Şekil 2-1‟de bir nöronun genel görünümü ve nöronu
oluşturan birimler yer almaktadır.
Akson Tümseği
Gövde
Akson
Dentrit
Çekirdek
Akson Çıkışı
ġekil 2-1 Nöron Genel Görünümü ve Nöronu OluĢturan Birimler (Fraser, 1998, s. 1)
Şekil 2-1‟de genel görünümü verilen, sinir sistemini oluşturan unsurların sistem
içindeki görevleri ise özetle aşağıdaki gibidir.
Gövde: Nöronun orta kısmını oluşturur. Alınan sinyaller gövdede toplanır ve yine
gövdede yer alan çekirdekte işlenir.
18
Dentrit: Dış çevreden nörona sinyallerin alındığı birimdir. Her bir nöronda çok
sayıda dentrit bulunur.
Akson: İşlenen sinyalleri dış çevreye ileten birimdir.
Sinaps: Sinyal ileten aksonlarla sinyal alan dentritler arasındaki bağlantıyı
sağlayan birimlerdir.
Yukarıda temel elemanları ifade edilen bir nöronun işleyişi, sinapslardan geçen
sinyallerin dentritlere ulaşması ile başlar. Nörona bağlı tüm dentritlerden gelen sinyaller
hücre gövdesinde toplanır. Bu toplam değer bir eşik değerini aştığı zaman nöron
ısınmaya başlar ve aksonlar aracılığı ile diğer nöronlara sinyal gönderir (Halıcı, 2001, s.
2-3).
Biyolojik sinir sistemindeki işleyiş YSA ile modellenerek, insan gibi karar
verebilen ve muhakeme yeteneği olan zeki sistemler yaratılmaya çalışılmıştır. Bu
bağlamda YSA, YZ‟nin önemli kilometre taşlarından birisi olmuştur.
2.3 Yapay Sinir Ağlarının Genel Yapısı
İnsan sinir sistemini taklit edecek şekilde oluşturulan bir yapay sinir ağı modeli,
Şekil 2-2‟de gösterildiği gibi girdi katmanı, gizli katman (veya ara katman) ve sonuç
katmanı olmak üzere üç kısımdan oluşmaktadır. Bu katmanlardan gizli katman, birden
fazla katmandan oluşabilir. Her bir katman nöronlardan oluşmaktadır. Girdi ve çıktı
katmanındaki nöron sayısı, bağımsız ve bağımlı değişkenlerinin sayısı ile belirlenmekte
iken, gizli katmandaki katman sayısı ve her bir gizli katmanda bulunacak nöron sayıları,
en iyi performansı verecek şekilde kullanıcı tarafından belirlenmektedir.
19
ġekil 2-2Bir yapay sinir ağının genel görünümü
Nöronlar arasındaki bilgi akışı YSA‟nın türünü belirlemektedir. YSA‟da bilgi akışı
genellikle ileriye doğrudur ve bu tür YSA “İleri Beslemeli Ağlar” olarak adlandırılır. Bu
çalışmada, sadece ileri beslemeli ağlar üzerinde durulmaktadır. Bu bağlamda ileri
beslemeli ağlarda yer alan her bir nöron, alıp işlediği bilgiyi kendinden sonraki
katmandaki nöronlara iletir. Bu bilgi iletimi sırasında nöronlar arasındaki bağlantıların
ağırlıkları oldukça önemlidir. Diğer bir ifade ile bilgiler, ileten ve iletilen nöron
arasındaki ağırlık değeri ile çarpılarak iletilmektedir.
2.4 Yapay Sinir Ağlarının BileĢenleri
Genel görünümü Şekil 2-2 ile verilen bir yapay sinir ağı modeli, nöron adı verilen
basit birimlerin bir araya getirilmesi ile oluşturulmaktadır. Bu nöronlar her birinde farklı
görevleri yerine getirmek üzere girdi katmanı, gizli katman ve çıktı katmanında
gruplandırılır. Bu bağlamda bir YSA modeli, nöronlar ve bilgi akışını ve işleyişini
sağlayacak şekilde o nöronları bir arada tutan bağlantılardan oluşur.
2.4.1
Katmanlar
Genel bir YSA modeli, girdi katmanı, gizli katman ve çıktı katmanından
oluşmaktadır. Bu katmanların her biri, bilgi işleyişini sağlayacak şekilde farklı görevlere
sahip nöronlar içermektedir. Bilginin ağa ilk gösterildiği kısım olan girdi katmanı, yapay
sinir ağı modelinin dış dünya ile bağlantısını sağlamaktadır. Girdi katmanında bulunacak
20
nöron sayısı, bağımsız değişken sayısı kadardır. Bununla birlikte bazı YSA
modellerinde, regresyon analizindeki sabit terim görevini gören ve yan olarak
adlandırılan bir nöron daha eklenmektedir. Yan nöronuna girilen bilginin sabit olarak 1
değerini aldığı varsayılmaktadır. Bununla birlikte ne yan değeri ne de bağımsız değişken
değerleri, girdi katmanı nöronlarında herhangi bir işleme tabi tutulmazlar.
Gizli katman, YSA‟da kara kutu olarak bilinen kısımdır. Girdi katmanından
kendisine iletilen bilgi bu katmanda işlenmektedir. Gizli katman birden fazla alt
katmandan oluşabilir. Gizli katmanın kaç alt katmandan oluşacağı ve her bir alt
katmanda kaç nöron bulunacağı kullanıcı tarafından belirlenir. Literatürde bu sayılarla
ilgili bazı öneriler bulunmakla beraber, genellikle deneme yanılma yolu ile en iyi sonucu
veren sayılar bulunur.
Gizli katman nöronları bilgiyi, her bir nöronda bulunan aktivasyon fonksiyonları
aracılığı ile işlerler. Bu bağlamda aktivasyon fonksiyonunun seçimi, kullanıcı
inisiyatifinde olan ve ağın başarısını önemli ölçüde etkileyen parametrelerden birisidir.
Bazı basit YSA modellerinde girdi katmanı direk çıktı katmanına bağlanır. Ancak
bu tip ağlar bağımlı ve bağımsız değişkenler arasındaki doğrusal olmayan ilişkiyi
modelleyememektedir. Buradan hareketle gizli katman, YSA‟na doğrusal olmayan
ilişkileri modelleme gücünü kazandıran katmandır.
Biyolojik nöron yapısında aksona karşılık gelen çıktı katmanı, modelde işlenen
verinin dış dünyaya iletildiği katmandır. Gizli katmandan bağlantılar ile kendisine gelen
bilgi, genellikle aynen ağın çıktısı olarak dış dünyaya iletilmektedir. Özellikle gizli
katman bulunmayan basit YSA modellerinde ise çıktı katmanı nöronları, gelen bilgiyi
bir eşik değer fonksiyonundan geçirerek dış dünyaya iletirler. Diğer taraftan, çıktı
katmanında bulunacak olan nöron sayısı verideki açıklanan değişken sayısı kadardır.
21
2.4.2
Bağlantılar
Yapay sinir ağlarında katmanlar arasındaki bilgi akışı bağlantılar aracılığı ile
gerçekleştirilmektedir. Her bir katman kendisine gelen bilgiyi (işleyerek ya da doğrudan)
kendisinden sonraki katmana aktarır. Bu aktarma işleminin gerçekleşebilmesi için,
katmanlardaki her bir nöron, bir sonraki katmanda bulunan her bir nörona bağlanır. Bu
bağlantıların her birisi bir ağırlık değerine sahiptir. Böylece herhangi iki nöron arasında
iletilen bilgi, bu ağırlık değeri ile çarpılarak iletilmiş olur. Bu bağlamda herhangi bir
nörona gelen net bilgi, kendisine bağlı olan bir önceki katmandaki nöronların çıktılarının
doğrusal bir kombinasyonudur.
Yapay sinir ağlarında bağlantı sayısı, katmanlarda yer alan nöronların
belirlenmesi ile kendiliğinden ortaya çıkar. Ancak her bir bağlantıya ait bağlantı ağırlık
değerleri genellikle başlangıçta keyfi olarak kullanıcı tarafından belirlenmektedir. Daha
sonra bu ağırlık değerleri, ağın çıktısı ile hedeflenen çıktı değerleri arasındaki farkı
eniyileyecek şekilde iteratif olarak değiştirilir. YSA‟da bu ağırlık değerlerinin iteratif
olarak değiştirilmesi süreci öğrenme olarak adlandırılmaktadır.
2.4.3
Aktivasyon Fonksiyonları
Aktivasyon fonksiyonları YSA‟da bilginin işlenmesini sağlayan elemanlardır. Bazı
basit YSA modelleri dışında sadece gizli katman nöronları için geçerlidir. Gizli
katmanda yer alan her bir nörona bir aktivasyon fonksiyonu (genellikle aynı fonksiyon)
karşılık getirilmektedir. Gizli katman nöronuna gelen net bilgi, aktivasyon
fonksiyonlarının girdisi olarak nöron içerisinde işlenir. Aktivasyon fonksiyonun bu net
girdiye karşılık ürettiği değer ise ilgili nöronun çıktısını oluşturmaktadır.
Yapay sinir ağı literatüründe kullanılmış birçok aktivasyon fonksiyonu türü
olmakla beraber, bunlardan bazıları Tablo 2-1 ile özetlenmektedir. Bu tabloda yer alan
radyal tabanlı fonksiyonları kullanan YSA modelleri, Radyal Tabanlı Fonksiyon Ağları
olarak adlandırılan ayrı bir YSA türü belirlemektedir. Tablo 2-1 kapsamında radyal
22
tabanlı fonksiyonlar bir merkez ( ) ve yarıçap ( ) parametresinin fonksiyonu olacak
şekilde tanımlanmış olmakla beraber Bölüm 3‟te daha detaylı olarak ele alınmıştır.
Tablo 2-1 Örnek Aktivasyon Fonksiyonları
Fonksiyon Adı
Kısa Adı
Eşik Değer
-
Logaritmik Sigmoid
logsig
Tanjant Hiperbolik
tanh
Sekant Hiperbolik
sech
Radyal Tabanlı Fonksiyonlar
RBF
Formülasyonu
2.5 Yapay Sinir Ağı Modelleri ve Öğrenme Algoritmaları
Yapay sinir ağlarının bir araç olarak kullanılması, kullanılacak YSA modelinin ve
daha da önemlisi seçilen model için kullanılacak öğrenme algoritmasının belirlenmesini
gerektirmektedir. Burada öğrenme, iteratif işlemler ile hedeflenen ve ağın ürettiği çıktı
değerleri arasındaki farkın bir fonksiyonu olan hata fonksiyonunu enküçükleyecek
şekilde ağ parametrelerinin değiştirilmesi işlemidir. Literatürde önerilmiş birçok
öğrenme algoritması olmakla beraber bunlardan göreceli olarak önemli olanları takip
eden kısımda verilmiştir.
2.5.1
Hebb Kuralı
Hebb‟in, kendi adı ile anılan öğrenme kuralı, en eski ve en ünlü öğrenme kuralıdır.
Hebb (1949)‟in kitabında “Eğer bir A hücresinin aksonları B hücresine, onu etkileyecek
kadar yakınsa ve sürekli olarak etkilemeye devam ederse, B hücresinde, A hücresinin
uyarılarının etkisi ile metabolik değişmeler meydana gelir.” ifadesi yer almaktadır. Hebb
hücre seviyesindeki bu değişmeyi, etkileşimli öğrenmenin temeli olarak kabul etmiştir.
Hebb Kuralının Matematiksel Modeli: Hebb öğrenmesinin formülasyonunda
nöronuna gelen ve
nöronundan çıkan sinyaller sırasıyla
ve
olmak üzere nöronlar
23
arasındaki bağlantı ağırlığı
ile gösterilmektedir. Sinaptik ağırlık
‟ye ‟inci
adımda uygulanan düzeltmenin genel formu (2.1) ile verilmektedir.
(2.1)
Burada , nörona giren ve çıkan sinyallerin bir fonksiyonudur. ‟inci iterasyonda
nörona giren ve çıkan sinyaller olan
ve
birer gerçel sayı olarak kabul
edilmektedir. (2.1) ile verilen eşitlik, Hebb türü olan birçok öğrenme formunda aynıdır.
Hebb öğrenmesinin en basit formu (2.2) ile ifade edilmektedir.
(2.2)
Burada  , pozitif bir sabit olan öğrenme oranıdır. (2.2) eşitliğinden yararlanarak
‟inci adımda ilgili ağırlık değerinin hesabı (2.3) ile verilmektedir.
(2.3)
2.5.2
Perseptron
Perseptron, Rosenblatt (1958) tarafından örüntü sınıflandırıcı olarak ortaya atılmış
basit bir YSA modelidir. Tek katmanlı perseptron, bir girdi ve bir çıktı katmanı içerir.
Perseptronda hem girdi katmanı hem de çıktı katmanı ikili (0 ve 1) birimlerden
oluşmaktadır. Bununla beraber perseptronun çıktı birimlerinde aktivasyon fonksiyonu
olarak eşik değer fonksiyonu kullanılmaktadır. Girdi katmanında
, çıktı katmanında
nöron bulunan tek katmanlı bir perseptronun genel görünümü Şekil 2-3 ile
verilmektedir.
24
Girdi Katmanı
+1
Çıktı Katmanı
Yan Değeri
ġekil 2-3 Tek katmanlı perseptron örneği
Şekil 2-3‟te görüldüğü gibi tek katmanlı bir perseptron, birden fazla nörondan
oluşan girdi katmanındaki her bir nöronun ve bir yan değerinin, birden fazla nörondan
oluşabilen çıktı katmanındaki her bir nörona bağlanması ile elde edilmektedir. En basit
hali ile iki girdi ve tek çıktılı bir perseptron modeli ise Şekil 2-4 ile verilmektedir. Şekil
2-3 ve Şekil 2-4„te gösterildiği gibi perseptronda her zaman yan değeri “1” olarak
alınmaktadır.
+1
ġekil 2-4 Ġki girdi ve bir çıktılı perseptron
25
Perseptron modelinde girdi katmanındaki nöronların aldığı değerler, ilgili
bağlantıları ile çarpılarak net sinyal değeri hesaplanır ve bu değer çıktı katmanı
nöronlarının girdisini oluşturur. Herhangi bir çıktı katmanı nöronu için sözü edilen bu
net sinyal, ilgili çıktı katman nöronunun kendisine bağlı her bir girdi katman
nöronlarının ilettiği sinyal değerlerinin ağırlık değerleri ile çarpımlarının toplamına yan
değerin ağırlığının eklenmesi ile elde edilir. Çıktı katmanı nöronlarının dış dünyaya
ilettiği bilgi ise her bir çıktı nöronuna gelen net sinyale karşılık eşik değer
fonksiyonunun verdiği sonuçtur. Buna göre ‟inci çıktı katmanı nöronunun girdisi ve bu
girdiye karşılık gelen çıktısı sırasıyla (2.4) ve (2.5) ile verilmektedir.
(2.4)
(2.5)
(2.4) ve (2.5)‟te yer alan
, ‟inci girdi katmanı nöronunun değerini,
çıktı katman nöronunun net girdisini,
arasındaki bağlantı ağırlığını,
ağırlığını ve
, ‟inci
, ‟inci girdi nöronu ile ‟inci çıktı nöronu
, eşik değer ile ‟inci çıktı nöronu arasındaki bağlantı
ise ‟inci çıktı nöronunun ürettiği çıktıyı ifade etmektedir. Çıktı katmanı
nöronlarının kullandığı aktivasyon fonksiyonu ise
ile gösterilmiştir ve (2.6) ile
tanımlanmaktadır.
(2.6)
(2.6) ile verilen formülden anlaşılacağı gibi tek katmanlı perseptron, “-1” ya da
“+1” sonuçlarını üretmektedir. Bu hali ile perseptron, verilen örüntüleri iki kümeye
ayırma problemlerinde kullanılabilir. İki kümenin ayrılma sınırını ise (2.6) ile verilen
eşik değer fonksiyonundan da anlaşılacağı gibi
değeri belirler. Perseptronda çıktı
nöronları doğrusal aktivasyon fonksiyonu kullandığı için girdi değerleri bir hiper-düzlem
ile iki bölgeye ayrılır. Girdileri iki sınıfa ayıran bu hiper-düzleme “Karar Yüzeyi” adı
verilir ve (2.7) ile formüle edilir.
26
(2.7)
Perseptron Öğrenme Kuralı, bağlantı ağırlıklarının değiştirilerek ağın öğretilmesi
esasına dayanan iteratif bir yöntemdir. Temel olarak, eğitim veri kümesinin ağa
gösterilmesi ve hata miktarının daha önceden belirlenmiş olan bir tolerans değerini
aşması durumunda her bir ağırlık değerinin bir düzeltme terimi eklenerek güncellenmesi
işlemlerinden ibarettir. Herhangi bir
‟inci adımda, girdi ile çıktı katmanı nöronları
arasındaki bağlantılar ve yan değeri ile çıktı katmanı nöronları arasındaki bağlantıların
düzeltilmiş değerleri sırasıyla (2.8) ve (2.9) ile hesaplanmaktadır.
(2.8)
(2.9)
(2.8) ve (2.9) formülleri ile öğrenme, örüntüleri daha doğru sınıflandıracak
şekilde
ve
düzeltme
değerlerinin
hesaplanması
problemine
indirgenmektedir. Perseptron öğrenmesi ile en uygun çözümün diğer bir ifade ile en iyi
karar düzleminin kesinlikle bulunabileceği, Rosenblatt (1958) tarafından ispatlanan
Perseptron Yakınsaklık Teoremi ile gösterilmiştir.
Perseptron Yakınsaklık Teoremi: Eğitim kümesini oluşturan girdi vektörlerinin
kümesi
ve hedeflenen çıktı vektörlerinin kümesi
olmak üzere, eğer
ve
kümeleri sonlu ve doğrusal ayrıştırılabilirse Perseptron Öğrenme Algoritması ile
başlangıç ağırlıkları ne olursa olsun, sonlu sayıda iterasyon ile
ayıracak
ve
‟yi iki kümeye
ağırlıkları bulunabilir (Rojas, 1996, s. 85).
Yukarıdaki teoremden de anlaşılacağı üzere perseptron, yalnızca doğrusal
ayrıştırılabilir problemlerin çözümünü garanti etmektedir. Diğer bir ifade ile bir
sınıflandırma probleminin perseptron ile çözülebilmesi, her bir çıktı birimi için girdileri
iki ayrık bölgeye ayırabilecek bir hiper-düzlemin bulunmasını gerektirmektedir. Ancak
gerçek hayatta karşılaşılan birçok problem doğrusal ayrıştırılabilir değildir. Şekil 2-5 iki
girdi ve bir çıktı değerine sahip mantıksal fonksiyonlar olan AND, OR ve XOR
27
problemlerinin geometrik gösterimini vermektedir. Belirtilen mantık problemleri için
girdi ve çıktı değerleri ise Tablo 2-2 ile verilmektedir.
Tablo 2-2 AND, OR ve XOR problemlerinin girdi ve çıktı değerleri
Girdi Değerleri
X1
X2
Çıktı Değerleri
AND OR XOR
0
0
0
0
1
1
0
0
1
0
0
1
0
1
0
1
1
1
1
1
Şekil 2-5‟ten anlaşılacağı gibi AND ve OR problemleri doğrusal ayrılabilirdir.
Ancak XOR problemini doğrusal olarak ayırabilecek hiç bir hiper-düzlem yoktur.
OR
1
0
XOR
AND
1
1
1
0
0
1
=0
1
=1
ġekil 2-5 AND, OR ve XOR problemleri için karar düzlemleri (Nascimento, 1994)
Perseptrondaki doğrusal ayrıştırılabilirlik kısıtının üstesinden gelebilmenin yolu,
tek katmanlı perseptrondaki girdi ve çıktı katmanı arasına ayrı bir katman (gizli katman)
eklenmesi ile elde edilen çok katmanlı perseptron kullanmaktır (Gibson, Siu, & Cowan,
1989, s. 1184). Böylece birçok hiper-düzlemin bir araya getirilmesi ile yeni bir karar
yüzeyi tanımlanır. Perseptronlarla ilgili Minsky ve Papert (1969) tarafından yayımlanan
kitapla beraber YSA üzerinde yoğunlaşmış olan ilgi, diğer YZ alanlarına doğru
28
yönelmiştir. Minsky ve Papert (1969) kitaplarında, perseptron ile ilgili ortaya koyulan bu
eksikliğe rağmen perseptronun önemini vurgulamış ve ileride ortaya atılacak bazı
yakınsaklık teoremleri ile perseptronun doğrusal olmayan ayrıştırıcı özelliğine
kavuşacağını belirtmişlerdir (Minksy & Papert, 1969).
Perseptron Öğrenme Algoritması: Girdi vektörü
ve hedeflenen çıktı vektörü
‟den oluşan eğitim kümesi için perseptron öğrenme algoritması üç temel adımda
özetlenebilir.
Adım 1: Eğitim kümesinden daha önce gösterilmemiş bir örnek ağa gösterilir.
Adım 2: Ağın çıktısı
hesaplanır ve hedeflenen çıktı değeri
ile
karşılaştırılır.
Adım 3: Kendi içinde üç aşamadan oluşan bu adıma göre;
a) Eğer
ise ve eğitim kümesinde ağa gösterilmemiş örnek varsa
Adım 1‟e dönülür.
b) Eğer
ise ve eğitim kümesinden ağa gösterilmemiş örnek
kalmadıysa ağın eğitimi bitirilir.
c) Eğe
ise ağın ağırlıkları
düzeltme terimleri
eklenerek güncellenir.
Perseptron öğrenme sürecinin Hebb kuralından tek farkı, ağ doğru çıktı ürettiğinde
bağlantılarda herhangi bir değişiklik yapılmamasıdır. Ayrıca yan değerin çıktı katmanına
bağlayan bağlantının ağırlık değeri w0 ile gösterilir ve yukarıda tanımlanan perseptron
öğrenme algoritmasına göre (2.10) formülü ile güncellenir.
(2.10)
29
2.5.3
Delta Kuralı
Hata düzelterek öğrenme süreçlerinden birisi olan Delta Kuralı, Widrow ve Hoff
(1960) tarafından ADALINE1 nöronları için geliştirilmiş iteratif bir öğrenme
algoritmasıdır. Hata düzelterek öğrenme süreci olarak değerlendirilir. Buna göre,
öncelikle girdiler oluşturulan ağı takip ederek çıktı katmanına ulaşır. Sonra ağa
gösterilen eğitim girdi verisi için ağın çıktısı hesaplanır. Daha sonra hesaplanan bu değer
ile hedeflenen çıktı değeri (bağımlı değişken değeri) karşılaştırılır ve bu karşılaştırma
değeri (hata fonksiyonu) hesaplanır. Eğer hesaplanan ve hedeflenen çıktı değeri arasında
fark kabul edilebilir düzeyde ise veya fark yoksa ağda herhangi bir değişiklik yapılmaz.
Bununla birlikte bu farkın önceden belirlenmiş tolerans değerini aşması halinde, ağın
bazı bağlantılarında değişiklik yapılması gerekir. Bu değişikliklerin yapılmasında En
Dik Azalış Yöntemi (Steepest Descent Method) kullanılır.
Ağın ağırlıkları
ve hata fonksiyonu
değerleri ve hata fonksiyonu değeri sırasıyla
olmak üzere t‟inci iterasyonda ağırlık
‟inci iterasyonda ağırlıkların yeni değeri
ile
ile gösterilir. Bu tanıma göre
ve
için hata fonksiyonun değeri
arasında (2.13) ile verilen ilişki vardır.
(2.13)
Hata düzelterek öğrenme süreci,
ağırlıklarının her bir iterasyonda en dik azalış
doğrultusunda (türevin ters yönü) sıfırdan büyük bir sabit sayı olan öğrenme katsayısı
ile orantılı olarak değiştirilmesi esasına dayanmaktadır.
(2.14)
1
ADALINE (ADAptive LINear Element): Bernard Widrow ve Tedd Hoff tarafından 1960 yılında
geliştirilen, bir yan ve bu yan değerine bağlı ağırlık fonksiyonu ile toplam işlemcisinden oluşan basit bir
YSA modelidir.
30
(2.14) ile verilen eşitsizlikte yer alan
değeri,
olarak
belirlenir. Öğrenme oranının yeterince küçük seçilmesi durumunda, en dik azalış
yönteminde her iterasyon, bir öncekinden daha küçük hata değeri verecektir.
Delta kuralına göre çıktı birimlerine ait aktivasyon fonksiyonunun, özdeşlik
fonksiyonu1 olduğu varsayılır. Dolayısıyla ağın ürettiği çıktı değerleri ile hedef değerler
arasındaki farkların kareleri toplamı enküçüklenir (Fausett, 1993).
Şekil 2-6 ile gösterilen ve girdi katmanında
, çıktı katmanında
nöron bulunan
tek katmanlı bir yapay sinir ağı ele alındığında, girdi vektörü ‟e karşılık ağın ürettiği
çıktı vektörü
olmak üzere ‟inci çıktı nöronuna karşılık gelen değer
(2.15)‟deki gibi
hesaplanır.
(2.15)
gözlemden oluşan eğitim kümesi,
üzere, eğitim kümesinin herhangi bir
‟inci elemanı için
olmak
girdi ve
çıktı değerleri
vektörü sırasıyla (2.16) ve (2.17)‟deki gibi gösterilir.
(2.16)
(2.17)
1
Özdeşlik Fonksiyonu (Identity Function):
şeklinde tanımlanan özel bir fonksiyon tipidir.
31
ġekil 2-6 m girdi ve n çıktılı tek katmanlı bir yapay sinir ağı (Fuller 2000, 174)
Delta öğrenme algoritmasının temel prensibi, tüm ağın performansının ölçüsü olan
bir hata fonksiyonu tanımlamak ve ağın performansını eniyilemektir. Tek katmanlı bir
yapay sinir ağı için ağın performansı (2.18)‟deki
fonksiyonu ile tanımlanır.
(2.18)
(2.18)‟de
, ‟inci çıktı nöronu için hedeflenen değer,
ile ağın çıktısı ifade
edilmektedir. Delta öğrenme kuralında çıktı katmanı nöronlarındaki aktivasyon
fonksiyonunun türevlenebilir olması durumunda, ağırlıklarda yapılacak olan türevin tersi
yönünde belirli orandaki değişiklikler yardımıyla eniyileme sağlanır.
eğitim veri
kümesi için, ağırlıkların değiştirilme kuralı en dik azalış yöntemine göre (2.19)‟daki
gibidir.
(2.19)
(2.19)‟da yer alan hata fonksiyonu
‟nin kısmi türevi zincir kuralının
kullanılmasıyla,
(2.20)
şeklinde yazılabilir. (2.20)‟nin (2.19)‟da yerine yazılmasıyla, wij ağırlığının öğrenme
algoritmasında her iterasyonda alacağı yeni değer (2.21) ile hesaplanır.
32
(2.21)
Öğrenme algoritmasına adını veren ve delta olarak adlandırılan
hata sinyali,
‟inci çıktı nöronu için (2.22)‟deki gibi hesaplanır.
(2.22)
Doğrusal çıktı birimleri için
, ‟inci çıktı değeri ile hedeflenen değer arasındaki
farka eşittir. Buradan hareketle, ‟inci çıktı nöronunun ağırlık matrisi
, hedef vektörünün ‟inci koordinatı
elemanı
ve öğrenme oranı
, sistemin girdisi
, ağdan hesaplanan çıktı vektörünün ‟inci
ile ifade edilmek üzere delta öğrenme kuralı (2.23)
ve (2.24) ile ifade edilir.
(2.23)
(2.24)
Bu tip ağların temel özelliği, benzer örüntüleri benzer çıktılara karşılık
getirebilmeleridir. Bu özelliği sayesinde ağ, eğitim kümesi verilerinin kullanılmasıyla
genellemeler yaparak daha önce görmediği örüntülere uygun sonuçlar üretebilir.
Standart delta öğrenme kuralında doğrusal bir aktivasyon fonksiyonu kullanılır.
Hata fonksiyonu, hata kareler toplamıdır ve bu fonksiyon en dik azalış yöntemi ile
eniyilenir. Buraya kadar ifade edilenlere göre delta öğrenme algoritması aşağıdaki gibi 7
adımda özetlenebilir (Fuller, 2000, pp. 176-177):
Adım 1: Öğrenme oranı
ve en büyük hata tolerans değeri
belirlenir.
Adım 2:
belirlenir,
ağırlıklarının başlangıç değerleri rastgele küçük sayılar olarak
ve
olarak seçilir.
33
Adım 3: Öğrenme bu adımda başlar.
karşılık
girdisi ağa gösterilir ve bu girdiye
çıktısı (2.25) yardımıyla hesaplanır.
(2.25)
Adım 4: Ağırlık değerleri (2.26)‟da verilen formüle göre güncellenir.
(2.26)
Adım 5: Hata fonksiyonunun değeri (2.27)‟deki formül ile hesaplanır.
(2.27)
Adım 6: Eğer
olarak seçilir ve eğitime devam etmek üzere
ise
Adım 3‟e, değilse Adım 7‟ye gidilir.
Adım 7: Eğitim döngüsü bu aşamada tamamlanır.
verilir,
ise
ise eğitime son
olarak seçilir ve yeni bir eğitim döngüsü için Adım
3‟e gidilir.
2.5.4
Sezgisel Optimizasyon Algoritmaları ile Öğrenme
Buraya kadar değinilmiş olan öğrenme algoritmaları analitik çözümlere
dayanmaktadır. Ancak bazı durumlarda bu yöntemler yerel çözümlere takılmakta veya
en iyi çözüme yakınsamakta yetersiz kalabilmektedir. Bu sorunlar bazen veri
yapısından, bazen de ağırlıkların başlangıç değerlerinin iyi belirlenmemiş olmasından
kaynaklanabilir. Bu tip durumlarda sezgisel optimizasyon algoritmaları sıklıkla
başvurulan yöntemlerdir. Genetik Algoritma, Parçacık Sürü Optimizasyonu, Karınca
Kolonisi Algoritması, Tabu Araması v.b. sezgisel yöntemler kullanılarak öğrenmenin
sağlandığı çalışma sayısı oldukça fazladır.
2.6 Yapay Sinir Ağlarının Avantajları ve Dezavantajları
Yapay sinir ağları geleneksel istatistik tekniklerin kullanıldığı hemen her alanda
alternatif bir yöntem olarak ortaya çıkmaktadır. Literatürde YSA‟nın istatistik
34
tekniklerle karşılaştırıldığı birçok çalışma bulunmaktadır. YSA‟nın parametrik istatistik
yöntemlere göre en önemli avantajı, daha az varsayıma sahip olmasıdır. Diğer bir ifade
ile YSA‟da bağımlı ve bağımsız değişkenler arasındaki ilişkinin yapısı ile ilgili herhangi
bir varsayım bulunmamaktadır. Bununla birlikte birçok istatistik yöntemde yer alan,
değişkenlerin belirli dağılımlara sahip olması ve süreklilik varsayımları YSA için geçerli
değildir. Bu özellikleri ile YSA, gerçek hayat problemlerine uygulanabilirlik açısından
istatistik yöntemlere göre daha elverişlidir. YSA, aktivasyon fonksiyonlarının seçimine
bağlı olarak istatistik yöntemlerle analizi mümkün olmayan çok yüksek dereceden
doğrusal olmayan ilişkileri bile yakalama gücüne sahiptir (Cganh, Liang, & Chen, 2001,
s. 530).
Yapay sinir ağları bir anlamda parametrik olmayan bir istatistik yöntem olarak
düşünülebilir (Comrie, 1997, s. 655). YSA‟ya yöneltilen en büyük eleştiri bu noktada
ortaya çıkmaktadır. YSA ile oldukça başarılı tahmin ve sınıflandırma yapılabilmekle
birlikte, elde edilen nihai modele ait katsayı değerleri yorumlanamaz. Ayrıca hangi
bağımsız değişkeninin bağımlı değişkenler üzerinde etkili olduğuna ilişkin bilgi de elde
edilemez. Bu bağlamda YSA, politika belirlemede kullanılamaz.
Buraya kadar ifade edilen dezavantajların yanı sıra, YSA‟da kullanıcıya bağlı
olarak değiştirilebilir parametre çok fazladır. Ağırlıkların başlangıç değerlerinin,
aktivasyon fonksiyonunun tipinin, gizli katmanda bulunacak alt katman sayısının ve bu
alt katmanlarda bulunacak nöron sayılarının belirlenmesi keyfi olarak yapılmakta ve en
iyi ağ yapısı deneme yanılma yolu ile belirlenmektedir. Ayrıca kullanılacak öğrenme
algoritmasının belirlenmesi de ağın başarısı üzerinde oldukça etkilidir ve literatürde her
zaman diğerlerinden daha iyi olduğu ispat edilmiş bir öğrenme algoritması
bulunmamaktadır.
Yukarıda ifade edilen dezavantajların dolaylı olarak ortaya çıkardığı bir başka
olumsuz yön ise YSA‟da işlem yükünün çok fazla olmasıdır. Öğrenme algoritmalarının
genellikle iterasyona dayalı olması, uzayan işlem sürelerinin kısaltılabilmesi için
35
belirlenen durdurma kriterlerinin fazla esnek olmamasına, bu da elde edilebilecek daha
iyi çözümlerin göz ardı edilmesine neden olabilmektedir.
2.7 Radyal Tabanlı Fonksiyon Ağları
Radyal Tabanlı Fonksiyon Ağları (RTFA), çok katmanlı ileri beslemeli YSA‟nın
özel bir halidir ve iki karakteristik özelliği vardır. Bunlardan birincisi, tek gizli katman
bulundurması, ikincisi ise gizli katman nöronlarında aktivasyon fonksiyonu olarak
radyal tabanlı fonksiyonların kullanılmasıdır. Radyal tabanlı fonksiyon ağlarının diğer
bir önemli özelliği ise girdi nöronlarından gizli katman nöronlarına bilginin
değiştirilmeden aktarılmasıdır. Diğer bir ifade ile girdi katmanı ile gizli katman
arasındaki tüm bağlantı ağırlıklarının “1” olduğu söylenebilir.
Bu çalışmada Radyal Tabanlı Fonksiyon Ağları ele alınmıştır. Daha önce ifade
edilen YSA‟nın dezavantajlarından bazılarının üstesinden gelecek şekilde yeni bir hibrit
model geliştirilmiştir. Bu bağlamda, radyal tabanlı fonksiyon ağları için mevcut olan
merkez ve yarıçap parametrelerinin belirlenmesi sorunu ve gizli katman ile çıktı katmanı
arasındaki ağırlık parametrelerinin öğrenilmesi sırasında ortaya çıkan tasarım matrisinin
tekilliği sorunu uygun istatistik yöntemlerin ağa entegre edilmesi ile çözülmektedir.
RTFA‟nın dezavantajlarının bazılarının giderilmesine yönelik bu eklentilerin yanında,
oluşturulan model değişken seçimi yapacak şekilde tasarlanmıştır. Bu sayede RTFA‟nın
avantajları da bir ölçüde arttırılmış olmaktadır.
Yukarıda bahsedilen ve Hibrit RTFA olarak adlandırılan model, daha ayrıntılı
olarak Bölüm 3‟te açıklanmıştır.
36
BÖLÜM 3 HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI
Çalışmanın bu kısmında YSA‟nın özel bir türü olan Radyal Tabanlı Fonksiyon
Ağları (RTFA) ele alınmaktadır. RTFA‟nın genel yapısı, işleyişi ve öğrenme kuralları
incelendikten sonra RTFA ile ilgili mevcut problemler ortaya konularak bu problemlere
önerilen çözümler irdelenmektedir. Bu bağlamda RTFA çerçeve kabul edilerek uygun
istatistik teknikler bu çerçeveye yerleştirilmiş ve oluşturulan Hibrit RTFA modeli hem
değişken seçimi hem de tahminleme problemlerine çözüm getirecek şekilde
oluşturulmuştur.
3.1 Radyal Tabanlı Fonksiyon Ağları
Moody ve Darken (1989) tarafından popüler hale getirilen RTFA, danışmanlı
öğrenme kapsamında değerlendirilen ileri beslemeli bir YSA modelidir. Ağ mimarisinin
basitliği nedeniyle çok katmanlı YSA modellerine göre birçok avantajı vardır. Bu
avantajlardan
başlıcası,
diğer
geri
yayılım
algoritmalarına
göre
daha
hızlı
eğitilebilmeleri olarak ifade edilebilir.
RTFA‟yı diğer YSA‟ndan ayıran en önemli özellik, gizli katman aktivasyon
fonksiyonlarının sigmoid ve S-türü fonksiyonlar yerine, çekirdek fonksiyon olarak da
adlandırılan Radyal Tabanlı Fonksiyonlar (RTF) kullanılmasıdır. Bu özelliği ile RTFA,
farklı bölgelerinde farklı davranışlar gösteren girdi uzayları üzerinde çalışılırken etkin
bir araç olarak öne çıkmaktadır.
37
ġekil 3-1 Ġki kategorili sınıflandırma problemi
Şekil 3-1‟de iki kategorili çıktısı olan tipik bir sınıflandırma problemi
görülmektedir. RTFA yerel bilgi işleme kapasitesi sayesinde, sözü edilen probleme
kolayca çözüm getirecek şekilde uyarlanabilmektedir. Şekil 3-1 ile tanımlanan
problemin çözümü için, merkezi kesikli çemberin ortasında yer alacak şekilde
belirlenmiş tek bir radyal tabanlı fonksiyon kullanmak yeterli olacaktır.
Şekil 3-1 ile basit bir örneği verilmiş olmakla beraber, RTFA çok karmaşık
yapıdaki, diğer bir ifade ile yüksek dereceden doğrusal olmayan yapıdaki örüntüleri bile
sınıflandırabilecek şekilde yapılandırılabilir. RTFA‟nın bu özelliğinin temeli Cover‟ın
örüntülerin ayrılabirliği üzerine ortaya attığı teoreme dayanmaktadır (Haykin, 1999, s.
257).
Cover Teoremi: Karmaşık yapıdaki örüntü sınıflandırma problemleri, doğrusal
olmayan dönüşümlerle yüksek boyutlu uzaya taşındıklarında, düşük boyutlu uzaylarda
yapılan çözümlere göre daha yüksek doğrusal ayrıştırılabirliğe sahiptir (Cover, 1965, s.
15).
Cover Teoremine uygun olarak RTFA, doğrusal olmayan dönüşümler yardımı ile
girdi uzayının içerdiği karmaşık yapıdaki örüntülerin doğrusal ayrıştırılabilir hale
38
getirilmesi ve daha sonra doğrusal modeller yardımı ile problemin çözülmesi esasına
dayanmaktadır. Bu yapı içerisinde RTF‟nin görevi, girdi uzayını doğrusal olmayan
dönüşümlerle yüksek boyutlu uzaya dönüştürülmesidir. Ağırlık parametreleri ise
doğrusal ayırma yüzeyine karşılık gelmektedir. Cover teoreminin iddiası, Şekil 3-2 ile
örneklenmiştir.
A
Doğrusal Olmayan Dönüşüm
B
D
E
C
ġekil 3-2 Boyut yükseltme yolu ile doğrusal ayrıĢtırılabilirlik
Şekil 3-2‟de yer alan soldaki grafik, iki boyutta doğrusal ayrıştırılabilir olmayan
iki kategorili bir sınıflandırma probleme aittir. Uygulanan doğrusal olmayan dönüşüm
ile problem, sağdaki grafikte görüldüğü gibi boyutu arttırılarak üç boyutlu uzaya
taşınmıştır. E düzleminin, siyah ve gri renkle gösterilmiş olan iki kategorili sınıflandırma
problemini doğrusal olarak ayrıştırabildiği görülmektedir. Sonuç olarak iki boyutta
çözümü doğrusal ayrıştırılabilirlik açısından imkansız olan problem, üç boyuta taşınarak
daha yüksek boyutta çözülebilir hale gelmiştir.
3.2 Radyal Tabanlı Fonksiyon Ağlarının Yapısı
Radyal tabanlı fonksiyon ağları ileri beslemeli çok katmanlı YSA‟nın özel bir
halidir. RTFA tek gizli katmandan oluşan ve bu gizli katman nöronlarında RTF
kullanılan bir yapıdadır. Buna göre bir RTFA‟nın genel görünümü Şekil 3-3 ile
verilmektedir.
39
Girdiler
Nöronlar
Çıktılar
ġekil 3-3 RTFA Mimarisi
Radyal tabanlı fonksiyon ağlarında girdi katmanı sadece modele dış dünyadan veri
alınmasını sağlar. Bu bağlamda girdi, hiç bir şekilde işlenmeden doğrudan girdi katmanı
aracılığı ile gizli katman nöronlarına iletilir. Diğer bir ifade ile girdi katmanını gizli
katmana bağlayan tüm ağırlık değerlerinin “1” olduğu ve çözüm süresince değişmediği
varsayılır. Bu özelliği ile öğrenme aşamasında değeri değiştirilecek parametre sayısında
önemli bir azalma gerçekleşir ve dolayısıyla öğrenme hızlanır.
Herhangi bir tahmin modeli için, kullanıcı tarafından keyfi denemelerle belirlenen,
deneme yanılma yolu ile iyileştirilebilen parametrelerinin az oluşu, ilgili modelin
kullanışlılığı açısından olumlu bir işarettir. Bu bakımdan RTFA‟nın çok katmanlı
YSA‟ya göre daha kullanışlı olduğu söylenebilir. Bunun nedeni, eldeki problemin
çözümüne uygun RTFA‟nın oluşturulması aşamasında ağ mimarisine ilişkin verilecek
tek kararın, gizli katmanda bulunacak nöron sayısının belirlenmesi olmasıdır. En iyi
modelde bulunması gereken gizli katman nöron sayısı, problemden probleme ve hatta
aynı problem için elde edilmiş farklı veri kümelerine göre bile değişebilmektedir. Bu
40
nedenle en iyi model için gizli katman nöron sayısı genellikle farklı alternatiflerin
denenmesi yoluyla bulunur.
Girdi katmanından gelen bilgi gizli katmanda RTF‟ler aracılığıyla işlendikten
sonra ilgili ağırlık değerleri ile çarpılarak çıktı katmanına iletilir. RTFA‟da bilgi akışına
ilişkin ifade edilenlere göre, gizli katmanda bulunan nöron sayısı
‟inci nörona atanmış RTF
fonksiyon ağının
ve herhangi bir
ile gösterilmek üzere, tek çıktılı bir radyal tabanlı
girdisine karşılık ürettiği değer, doğrusal bir model oluşturacak
şekilde (3.1) ile ifade edilmektedir.
(3.1)
ağın çıktısını,
nöronlarının çıktılarını ve
ağın girdisini,
gizli katman
parametreleri ise gizli katmanı çıktı katmanına
bağlayan ağırlık parametrelerini göstermektedir. (3.1) eşitliğinde matris notasyonunun
kullanılmasıyla tek çıktılı RTFA modelinin çıktısı, (3.2) ile verilen tipik bir doğrusal
modele dönüşür.
(3.2)
(3.2)‟de eğitim veri kümesi için gözlem sayısı
olmak üzere
(
, (
ve gizli katman nöron sayısı
boyutlu bağımlı değişkenin tahmin değerleri vektörünü;
boyutlu ağırlıklar vektörünü ve
, açık hali (3.3) ile verilen (
,
boyutlu
tasarım matrisini göstermektedir.
(3.3)
(3.2)‟den anlaşılacağı gibi, RTFA‟nın başarısındaki en önemli etken, aktivasyon
fonksiyonu olarak uygun radyal tabanlı fonksiyonun seçilmesidir. Sözü edilen RTF‟nin
başlıcaları devam eden kısımda ayrıca incelenmiştir.
41
Uygun radyal tabanlı fonksiyonun seçimi kadar, sayısının belirlenmesi de ağ
mimarisinin oluşturulmasında önemli rol oynamaktadır. En iyi radyal tabanlı fonksiyon
sayısının seçilmesine ilişkin en basit yol, bu sayının rastgele olarak belirlenmesidir. Bu
şekilde yapılan seçimde birçok farklı sayı için denemeler yapılarak içlerinden en iyi
performansı gösteren belirlenir. Ancak bu yöntem hiç bir zaman en iyi alternatifin
bulunmasını garanti etmemektedir. İlerleyen kısımlarda değinilecek bazı öğrenme
yöntemlerinde ise kullanılacak radyal tabanlı fonksiyon sayısı kendiliğinden ortaya
çıkmaktadır.
3.3 Radyal Tabanlı Fonksiyonlar
Radyal tabanlı fonksiyon ağlarına adını vererek yeni bir YSA sınıfının oluşmasına
yol açan RTF, girdi veri kümesinin özel olarak belirli bir bölgesine düşen değerler için
en büyük (ya da en küçük) değerini alan ve bu noktadan uzaklaştıkça daha küçük (ya da
daha büyük) değerler üreten fonksiyonlardır. Bu özelliği ile RTF bölgesel işlemciler
olarak kabul edilmektedir.
Herhangi bir radyal tabanlı fonksiyon, merkez ( ) ve yarıçap (
) olmak üzere
iki parametre ile belirlenir. Bu parametrelerden , fonksiyonun en büyük ya da en küçük
değerini aldığı noktayı gösterirken
, bu noktaya olan uzaklıkları ölçeklendiren
parametredir. Buradan hareketle, belirli bir
değerinden uzaklığın
değerine oranının
fonksiyonu olacak şekilde RTF (3.4)‟teki gibi ifade edilir.
(3.4)
Literatürde yer almış birçok radyal tabanlı fonksiyon olmakla beraber bunlardan
başlıcaları Gauss, Cauchy, Çoklu-Kuadratik ve Ters Çoklu-Kuadratik fonksiyonlardır.
Bu radyal tabanlı fonksiyonların formülasyonları sırasıyla (3.5)-(3.8) ile verilmektedir.
Gauss RTF
(3.5)
42
Cauchy RTF
(3.6)
Çoklu Kuadratik RTF
(3.7)
Ters Çoklu Kuadratik RTF
(3.8)
Formülasyonları verilen radyal tabanlı fonksiyonların iki boyutta görünümleri
Şekil 3-4 ile verilmektedir. Şekil 3-4‟ten anlaşılacağı gibi Gauss ve Çoklu-Kuadratik
fonksiyonlar merkez değere yaklaştıkça en büyük değerlerine yaklaşırken, Cauchy ve
Ters Çoklu-Kuadratik türü fonksiyonlarda en küçük değer, merkez noktasında alınır ve
merkezden uzaklaştıkça fonksiyon daha büyük değerler alır.
ġekil 3-4 Radyal Tabanlı Fonksiyonlar (c=0.5 ve r=0.2)
43
Radyal tabanlı fonksiyonlar merkez parametresi ile belirlenen belirli noktalarda en
büyük ya da en küçük değerlerini aldıkları için girdi uzayının farklı bölgelerindeki farklı
davranışları modelleyebilirler. Gizli katmanda bulunan nöron sayısı, girdi-çıktı
arasındaki ilişkinin o sayı kadar farklı modellerle sonuca yansıtılmasını sağlar.
h1
h2
hp
ġekil 3-5 Ġki girdili bir RTFA mimarisinde RTF'lerin görünümü
Şekil 3-5‟te iki girdili bir RTFA için, radyal tabanlı fonksiyonların girdi
uzayındaki dağılımları gösterilmektedir. İç içe geçmiş her bir halkalar grubu bir radyal
tabanlı fonksiyona karşılık gelirken, bu iç içe geçmiş halkalar ilgili radyal tabanlı
fonksiyonun merkezden gittikçe uzaklaşan girdilere karşılık aldıkları değerdeki değişimi
ifade etmektedir.
Radyal tabanlı fonksiyon ağı mimarisinde kaç gizli katman nöronu bulunacağı
dolayısıyla, kaç tane radyal tabanlı fonksiyon kullanılması gerektiğinin belirlenmesi
önemli bir sorundur. Gizli katman sayısı yeterince arttırılarak eğitim veri kümesindeki
tüm noktalardan geçen bir model oluşturmak mümkündür. Ancak radyal tabanlı
fonksiyonların sayısının, diğer bir ifade ile
matrisinin boyutunun arttırılması, birçok
44
hazır paket programın bile altından kalkamayacağı matris tersi alma işlemlerini
gerektirecektir. Bununla beraber iyi öğrenmiş bir ağdan beklenen eğitim girdisini sıfır
hata verecek şekilde tahminlemesi değil, girdi ile çıktı arasında yatan gerçek ilişkiyi
modellemesidir. Eğitim veri kümesini sıfır hata ile öğrenmiş bir model, çıktı değerlerinin
doğasında bulunan tesadüfi veya sistematik hatayı da modele katmış demektir. Bu
şekildeki model, eğitim kümesinde yer almayan daha önce görmediği girdilerle
karşılaştığında hedeflenen çıktı değerinden uzak sonuçlar üretir. Diğer taraftan
gereğinden az sayıda radyal tabanlı fonksiyon kullanılması, girdi ile çıktı arasındaki
ilişkiyi yakalamakta yetersiz bir model oluşturulmasına yol açacaktır. Bu bağlamda gizli
katman nöron sayısı, RTF ağlarının mimarisinde karar verilmesi gereken en önemli
parametrelerden birisidir.
E1
E2
E3
E1: Aşırı Uyum (Ezberleme)
E2: Gerçek Gözlem Değerleri
E3: Yetersiz Öğrenme
ġekil 3-6 AĢırı Uyum ve Yetersiz Öğrenme Örneği
Şekil 3-6 aşırı ve yetersiz öğrenmiş bir RTFA modeli için eğitim veri kümesi için
ağ çıktılarının seyrini göstermektedir. Buna göre aşırı uyum durumunda (E1) siyah
noktalarla gösterilmiş olan eğitim veri kümesi noktaları tam olarak yakalanmış olmakla
beraber, serinin gerçek seyri modellenememiştir. Diğer taraftan yetersiz öğrenme
45
durumunda (E3) ise ne eğitim kümesindeki noktalar ne de serinin gerçek seyri
yakalanabilmiştir.
3.4 Radyal Tabanlı Fonksiyon Ağlarında Öğrenme
Radyal tabanlı fonksiyon ağlarında öğrenme, danışmanlı1 ve danışmansız2
öğrenmenin karışımı olacak şekilde iki aşamada gerçekleştirilmektedir. Danışmansız
öğrenme kapsamındaki ilk aşama, gizli katman nöronlarında yer alan radyal tabanlı
fonksiyonların merkez ve yarıçap parametrelerinin belirlenmesi aşamasıdır. Bir doğrusal
regresyon problemi gibi çözülebilen ve danışmanlı öğrenme kapsamında değerlendirilen
ikinci aşama ise gizli katmanı çıktı katmanına bağlayan bağlantı ağırlıklarının
belirlenmesi sürecidir. Her iki öğrenme aşaması için de önerilmiş birçok yöntem
olmakla beraber bunlardan önce çıkanlar takip eden kısımda özetlenmektedir.
3.4.1
Radyal Tabanlı Fonksiyonların c ve r Parametrelerinin Belirlenmesi
Radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin belirlendiği bu
aşamanın genellikle danışmansız öğrenme kapsamında değerlendirilmesinin nedeni, bu
aşamada önerilen yöntemlerde genellikle gözlenen çıktı değerlerinin kullanılmamasıdır.
Bu aşamada girdi uzayı, çıktı değerlerinden bağımsız olarak birbirine benzeyen girdi
değerlerinin kümelendiği bölgelerin ve bu bölgelerin genişliklerinin belirlenmesi
sürecidir. Bu aşamada kullanılan matematiksel, istatistik ve sezgisel yöntemlerden
bazıları çalışma kapsamında açıklanmıştır.
1
Danışmanlı Öğrenme (Supervised Learning): Gözlenen bağımlı değişken değerlerinin var olduğu
durumda kullanılan öğrenme türüdür. Tahminleme ve sınıflandırma problemleri danışmanlı öğrenme
kapsamında çözülür.
2
Danışmansız Öğrenme (Unsupervised Learning): Bağımlı değişken değerlerinin olmadığı veya
bilinmediği durumlarda kullanılan öğrenme türüdür. Kümeleme ve eniyileme problemleri danışmansız
öğrenme kapsamında değerlendirilir.
46
Rastgele Olarak SeçilmiĢ Sabit Merkezler: Bu yönteme göre girdi uzayından
rastgele noktalar belirlenir ve bu noktaların her biri, bir radyal tabanlı fonksiyona
karşılık gelen merkez parametreleri olarak sabitlenir. Bu sabit merkez parametrelerinin
değeri öğrenme süresince değiştirilmez. Bu yöntemde yarıçap parametreleri de sezgisel
olarak belirlenebileceği gibi (3.9)‟da verilen formülasyona göre de belirlenebilir.
(3.9)
Yukarıdaki formülasyonda
herhangi iki merkez arasındaki en büyük uzaklığı,
ise gizli katman nöron sayısını göstermektedir. Tek başına kullanıldığında probleme
etkin çözümler getiremeyen bu yöntem, diğer birçok teknik için başlangıç çözümü
olarak kullanılmaktadır.
Kümeleme Analizi: Girdi uzayının benzer girdi değerlerinin bulundukları
bölgelerin merkezlerinin belirlenmesi amacıyla kullanılan istatistik yöntemlere
Kümeleme Analizi adı verilir. Bu bağlamda, herhangi bir kümeleme analizi yöntemi ile
ağ mimarisinde kullanılan radyal tabanlı fonksiyon sayısı ve bu fonksiyonların
merkezleri belirlenebilir (Mehrotra, Mohan, & Ranka, 2000). Yarıçap parametreleri ise
genellikle küme merkezlerinin birbirlerine olan ortalama uzaklıkları veya ilgili küme
merkezine en yakın diğer küme merkezi arasındaki uzaklık dikkate alınarak hesaplanır.
Gradyen AzalıĢ Yöntemi: Radyal tabanlı fonksiyon ağlarına uyarlanışı Poggio ve
Girossi (1989) tarafından önerilen gradyen azalış yöntemini kullanan RTFA,
Genelleştirilmiş Radyal Tabanlı Fonksiyon Ağları (GRTFA) olarak adlandırılmaktadır
(Wettschereck & Dietterich, 1992). Bu yöntem, başlangıçta rastgele olarak belirlenmiş
olan
ve
parametrelerinin, modelin çıktıları ile hedeflenen çıktılar arasındaki farka
ilişkin tanımlanan bir hata fonksiyonunun,
ve
parametrelerine göre kısmi türevlerinin
tersi yönünde, değerlerinin güncellenmesi esasına dayanır. Buna göre
ve
parametreleri öğrenmenin her aşamasında (3.10) ve (3.11) ile formülleri verilen değişim
miktarları ile toplanarak güncellenir.
47
(3.10)
(3.11)
Yukarıda verilen formülasyonlarda yer alan
ve
değerleri sırasıyla merkez
ve yarıçap parametrelerinde yapılacak olan değişiklik miktarını,
toplamını ve
, hata kareler
ise öğrenme oranını göstermektedir. Yukarıda her iki formülasyonda da
aynı öğrenme oranı kullanılmış olmakla beraber merkez ve yarıçap parametrelerinin
öğrenmesinde farklı öğrenme oranları da kullanılabilir. Öğrenme oranlarının
büyüklüğünün seçimi, öğrenmenin başarısı üzerinde doğrudan etkilidir. Gereğinden
küçük belirlenmiş öğrenme oranı işlem süresinin çok uzamasına neden olurken,
gereğinden büyük belirlenmesi en iyi çözümün atlanmasına neden olabilir.
Gradyen azalış yöntemine göre öğrenme işlemi sırasında
hata fonksiyonu
aracılığıyla hedeflenen çıktı değerleri de kullanıldığı için, diğer yöntemlerden farklı
olarak bu yöntem, danışmanlı öğrenme kapsamında değerlendirilir. Bu yöntemin
olumsuz yanı, öğrenmenin yerel çözümlere takılabilmesidir. Ayrıca iteratif olarak
yürütülen bu yöntem, gözlem sayısı ve radyal tabanlı fonksiyon sayısının fazlalığına
bağlı olarak oldukça yüksek işlem yükü getirebilmektedir.
Karar Ağaçları: Genel görünümü Şekil 3-7 verilen Karar Ağaçları, girdi uzayının
sorgulama yolu ile art arda iki bölgeye ayrılması esasına dayanmaktadır. Sürekli
sorgulamalar yolu ile alt hiper-dikdörtgen uzaylara bölünen girdi uzayı, birbirinden
farklı özellikler gösteren girdilerin gruplandığı bölgelere ayrılmış olur. Böylece karar
ağaçları, hiper-dikdörtgenlerden oluşan bu alt uzayların her birisine bir radyal tabanlı
fonksiyonun merkez ve yarıçapı atanarak radyal tabanlı fonksiyon parametrelerinin
belirlenmesinde kullanılmaktadır.
48
y
x<100
y<50
y<10
y>80
80
50
x<165
x>75
30
0
10
x<90
x<25
x<130
y>30
25
75
90
100
130
165
x
ġekil 3-7 Karar Ağaçları
Bir tür karar ağacı olan Sınıflandırma ve Regresyon Ağaçları yöntemleri, benzer
şekilde
radyal
tabanlı
fonksiyonların
merkez
ve
yarıçap
parametrelerinin
belirlenmesinde etkin olarak kullanılmaktadır. Açıklayıcı değişkenin kesikli olması
durumunda sınıflandırma ağaçları, sürekli olması durumunda ise regresyon ağaçları
yöntemi kullanılır. Sınıflandırma ve regresyon ağaçları diğer öğrenme yöntemlerine göre
birçok avantaja sahiptir. Bunlardan en önemlisi, oluşturulan her bir hiper-dikdörtgen bir
radyal tabanlı fonksiyona karşılık geldiği için, ağ mimarisinde kullanılacak olan gizli
katman sayısı kendiliğinden ortaya çıkmaktadır. Bu özelliği ile sınıflandırma ve
regresyon ağaçları, RTFA‟yı kullanıcıya daha az bağımlı hale getirmektedir.
Sınıflandırma ve regresyon ağaçlarının ikinci önemli avantajı, analize başlamadan önce
bir defa çalıştırılarak analiz boyunca değiştirilmeden kullanılacak merkez ve yarıçap
parametrelerinin belirlenmesini sağlamaları ve bu sayede ağır işlem yükü getiren iteratif
öğrenme algoritmalarından daha az zaman almalarıdır.
Yukarıda sözü edilen avantajlarından dolayı bu çalışmada, RTFA‟nın merkez ve
yarıçap parametreleri Bölüm 4‟te detaylı olarak açıklanan regresyon ağaçları
kullanılarak belirlenmiştir. Bu bağlamda bağımlı değişkenin sürekliliği, oluşturulan
modelin varsayımlarından birisidir.
49
3.4.2
Radyal Tabanlı Fonksiyonların w Bağlantı Ağırlıklarının Belirlenmesi
Radyal tabanlı fonksiyon ağları öğrenmesinin ikinci aşaması, danışmanlı öğrenme
kapsamında değerlendirilen ve gizli katmanı çıktı katmanına bağlayan bağlantı
ağırlıklarının ( ) belirlenmesi aşamasıdır. Bu aşamada öğrenme, gizli katmanda yer alan
gizli katman çıktılarının ( ) bağımsız değişken değerlerini, hedef çıktı değerlerinin ( )
bağımlı değişken değerlerini ve
vektörünün regresyon katsayılarını temsil ettiği bir
regresyon modeli ile ifade edilebilir. Dolayısıyla ağırlık parametrelerinin öğrenilmesi,
(3.12)‟de verilen doğrusal modelin ağırlıklarının belirlenmesi problemine indirgenmiş
olur (Bozdogan H. , 2007, s. 2).
(3.12)
(3.12) ile verilen regresyon modeli için
parametresinin belirlenmesinde ilk akla
gelen yöntem En Küçük Kareler (EKK) yöntemidir. EKK yöntemine göre ağırlık
parametrelerinin bulunmasına ilişkin formül (3.13)‟teki gibi verilmektedir.
(3.13)
RTFA
öğrenmesinde
ağırlık
parametrelerinin
(3.13)‟tekine
benzer
bir
formülasyonla hesaplanması, modelin yeni veriler için genelleme yapabilme kapasitesi
açısından bazı sorunları beraberinde getirmektedir. Bu sorunların ortaya çıkmasının
temel iki nedeni; ağ mimarisinde kullanılan radyal tabanlı fonksiyon sayısının girdi çıktı
arasındaki gerçek ilişkiye ait modelin serbestlik derecesinden yüksek olması ve çok fazla
radyal tabanlı fonksiyon kullanarak ağın aşırı belirli olması olarak özetlenebilir (Haykin,
1999, s. 265). Eğitim veri kümesinde gerçekleşen bu aşırı belirlilik, modelin test
aşamasındaki kötü performans olarak ortaya çıkmaktadır.
50
Gözlem Değerleri
Gerçek İlişki
Modellenen İlişki
Tahminlenen İlişki
ġekil 3-8 AĢırı belirli model örneği (Bozdogan H. , 2007, s. 17)
Şekil 3-8 ile kötü konumlanmış1
matrisi ve bu durumda ortaya çıkan sorun
gösterilmektedir. Buna göre, sinüs dalgası fonksiyonuna rastgele hatalar eklenerek
gözlem değerleri oluşturulmuş ve ilişki RTFA ile modellenmiştir (Bozdogan H. , 2007).
Grafiğin ilk yarısı eğitim veri kümesi için modelin çıktılarının gerçek değerlere oldukça
yakın olduğunu göstermektedir. Bununla beraber test aşamasında kullanılan ikinci
yarıda, modelin çıktıları ile gerçek çıktı değerleri arasında büyük farklar oluşmaktadır.
Bu çalışmada ağırlık parametrelerinin belirlenmesinde,
matrisinin tekilliği
sorununun önüne geçmek üzere kötü konumlanmış matrisler için bir düzenleme yöntemi
olan Ridge Regresyon yöntemi kullanılmıştır. Ridge Regresyon yöntemi Bölüm 5‟te
ayrıntılı bir şekilde açıklanmaktadır.
1
Kötü Konumlanmış Matris (Ill Posed Matrix): Tekillik sorununa yol açan matris
51
3.5 RTFA ile Diğer Çok Katmanlı Yapay Sinir Ağlarının KarĢılaĢtırılması
Radyal tabanlı fonksiyon ağları diğer çok katmanlı YSA gibi doğrusal olmayan
ileri beslemeli ağ yapısındadır. Her iki model de evrensel fonksiyon yakınsayıcı1
özellikte olduğundan, her zaman çok katmanlı YSA kullanılarak çözülen bir probleme
yakın sonuç verebilecek bir RTFA bulunmaktadır (Haykin, 1999, s. 208-209). Ayrıca
RTFA ağları tek gizli katmanı bulunan ve gizli katmanında radyal tabanlı fonksiyonlar
kullanan bir tür çok katmanlı yapay sinir ağı türü olarak değerlendirilebilir.
Yukarıda sözü edilen benzerliklerinin yanında ilgili iki model arasında büyük
farklar da vardır. Bu farklardan birisi, çok katmanlı ağlarda gizli katman ve çıktı katmanı
nöronlarında yapılan hesaplamalar birbirine benzer iken RTF ağlarında gizli katman ve
çıktı katman nöronlarının işlemlerinin birbirinden tamamen farklı olmasıdır. Çok
katmanlı ağlarda genellikle hem gizli katman hem çıktı katman nöronları doğrusal
olmayan işlemcilerdir. RTF ağlarında ise gizli katman doğrusal olmayan işlemci, çıktı
katmanı ise gizli katman çıktılarının ağırlıklı toplamı olan doğrusal işlemcidir.
RTFA ve çok katmanlı ağlar arasındaki belki de en önemli fark, problemlere
çözüm üretme yöntemleridir. Çok katmanlı ağlar girdi-çıktı arasındaki doğrusal olmayan
ilişkiyi bir bütün olarak ele alıp genel bir yaklaşım ortaya koymaktayken RTFA bu
ilişkiyi, girdi kümesinin farklı alt uzaylarında tanımlanmış farklı ilişkiler olarak
değerlendirerek daha yerel çözümler üretir.
3.6 Radyal Tabanlı Fonksiyon Ağlarında Mevcut Sorunlar ve Eksiklikler
Radyal tabanlı fonksiyon ağları, özellikle parametrik istatistik yöntemlere göre
daha az varsayıma sahip olmaları ve sınıflandırma ve tahminleme problemlerindeki
başarılı performansları ile öne çıkmaktadır. Ancak her yöntemde olduğu gibi RTFA‟da
1
Evrensel Fonksiyon Yakınsayıcı (Universal Function Approximator): Herhangi bir fonksiyon için uygun
bir doğruluk düzeyinde tahmin yapabilen modellerdir. En az bir gizli katmanı bulunan yapay sinir ağları
genel fonksiyon uydurucu özelliktedir (Hornik, 1989).
52
da bazı sorunlar ve eksiklikler vardır. Bu sorun ve eksiklikler ana başlıklar halinde şu
şekilde listelenmektedir.

Ağ mimarisinin oluşumunda probleme en uygun gizli katman nöron sayısının
belirlenmesinde herhangi bir kural olmayışı, bu sayının sezgisel olarak deneme
yanılma yolu ile belirlenmesi sorunu.

Öğrenmenin birinci aşamasında, merkez parametrelerinin rastgele ya da işlem
yükü ağır iteratif yöntemlerle belirlenmesi sorunu.

Ağırlık parametrelerinin belirlenmesi aşamasında karşılaşılan
matrisinin
tekilliği sorunu.

Değiştirilebilir parametre sayısının çok fazla olması sorunu.

Model parametrelerinin yorumlanamaması nedeniyle bağımsız değişkenlerden
önemli olanların belirlenememesi sorunu ve buna bağlı olarak model
karmaşıklığını azaltacak şekilde bağımsız değişkenleri arasından seçim yapacak
bir mekanizma ile entegre edilmemiş olması.
3.7 Hibrit Radyal Tabanlı Fonksiyon Ağları
Buraya kadar olan kısımda RTFA‟nın genel yapısı, işleyişi, öğrenme algoritmaları
ve son olarak da mevcut sorun ve eksiklikler üzerinde durulmuştur. Bu aşamadan
itibaren belirtilen sorun ve eksikliklerden yola çıkarak çalışma şekillendirilmektedir.
Buna göre öncelikle her bir sorun ve bu sorunlara karşılık çalışma kapsamında ele alınan
yardımcı çözüm yöntemleri belirtilmiş ve daha sonra bu yardımcı çözüm yöntemleri
RTFA modeline entegre edilerek çalışmada önerilen model ortaya çıkarılmaktadır.
Burada kısaca sözü edilecek olan yardımcı çözüm yöntemleri ve bu yöntemlerin RTFA
modeline nasıl entegre edildikleri ise takip eden bölümlerde tek tek açıklanmıştır.
Radyal tabanlı fonksiyon ağlarının merkez ve yarıçap parametrelerinin
belirlenmesinde Breiman v.d. (1984) tarafından geliştirilmiş olan Regresyon Ağaçları
kullanılmıştır. Regresyon ağaçları kullanılarak merkez ve yarıçap parametrelerinin
belirlenmesi fikri Kubat (1998) tarafından ortaya atılmış ve Orr (2000) tarafından
53
geliştirilmiştir. Buna göre girdi uzayı, her seferinde eksenlerden birisine paralel olacak
şekilde art arda iki parçaya bölünerek, hiper-dikdörtgenlerden oluşan alt uzaylara
ayrılmakta ve her bir alt hiper dikdörtgenin koordinatları kullanılarak merkez ve yarıçap
parametreleri belirlenmektedir. Merkez ve yarıçap parametrelerinin bu şekilde
belirlenmesi ile hem işlem yükü getiren iteratif öğrenme algoritmalarına hem de
öğrenme oranı gibi direk sonuca etki eden ve kullanıcı tarafından keyfi olarak belirlenen
parametrelere gerek kalmamaktadır. Diğer taraftan regresyon ağaçlarının, girdi uzayının
farklı girdi türlerinin kümelendiği bölgeleri farklı alt uzaylara ayırma özelliği, radyal
tabanlı fonksiyonların çalışma ilkesi ile bağdaşmaktadır. Regresyon ağaçlarını RTFA ile
entegre etmenin belki de en önemli faydası, gizli katman nöron sayısının, diğer bir ifade
ile kullanılacak radyal tabanlı fonksiyon sayısının doğrudan ortaya çıkmasıdır.
Regresyon ağaçları kullanımı ile RTF sayısının kendiliğinden ortaya çıkması ve
öğrenme oranı parametresine gerek kalmaması, en iyi ağ yapısının kullanıcı tarafından
yapılacak olan keyfi denemelerle bulunabilmesi gibi RTFA‟nın en çok eleştirilen yanına
çözüm getirmektedir.
Radyal tabanlı fonksiyon ağlarında karşılaşılan diğer önemli bir sorun ise ağırlık
parametrelerinin belirlenmesi aşamasında ortaya çıkan
matrisinin tekilliği
sorunudur. Bu sorun özellikle en küçük kareler regresyon yönteminin kullanılmasıyla
ortaya çıkmaktadır. Tekillik sorunun çözümü için modelde, Tickhonov (1963) tarafından
önerilen ridge regresyon yöntemi kullanılmaktadır. Ağırlık katsayılarının kestiriminde
matrisine bir yan değeri eklenerek tekillik sorununun engellenmesi esasına dayanan
bu yöntem, yanlı sonuçlar üretmekle beraber doğru ridge parametresinin belirlenmesi
durumunda en küçük kareler yöntemine göre daha düşük hata kareler toplamı
vermektedir (Conniffe & Stone, 1973, s. 182).
Model karmaşıklığını azaltmak üzere değişken seçiminin yapılmayışı, RTFA‟nın
eksik olduğu yönlerinden biridir. Özellikle veri kümesinin boyutlarının büyük olduğu
durumlarda değişken seçimi, modelin işlem yükünü azaltmak açısından oldukça
54
önemlidir. Diğer taraftan değişken seçimi yapılmadığı durumda bağımlı değişken
üzerinde açıklayıcılığı daha yüksek olan bağımsız değişkenler belirlenememiş olur.
Çalışmada oluşturulan modelde değişken seçimi işlemini yürütmek üzere hem
Akaike (1973) hem de ICOMP (Bozdogan H. , 1988) türü değişken seçim kriterleri
kullanılmaktadır. Her iki tür değişken seçim kriterleri için de en küçük değişken seçim
kriteri değerini veren bağımsız değişken alt kümesinin, bağımlı değişken üzerinde en
açıklayıcı olan değişkenler oluğu kabul edilir. Bu bağlamda bir en küçükleme problemi
olarak ortaya çıkan, değişken seçim kriterine en küçük değerini aldıracak olan bağımsız
değişken alt kümesinin belirlenmesi problemi, Genetik Algoritma kullanılarak
çözülmektedir.
Radyal tabanlı fonksiyon ağlarındaki sözü edilen sorunlara çözüm bulacak ve
eksiklikleri giderecek şekilde seçilen yöntemler ve bu yöntemlerin Hibrit RTFA
modelindeki işlevleri Tablo 3-1 ile özetlenmektedir.
Tablo 3-1 Hibrit RTFA modeli bileĢenlerinin iĢlevleri
Yöntem Adı
Regresyon Ağaçları
Ridge Regresyon
AIC, ICOMP
Genetik Algoritma
Çözdüğü Sorun / Giderdiği Eksiklik
 Gizli katman nöron sayısının keyfi
olarak belirlenmesi sorunu
 İteratif öğrenme algoritmaları ile
artan işlem yükü sorunu
 RTF merkezlerinin rastgele
belirlenmesi sorunu

matrisinin tekilliği sorunu
 İteratif öğrenme algoritmaları ile
artan işlem yükü sorunu
 Değişken seçimi konusundaki
eksiklik
 Değişken seçim kriterlerinin
optimizasyonunun uzun zaman
alması
Belirlediği Parametreler
, ,
Bağımsız değişkenlerin alt
kümesi
Bağımsız değişkenlerin alt
kümesi
Buraya kadar anlatılanlara göre önerilen Hibrit RTFA modeli, tek çıktılı olarak
Şekil 3-9 ile gösterilmektedir. Önerilen Hibrit RTFA modeli sadece tahminleme
problemlerinde değil aynı zamanda değişken seçimi problemlerinde de kullanılacak
55
şekilde oluşturulmuştur. Önerilen model tek çıktı için kurgulanmış olup, sadece girdi
değişkeninin sürekli olması varsayımına sahiptir.
Değişken Seçimi: ICOMP
Regresyon Ağaçları
Radyal Tabanlı Fonksiyon
Ridge Regresyon
Ağı
Genetik Algoritma
ġekil 3-9 Hibrit Radyal Tabanlı Fonksiyon Ağı
Çalışmanın takip eden kısımları, Hibrit RTFA modeline entegre edilmiş olan
yöntemlerin açıklanması ve modelin uygulaması ile devam etmektedir. Buna göre
regresyon ağaçları, ridge regresyon ve değişken seçimi konuları sırasıyla 4, 5 ve 6‟ncı
bölümlerde ele alınmaktadır. Bu bölümlerde sadece bu yöntemler açıklanmakla
kalınmamış aynı zamanda ilgili yöntemlerin Hibrit RTFA modeline nasıl entegre
edildikleri üzerinde de durulmuştur. Çalışmamız kapsamında genetik algoritma, en iyi
bağımsız değişken alt kümesinin bulunmasında kullanılan değişken seçim kriteri
değerinin eniyilenmesi amacıyla modele eklenmiştir. Bu nedenle genetik algoritmaya
ayrı bir bölümde değil, değişken seçimi bölümü içerisinde yer verilmiştir. Önerilen
modelin performansının ölçüldüğü Freidman benzetim verisi ve IMKB Ulusal 100
Endeksi‟nin yönünün tahmini üzerindeki çalışmalar Bölüm 7‟de yer almaktadır.
56
BÖLÜM 4 REGRESYON AĞAÇLARI
Regresyon Ağaçları (RA) yoğun sayısal işlemlere dayanan parametrik olmayan
yöntemlerdir ve son 20-30 yıl içinde oldukça popüler hale gelmiştir. Çok fazla değişken
ve çok fazla sınıfın olduğu problemlere kolayca uyarlanabilen RA, aykırı değerlere karşı
oldukça sağlam bir yöntemdir (Steinberg & Colla, 1995).
Regresyon ağaçları, hızlı ve doğru sonuçlar elde etmek isteyen ancak bunun için
geleneksel istatistik yöntemleri kullanacak zaman ve becerisi olmayan araştırmacılar için
iyi bir alternatif oluşturmaktadır. Geleneksel istatistik yöntemlerin kullanılabilmesi
durumunda bile, eğer çok fazla değişken varsa, bu değişkenler arasındaki önem sırasının
ve aralarındaki etkileşimin belirlenmesinde RA kullanılabilir. RA veri madenciliği
alanında oldukça sıklıkla kullanılır hale gelmiş olmakla beraber, eksik gözlemlere
yaklaşık değer bulunması gibi temel konularda da kullanılmaktadır (Harrel, 2001).
Regresyon ağaçlarının ortaya çıkışı, 1960‟lı yıllarda Morgan ve Sonquist (1963)
tarafından geliştirilen AID (Automatic Integraction Detection) isimli karar ağacı
tekniğine dayanmaktadır. Daha sonra 1970‟li yıllarda yine Morgan ve Messenger (1973)
THAID (Theta AID) tekniği adı altında sınıflandırma ağaçlarını ortaya tanıtmışlardır.
AID ve THAID tekniklerinin her ikisi de Michigan Üniversitesi Sosyal Araştırmalar
Enstitüsü‟nde geliştirilmiştir (Sutton, 2005, s. 304).
1980‟li yıllarda Breiman v.d. (1984) veriye uygun ağacı karşılık getiren başarılı
bir program
olan CART (Classification
And
Regression
Trees)
yöntemini
geliştirmişlerdir. İlk sürümünden bu yana oldukça geliştirilmiş olan CART, halen
Salford Systems tarafından üretilip satılan bir programdır. 1997 senesinde geliştirilen
QUEST (Quick Unbiased Efficient Statistical Tree) yöntemi (Loh & Shih, 1997), CART
yöntemini temel almakla beraber, yansız değişken seçimi, eksik veri ile çalışabilme ve
57
çok fazla kategori içeren tahminleyicilerle çalışabilmesi açısından CART yönteminden
daha üstün özelliklerdedir (Sutton, 2005, s. 304).
Günümüzde regresyon ağaçları birçok farklı paket program yardımıyla
oluşturulabilmektedir. Bu çalışmada ise RA‟yı oluşturmak için MATLAB programı
kullanılmaktadır.
4.1 Regresyon Ağaçlarının Yapısı
Regresyon ağaçlarında amaç, sürekli bir bağımlı değişkenin değerlerinin, bir ya
da birden çok sürekli veya kategorik bağımsız değişken tarafından tahminlenmesidir.
Kategorik açıklayıcı değişkenlerle çalışabilmesi dikkate alındığında, RA‟nın çoklu
regresyon analizine göre daha az varsayıma sahip olduğu söylenebilir.
Regresyon ağaçları
yöntemi, gözlem verileri kullanılarak karar ağacı
oluşturmasında kullanılan iteratif yöntemlerden birisi olarak düşünülebilir. Oluşturulan
karar ağacı, girdi uzayını daha küçük alt parçalara ayıran evet-hayır soruları kümesi
şeklindedir. Karar ağacı oluşturma sürecinin her bir iterasyonunda, girdi uzayını en iyi
şekilde iki parçaya ayıracak soruyu bulmak amacıyla tüm değişkenler ve bu
değişkenlerin tüm olası değerleri üzerinden arama (eniyileme) yapılır.
Yaş > 40
E
H
Kilo > 100
Kilo > 80
E
E
Yaş >60
Yaş < 70
E
Kilo < 50
Yaş < 30
E
Kilo< 100
E: Evet
H: Hayır
ġekil 4-1 Örnek Regresyon Ağacı Gösterimi
58
Örneği Şekil 4-1 ile verilen RA ile girdi uzayı, her bir aşamada tek bir değişkenin
belirli bir değeri üzerinden iki parçaya ayrılmaktadır. Ayrıca bir değişken üzerinden,
farklı iterasyonlarda olmak kaydıyla, birden fazla kez ayırma işlemi yapmak
mümkündür. Şekil 4-1 ile ağaç yapısında verilen RA‟nın diğer bir gösterimi ise
koordinat sistemi üzerinde hiper-dikdörtgenlerin sınırlarının belirtilmesi şeklindedir.
Ancak
bu
gösterim
en
fazla
üç
bağımsız
değişken
olması
durumunda
kullanılabilmektedir. Şekil 4-2 ile Şekil 4-1‟de ağaç yapısında verilmiş olan RA‟nın iki
boyut için hiper-dikdörtgenler yardımıyla gösterimi verilmektedir.
ġekil 4-2 Regresyon Ağacının Dikdörtgenler Yardımı ile Gösterimi
4.2 Regresyon Ağaçlarının OluĢturulması
Regresyon ağaçlarının temel mantığı, girdi uzayını art arda ikiye bölmek
suretiyle alt uzaylara ayırmak ve çıktısı her bir alt uzayın içerdiği girdilere karşılık gelen
çıktıların ortalaması olacak şekilde bir fonksiyona yaklaştırmaktır. Elde edilen her bir alt
uzayın sınırları eksenlerden birine paraleldir ve bağımsız değişkenleri içeren eşitsizlik,
ayrımın yapıldığı değişken
ve ayrımın yapıldığı nokta
olmak üzere,
şeklinde ifade edilir (Breiman, Freidman, Olshen, & Stone, 1984).
59
Regresyon ağaçlarında esas düğüm, eğitim veri kümesi
‟nin tamamını
içeren ve Şekil 4-2‟de gösterildiği gibi en dışta yer alacak olan mümkün en küçük hiper
dikdörtgendir. Esas düğümün herhangi bir ‟inci boyut (ya da değişken) için uzunluk
( - yarı genişlik) ve merkez ( ) değerleri (4.1) ve (4.2)‟deki gibi belirlenir (Orr, et al.,
1999, s. 456).
(4.1)
(4.2)
(4.1) ve (4.2)‟de her
kümesi ve
açıklayıcı değişken indisleri
için
eğitim verisi indisler kümesini ifade
olmak üzere
etmektedir. Esas düğümün belirli bir ‟inci boyutunun
noktasından ikiye bölünmesi ile
girdi uzayı sol ve sağ olmak üzere sırasıyla (4.3) ve (4.4)‟te formülleri verilen
ve
alt kümelerine ayrılır.
(4.3)
(4.4)
alt kümelerinde yer alan girdilere karşılık gelen çıktı değerlerinin
ve
ortalamaları
ve
sırası ile
ve
alt kümelerin içerdikleri örnek sayısı olmak
üzere (4.5) ve (4.6)‟daki gibi hesaplanır.
(4.5)
(4.6)
Tüm olası
ve
değerleri arasından hata fonksiyonuna en küçük değerini
aldıran parçalanış, esas düğümün çocuklarını (esas düğümün ikiye ayrılması ile elde
60
edilecek olan girdi uzayının alt kümelerini) yaratmakta kullanılır ve bu
-boyut ve -
gözlem üzerinden yapılacak olan kesikli arama ile gerçekleştirilir.
Esas düğümün çocukları da benzer mantıkla art arda iki alt kümeye ayrılmaya
devam eder. Herhangi bir alt uzayda ayırma işleminin devam edip etmeyeceği kararı,
daha önceden belirlenmiş olan
parametresine göre belirlenir. Buna göre herhangi
bir alt uzayda yapılacak ayırma sonucu elde edilen kümelerden birisinde
parametresinden daha az gözlem kalması durumunda, son yapılan ayırma işlemi de iptal
edilerek bu alt uzay için ayırma işlemi bitirilir.
Girdi uzayı öncelikle çıktı hakkında daha çok bilgi içeren boyutlar (bağımsız
değişkenler) üzerinden ikiye ayrılma eğilimi gösterir (Orr, et al., 1999, s. 456). Bu
özelliği ile RA, hem modelin kestirilmesinde hem de hangi girdi değişkenlerinin
modellenen
girdi-çıktı
ilişkisinde
daha
önemli
olduğuna
karar
verilmesinde
kullanılabilir. Diğer taraftan kurulan RA modelinde dallanmanın fazla olması kestirilen
modelin karmaşıklığı ile ilgili bilgi içermemektedir.
4.3 Ayırma Kuralları
Girdi uzayının art arda ikiye parçalanması işlemi, bir hata fonksiyonun
eniyilenmesi ile gerçekleştirilmektedir. Ayrım kuralı olarak da adlandırılan hata
fonksiyonu genellikle “En Küçük Kareler” ve “En Küçük Mutlak Sapma” olmak üzere
iki farklı şekilde tanımlanmaktadır.
4.3.1
En Küçük Kareler Kuralı
Bu yöntem doğrusal modeller için kullanılan en küçük kareler yöntemine
benzemektedir. Ayrım, düğümlerden elde edilecek ortalama çıktı değerleri ile ilgili
düğümlerde yer alan gözlem değerleri arasındaki farkın kareler toplamı ortalamasını
eniyileyecek şekilde yapılır. Buna göre algoritmanın herhangi bir adımında, ayrımın
yapılacağı yer kararının verilmesinde kullanılacak en küçük kareler fonksiyonu
(4.7)‟deki gibi ifade edilir.
61
(4.7)
(4.7) ile verilen formülasyonda k, ayrımın hangi değişken, b ise ilgili değişkenin
hangi değeri üzerinden yapılacağını göstermektedir.
4.3.2
En Küçük Mutlak Sapma Kuralı
Bu kritere göre her bir düğümdeki çıktıların, yine bu çıktı değerlerinin medyan
değerinden olan ortalama mutlak sapmaları eniyilenir. Bu yöntemin en küçük kareler
kuralına göre avantajı, aykırı değerlerden fazla etkilenmemesi, dolayısıyla daha sağlam
tahminler elde edilmesidir. Dezavantajı ise veri kümesinin fazla miktarda 0 değerini
içermesi durumuna duyarsız olmasıdır (Moisen, 2008, s. 584).
Ayrımın sol ve sağ tarafında kalan düğümler için hesaplanan medyan değerleri
sırasıyla
ve
olmak üzere en küçük mutlak sapma hata fonksiyonu (4.8)‟deki
gibi hesaplanmaktadır.
(4.8)
4.4 Regresyon Ağaçlarının Budanması
Regresyon ağaçları yöntemi ile oluşturulan ağaç, bazen çok büyük ve kullanılan
veriye aşırı uyum gösterecek şekilde konumlanabilir. Bu durum, genellikle her bir
düğüm hemen tek bir gözlem içerene kadar ağacın büyütülmesi durumunda ortaya çıkar.
Ezberlemeye işaret eden bu durum, test aşamasında yetersiz tahminler yapılması ile
sonuçlanmaktadır. Diğer taraftan ağacın çok küçük olduğu ve dolayısıyla girdi-çıktı
arasındaki ilişkiyi yakalayamadığı durumlar da olabilir. Bu bağlamda RA‟da uygun ağaç
büyüklüğünün belirlenmesi oldukça önemlidir.
Uygun ağaç büyüklüğünün belirlenmesinde kullanılan farklı yöntemler vardır.
Bunlardan biri, düğümlerin heterojenliğinin ölçüsündeki azalma miktarı için bir eşik
değer belirlenmesi ve bu eşik değerin aşılamaması durumunda dallanma (ayrım)
yapılmamasıdır. Önerilen diğer bir yöntem ise önce ağacın belirli bir minimum düğüm
62
büyüklüğü sağlanana kadar geliştirilmesi ardından ağacın en iyi büyüklüğe gelene kadar
budanmasıdır. En iyi ağaç büyüklüğü, test verilerinin kullanılması veya çaprazdoğrulama (Cross Validation) yoluyla belirlenebilir. Her iki durumda da belirli bir hata
oranına göre en uygun büyüklükteki ağaç elde edilmiş olur (Moisen, 2008).
4.5 Regresyon Ağaçlarında Maliyetler
Regresyon ağaçlarının bir istatistik modelleme aracı olarak kullanılması sırasında
karşılaşılan maliyetler ana başlıklar halinde aşağıdaki gibi özetlenebilir.
4.5.1
Açıklayıcı DeğiĢken Sayısı ve YanlıĢ Sınıflandırmaya Bağlı Maliyetler
Birçok uygulamada, bazı bağımsız değişkenlerle ilgili veri toplamak oldukça
yüksek maliyetli ve diğerlerine göre daha zor olabilir. Ayırma sürecinde daha düşük
maliyetli açıklayıcı değişkenlere öncelik verilmesi ile bu maliyet azaltılabilmektedir.
Diğer taraftan uygulamada hatalı sınıflandırma maliyeti genellikle daha yüksektir. Bu
nedenle maliyet fonksiyonu hesaplanırken problemin tipine göre sınıflandırma ya da
tahminleme hatası formüle edilmektedir.
4.5.2
Ağaç KarmaĢıklığı Maliyeti
Regresyon ağaçlarının budanması aşamasında açıklandığı gibi, kullanıcı
tarafından belirlenen
değerinin çok küçük belirlenmesi, oldukça büyük bir ağaç
oluşmasına neden olabilir. Bununla beraber budama işlemi sonucu elde edilen ağaç
genellikle ilk başta elde edilene göre önemli ölçüde daha küçüktür. Bu küçülme miktarı
kullanılan veriye göre, budanmış ağacın büyüklüğünün başlangıçtaki ağaçtan 10 kere
daha küçük olmasına kadar varabilir. Dolayısıyla budama ile hesaplama süresinde de
önemli ölçüde azalma sağlanır. Sonuç olarak, yerine koyma maliyeti olarak da
düşünülebilecek olan model karmaşıklığı, ceza terimi ile maliyet fonksiyonuna eklenir.
Bunun yolu, ağaçtaki düğüm sayısının belirli bir oranda eğitim veri kümesinden
hesaplanan maliyete eklenmesidir. Böylece çok büyük oluşturulmuş ağaç, küçük yanlış
sınıflandırma hatası vermekle beraber yüksek ceza terimine neden olacaktır. Diğer
taraftan küçük ağaç için ceza düşerken hatalı sınıflandırma maliyeti artacaktır.
63
Karmaşıklık maliyeti özellikle çapraz doğrulama kullanılan durumlarda, budanmak
üzere oluşturulan ilk baştaki büyük ağaca uygulanarak büyük ölçüde hesaplama etkinliği
sağlanabilir.
4.6 Regresyon Ağaçlarının Hibrit Radyal Tabanlı Fonksiyon Ağlarına Entegre
Edilmesi
Regresyon ağaçlarında esas düğüm, çocukları olan (tekrar dallanma yapan)
terminal olmayan düğümler ve çocukları olmayan (tekrar dallanma yapmayan) terminal
düğümler içermektedir. Oluşturulan ağaçta yer alan her bir düğüm, girdi uzayında
merkezli ve
genişliğinde bir hiper-dikdörtgene karşılık gelmektedir. En büyük hiper-
dikdörtgen, esas düğüme karşılık gelendir ve ağacı oluşturacak şekilde sürekli daha
küçük parçalara bölünür.
Hiper-dikdörtgenleri radyal tabanlı fonksiyonlara çevirmek için ele alınan
düğümün merkezi, karşılık getirilecek radyal tabanlı fonksiyonun merkezi ( ), genişliği
( ) ise bir
sabiti ile çarpılarak radyal tabanlı fonksiyonunun yarıçapı olarak ( )
aşağıdaki gibi kullanılmaktadır.
(4.9)
Yukarıdaki formülde yer alan
parametresidir.
,
gibi regresyon ağaçlarının diğer bir
parametresinin belirlenmesine yönelik Kubat (1998, s. 815) tarafından
önerilen formül (4.10)‟da verilmiştir.
(4.10)
Yukarıdaki formülde yer alan
ilişkin uzunluğunu,
, ‟inci hiper dikdörtgenin
‟inci boyutuna
ise karşılık getirilecek olan Gauss tipi radyal tabanlı fonksiyonun
ilgili boyuta (bağımsız değişkene) ait standart sapma değerini vermektedir. Buradaki
sabitinin belirlenmesi tüm düğümler (hiper-dikdörtgenler) için aynı şekildedir.
64
sabitinin belirlenmesine ilişkin diğer bir formülasyon ise Orr v.d. (2000, s.
456) tarafından önerilmiştir. Buna göre ilgili formülasyon,
(4.10)‟daki Kubat
tarafından önerilmiş parametre değeri olmak üzere (4.11) ile verilmektedir.
(4.11)
Literatürde
sabiti için farklı değerlerin kullanıldığı çalışmalar vardır.
Bunlardan en sık karşılaşılanı ise
sabitine faklı sabit değerler vererek en iyi
performans gösteren ile model oluşturulmasıdır. Çalışmamızda,
sabiti
değerleri
için yapılan denemeler ile belirlenmektedir.
Regresyon ağaçlarının diğer bir parametresi olan
ise 5 olarak sabitlenmiştir.
Bu parametrenin 5‟ten küçük belirlenmemesinin nedeni, modelin aşırı öğrenme sorunu
ile karşılaşmasına engel olmaktır.
Buraya kadar ifade edilenlere göre Hibrit RTFA modelinde, öncelikle girdi uzayı
regresyon ağaçları yöntemi ile her birinde en az 5 gözlem değeri bulunan ve hiper
dikdörtgenlerden oluşan alt uzaylara bölünür. Daha sonra oluşturulan ağaç yapısında yer
alan her bir hiper dikdörtgene, gizli katmanda bir nöron (dolayısıyla radyal tabanlı
fonksiyon) karşılık getirilir. Böylece bu aşamada ağ mimarisinin temeli olan gizli
katman nöron sayısı kendiliğinden belirlenmiş olur. Sözü edilen karşılık getirme işlemi,
ele alınan hiper-dikdörtgenin merkezinin karşılık getirilen radyal tabanlı fonksiyonun
merkezi ( ), yarıçapının ise
sayılarından birisi ile çarpılarak radyal tabanlı
fonksiyonun yarıçap parametresi ( ) olarak belirlenmesi ile gerçekleştirilir.
65
BÖLÜM 5 RĠDGE REGRESYON
Regresyon Analizi, bağımlı ve bağımsız değişkenler arasındaki ilişkinin
varlığının, varsa bu ilişkinin yönünün ve gücünün belirlenmesi ile belirlenmiş bu ilişkiyi
kullanarak bağımlı değişkenlerin değerlerinin tahminlenmesinde kullanılan bir istatistik
yöntemdir (Johnson & Bhattacharyya, 2006, s. 431). Regresyon analizi bağımlı değişken
sayısının bir ya da birden çok olması, kurulan modelin doğrusal olup olmaması ve
bağımsız değişken sayısına bağlı olarak farklı şekilde kurgulanır. Bununla beraber, her
istatistik yöntemde olduğu gibi regresyon analizinin uygulanabilmesi için de bazı
varsayımlar ve bu varsayım bozulumları için önerilmiş çözüm yöntemleri vardır.
Bu bölümde
Hibrit-RTFA modelinde ağ parametrelerinin belirlenmesi
aşamasında karşılaşılan tasarım matrisinin tekilliği sorunu ele alınmakta ve bu sorunun
çözümünde Ridge Regresyon (RR) yönteminin kullanılması üzerinde durulamaktadır.
Bu bağlamda sırasıyla, çoklu doğrusal regresyon modelinin tanımlanması, bu modelde
sağlanması gereken varsayımların belirtilmesi, bu varsayımlardan çoklu doğrusal
bağlantı problemine çözüm olan RR yönteminin açıklanması ile RR yönteminin Hibrit
RTFA modeli ile entegrasyonu üzerinde durulmaktadır.
5.1 Çoklu Doğrusal Regresyon
Çoklu Doğrusal Regresyon (ÇDR), bir bağımlı değişken ile iki veya daha fazla
bağımsız değişken arasındaki doğrusal ilişkiyi modellemekte kullanılan bir istatistik
yöntemdir. ÇDR‟nin amacı, bağımlı değişkenin kendi içindeki değişimi, bağımsız
değişkenlerin
doğrusal
bir
kombinasyonu
olan
bir
fonksiyon
yardımıyla
açıklayabilmektir. Bu bağlamda, bağımlı değişken için açıklanan değişken, bağımsız
değişkenler içinse ise açıklayıcı değişken ifadeleri de kullanılmaktadır. Buna göre genel
ÇDR modeli ve modelin bileşenleri,
gözlem ve
bağımsız değişken için (5.1)‟deki
gibi ifade edilmektedir.
66
(5.1)
,
boyutlu bağımlı
olmak üzere
bağımsız değişkene ait
Formülasyonu (5.1) ile verilen ÇDR modelinde
değişkene ait gözlem vektörünü,
,
boyutlu gözlem vektörünü,
regresyon sabiti vektörünü,
,
,
boyutlu ve elemanları birbirine eşit olan
değişkenine karşılık gelen regresyon katsayısını ve ,
dağılımlı hata terimi vektörünü göstermektedir.
boyutlu ve
(5.1) eşitliği ile açık hali verilen model, gösterim kolaylığı sağlamak amacıyla,
ve
olmak üzere (5.2) ile verilen matris
formunda ifade edilebilir.
(5.2)
Regresyon katsayıları, ilgili bağımsız değişkenin bağımlı değişkene göre eğimini
vermektedir. Diğer bir ifade ile
tutularak
,
dışındaki tüm bağımsız değişkenlerin değeri sabit
değişkeninin değerinin 1 birim artırılması halinde,
değişkeninde meydana
gelecek değişim miktarını göstermektedir. Bu bağlamda, herhangi bir
değişkeni ile
‟nin saçılım grafiği, ilgili değişkenler arasındaki ilişkinin yapısı hakkında bilgi
verebilir (Bluman, 1998, s. 484).
Hata terimi
, bağımsız değişkenlerce açıklanamayan ve örneklemeden
kaynaklandığı varsayılan rastgele hatayı göstermektedir. Benzetim çalışmaları dışında
genellikle gerçek model tam olarak bilinmediği için
hata terimi de bilinmeyendir.
(5.2) ile matris gösteriminde verilen ÇDR modelinde regresyon katsayılarının
gözlem verileri yardımıyla gerçekleştirilen kestirimi
kestirimi,
ile gösterilmek üzere,
‟nin
şeklinde hesaplanır. ‟nin gerçek ve kestirilen değerlerinin birbirine
yakınlığı, gerekleştirilen kestirimin ne kadar iyi olduğunu gösterir. Buradan hareketle,
regresyon artıkları olarak da bilinen hata teriminin kestirimi,
formülü ile
67
yapılır. Regresyon artıkları, kestirilen modelin açıklama gücünün bir ölçüsü olan
belirlilik katsayısının hesaplanmasında kullanılmaktadır.
Belirlilik katsayısı
, bağımlı değişken
‟nin kendi içindeki değişimin,
modelde yer alan bağımsız değişkenler tarafından açıklanan kısmının oranını verir. Bu
bağlamda belirlilik katsayısı (5.3) ile verildiği biçimde hesaplanır (Berk, 2004, s. 107).
(5.3)
Belirlilik katsayısı formülasyonunun, aralarında
bulunan bileşenleri,
‟nin ortalaması
ve
eşitliği
, elemanları 1‟lerden oluşan vektör
olmak üzere (5.4), (5.5) ve (5.6) ile ifade edilmektedir.
Hata Kareler Toplamı
:
(5.4)
Toplam Kareler Toplamı
:
(5.5)
Regresyon Kareler Toplamı :
(5.6)
aralığında değerler alabilen belirlilik katsayısının 1‟e yakın olması modelin
uyum iyiliğinin güçlü, 0‟a yakın olması ise modelin uyum iyiliğinin zayıf olduğunu
ifade etmektedir (Yamane, 1973, s. 414-415). Modele eklenecek her yeni bağımsız
değişken,
değişkeni ile ilişkisinin zayıf olması durumunda bile
arttırmaktadır. Bu nedenle
değerini
‟nin uyum iyiliğinin değerlendirilmesinde kullanılması
eleştirilmektedir (Bonate, 2006, s. 17). Bu noktada modelin uyum iyiliğinin
değerlendirilmesinde, bağımsız değişken sayısından
düzeltilmiş belirlilik katsayısı
‟ye göre daha az etkilenen
kullanılabilir (Munch & Branson, 2004, s. 4).
(5.7)
Daha önce (5.2) ile verilen modelin hata teriminin standart hatası ‟nın kestirimi
ise,
68
(5.8)
şeklinde elde edilir (Yamane, 1973, s. 915). (5.8) ile verilen model standart hatasının
kestirim formülü, regresyon katsayılarının varyans-kovaryans matrisinin kestiriminde
aşağıdaki biçimde kullanılır.
(5.9)
Buraya kadar formülü verilen istatistikler, örneklem ile çalışılan durumlar için
geçerlidir. Anakütle ile çalışılması durumunda
ve
kestirimleri herhangi bir
düzeltme terimi gerektirmeksizin sırasıyla aşağıdaki gibi hesaplanır.
(5.10)
(5.11)
kestiriminin varyansı ise
matrisinin köşegen elemanları olarak
hesaplanmaktadır.
5.1.1
En Küçük Kareler Kestirimi
En Küçük Kareler (EKK), hata kareler toplamını eniyileyecek şekilde
bilinmeyen
regresyon katsayılarının kestirilmesinde kullanılan bir yöntemdir. Bu
bağlamda, EKK yöntemi kullanılarak regresyon katsayılarının kestiriminde eniyilenecek
fonksiyon (5.12) ile ifade edilir.
(5.12)
(5.12) ile verilen fonksiyonun
parametrelerine göre kısmi türevlerinin alınarak
sıfıra eşitlenmesi ile elde edilen denklem sistemi, normal denklemler olarak
adlandırılmaktadır. Normal denklemlerin çözümü ile elde edilen regresyon katsayılarının
EKK kestirimleri;
69
(5.13)
formülü ile elde edilir (Yamane, 1973, s. 945). Elde edilen regresyon katsayılarının EKK
kestirimi kullanılarak, ‟nin EKK kestirimi ise (5.14) ile verilmektedir.
(5.14)
, ‟nın yansız ve minimum varyanslı kestiricisi olması nedeni ile regresyon
varsayımlarının sağlanması durumunda en çok başvurulan kestirim yöntemidir. Bu
kısımdan itibaren formülasyonlara sadelik getirmek amacıyla EKK kestiricisi
için
sembolü kullanılmıştır.
5.1.2
Çoklu Doğrusal Regresyon Modelinin Varsayımları
Çoklu
doğrusal
regresyon
modelinin uygulanabilirliği
bazı
varsayımın
sağlanmasına bağlıdır. Bu varsayımların sağlanması durumunda EKK kestiricisi
yansızlık, etkinlik ve tutarlılık bakımından en iyi kestiricidir (Engle, 1982, s. 995).
Yansızlık, kestirimin beklenen değerinin parametrenin gerçek değerine eşit olması,
etkinlik ise kestiricinin diğer tüm yansız kestiricilerden daha küçük varyanslı olması
anlamına gelmektedir. Örnek büyüklüğünün sonsuza ıraksaması durumunda kestiricinin
yan ve varyansının sıfıra yakınsaması ise tutarlılık olarak adlandırılmaktadır. Buradan
hareketle ÇDR modeline ait varsayımlar başlıklar halinde aşağıdaki gibi özetlenebilir
(Ostrom, 1990).
Doğrusallık: Açıklanan ve açıklayıcı değişkenler arasındaki ilişki doğrusaldır.
İlişkinin doğrusal olmaması durumunda mümkünse, veriye uygun dönüşüm uygulanarak
ilişki doğrusal hale getirilir. Dönüşümle doğrusallığı sağlamanın mümkün olmadığı
durumlarda diğer istatistik modellere başvurulabilir. Ayrı ayrı her bir açıklayıcı
değişkenle açıklanan değişken arasındaki saçılım grafiğine bakılarak da bu varsayımın
sağlanıp sağlanmadığı ile ilgili bilgi sahibi olunabilir.
Normallik: Hata terimi
olacak şekilde normal dağılıma sahiptir. Bu
varsayım geleneksel istatistik yöntemlerle regresyon katsayılarının anlamlılığının test
70
edilebilmesi için sağlanmalıdır. Bu bağlamda normallik, ÇDR‟nin en önemli
varsayımıdır.
Hataların Rastlantısallığı: Hatalar rastlantısaldır ve birbirleri ile doğrusal
ilişkisizdir.
şeklinde ifade edilen bu varsayım zaman serilerinde
sıklıkla bozulur.
Hatalarla Açıklayıcı DeğiĢkenlerin Bağımsızlığı: Hatalar ile bağımsız
değişkenler birbirinden doğrusal bağımsızdır. Bu varsayım
şeklinde
ifade edilir. Her bir açıklayıcı değişken ile artıkların saçılım grafiğine bakılarak varlığı
tespit edilebilir.
Sabit Varyanslılık: Hata varyansı sabittir. Bir başka ifadeyle tahminleyicilerin
değerine göre sistematik olarak değişmez.
olarak ifade edilen bu varsayım
da özellikle zaman serilerinde sıklıkla bozulur.
Çoklu Doğrusal Bağlantı: Çoklu doğrusal regresyon analizinde kullanılan
tahminleyiciler genellikle bağımsız değişkenler olarak adlandırılır. Ancak bu, ilgili
değişkenlerin birbirleri ile bağımsız oldukları anlamında değildir. Aslında doğal
sistemlerde değişkenler genellikle birbirleri ile oldukça ilişkilidir. Çoklu Doğrusal
Bağlantı (ÇDB), bağımsız değişkenlerin kendi içinde yüksek bağlantılı olmaları
durumudur. (5.8) ve (5.10) ile verilen formüllerden de anlaşılabileceği üzere, kestirilen
regresyon katsayılarının varyansı, tahminleyicilerin kendi aralarındaki korelasyona
bağlıdır. Bu nedenle sözü edilen varsayım, kestirimlerin etkinliği açısından oldukça
önemlidir.
Çoklu doğrusal bağlantı varsayımının bozulması, oluşturulan regresyon
modelinin geçersiz olduğu anlamına gelmez. ÇDB altında bile eldeki veriye çok iyi
uyum gösteren kestirimler elde edilebilir. Ancak ÇDB‟nin birçok olumsuz etkisi vardır.
Bunlardan birincisi, regresyon katsayılarının varyanslarının çok yüksek çıkmasıdır. Bu
durumda bağımlı değişken üzerinde büyük ölçüde açıklayıcı olan bağımsız değişkenler
71
için bile regresyon katsayılarının testi anlamsız sonuç verebilir. İkinci olarak, regresyon
katsayılarının büyüklüğü, hatta işaretleri bile yanlış kestirilebilir. ÇDB‟nin üçüncü
olumsuz etkisi ise modele bir değişken eklenmesi veya çıkarılması durumunda
regresyon katsayılarının çok yüksek değişime uğrayacağı ve işaretinin bile
değişebileceğidir (Quinn & Keough, 2001, s. 133).
Çoklu doğrusal regresyon modelinin ÇDB varsayımını sağlayıp sağlamadığının
belirlenmesinde sıklıkla Varyans Artış Faktörü (Variance Inflation Factor - VIF)
istatistiği kullanılır (Quinn & Keough, 2001, s. 133). VIF, ÇDB‟nin kestirilen regresyon
katsayılarının varyansı üzerindeki etkisini göstermektedir. ÇDB, yalnızca bağımsız
değişkenler arasındaki ikili ilişkiye bağlı değildir. Aynı zamanda herhangi bir bağımsız
değişkenin birden fazla bağımsız değişkenin kombinasyonu olarak ifade edilebilmesi de
ÇDB sorununa yol açar. Bu nedenle (5.15) ile formülü verilen VIF, çoklu doğrusal
regresyonda yer alan her bir değişkenin, diğer değişkenler üzerindeki çoklu belirlilik
katsayısına dayanır.
(5.15)
Burada
, ‟inci bağımsız değişkenin diğer tüm bağımsız değişkenlerle olan
belirlilik katsayısı,
ise ilgili açıklayıcı değişkene ait VIF değerini ifade etmektedir
(Haan, 2002). Bir bağımsız değişkenin diğerlerinden bağımsız olması durumunda ilgili
değişken için hesaplanan VIF değeri “1” olur. Bununla beraber, tam bağımlılık
durumunda VIF değeri sonsuza ıraksar. Böyle bir durumda kestirilen regresyon
katsayılarının varyansı da sınırsız olur.
Varyans artış faktörü değerlerinden en az bir tanesi büyük değer aldığında, ÇDB
probleminden bahsedilebilir. Bu büyüklüğün ne kadar olduğu ise analizi yapan kişi
tarafından belirlenir. Bazı araştırmacılar bu sınırı 5, bazıları ise 10 olarak kabul
etmektedir. VIF için kabul görmüş olan bu 5 ve 10 değerleri sırasıyla 0.80 ve 0.90
değerlerine karşılık gelir. Bazı araştırmacılar ise herhangi bir VIF değerinin, tüm VIF
72
değerlerinin ortalamasından önemli ölçüde büyük olması durumunu ÇDB işareti olarak
değerlendirmektedir (Haan, 2002). Hangi kriter olursa olsun, ÇDB çok güçlü bağımlılık
durumunda ortaya çıkan bir sorundur. Bu bağlamda sıfır olmayan her korelasyon, ÇDB
problemine yol açmamaktadır.
ÇDB durumunda önerilmiş birçok yöntem olmasına rağmen, değişken seçimi ve
Ridge Regresyon oldukça sıklıkla başvurulan yöntemler olarak öne çıkmaktadır. Fakat
çoklu bağlantının çok güçlü olduğu ve değişkenlerin önem derecelerinin birbirine yakın
olduğu durumlarda değişken seçimi için adımsal yöntemler uygun değildir. Son yıllarda
değişkenler arasındaki çoklu doğrusal bağlantı durumunda kullanımı oldukça yaygın
olan bir diğer yöntem ise bilgi kriterleri yardımı ile değişken seçim yöntemidir. Bu
yöntemler daha detaylı olarak Bölüm 6‟da ele alınmıştır.
5.2 Ridge Regresyon
En küçük kareler yöntemi, tüm varsayımlarının sağlanması durumunda ÇDR
modelinin kestiriminde sağlam ve kullanışlı sonuçlar üretir. Bununla beraber gerçek
hayat problemlerinde veriler, her zaman bu varsayımları sağlayacak türden değildir.
Uygulamalarda genellikle ÇDB olarak adlandırılan açıklayıcı değişkenlerin doğrusal
bağlantılı olduğu durumla karşılaşılır. Bu durumda EKK kestirimi en iyi yansız doğrusal
kestirici olmasına rağmen, regresyon katsayılarının, hatta işaretlerinin yanlış
belirlenmesine neden olabilir.
Çoklu doğrusal regresyon analizinde amacın yalnızca tahmin yapmak olması ve
ÇDB probleminin tahminleme süreci boyunca değişmeyeceği varsayımı altında,
ÇDB‟nin problem yaratmayacağı düşünülebilir. Bunun nedeni, ÇDB‟nin modelin
tahminini değil sadece regresyon katsayılarının kestirimini etkileyecek olmasıdır
(Koutsoyiannis, 1977).
ÇDB problemi altında, model kestiriminde oldukça sıklıkla kullanılan Ridge
Regresyon (RR) ilk kez Arthur Hoerl ve Robert Kennard (1970) tarafından önerilmiştir.
RR, parametre kestiricilerinin varyansını düşürmek amacıyla regresyon denklemlerine
73
yan terimi eklenmesi esasına dayanır. En iyi ridge sabitinin belirlenmesinde kullanılan
yönteme bağlı olarak, parametre kestiriminde en büyük açıklanan varyansı verecek
şekilde birçok farklı yazar tarafından farklı ridge kestiricileri ortaya atılmıştır.
Daha önce (5.2) ile verilen matris notasyonundaki ÇDR modelinde özellikle
tahminleyici değişkenler arasında ÇDB olması durumunda karşılaşılabilecek problem,
tasarım matrisi
‟nin sütunları arasında tam ya da yaklaşık doğrusal bağımlılık
olmasıdır. Bu durumda EKK kestirimine ilişkin
tasarım matrisi
formülünde yer alan
‟nin determinantının sıfıra çok yakın olacağı ve dolayısıyla tersinin
hesaplanamayacağı
için
bu
formül
regresyon
parametrelerinin
kestiriminde
kullanılamaz. RR yöntemi, tasarım matrisinin, tekilliğini ortadan kaldıracak şekilde
yeniden yapılandırılması esasına dayanmaktadır.
Hoerl ve Kennard (1970) kestirimin sağlamlığını ve varyansını kontrol altında
tutabilmek için EKK kestiricisinin genişletilmiş hali olarak
olmak üzere (5.16) ile
verilen kestirimi önermişlerdir.
(5.16)
En küçük kareler kestiricisi
,
durumu için ridge kestiricisinin özel bir
hali olarak düşünülebilir. Ridge kestiricisi yanlı olmasına rağmen, EKK kestiriminden
daha küçük hata kareler ortalamasına (HKO) sahiptir. Ayrıca (5.16) formülünde yer alan
, bağımsız değişkenler matrisi
‟in,
matrisini korelasyon matrisi yapacak şekilde
normalize edilmiş halidir.
parametresinin herhangi bir yanlı bir kestiricisi
için HKO,
(5.17)
şeklinde tanımlanır.
Buna göre
,
ve
vektörleri arasındaki ortalama
karesel Öklid uzaklığı olarak yorumlanabilir. Bu nedenle düşük HKO değerine sahip
olan bir kestirici gerçek parametreye daha yakın olacaktır (Koutsoyiannis, 1977).
74
En küçük kareler kestiricisinin RR literatüründe sıklıkla üzerinde durulan bir
özelliği,
,
matrisinin en küçük özdeğeri olmak üzere,
(5.18)
eşitsizliğinin geçerli olmasıdır. Açıklayıcı değişkenlerin doğrusal bağlantılı olması ve
dolayısıyla
‟nin küçük değerler alması, EKK katsayılar vektörünün karesel
uzunluğunun beklenen değerinin, gerçek katsayılar vektörünün karesel uzunluğundan
büyük olması anlamına gelmektedir.
‟nin değeri küçüldükçe bu fark daha da büyür.
değeri, tasarım matrisi tekilliğe yaklaştıkça, diğer bir ifade ile ÇDB‟nin şiddetinin
artmasıyla daha da küçük değerler almaktadır (Judge, Griffits, Hill, Lütkepohl, & Lee,
1985).
5.2.1
Varlık Teoremi
RR analizinin temel dayanaklarından birisi varlık teoremidir. Varlık teoremi, her
zaman,
(5.19)
koşulunu sağlayacak pozitif
gerçel sayısının bulunabileceğini iddia eder (Hoerl &
değerleri, tasarım matrisinin özdeğerlerini,
Kennard, 1970, s. 62). Burada
fonksiyonu (5.20) ile formülasyonu verildiği gibi ‟nın herhangi bir
ve
kestiricisi için
arasındaki karesel Öklid uzaklığını ifade etmektedir.
(5.20)
(5.20) ifadesine göre
, EKK kestiricisi ile ,
ise ridge kestiricisi ile
arasındaki Öklid uzaklığını ifade etmektedir. Buradan hareketle varlık teoremi, “her
zaman, ridge kestiricisinin teorik
kestiricinin
değerine olan karesel Öklid uzaklığını, EKK
değerine olan karesel Öklid uzaklığından daha küçük yapacak pozitif
gerçel sayısı mevcuttur” şeklinde yeniden ifade edilebilir.
75
Varlık teoremi ile ilgili sıkıntı, ridge sabiti
parametreleri olan
ve
‟nin, modelin bilinmeyen
‟ya bağlı olmasıdır. Bu nedenle
sayısının varlığı
bilinmesine rağmen, uygulama da EKK kestiriminden daha küçük bir HKO verecek bir
sayısı belirlendiğinden emin olunmalıdır (Draper & Smith, 1981).
5.2.2
Ridge Kestiricisinin Özellikleri
Ridge kestiricisi
‟nın bazı önemli özellikleri aşağıdaki gibi maddeler
halinde yazılabilir.
Özellik 1: Ridge kestiricisi
için hesaplanan HKO, EKK kestiricisi
için hesaplanan HKO değerinden daha küçüktür.
(5.21)
Özellik 2:
için artık kareler toplamı (5.22) ile bulunur.
(5.22)
Özellik 3: Ridge kestiricisinin ortalaması;
(5.23)
şeklinde hesaplanır. (5.23) formülünden anlaşılacağı gibi
durumunda
, yanlı
bir kestiricidir.
Özellik 4: Ridge kestiricisinin yanı, (5.23) ile verilen ortalamasının kullanılması
ile (5.24)‟deki gibi bulunur.
(5.24)
76
Özellik 5: Ridge kestiricisinin varyans-kovaryans matrisinin, EKK kestiricisinin
varyans kovaryans matrisi türünden ifadesi (5.25) ile verilir.
(5.25)
5.2.3
GenellestirilmiĢ Ridge Regresyon
Yukarıda ele alınan ridge kestiricisi,
tasarım matrisinin her bir satırına aynı
ridge sabitinin eklendiği varsayımına dayanır ve özel olarak Global Ridge Regresyon
(GRR) olarak da adlandırılır.
matrisinin her bir satırına farklı bir
ridge sabiti
eklenmesi ile elde edilen ve Genelleştirilmiş veya Yerel Ridge Regresyon olarak
adlandırılan model için
parametesinin kestirimi,
olmak üzere
aşağıdaki şekilde formüle edilir (Hoerl & Kennard, 1970, s. 63).
(5.26)
5.3 En Ġyi Ridge Sabitinin Belirlenmesi
Ridge sabiti, RR modelini ÇDB probleminden korur. Ridge sabitinin değeri
arttıkça, kestiricinin yanlılığı artar ancak varyansı azalır. Bu nedenle, RR uygulamasında
çözülmesi gereken en önemli problemlerden birisi, ridge sabitinin belirlenmesidir.
Literatürde farklı yazarlar tarafından önerilmiş birçok yöntem bulunmaktadır. Bunlar
genellikle HKO ve AKT benzeri hata fonksiyonlarının eniyilenmesi gibi objektif
kriterlere dayanmakla beraber, grafik üzerinden karar vermeye dayanan objektif
olmayan kriterler de mevcuttur.
5.3.1
Ridge Ġzi Diyagramı
Doğru
parametresinin belirlenebilmesi için ridge izi diyagramından
yararlanılabilir (Hoerl & Kennard, 1970, s. 65). Ridge izi, ridge kestiricileri olan
‟lerin farklı
Başlangıçta
sabiti değerleri için aldığı değerleri gösteren 2-boyutlu bir grafiktir.
değeri sıfırdan başlatılır.
daha küçük değer alır ve
değeri arttırıldıkça kestirimler mutlak değerce
limit durumunda kestirimler sıfır değerine yakınsar.
77
Hoerl ve Kennard (1970, s. 65), ridge izi diyagramında parametre kestirimlerinin
durağanlaştığı yerdeki
değerinin ridge sabiti olarak belirlenmesini önermişlerdir.
ġekil 5-1 Ridge Ġzi Diyagramı (Bjorksrtrom, 2001, s. 8)
Ridge izi diyagramına bakılarak
sabitinin değerini belirlemeye çalışmak,
araştırmacının öznel yargısına dayandığından bu yöntem subjektif bir kriter olarak ele
alınmaktadır. Ancak bu yöntem, ridge sabitinin yaklaşık değeri ile ilgili bir önsel bilgi
elde edilmesinde kullanılabilir. Şekil 5-1‟e göre
aralığında bir değerde tüm
ridge parametrelerinin durağanlaştığı görülmektedir. Dolayısıyla ridge sabitinin
aralığında bir değer olduğu söylenebilir.
5.3.2
Ridge Sabitinin Belirlenmesinde Kullanılan Diğer Yöntemler
Ridge sabitinin belirlenmesine ilişkin bu kısımda tanıtılacak yöntemler için
matrisi ve
vektörünün standartlaştırılmış olduğu varsayılmaktadır. Dolayısıyla
matrisi bağımsız değişkenler arasındaki korelasyon matrisini ve
vektörü bağımsız
değişkenler ile bağımlı değişken arasındaki korelasyon vektörünü göstermektedir.
78
Hoerl, Kennard ve Baldwin (1975) tarafından önerilen ridge parametresi seçimi,
(5.27)
formülü ile verilmektedir. Burada , kestirilen parametre sayısı,
EKK kestiricisi ve
sabit terim içermeyen
ise EKK yönteminden elde edilen tahminlenen bağımlı değişken
varyansıdır.
Lindley ve Smith (1972),
ve
dağılımları varsayımı altında ridge sabitinin Bayes kestiriminin
göstermiştir. Regresyon artıklarının varyansı
önsel olasılık
olduğunu
ve regresyon katsayılarının varyansı
genellikle bilinmeyen parametreler oldukları için formülde bu varsayımların kestirimleri
kullanılmaktadır.
(5.28)
(5.28) ile verilen yöntemlere ek olarak önerilmiş bazı teknikler ise
aralığının taranarak en iyi
parametresinin bulunması esasına dayanır. Ayrıca
Genelleştirilmiş Çapraz Doğrulama (GÇD) yöntemi de en iyi ridge parametresinin
bulunmasında sıklıkla kullanılan bir yöntemdir. Hataların sıfır ortalamalı normal
dağılımlı olmasına dayanan GÇD yöntemine göre en iyi ridge sabitinin bulunması
amacıyla,
olmak üzere (5.29) ile verilen fonksiyon enküçüklenir
(Golub, Heath, & Wahba, 1979).
(5.29)
Son yıllarda Bozdoğan‟ın bilgi kompleksliği ölçümü yaklaşımı da ridge sabiti
seçimine başarı ile uyarlanmaktadır (Urmanov, Bozdogan, Gribok, Hines, & Uhrig,
2002).
79
5.4 Hibrit RTFA Modelinde Ridge Regresyonun Kullanımı
Hibrit RTFA modelinde gizli katmanda radyal tabanlı fonksiyonlar tarafından
işlenen girdi değerlerinin oluşturduğu matrisi
belirlenmesi gereken model parametresi,
ile gösterilmektedir. Bu aşamada
ağırlık değerleridir ve bu değerler (5.30) ile
verilen doğrusal modelin çözümünden elde edilir.
(5.30)
Daha önce Bölüm 3‟te belirtildiği üzere Hibrit RTFA modelinde sorun, tasarım
‟nin tekil matris olmasıdır. Bu nedenle ağırlık parametreleri, EKK
matrisi
yöntemine dayalı,
(5.31)
formülü ile doğrudan hesaplanamaz. Bu aşamada Hibrit RTFA modelinin ağırlık
parametrelerinin hesaplanmasında RR modeli kullanılmıştır. Buna göre Hibrit RTFA
modelinin ağırlık parametreleri için kullanılan formül,
(5.32)
şeklindedir. (5.33) formülünde yer alan k sabiti ise daha önce açıklanan Hoerl Kennard
(1970) tarafından ortaya atılan ridge kestiricisi olarak belirlenmiştir. Bu bağlamda
herhangi bir
girdisi için Hibrit RTFA modelinin çıktısı (5.33) formülü ile hesaplanır.
(5.33)
Çalışmanın bu kısmına kadar girdi katmanından modele girilen verinin çıktı
katmanına kadar işlenme süreci açıklanarak Hibrit RTFA modelinin çıktısının nasıl elde
edildiği üzerinde durulmuştur. Bir sonraki bölümünde ise Hibrit RTFA modelinin,
bağımlı değişken üzerindeki açıklayıcılığı en yüksek bağımsız değişken alt kümesinin
belirlenmesinde kullanılan değişken seçimi teknikleri ile nasıl birleştirildiği üzerinde
durulmaktadır. Bu bağlamda Bölüm 6‟da öncelikle bilgi kriteri kavramı ve bu kavrama
80
dayanan değişken seçim kriterlerinden bahsedilmiştir. Daha sonra açıklanan bu kriterler
ile Hibrit RTFA modelinin entegrasyonu üzerinde durulmaktadır.
81
BÖLÜM 6 DEĞĠġKEN SEÇĠMĠ
Model Seçimi (Model Selection) olarak ta bilinen Değişken Seçimi (Variable
Selection) ile bağımsız değişkenlerinden hangisinin ya da hangilerinin bağımlı değişken
üzerinde etkili olduğu belirlenerek problemin boyutu indirgenir. Böylece hem hesaplama
kolaylığı sağlanmakta hem de veri derlemesine ilişkin maliyetler azaltılmaktadır.
Problem boyutunun indirgenmesinin diğer bir yararı ise, model parametrelerinin daha
doğru bir şekilde kestirilmesi ve parametreler hakkında daha açık yorum yapılmasının
sağlamasıdır.
Bağımsız değişken sayısının çok olduğu ve ekonometrik modeller gibi model
hakkında önsel bilginin bulunmadığı veya yetersiz olduğu durumlarda, en iyi bağımsız
değişkenlerin belirlenmesi, tahminleme problemlerinin önündeki büyük bir sorundur.
Bazı durumlarda açıklayıcı değişkenlere ilişkin alternatif seçim sayısı milyonları
bulabilmektedir. Örneğin 20 açıklayıcı değişkenin bulunduğu bir problem için önsel
bilginin bulunmaması durumunda
farklı değişken kombinasyonu söz
konusudur ve bu sayı açıklayıcı değişken sayısına bağlı olarak üstel olara artış gösterir.
Dolayısıyla tüm olası açıklayıcı değişken kombinasyonlarının denenerek veriye en
uygun değişkenlerin belirlenmesi oldukça maliyetli ve hatta değişken sayısına bağlı
olarak imkansız olabilir. Bu bağlamda, hem alternatif değişken kombinasyonları
arasından seçim yapılmasını sağlayacak değişken seçim kriterlerine hem de bu değişken
seçim kriterlerine göre tüm alternatif modellerin tümünü denenmeden en iyi değişken
kombinasyonunun belirlenmesini sağlayabilecek optimizasyon tekniklerine olan
gereksinim ortaya çıkmaktadır (Bozdogan H. , 2004).
İstatistik paket programlarının çoğu, değişken seçimi için adımsal teknikler
yardımı ile Değişken Seçimi seçeneğini sunarlar. Bununla birlikte, adımsal teknikler her
zaman en iyi değişken kombinasyonunun bulunmasını garanti etmezler (Bozdogan H. ,
2004). Adımsal teknikler ile ilgili en önemli eleştiri, modele girecek ve modelden
82
çıkacak değişkenlerin sırasının belirlenmesinin teorik dayanaktan yoksun olması (Boyce,
Farhi, & Weischedel, 1974) (Wilkinson, 1989) ve dolayısıyla doğru değişkenlerin
seçilmesinin rastlantısallık içermesidir. Adımsal teknikler ile ilgili diğer bir eleştiri ise
adımsal tekniklerin tamamıyla doğru değişkenleri nadiren belirleyebilmesidir (Mantel,
1970), (Hocking, 1983), (Moses, 1986). Son olarak adımsal tekniklerin belki de en zayıf
yönü, sadece yerel aramaya dayalı bir algoritma olmaları nedeniyle tüm arama uzayının
oldukça sınırlı bir bölgesinin taranabilmesidir. Adımsal teknikler kullanılarak en iyi
ihtimalle, uygun bir model belirlenebilir (Sokal & Rohlf, 1981).
Bilgi kriterlerine dayalı değişken seçimi, adımsal tekniklere alternatif
oluşturmaktadır. Akaike (1973) tarafından ortaya atılan Akaike Bilgi Kriteri (Akaike‟s
Information Criterion - AIC) bu konuda milat olarak sayılabilir. Akaike‟nin ilgili
çalışmasını takiben AIC‟yi temel alan ve bu nedenle Akaike-tipi bilgi kriterleri olarak
adlandırılan birçok kriter geliştirilmiştir. Schwartz (1978) tarafından geliştirilen
Schwartz Bayesci Bilgi Kriteri (Schwartz‟s Bayesian Criterion - SBC ya da Bayesian
Information Criterion - BIC), Hannan-Quinn (1979) tarafından geliştirilen HannanQuinn Bilgi Kriteri (Hannan & Quinn‟s Criterion - HQC) ve Bozdogan (1987)
tarafından geliştirilen Tutarlı Akaike Bilgi Kriteri (Consistent Akaike Information
Criteria - CAIC) bu kriterlerden sıklıkla kullanılanlarıdır. Değişken seçiminde ayrı bir
sınıf olan ve Bozdogan (1988), (1994), (2000) tarafından geliştirilmiş olan bilgi
karmaşıklığına dayalı değişken seçim kriterleri ise ICOMP (Information Complexity)tipi kriterler olarak bilinmektedir.
ICOMP-tipi kriterler, sadece uyum iyiliği ve model yalınlığını değil, model
karmaşıklığını da azaltmak üzere bilgi karmaşıklığını göz önüne alırlar. Burada önemli
nokta, bilginin tutarlı bir şekilde ölçülebilmesidir. Bu bağlamda değişken seçim
kriterlerine geçilmeden önce bilgi ölçümü ve bilgi karmaşıklığı kavramları üzerinde
durulmuştur.
83
6.1 Uyum Ġyiliği ve Bilgi Ölçümü
Uyum iyiliği ve bilgi ölçüsünde entropi, Kullback-Leibler uzaklığı ve Fisher
Bilgi Matrisi kavramları önemli bir yer tutmaktadır. Çalışmanın devam eden kısımlarına
temel oluşturacak bu kavramlar sırasıyla aşağıdaki gibi özetlenebilir.
6.1.1
Entropi
Bilgi kuramında Cladue E. Shannon (1951) tarafından tanıtılan entropi kavramı,
bir rastlantı değişkeni için belirsizlik ölçüsü olarak tanımlanmaktadır (Wang, 2008, s. 1).
Dolayısıyla herhangi bir
rastlantı değişkeni için hesaplanan ve
ile gösterilen
entropi,
rastlantı değişkeni ile ilgili bilgi ölçüsü olarak yorumlanabilir. Diğer bir ifade
ile
dağılım fonksiyonuna sahip olduğu varsayılan bir
formülü ile hesaplanan entropi,
rastlantı değişkeni için
rastlantı değişkeninin
dağılımına ne kadar uyduğu bilgisini vermektedir. Buradan hareketle, normal dağılıma
uyan bir
rastlantı değişkeni için Shannon entropisi (6.1) formülü
ile hesaplanır.
(6.1)
(6.1) ile normal dağılan bir rastlantı değişkeni için hesaplanmış olan entropi,
bilinmeyen parametre değerlerine bağlıdır ve bu parametreler örneklem yardımı ile
kestirilir (Deniz, 2007).
6.1.2
Kullback-Leibler Uzaklığı
Kullback-Leibler (KL) uzaklığı tüm bilgi kriterlerinin temel çıkış noktasıdır. İlk
defa Kullback ve Leibler (1951) tarafından tanıtılan KL uzaklığı, iki olasılık dağılımı
84
arasındaki uzaklığın ölçülmesinde kullanılır. Uygulamada ise genellikle tahminlenen ve
gerçek model arasındaki uzaklığın ölçümünde kullanıldığı için ne kadar küçük değer
alıyorsa gerçek modele o kadar çok yaklaşılmış demektir.
parametre vektörü için
raslantı değişkeninin
bileşik olasılık yoğunluk fonksiyonu olmak üzere, gerçek model
fonksiyonu ile
verilmiş olsun. Ayrıca gerçek model ile herhangi bir model olan
arasındaki KL
fonksiyonu, verilen bir
uzaklığı
ile ifade edilsin. Bu durumda
) değişkenleri birbirinden
(
bağımsız olmak üzere, KL uzaklığı (6.2) formülü ile hesaplanır.
(6.2)
Yukarıdaki formülde yer alan
(
),
değişkeninin marjinal olasılık
yoğunluk fonksiyonunu göstermektedir. Ayrıca (6.2)‟nin ilk terimi verilen bir
içim sabit olan negatif entropi,
olur. İkinci terim ise (6.3) ile ifade
edilir ve (6.4) formülü uyarınca yansız olarak tahminlenir.
(6.3)
(6.4)
Böylece, genellikle bilinmeyen doğru parametre vektörü
çıkarılmış olur. (6.4)‟de yer alan
, gözlemlerin
, formülden
parametresi için kestirilen
log-olabilirlik fonksiyonudur. Uygulamada öncelikle, en çok olabilirlik kestirimi ile elde
edilen
için parametre vektörü kestirilir ve buradan,
(6.5)
ifadesine yakınsamak üzere en büyüklenmiş olan log-olabilirlik fonksiyonu kullanılır
(Howe, 2009).
85
6.1.3
Fisher Bilgi Matrisi
Fisher bilgisi, bir
bilinmeyen
rastlantı değişkenine ait rastlantısal gözlem değerlerinin,
parametresi hakkında taşıdığı bilginin ölçüsüdür. Fisher bilgisi,
değişkenine ait olabilirlik fonksiyonunun
raslantı
parametresine göre ikinci türevinin beklenen
değerinin ters işaretlisi olarak tanımlanır. Fisher Bilgisine dayanan yarı pozitif tanımlı ve
simetrik Fisher Bilgi Matrisi, (6.6)-(6.9) arası verilen hesaplama prosedürü yardımıyla
elde edilir (Li, Asma, Qi, Bading, & Leahy, 2004).
bağımsız bileşenden oluşan
yoğunluk fonksiyonu
olmak üzere,
rastlantı değişkeninin olasılık
rastlantı değişkenine ait olabilirlik
fonksiyonu (6.6) şeklindedir.
(6.6)
Buradan log-olabilirlik fonksiyonu (6.7) formunda yazılabilir.
(6.7)
(6.7) ile çıkarımı verilen log-olabilirlik fonksiyonunun kullanılmasıyla Fisher
bilgisinin beklenen değeri (6.8) formülü ile hesaplanır.
(6.8)
İstatistiksel kestirim kuramına önemli bir katkı sağlayan Fisher bilgisi, etkinlik
ve yeterlilik kavramları ile yakından ilgilidir. Negatif olmayan bir değerler alan bu bilgi,
parametresine ilişkin bilginin miktarını ölçer ve ‟nın yansız kestiricisinin doğruluğu
ile orantılıdır. Fisher bilgisi ile Kullback-Leibler bilgisinin yeterlilik, etkinlik,
toplanabilirlik ve gözlemlerin gruplanmasına ilişkin özellikleri benzerdir (Kotz &
Johnson, 1982).
Fisher bilgi matrisinin tersi ile model kovaryans matrisi yakından ilişkilidir. Bu
özelliği ile Fisher bilgisi, bazı değişken seçim kriterlerinde önemli rol oynamaktadır.
86
Kestirilen Ters-Fisher Bilgi Matrisi (Inverse Fisher Information Matrix - IFIM),
parametre kestirimi
yardımı ile elde edilen kovaryans matrisi ‟nın kullanılmasıyla,
(6.9)
şeklinde hesaplanır. Yukarıdaki formülde
matrisi,
ise
,
boyutlu dublikasyon
‟nin Moore-Penrose tersi olacak şekilde
ile hesaplanan
boyutlu matristir.
formülü
işareti ise doğrudan (kronecker)
çarpımı ifade etmektedir (Williams, Bozdogan, & Aiman-Smith, 1995).
6.2 Akaike-Tipi DeğiĢken Seçim Kriterleri
Sonlu sayıdaki alternatif değişken kombinasyonları içinden eldeki veriye en iyi
uyum gösteren değişkenlerin seçilmesinde iki tip hata dikkate alınır. Bunlardan birincisi
modelleme hatası, ikincisi ise yan ve varyans kavramlarının oluşturduğu kestirim hatası
denen ve
parametre vektörünün kestiriminden kaynaklanan hatadır.
modelleme riskini ve
toplam riski,
ise kestirim riskini göstermek üzere toplam risk
aşağıdaki şeklide ifade edilir.
Genellikle değişken seçim kriterleri kullanılırken modelin önceden belirlenen
belirli bir parametrik dağılıma uyduğu varsayılarak model kestirilir. Ancak veri analizi
süreci boyunca sıklıkla, eldeki veriler bilinen dağılımlara uyum göstermediği durumlarla
karşılaşılır. Bu gibi durumlarda, modelin dağılımının doğru belirlenebilmesi anlamında
hatalı modelleme riski ortaya çıkmaktadır. Dağılımın doğru belirlenmesi gereklidir
ancak yeterli değildir. Kestirim riski ise gerçek parametre vektörünün, belirlenen model
87
üzerinden sınırlandırılmış bir parametre uzayı için kestirildiği durumlarda ortaya çıkar.
Burada risk, kestirimde varyans bileşeni olarak adlandırılır. Gerçek parametre
vektörünün, modelin sınırlandırılmış parametre uzayı tarafından içerilmediği durumda
yan oluşur.
Kestirimde yan ve varyansın diğer bir ifadesi ise şu şekildedir: Varyans, modelin
kabul edilen parametre uzayının büyüklüğüne karşılık getirilen ceza olarak
yorumlanabilirken yan, modelin gerçek parametre vektörü ile indirgenmiş parametre
uzayı arasındaki uzaklıktır. Model değişkenlerinin seçiminde amaç, toplam risk
‟nin
enküçüklenmesidir. Bu bağlamda değişken seçim kriterleri, en çok olabilirlik kestirimi
altında modelin toplam riskinin kestiricileridir ve başarım ölçüsü olarak adlandırılır.
Akaike (1973), (1974), (1981) bu alanda yayınladığı art arda önemli makaleleri ile
istatistik modelleme ve model değerlendirmesi alanındaki gelişmelere ön ayak olmuştur
(Bozdogan H. , 2000).
AIC-tipi kriterler, AIC kriterini temel alan kriterlerin ortak adıdır. Bu kriterler için
uyum eksikliği bileşeni aynı olmakla beraber, kestirilen parametre sayısının
cezalandırıldığı ceza terimleri açısından farklılık gösterir.
6.2.1
Akaike Bilgi Kriteri
Ortalama beklenen olabilirliğin logaritmasının
katının yansız kestircisi olan
AIC, kestirilen modelin uyum eksikliğinin ve kestirilen parametre sayısının
cezalandırılmasına dayalı bir kriterdir. Parametre sayısının ceza terimi olarak kritere
eklenmesi AIC‟yi farklı boyutlu modellerin karşılaştırmasında kullanılabilir hale
getirmektedir (Deniz, 2007). Uyum eksikliğinin cezalandırılması ise KL uzaklığına
dayanmaktadır. Buna göre ,
olabilirlik kestiricisi ve
boyutlu bilinmeyen parametre vektörü, , ‟nın en çok
,
bilinmeyen parametreli olabilirlik fonksiyonu olmak
üzere AIC,
(6.10)
88
şeklinde formüle edilir. AIC formülünün birinci terimi uyum eksikliğini, ikinci terimi ise
parametre sayısını cezalandırmaktadır.
(6.10) ile verilen gösterimin yanında AIC, daha açık bir formülasyonla (6.11) ile
verildiği gibi de ifade edilebilir.
(6.11)
(6.11)‟de
gözlem sayısını,
bağımsız değişken değerleri matrisini ve
ise
parametre kestirimi vektörünü göstermektedir.
Alternatif modeller arasından en küçük AIC değerine sahip olan model, en iyi
model olarak belirlenir. Karşılaştırılan modeller için AIC değerinin enküçüklenmesiyle
bir anlamda kestirilen model ile gerçek model arasındaki KL uzaklığı enküçüklenmiş
olur. AIC, en çok olabilirlik kestirimi yapılması ve gerçek modeli içeren parametrik
dağılımlar ailesi üzerinde çalışılması koşulları altında uygulanabilir (Deniz, 2007).
6.2.2
Schwartz Bilgi Kriteri
Bayesci Bilgi Kriteri olarak da bilinen SBC, AIC‟nin bir türevi olarak Schwartz
(1978) tarafından ortaya atılmıştır. Bayes kuramını temel alan SBC kriterinin ceza terimi
AIC‟nin ceza teriminden daha büyüktür. Dolayısıyla (6.12) ile formülasyonu verilen
SBC ile seçilecek olan modelin, AIC ile seçilecek olan modelden daha küçük veya en
azından eşit boyutlu olması beklenir.
(6.12)
AIC‟de olduğu gibi (6.12) verilen SBC formülasyonu da (6.13) ile verildiği gibi
açık formda yazılabilir.
(6.13)
89
6.2.3
Tutarlı Akaike Bilgi Kriteri (CAIC)
AIC formülü, son terimi olan bilinmeyen parametrenin neden 2 ile çarpıldığının
açık olmadığı noktasında eleştirilmektedir. Rissanen (1978) bu sayının rastgele
seçildiğini belirtmiş, Bhansali ve Downham (1977) ise çalışmalarında 2 yerine, değeri 1
ile 4 arasında değerler alabilecek bir
sabiti için genellemeler yapmıştır.
CAIC, Bozdoğan (1987) tarafından AIC kriterinin bir türevi olarak ortaya
atılmıştır. CAIC, AIC‟ye göre daha tutarlı bir kriterdir (Bozdogan H. , 1987). Kestirilen
parametre sayısına ilişkin ceza terimi, AIC‟nin ceza terimine göre oldukça fazladır. Bu
özelliği ile CAIC, daha az parametreli model seçilmesini sağlamaktadır. Formülasyonu,
(6.14)
şeklinde verilen CAIC‟ye göre en iyi model, en küçük CAIC değerini veren modeldir.
CAIC formülü SBC‟ye benzemekle beraber, CAIC‟nin ceza terimi SBC'nin ceza
teriminden bilinmeyen parametre sayısı kadar daha fazladır. Dolayısıyla CAIC ile
seçilen model SBC‟ye oranla da daha basit model olacaktır.
6.2.4
Fisher Bilgi Matrisine Dayalı Tutarlı Akaike Bilgi Kriteri ( CAICF)
Fisher bilgisine dayalı AIC olarak ta bilinen CAICF, ceza terimine Fisher bilgi
matrisinin eklenmesiyle, CAIC‟ye farklı bir yaklaşım getirmektedir. Buna göre,
kestirilen Fisher bilgi matrisi olmak üzere CAICF, aşağıda verildiği şekilde tanımlanır.
(6.15)
Bozdogan (1987)‟a göre AIC, CAIC ve CAICF, en iyi modelin, diğer bir ifade
ile açıklayıcı değişkenlerin veriye uygun en iyi alt kümesinin belirlenmesinde etkili
kriterlerdir. Ayrıca anlamlılık düzeyinin rastgele belirlenmemesi ve hesaplama kolaylığı
açısından diğer yöntemlere göre üstündürler. CAIC ve CAICF kullanılması ile
ezberleme olarak adlandırılan veriye aşırı bağımlılık ya da veriye aşırı uyum gösteren
90
model elde edilmesi olasılığı azaltılmış ve daha basit modeller elde edilmiş olur
(Bozdogan H. , 1987).
Tutarlı kriterler için gözlem sayısı arttıkça bir modelin uyum eksikliği ya da aşırı
uyum göstermesi olasılığı azalacaktır. Sonuç olarak örneklem büyüklüğünün fazla
olduğu durumlarda CAIC veya CAICF, aşırı uyumun sorun olarak kabul edilmediği
durumlarda ise AIC kriterinin kullanılması uygundur (Deniz, 2007).
6.3 ICOMP Tipi DeğiĢken Seçim Kriterleri
Van Endem (1971)‟e göre
-değişkenli bir Gauss dağılımı için karmaşıklığın
makul bir tanımı kovaryans matrisi,
, aracılığı ile yapılabilir. ‟inci değişkene ait
ile ve tüm değişkenler üzerinden bileşik entropi
marjinal entropi
ile
gösterilmek üzere modelin karmaşıklığı (6.16) ile ifade edebilir.
(6.16)
Burada
ile
formülünde yer alan

Eğer

Eğer

‟inci değişkenin varyansı ifade edilmektedir. (6.16)
‟ın bazı karakteristik özellikleri aşağıdaki gibi sıralanabilir.
köşegen matris ise
ise
eşitliği geçerlidir.
olur.
formülünün sağ tarafındaki ilk ifade ortonormal dönüşümler altında sabit
değildir.
91
sistem koordinatları üzerinden yapılan en
Sonuç olarak tüm
büyükleme işlemi ile Bozdogan (1988)‟e göre karmaşıklığın birinci dereceden en büyük
bilgi kuramsal ölçümü aşağıdaki şeklide elde edilir.
(6.17)
ile ölçülen kovaryans matrisi her zaman tam ranklı olmayacağı için formülde
yer alan
değeri genellikle olarak
ile değiştirilir.
‟e ilişkin bazı
özellikler ise aşağıdaki gibi verilebilir (Howe, 2007).

, özdeğerlerin aritmetik ortalamasının geometrik ortalamasına oranının
logaritmasıdır.



, iz ve determinant gibi çok basit ölçümler yardımıyla hesaplanır.
ilişkisi geçerlidir.
için
Değişkenler arasındaki iletişim arttıkça
büyür.
ICOMP genel olarak iki KL uzaklığının toplamı olacak şekilde ifade edilebilir
(Bozdogan, 1988, 1994, 2000, 2004). Genel çok değişkenli doğrusal ya da doğrusal
olmayan modeller için model
değerinin, Ters Fisher Bilgi Matrisi (Inverse
Fisher Information Matrix - IFIM) için hesaplanan karmaşık olacak şekilde,
ile kestirildiği varsayımı altında ICOMP(IFIM) kriteri, Bozdogan (1988)
tarafından (5.18) ile tanımlanmıştır.
(5.18)
Burada kestirilen parametrenin dağılımı
ifade edilebilir. Ayrıca
şeklinde
, (5.19) eşitliğinde verilen çok değişkenli normal dağılıma
ait IFIM‟in karmaşıklığının en büyük teorik bilgi ölçümü değerdir.
92
(5.19)
Yukarıdaki eşitlikte yer alan parametrelerden ,
şeklinde hesaplanır.
Hibrit RTF modeli için IFIM ise,
(6.20)
şeklinde tanımlanır. Bu tanımın kullanılması ile ICOMP(IFIM), aşağıdaki biçime
dönüşür.
(6.21)
Burada entropik karmaşıklık değeri
(6.22) ile hesaplanmaktadır.
(6.22)
(6.21) ile tanımlanan ICOMP(IFIM) kriterinden başka, yanlış tanımlanmış
modeller için ICOMP temelli Değişken Seçim kriteri ise (6.22) şekilde tanımlanır.
(6.23)
(6.23) ile verilen eşitlikte yer alan
değeri,
93
(6.24)
şeklinde hesaplanmaktadır.
(6.25)
(6.25) ile verilen formül,
kovaryans matrisinin kestirimidir. Varsayılan
modelin doğru olup olmamasına bağlı olmaksızın doğru varyansı verdiği için sıklıkla
“Sandviç Kovaryans” veya “Sağlam Kovaryans” kestiricisi olarak adlandırılır. Modelin
doğru olduğu durumda
alınır ve (6.25) kovaryans formülü Fisher bilgi matrisinin
tersi formülüne indirgenir (White, 1982). İlgili kovaryans matrisi basıklık ve çarpıklık
değerlerini de hesaba katarken bu durum, AIC ve SBC kriterlerinin kullanıldığı
durumlarda mümkün değildir.
6.4 AIC-Tipi Kriterler ile ICOMP-Tipi Kriterlerin KarĢılaĢtırılması
Akaike-tipi kriterlerle uyum eksikliği ve modelin kestirilen parametre sayısı
cezalandırılmaktadır. Bu bağlamda Akaike-tipi kriterlere yöneltilen en önemli eleştiri,
bağımsız değişkenler arasındaki korelasyonu hesaba katmamasıdır. Bu nedenle, Akaiketipi kriterler kullanılarak yapılan değişken seçimi işlemi ile birbirleriyle yüksek
dereceden korelasyonlu bağımsız değişkenlerin seçilmesi olasıdır. Bu da, çoklu doğrusal
bağlantı sorununa neden olabilecek bir model oluşturulması anlamına gelmektedir.
Diğer bir ifade ile Akaike-tipi kriterlerle en az açıklayıcı değişken kullanılarak en iyi
uyum iyiliği sağlayan model belirlenirken, seçilen değişkenler arasındaki çoklu doğrusal
bağlantı ile ilgili bilgi içerilmemektedir.
Yukarıda sözü edilen AIC-tipi kriterlere yöneltilen eleştiri noktasından hareketle
ICOMP-tipi kriterler, uyum eksikliği ve kestirilen parametre sayısının yanında, bağımsız
değişkenler arasındaki ilişkiyi de cezalandırır. Dolayısıyla ICOMP-tipi kriterler
kullanılarak seçilen model, ÇDB problemi dikkate alınarak seçilmiş bir model
olmaktadır. Diğer bir ifade ile ICOMP-tipi kriterler, en düşük seviyede çoklu doğrusal
94
bağlantılı ve mümkün en az sayıdaki değişken kullanılarak olabilecek en iyi uyum
iyiliğini sağlayacak bağımsız değişkenlerin seçilmesini sağlarlar. Bu bağlamda ICOMPtipi kriterlerle belirlenen modelin, AIC-tipi kriterle belirlenen modele oranla, ÇDB
problemine neden olma olasılığı daha düşük olmaktadır.
Akaike-tipi kriterler karmaşıklığa sadece bilinmeyen parametre sayısı açısından
duyarlıdır (Mark A. Pitt, 2002, s. 475). AIC tipi kriterler bu nedenle yetersiz kalabilir.
(6.9)‟de bulunan IFIM‟nin izi ve determinantı, sırasıyla parametre duyarlılığının etkisi
ve parametrelerin korelasyonunu dikkate alan karmaşık bir fonksiyonu temsil
etmektedirler (Deniz, 2007).
6.5 En Ġyi Model DeğiĢkenlerinin Genetik Algoritma ile Belirlenmesi
Değişken seçim kriterleri ile ilgili buraya kadar anlatılan kısımdan çıkan sonuç,
hangi değişken seçim kriteri kullanılırsa kullanılsın, ilgili kriterin değerini en küçük
yapacak model en iyi model olarak belirlenmesidir. Dolayısıyla en iyi açıklayıcı
değişken alt kümesinin belirlenmesi işlemi, belirlenmiş olan değişken seçim kriterini
amaç fonksiyonu, açıklayıcı değişkenlerin tüm olası kombinasyonlarının oluşturduğu
kümeyi ise arama uzayı olarak kabul eden bir eniyileme problemi olarak düşünülebilir.
Açıklayıcı değişken sayısının artışına bağlı olarak arama uzayının üstel olarak
büyümesi nedeniyle tüm değişken kombinasyonlarına karşılık gelen değişken seçim
kriteri değerinin hesaplanması zor hatta zaman ve maliyet açısından imkansız olabilir.
Ayrıca üzerinden eniyileme eniyileme yapılacak olan değişken seçim kriterleri oldukça
karmaşık fonksiyonlar oldukları için analitik yollardan enküçüklenmeleri çok zordur.
Değişken sayısı arttıkça, klasik yöntemlerle değişken seçimi yapmak güç olacağı
için son yıllarda oldukça popüler olan genetik algoritma yöntemi tercih edilmektedir.
6.5.1
Genetik Algoritma
Evrimsel algoritmalar, gradyen temelli en iyileme algoritmalarına alternatif
olarak ilk defa 1970‟li yılların başında ortaya atılmıştır. Newton gibi eniyileme
yöntemleri, problemin tek bir çözüm noktasının geliştirilmesi esasına dayanmaktadır.
95
Diğer taraftan evrimsel yaklaşım, geniş bir olası çözümler kümesinin simüle edilmesi ile
çözüme ulaşılması şeklindedir. Bu olası çözümler arasında rastlantısal mutasyonlar ve en
iyi uygunluk temelli seçim ile birbirleri ile etkileşime izin verilerek iteratif bir şekilde en
iyi çözüme ulaşılır. Evrimsel algoritmaların bir türü olan Genetik Algoritma (GA),
Holland (1975) ve öğrencileri tarafından geliştirilmiştir. Scientific American dergisinde
Holland (1992) tarafından yayınlanan “Genetic Algorithms” isimli makale, genetik
algoritmaların popüler hale geldiği yayın olarak sayılabilir. Ayrıca Vose (1999)
tarafından yayınlanan “The Simple Genetic Algorithm: Foundations and Theory” isimli
kitap GA‟nın matematiksel altyapısının anlaşılması için iyi bir kaynak oluşturmaktadır.
6.5.2
Genetik Algoritmanın Yapısı
Genetik algoritma, biyolojik evrimden esinlenen bir rastlantısal arama
algoritmasıdır. Biyolojik organizmaları belirleyen kromozomlar genetik algoritmada
genellikle ikili değerlerle temsil edilir. Bu ikili değerler optimizasyon problemi için olası
bir çözümün bileşenleri olarak düşünülebilir. Aşağıda genel olarak adımları verilen GA,
birbirini takip eden basit süreçlerden oluşmaktadır.
1. Başlangıç çözümünü üret,
2. Mevcut çözüm popülasyonunun elamanlarını sırala,
3. Mevcut popülasyonun bir sonraki nesli üretmek üzere nasıl etkileşime gireceğini
belirle,
4. Bireyleri çiftleştir; kromozomlar arası çaprazlama ve genetik mutasyon uygula,
5. Elde edilen bireyleri yeni nesle aktar,
6. Bitirme kriteri sağlanıyorsa algoritmayı bitir, sağlanmıyorsa Adım 2 ye dön.
96
Tablo 6-1 Genetik Algoritma Parametreleri
Parametre Adı
Nesil Sayısı
Erken Bitirme Eşiği
Popülasyon Büyüklüğü
Nesil Tohumlama Türü
Çaprazlama Olasılığı
Mutasyon Olasılığı
Elitizm
Amaç Fonksiyonu
Örnek parametre Değeri
60
40
30
Rulet
0,75
0,10
Evet
bilgi kriteri
Genetik algoritma için, örnek değerleri Tablo 6-1‟de verilen 8 ana işlevsel
parametre vardır. Tablo 6-1 ile verilen GA parametrelerinin ve işlemcilerinin tanımları
takip eden kısımda açıklanmaktadır. GA parametre ve işlemcilerinin temel tanımlarının
verilmesinden sonra özel olarak GA‟nın Değişken Seçimi üzerine uygulaması üzerinde
durulacaktır.
6.5.3
Genetik Algoritmanın Parametreleri
Nesil Sayısı: GA‟da iterasyonlar, biyolojik esin kaynağına atfen, nesil olarak
adlandırılır. Dolayısıyla nesil sayısı parametresi kendi kendini açıklamaktadır. Burada
nesil sayısının belirlenmesi, genetik algoritma ile çözüm sürecinde oldukça önemlidir.
Nesil sayısının çok büyük belirlenmesi hesaplama süresinin artmasına yol açarken
yeterinden az belirlenen nesil sayısı, en iyi olmayan bir çözüm bulunması ile
sonuçlanabilir (Howe, 2007).
Erken
Bitirme
Kriteri:
Bu
parametre
GA‟nın
yakınsama
kriteridir.
Algoritmanın amaç fonksiyonunda bir iyileşme kaydetmeksizin belirli bir sayıda nesil
aktarımı yapması, algoritmanın en iyi ya da en iyiye yakın bir çözüme yakınsaması
olarak yorumlanır. Burada amaç fonksiyonunda ilerleme olmaksızın algoritmanın devam
ettirileceği maksimum iterasyon sayısının yüksek belirlenmesi hesaplama süresinin
artmasına neden olur. Diğer taraftan bu parametrenin düşük belirlenmesi, mevcut
çözümden optimal çözüme geçme olasılığını azaltabilir.
97
Popülasyon Büyüklüğü: Bu parametre ile her bir nesilde kaç tane birey (çözüm
noktası) yer alacağı kontrol edilir. Genellikle popülasyon sayısının arttırılması ile
algoritmanın yakınsama süresinin azaltılması beklenir. Ancak belirli bir noktadan sonra
aşırı popülasyon büyüklüğünün yol açacağı yoğun hesaplama yükü, algoritmanın iyi
çalışmamasına yol açar. Bu parametrenin belirlenmesi oldukça zordur ve bu konuda
önerilmiş az sayıda sezgisel yaklaşım vardır. Örneğin
belirleme probleminde popülasyon sayısı ,
değişkenli bir en iyi alt kümeyi
koşulunu sağlamalıdır (Bozdogan H.
, 2004, s. 37).
Nesil Tohumlama Türü: Bu parametre ile gelecek neslin bireylerinin hangi
tohumlama türü ile üretileceği kontrol edilir. Bu amaca yönelik sıklıkla kullanılan 3
yöntem vardır. Bunlardan en basiti, çözümlerin rastgele olarak parçalanması ve
çiftleştirilmesidir. Turnuva Seçimi yönteminde,
olmak üzere,
sayıda
çözümünden oluşan küme tek biçimli dağılıma göre rastgele olarak üretilir ve amaç
fonksiyonu değerleri hesaplanır. En iyi amaç fonksiyonu değerine sahip olan iki çözüm
çiftleştirilerek bir sonraki nesle aktarılır. Bu işlem, bir sonraki nesil tamamlanana kadar
tekrarlanır. Turnuva seçimi yönteminin faydası, her bir iterasyonda popülasyonu
oluşturan tüm bireyler için amaç fonksiyonunun hesaplanmamasıdır. Hesaplanması zor
olan bir amaç fonksiyonu ile çalışılan problemlerde bu yöntem zaman kazanımı
açısından oldukça etkilidir.
Oldukça sıklıkla kullanılan diğer bir yöntem ise Rulet Seçimi olarak adlandırılır.
Bu yöntem her bir gözesi farklı büyüklükte olan hileli bir rulet tekerleği ile rulet
oynamaya benzer. Herhangi bir . çözüm için göze genişliği,
olmak üzere,
(6.26)
formülü ile hesaplanır. Yukarıdaki formüle göre örneğin 4 kromozom için sıralanmış
göze genişliklerinin hesaplanışı Tablo 6-2‟de verildiği gibidir.
98
Tablo 6-2 Göze GeniĢlikleri
Göze GeniĢliği
Her bir kromozom için seçilme alt ve üst limitleri Tablo 6-3‟teki gibi hesaplanır.
Tablo 6-3 Bireylerin Alt ve Üst Seçim Aralıkları
Alt ve Üst
Limitler
1
2
3
4
0,00
0,10
0,10
0,30
0,30
0,60
0,60
1,00
Daha geniş olan başlangıçtaki gözelere karşılık gelen kromozomlar için amaç
fonksiyonu değeri en iyiye daha yakındır. Bu noktada,
dağılımından
tek biçimli
adet rasgele sayı üretilir ve üretilen her bir sayı Tablo 6-3‟ten hangi
kromozomun alt ve üst sınırları arasında yer alıyorsa o kromozom seçilir. Bu yöntemle
daha iyi amaç fonksiyonu değerine sahip kromozomların çiftleştirme havuzunda yer
alma olasılıkları artmaktadır. Sonuç olarak çözümlerin sırası rastgele olarak değiştirilmiş
olur ve çözümler sırayla eşleştirilir (Howe, 2007).
Çaprazlama Türleri: Çaprazlama işleminin yürütülmesine ilişkin birçok
yöntem vardır. Bunlardan başlıcaları aşağıdaki gibi sıralanabilir (Bozdogan H. , 2004, s.
38).

Tek Nokta Çaprazlaması: Tek nokta çaprazlamasına göre öncelikle bir
çaprazlama noktası belirlenir. Daha sonra çaprazlanacak iki bireyden birincisinin
çaprazlama noktasına kadar olan kromozomları ile ikincisinin çaprazlama
99
sonrasından sonrasındaki kromozomları birleştirilerek yeni birey oluşturulur.
Bireylerin 10 kromozomlu ikili değerlerden oluşması ve çaprazlama noktasının 3
olarak belirlenmesi durumunda örnek bir çaprazlama Şekil 6-1 ile ifade
edilmektedir.
Birey A
Birey B
1011011001
+
Yeni Birey
1100011010
=
1010011010
ġekil 6-1 Tek nokta çaprazlaması

Ġki Nokta Çaprazlaması: İki nokta çaprazlamasında iki tane çaprazlama noktası
belirlenir. Buna göre çaprazlamaya alınan ilk bireyin başlangıçtan ilk çaprazlama
noktasına kadar olan ve ikinci çaprazlama noktasından son kromozoma kadar
olan kısmı, ikinci bireyin ise iki çaprazlama noktası arasında düşen
kromozomları yeni bireyin ilgili kromozomu olarak kopyalanır. Buna göre Şekil
6-1
ile verilen A ve B bireyleri için çaprazlama noktalarının 3 ve 7 olarak
belirlenmesi durumunda iki nokta çaprazlaması „deki gibi uygulanmaktadır.
Birey A
Birey B
1011011001
+
Yeni Birey
1100011010
=
1010011001
ġekil 6-2 Ġki nokta çaprazlaması

Tek Biçimli Çaprazlama: Bu tip çaprazlamada kromozomlar rastgele olarak
seçilerek yeni bireye aktarılır. Buna göre eşleştirilecek
birey için
üretilir.
noktalarından
kromozomlu her bir
aralığından tek biçimli dağılıma uyan rastgele bir tamsayı
aralığı yerine
çaprazlamaya
kullanılması, iyi çözümlerin uç
uğratılmalarını
engellemektedir.
Buna
göre
çözümlerin sağ parçası, üretilen sayının bir fazlasına karşılık gelen
kromozomdan başlayarak ayrılır.
Çaprazlama Olasılığı: Çaprazlama olasılığı, yeni birey üretme sürecinin hangi
sıklıkla yapılacağını kontrol eder. Bu göre eşleştirilen her bir çift için
aralığından
100
rastgele bir sayı üretilir. Belirlenen çaprazlama olasılığından daha büyük sayı üretilen
çiftler için çaprazlama uygulanır. Diğerleri ise bir sonraki nesle aynen kopyalanır.
Çaprazlama olasılığı, çaprazlama sıklığını arttırmak için genellikle
‟ten büyük
seçilmektedir. Arama uzayının yeterli taranması açısından önemli bir parametredir.
Genetik Mutasyon: Eşleşme ile yeni bireyler (çözümler) elde edildikten sonra
bu yeni bireyler mutasyona uğratılır. İkili sistemin kullanıldığı tipik GA için mutasyon
işlemi oldukça basittir. Mutasyon olasılığına bağlı olarak mutasyona uğratılacak
çözümler mevcut popülasyondan tek biçimli dağılıma uyacak şekilde rastgele olarak
seçilir. Mutasyon olasılığının belirlenmesi kullanıcıya bağlı olmakla beraber genellikle
‟den küçük olarak belirlenir. Seçilen her bir kromozom için kromozomun bileşenleri
rastgele olarak seçilir ve seçilen bileşen değeri
ise ,
ise
yapılır. Mutasyon, GA‟yı
güçlü kılan en önemli özelliklerden birisidir. Mutasyonun ihmal edilmesi durumunda
algoritma kolaylıkla yerel en iyi noktalardan birisine takılabilir. Bununla beraber,
mutasyon işleminin algoritmaya dahil edilmesi ile algoritma arama uzayının ulaşılmamış
farklı bölgelerine yönlendirilebilir. Bu anlamda GA, benzetilmiş tavlama algoritması ile
benzer özellik gösterir.
Amaç Fonksiyonu: İster en büyükleme ister eniyileme problemi olsun, tüm
arama algoritmaları ve optimizasyon tekniklerinin yürütülebilmeleri için bir amaç
fonksiyonu gerekir. GA uygulaması için en iyi amaç fonksiyonun tipi, probleme göre
değişir.
Bu
çalışmada
amaç
fonksiyonu
olarak
Değişken
Seçim
kriterleri
kullanılmaktadır.
Elitizim: Algoritma süresince karşılaşılan iyi çözümlerin kaybedilmemesi için
elitizm kuralı kullanılır. Buna göre her bir nesilde amaç fonksiyonuna en iyi değerini
veren çözüm, hiç bir değişikliğe uğratılmadan bir sonraki nesle aynen aktarılır. Elitizim
kuralının kullanılması, popülasyon büyüklüğünün dolayısıyla da hesaplama süresinin her
bir yeni nesille beraber artması anlamına gelmektedir. Yapılan çalışmalar, rulet tekerleği
tekniğinin kullanıldığı durumlarda elitizmin çok önemli olmadığını göstermektedir.
101
6.5.4
Hibrit RTFA Modelinde DeğiĢken Seçimi Problemi için Genetik Algoritma
Hibrit RTFA modeli ile değişken seçiminde bireylerin kromozom sayısı
bağımsız değişken sayısı olarak belirlenmektedir. Her bir kromozom {0,1}
değerlerinden birini almaktadır. Buna göre bir kromozomun 1 değerini alması ilgili
değişkenin modelde yer aldığını, 0 değerini alması ise yer almadığını ifade etmektedir.
Örneğin 8 bağımsız değişken içeren bir problemde 1., 3. ve 5. bağımsız değişkenlerin
modelde olduğunu ifade eden çözüme karşılık gelen kromozom aşağıdaki gibi ifade
edilir.
GA ile en iyi değişken alt kümesinin belirlenmesi sürecinde seçilen değişken
seçim kriteri eniyilenmeye çalışılmaktadır. Bu bağlamda her bir iterasyonda mevcut
çözümlere karşılık gelen bağımsız değişkenler Hibrit RTFA modelinde yerine konularak
bağımlı değişken tahminlenir. Daha sonra bu tahminler değerlerinden yararlanılarak
değişken seçim kriteri değerleri hesaplanır. Durma kriterlerinden biri sağlanana kadar
her iterasyonda bu işlemler tekrarlanır ve sonuçta en küçük değişken seçim kriteri
değerini veren değişken alt kümesi seçilir.
102
BÖLÜM 7 UYGULAMA
Çalışmanın bu kısmına kadar Hibrit RTFA modelinin teorik altyapısı üzerinde
durulmuştur. Bu bölüm ise oluşturulan modelin uygulamasına ayrılmıştır. Önerilen
Hibrit RTFA modeli ile değişken seçimi ve tahminleme yapacak hazır bir paket program
bulunmadığı için hesaplamalar Matlab programı üzerinde kodlanmıştır. Ayrıca Hibrit
RTFA ile hem değişken seçimi hem de tahminlemenin kolaylıkla, her seferinde kodlama
aşmasına girmeden yapılabilmesi için yine Matlab programı üzerinde bir kullanıcı
arayüzü oluşturulmuştur.
Hibrit RTFA modeli, öncelikle oldukça yüksek derecen doğrusal olmayan bir
benzetim verisi üzerinde test edilmiştir. Hibrit RTFA modelinin ele alınan benzetim
verisi üzerindeki başarılı performansının gösterilmesinin ardından model finansal
piyasalara yönelik gerçek veri üzerinde uygulanmıştır. Bu bağlamda dolar bazında
İMKB Ulusal 100 endeksinin yönü, diğer uluslararası endeksler yardımıyla
tahminlenmiştir.
7.1 Hibrit RTFA Modeli için MATLAB Kullanıcı Arayüzü
Matlab (Matrix Laboratory), Cleve Moler tarafından 1970 yılında geliştirilmiş
matris tabanlı problem çözme, istatistik işlemler ve grafik çizimi gibi çok geniş bir
yelpazede kullanılan bir programdır. İlk başlarda Fortran üzerinde yazılmış olan Matlab,
günümüzde C++/Java ortamında yazılmaktadır. İlk başlarda eğitim amacıyla kullanılan
Matlab programı daha sonraları mühendislik alanında da oldukça yaygın olarak
kullanılır hale gelmiştir. Günümüzde Matlab programının yaygın kullanımının nedenleri
arasında birçok istatistik işlemin hazır fonksiyonlar yardımı ile yapılabilmesi, kolay
kodlanabilirlik ve matris tabanlı işlem yapma kabiliyeti sayesinde büyük verilerle
işlemlerin kolaylıkla yapılabilmesi sayılabilir.
103
Buraya kadar ifade edilen nedenlerden ötürü çalışmamızda Hibrit RTFA modeli
Matlab programı üzerinde yazılmıştır. Yazılmış olan kodlar için bir kullanıcı arayüzü
oluşturularak
Hibrit
RTFA
modelinin
kolay
uygulanabilirliğinin
sağlanması
amaçlanmıştır. Bu bağlamda ilgili program çalıştırıldığında ilk olarak ekrana gelen
arayüz aşağıda Şekil 7-1 ile verilmiştir.
ġekil 7-1 Hibrit RTFA kullanıcı arayüzü karĢılama ekranı
Şekil 7-1‟de görüldüğü gibi kullanıcı arayüzü karşılama ekranı Hibrit RTFA
programı ile yapılacak olan işlemin seçildiği aşamadır. Karşılama ekranında değişken
seçimi (Model Selection) ve tahminleme (Prediction) olmak üzere iki seçenek vardır.
Buradan değişken seçimi seçeneği seçili iken başlat (Start) butonuna tıklandığında
ekrana gelen pencere Şekil 7-2 ile verilmiştir.
104
ġekil 7-2 Hibrit RTFA modeli ile değiĢken seçimi arayüzü
Şekil 7-2 kullanıcıya iki farklı seçenek sunmaktadır. Bunlardan birincisi “Model
Selection for Simulated Freidman Data” seçeneğidir. Bu seçenek seçili iken
uygulamanın benzetim kısmında tanımlanacak olan protokolden istenen sayıda
büyüklükteki (Sample Size) örnek için istenen sayıda (Number of Replication for
Freidman Data) benzetim yapılabilmektedir. İkinci seçenek ise gerçek veri (Model
Selection for Real Data) için değişken seçimi yapılmasıdır. Bu aşamada arayüze veriler,
bağımsız değişkenler (Upload X Data) ve bağımlı değişkenler (Upload Y Data) “.m”
uzantılı olacak şekilde ayrı ayrı girilmektedir. Ayrıca model parametreleri yine arayüz
üzerinde seçim yapılarak belirlenebilmektedir. İşlem süreci sonunda seçilen değişkenler
sağ alttaki sonuçlar (Results) kısmına yazılmakta, genetik algoritma ile eniyileme
sürecinde ilgili değişken seçim kriterinin değerlerindeki değişimler ise sağ üstte yer alan
grafikte görülmektedir. Değişken seçimi aşaması gerçekleştirildikten sonra “Ana
Menüye Dön (Go To Main Menu)” seçeneği ile karşılama ekranına buradan da
tahminleme (Prediction) seçeneği seçilerek aşağıda Şekil 7-3 ile verilen ekrana ulaşılır.
105
ġekil 7-3 Hibrit RTFA modeli ile tahminleme için kullanıcı arayüzü
Tahminleme için verilmiş olan arayüzde benzer şekilde bir sonraki kısımda
tanıtacağımız benzetim verisi (Prediction for Simulated Freidman Data) ve gerçek veri
(Prediction for Real Data) için tahminleme olmak üzere iki alternatif sunmaktadır.
Gerçek veri seçilmesi durumunda, girilecek veriler düzenlenirken önce eğitim verileri
sonra devamına test verileri eklenerek tek bir “.m” dosyası hazırlanmalıdır. Burada
eğitim verisinin nereden başladığının anlayabilmesi için ilgili arayüzde bulunan ilgili
alanlar eğitim verisinin (Sample Size for Training Data) ve test verisinin (Sample Size
for Test Data) gözlem sayıları (örnek hacimleri) yazılmalıdır. İlgili arayüzden model
parametreleri de seçilebilmektedir. Yapılan tahmine ilişkin Hata Kareler Ortalamasının
Karekökü (HKOK) ve Ortalama Mutlak Hata (OMH) gibi iki farklı kritere göre
hesaplanan sonuçlar ilgili arayüze yazılmaktadır. Ayrıca bağımlı değişkenin gerçek
106
değerleri ile Hibrit RTFA ile yapılan tahmini değerlere ait grafik arayüzün sağ üst
kısmındaki bölüme çizilmektedir.
Uygulamanın devam eden kısımlarındaki çalışmalar burada tanımlanmış olan
kullanıcı arayüzü yardımı ile gerçekleştirilmiştir.
7.2 Benzetim Verisi için Uygulama
Çalışmamızın bu kısmında Hibrit RTFA modelinin değişken seçimi ve
tahminleme başarısının ölçülmesi amaçlanmıştır. Bu bağlamda girdi ile çıktı arasında
modellenmesi kolay olmayan bir fonksiyonel ilişki oluşturulması benimsenmiştir.
Buradaki amaç, Hibrit RTFA modelinin oldukça karmaşık fonksiyonel ilişkileri bile
yakalamakta başarılı olduğunu göstererek değişken seçimi ve tahminleme alanında
kullanılabilirliğine dair kanıt bulmaktır.
Yukarıda belirtilmiş olan amaçlar doğrultusunda çalışmamızda kullanılmak üzere
çok yüksek dereceden doğrusal olmayan yapıda bir ilişki modellenmiştir. Buna göre
girdi ile çıktı arasındaki ilişki hem trigonometrik hem kuadratik hem de doğrusal
bileşenlerin toplamı olacak şekilde oluşturulmuştur. Bu bağlamda öncelikle 7 tane
bağımsız değişken,
(7.1)
rastgele sayılar olarak üretilmiştir. Buna göre
ile gösterilen açıklayıcı değişkenler
formunda yazılabilir. Rastgele olarak üretilmiş
matrisi,
olan açıklayıcı değişkenlerinin ilk dört tanesinin kullanılmasıyla bağımlı değişken,
olacak şekilde aşağıda (7.2) ile verildiği gibi oluşturulmuştur. Dikkat edilecek
olursa bağımlı değişkenin oluşturulmasında, üretilmiş olan 7 değişkenin sadece ilk 4
tanesi kullanılmıştır. Bunun nedeni, modelimizin bu ilişkisiz 3 değişkeni belirleyip
belirleyemeyeceğinin test edilmesidir.
(7.2)
107
Tanımlanan benzetim protokolüne göre üretilecek olan veriler üzerinden Hibrit
RTFA modelinin performansının ölçülmesinde izlenecek yol Şekil 7-4 ile verilmiştir.
Uygulamanın benzetim kısmı için yol haritası niteliğindeki diyagrama göre öncelikle
Hibrit RTFA modeli içinde kullanılacak radyal tabanlı fonksiyona karar verilmekte ve
daha sonra değişken seçimi yapılarak bağımlı değişken üzerinde etkili olan bağımsız
değişkenler
belirlenmektedir.
Değişken
seçimini
takiben,
belirlenen
bağımsız
değişkenler yardımıyla tahmin yapılmakta ve kurulan modelin tutarlılığını belirlenmesi
için son olarak çapraz doğrulama yapılmaktadır.
RADYAL TABANLI
BENZETĠM VERĠSĠNĠN
FONKSĠYON SEÇĠMĠ
ÜRETĠLMESĠ
Gauss – Cauchy – Çoklu Kuadratik
Ters Çoklu Kuadratik
DEĞĠġKEN SEÇĠMĠ
ÇAPRAZ
TAHMĠNLENME
ICOMP – AIC – CAIC -
DOĞRULAMA
SBC
ġekil 7-4 Benzetim verisi uygulaması için akıĢ diyagramı
(7.2) ile verilen formülasyonundan da anlaşılacağı gibi oluşturulan bağımlı
değişken
,
ile
,
ve
bağımsız değişkenleri ile ilişkisizdir. Diğer taraftan
arasında doğrusal olmayan ilişki
ifade edilenlere göre doğru model
ile
,
,
ile
,
arasında ise doğrusal bir ilişki vardır. Bu
ve
bağımsız değişkenlerini içeren
modeldir. Bağımlı değişken ve doğru modelde yer alan bağımsız değişkenler arasındaki
ilişki Şekil 7-5‟ten de gözlemlenebilir.
108
ġekil 7-5 Bağımlı değiĢken ve doğru bağımsız değiĢkenler arasındaki iliĢki
Şekil 7-5 ile doğru model değişkenlerinin her birisinin ayrı ayrı bağımlı değişken
ile olan korelasyonları ve saçılım grafikleri verilmektedir. Buna göre özellikle
değişkenlerinin
,
ve
ile olan korelasyonları çok düşük olmakla beraber saçılım
grafikleri de bunu desteklemektedir. Dolayısıyla
değişkeni ile doğru model
değişkenleri arasında Eşitlik (7.2) yardımıyla tanımlamış olan ilişkiyi mevcut bağımsız
değişkenleri kullanarak yakalayacak bir model kurmak oldukça zor görünmektedir.
Uygulamanın devamında, yukarıda tanımlanmış olan ve oldukça yüksek
dereceden doğrusal olmayan yapıdaki ilişki, Hibrit RTFA modeli ile yakalanmaya
çalışılmıştır. Bu bağlamda benzetim çalışması, Hibrit RTFA modeli için radyal tabanlı
fonksiyon seçimi, değişken seçimi ve seçilen değişkenler yardımıyla tahminleme olmak
üzere üç aşamada tamamlanmıştır.
7.2.1
Benzetim Verisi için Uygun Radyal Tabanlı Fonksiyonun Seçimi
Bu aşamada, yukarıda tanımlanmış benzetim protokolünün ortaya koyduğu
ilişkiyi modellemek üzere oluşturulacak Hibrit RTFA modelinde kullanılacak olan
radyal tabanlı fonksiyon türüne karar verilmektedir. Bu amaçla Gauss, Cauchy, Çoklu
109
Kuadratik ve Ters Çoklu Kuadratik olmak üzere dört farlı radyal tabanlı fonksiyon
arasından seçim yapılmıştır. Her bir radyal tabanlı fonksiyona göre oluşturulmuş Hibrit
RTFA modelleri, ICOMP(IFIM)HM kriterine göre doğru değişken alt kümesinin
seçimindeki başarıları açısından karşılaştırılmış.
Hibrit RTFA modelinin diğer parametrelerinden ridge sabiti
‟nın seçiminde,
Hoerl, Kennard ve Baldwin (HKB) tarafından önerilen ridge kestiricisi modele
uyarlanmıştır. Regresyon ağaçları parametrelerinden
regresyon ağaçlarının diğer parametresi
, 5 olarak belirlenmiş,
içinse 2 ve 4 olmak üzere iki farklı alternatif
değerden veriye en iyi uyum gösteren seçilmiştir. Genetik algoritma parametrelerinden
nesil sayısı 15, popülasyon büyüklüğü 10, çaprazlama tipi tek biçimli, çaprazlama
olasılığı 0,5, mutasyon olasılığı 0,1 olarak sabitlenmiş ve optimizasyonda aşamasında
elitizm özelliği kullanılmıştır.
Yukarıda tanımlanmış olan amacı gerçekleştirmek üzere farklı örneklem
büyüklükleri (
) ve radyal tabanlı fonksiyonlar (Gauss, Cauchy,
Çoklu Kuadratik, Ters Çoklu Kuadratik) için olmak üzere toplam 16 Hibrit RTFA
modeli incelenmiştir. Her bir model için 100 benzetim yapılmış ve her bir modelin
doğru değişkenleri seçme yüzdeleri Tablo 7-1 ile verilmiştir.
Tablo 7-1 Farklı örneklem büyüklüğü ve radyal tabanlı fonksiyonlar için doğru değiĢken seçim
yüzdeleri
ICOMP(IFIM) H M
Radyal Tabanlı Fonksiyon Türü
Gauss
Cauchy
Çoklu Kuadratik
Ters-Çoklu Kuadratik
N
%
%
%
%
50
26
19
13
17
%
%
%
%
100
49
47
25
45
250
% 71
% 71
% 68
% 70
500
% 89
% 74
% 87
% 78
Tablo 7-1‟den anlaşılacağı gibi, Gauss türü radyal tabanlı fonksiyon kullanarak
oluşturulan Hibrit RTFA modelinin, doğru değişkenlerin belirlenmesi açısından diğer
fonksiyonları kullanarak oluşturan modellere göre daha iyi sonuç verdiği görülmektedir.
110
Bu nedenle benzetim verisi üzerine uygulama çalışmasının devamında Hibrit RTFA
modelleri Gauss tipi radyal tabanlı fonksiyon kullanılarak oluşturulmuştur.
7.2.2
DeğiĢken Seçimi
Çoklu doğrusal regresyon tahminleme problemlerinin çözümünde akla ilk gelen
yöntemlerden birisidir. Her ne kadar tanımladığımız benzetim protokolü ile üretilen veri
doğrusal regresyon için uygun olmasa da, bu özelliği nedeniyle bu aşamada ele
alınmıştır. Bu bağlamda benzetim çalışmasının ikinci aşaması, Hibrit RTFA ve klasik
çoklu doğrusal regresyon modellerinin performanslarının değişken seçimi açısından
karşılaştırılmasını içermektedir. Veri üretmekte kullanılacak olan benzetim protokolü,
daha önce yukarıda tanımlananın aynısıdır. Buradan hareketle Hibrit RTFA ve çoklu
doğrusal regresyon modelleri farklı örnek büyüklükleri (
) ve
değişken seçim kriterleri için 100‟er defa simüle edilmiş ve doğru değişkenlerin seçilme
yüzdeleri Tablo 7-2‟de verilmiştir.
Tablo 7-2 Farklı Örneklem Büyüklüğü ve Radyal Tabanlı Fonksiyonlar için Doğru Model Seçim
Yüzdeleri
MODEL TÜRÜ
n
Çoklu Doğrusal Regresyon Modeli
Hibrit RTFA
AIC
SBC
CAICF
ICOMP(IFIM) H M
AIC
SBC
CAICF
ICOMP(IFIM) H M
50
%17
%24
%19
%26
%10
%6
%14
%22
100
%58
%64
%50
%49
%12
%14
%24
%33
250
%78
%80
%84
%71
%3
%17
%45
%13
500
%87
%90
%87
%89
%0
%7
%24
%1
Tablo 7-2 ile verilen sonuçlardan da açıkça görüleceği gibi Hibrit RTFA modeli
değişken seçimi açısından doğrusal regresyonu modelinden kıyaslanamayacak ölçüde
üstündür. Ayrıca Hibrit RTFA modelin doğru değişkenleri seçme yüzdesi örneklem
büyüklüğündeki artışa bağlı olarak olarak artmaktadır. Benzetim protokolünde
tanımlanan oldukça yüksek dereceden doğrusal olmayan ilişkiye rağmen Hibrit-RBF
modeli tüm Değişken Seçim kriterleri için doğru model değişkenlerini başarılı bir
111
şekilde seçmektedir. Doğrusal regresyonun doğrusal olmayan yapılı Freidman benzetim
verisi üzerinde başarılı performans göstermemesi sürpriz değildir. Çünkü doğrusal
regresyon analizi hatalı model durumuna cevap verememekle beraber, tasarım matrisi
matrisinin tekil olması durumunda da sonuç vermemektedir. Diğer taraftan Hibrit
RTFA modeli güçlü fonksiyon yaklaştırma ve düzleştirme özellikleri sayesinde hatalı
tanımlanmış model sorunundan modeli korumaktadır. Ayrıca bünyesinde ridge
regresyon bulundurması ile tasarım matrisini tekilliği bir sorun yaratmamaktadır.
7.2.3
Benzetim Verisi için Tahminleme
Benzetim çalışmasının üçüncü ve son aşaması ise yukarıda tanımlanan benzetim
protokolü için Gauss tipi radyal tabanlı fonksiyon kullanılarak oluşturulmuş Hibrit
RTFA modelinin kestirim ve tahminleme başarısının ölçülmesidir. Bunun için
yukarıdaki benzetim protokolüne göre
büyüklüğünde örnekler
oluşturulmuştur. Her bir örnek büyüklüğü için üretilen örneklerin %80‟i eğitim veri
kümesi, %20‟si ise test veri kümesi olarak ayrılmıştır. Her bir gözlem sayısı için
öncelikle eğitim verileri kullanılarak model parametreleri belirlenmiş ve daha sonra
parametreleri belirlenmiş olan modeller, test verilerine uygulanmıştır. Böylece eğitim
sonucunda modelin ezberlemiş yada öğrenmiş olduğu ortaya çıkarılabilmektedir. Ayrıca
ezberleme sorunun oluşmadığından tam olarak emin olabilmek için çapraz doğrulama
yoluna gidilmiştir. Buna göre her bir gözlem sayısı için test veri kümesi için seçilen
%20‟lik veri dilimi 5 defa değiştirilerek tahminler yapılmıştır. Yapılan her bir tahmin
sonucu model performansını ölçmek üzere HKOK ve OMH değerleri hesaplanmış ve
sonuçlar Tablo 7-3‟te özetlenmiştir.
112
Tablo 7-3 Çapraz doğrulama sonuçları
Gözlem Sayısı
(Eğitim + Test)
Çapraz
Veri
Doğrulama
Türü
Eğitim
1
Test
Eğitim
2
Test
Eğitim
3
Test
Eğitim
4
Test
Eğitim
5
Test
Eğitim
Ortalama
Test
n=100
(80+20)
n=250
(200+50)
n=500
(400+100)
HKOK
OMH
HKOK
OMH
HKOK
OMH
6,47
7,30
6,61
6,16
6,95
7,47
6,72
7,72
6,12
6,56
6,58
7,04
5,14
5,96
5,36
5,14
5,39
5,99
5,50
6,42
4,94
5,33
5,26
5,77
7,22
6,52
7,11
7,30
7,36
6,49
6,52
8,36
6,86
7,43
7,01
7,22
5,64
5,10
5,63
5,42
5,61
5,25
5,10
6,79
5,45
5,90
5,49
5,69
7,22
6,52
7,11
7,29
7,36
6,49
6,74
6,40
6,79
6,44
7,04
6,63
5,64
5,10
5,63
5,42
5,61
5,25
5,38
5,05
5,35
5,21
5,52
5,21
Tablo 7-3 açıkça göstermektedir ki, Hibrit RTFA modeli ile tahminlemede
ezberleme sorunu ile karşılaşılmamıştır. Diğer taraftan Şekil 7-6 ve Şekil 7-7‟den de
görüleceği gibi Hibrit-RBF modeli veriye sadece eğitim verisi için değil test verisi
içinde çok iyi uyum göstermektedir. Bu özellik, Hibrit-RBF modelinin girdi ve çıktı
arasındaki ilişkiyi öğrenebildiği yönünde bir önerme için kanıt oluşturabilir.
113
ġekil 7-6 Eğitim veri kümeleri için tahminlenen ve gözlenen değerler
ġekil 7-7 Test veri kümeleri için tahminlenen ve gözlenen değerler
114
7.2.4
Benzetim ÇalıĢmasının Sonuçları
Yapılan benzetim çalışması, Gauss tipi radyal tabanlı fonksiyonunun, denenen
alternatifler arasında modellenen ilişki için en iyi seçim olduğu görülmüştür. Diğer
taraftan Hibrit RTFA modelinin değişken seçimindeki başarısı doğrusal regresyonla
karşılaştırılarak incelenmiş ve gözlem sayının artmasına bağlı olarak çok yüksek
olasılıklarla doğru model değişkenlerini belirlediği sonucuna varılmıştır. Son olarak
Hibrit RTFA modelinin kestirim ve tahminleme başarısı, bir önceki aşamada seçilen
açıklayıcı değişkenler kullanılarak HKOK ve OMH kriterlerine göre ölçülmüştür.
Sonuçlar göstermiştir ki, Hibrit RTFA modeli girdi ve çıktı arasında oldukça yüksek
dereceden doğrusal olmayan ilişki olduğu durumda bile oldukça etkili bir değişken
seçimi ve tahminleme aracıdır.
Uygulamanın buraya kadar ifade edilen ilk kısmında Hibrit RTFA modelinin
başarılı performansı ortaya konmuştur. Buradan hareketle modelimizin gerçek hayat
problemlerinde de kullanılabileceğini göstermek amacıyla takip eden kısımda finansal
piyasa verileri üzerinde bir uygulama çalışmasına daha yer verilmiştir.
7.3 Hibrit RTFA Modeli ile ĠMKB Ulusal 100 Endeks Yönünün Tahmini
Uygulama çalışmasının bu aşamasında, bir önceki kısımda benzetim verileri
üzerinde değişken seçimi ve tahminleme açısından oldukça iyi sonuçlar verdiği
gösterilen Hibrit RTFA modelinin finansal piyasa verileri üzerindeki performansı test
edilecektir.
Küreselleşmenin tüm dünyayı hızla etkisi altına aldığı, buna direnen ülkeleri ise
kendi sınırları içerisine izole ettiği günümüz koşullarında borsa endeks tahminleri çok
daha zor hale gelmiştir. Yatırım fazlası bulunan ülkeler özelleştirme, şirket birleşmeleri,
şirket satın alınması, yatırım teşvikleri, vergi muafiyetleri v.b. yollarla diğer ülkelerin
ekonomilerine ciddi katkılar yaratmaktadır. Bu nedenle küreselleşmeye açık ve
ekonomisi göreceli olarak zayıf olan ülkelerde borsa endeksleri, sadece kendi ülkesinde
gelişen olaylardan değil küreselleşmeye öncülük eden büyük ekonomilerdeki
115
gelişmelerden de etkilenmektedir. Bu tip zayıf ekonomiye sahip ülkelerin borsalarında
yabancıların payının artması kısa vadede ülkeye sıcak para girişi anlamında olumlu
görünmekle beraber sıcak paranın kontrolünün zorluğu nedeniyle ülkedeki küçük
istikrarsızlıklar, borsadan büyük kaçışlara neden olabilmektedir. Dolayısıyla ülke borsa
endekslerinin ülkenin mali politikası, siyasi gelişmeler, doğal afetler, borsaya açık
şirketlerin mali yapısı v.b. etkenlerin yanında, küreselleşmenin sonucu olarak büyük
ekonomiye sahip ülkelerin borsa endekslerinden de etkilendiği söylenebilir.
Borsa endeks yönü, yukarıda ifade edildiği gibi çok fazla etkene bağlı olarak
değişim gösterebildiği için tahmini oldukça zor olmakla beraber yatırımcılar için
oldukça önemlidir. Bu bağlamda çalışmamızda, İMKB Ulusal 100 (IMKB) Endeksi‟nin
yönü, kendisinin ve diğer uluslararası endeks değerlerinin gecikmeli değerleri ile
tahminlenmeye çalışmıştır. Uygulamanın bu kısmı endeks yönü tahmini ile ilgili giriş ve
kurulacak modelin alternatif değişkenlerinin belirlenmesi, değişken seçimi, tahminleme
ve elde edilen sonuçların yorumlanması şeklinde yapılandırılmıştır.
7.3.1
DeğiĢkenlerin Belirlenmesi
Menkul kıymet borsalarında yatırımcıların hisse senetlerinin fiyatlarına ilişkin
tahmin yaparak kar elde etmeye çalışmaktadırlar. Yatırımcılar temel ve teknik analiz
sonucu hisse senetlerinin ya da portföylerin yönünü tahmin ederek gerekli alım satım
kararını vermektedirler. Menkul kıymet piyasaların birbirinden çok fazla etkilendiği göz
önüne alınırsa piyasaların yönünün belirlenmesinde etkili olan uluslararası piyasaları
dikkatle incelemek gerekmektedir. Türkiye gibi gelişmekte olan ülkelerin menkul
kıymet piyasalarında bu etkinin varlığı birçok çalışmada farklı metotlar kullanılarak
araştırılmıştır.
Literatürde IMKB endeksindeki değişimin açıklanması üzerinde yapılmış birçok
çalışma vardır. Bu çalışmalardan bazıları İMKB endeksindeki değişimin kendi
gecikmeli değerleri ile açıklanması üzerine olmakla beraber İMKB endeksi ile ilişkili
olan uluslararası endeks değerlerinin belirlenmesi üzerine de çalışmalar mevcuttur.
116
Bunlardan Korkmaz v.d. (2011) Türkiye ve Amerika Birleşik Devletleri borsaları
arasında yaptıkları nedensellik çalışmasında Türkiye borsasının Amerikan borsasından
etkilendiğini göstermişlerdir. Ozun (2007) ise gelişmiş ülke borsalarındaki volatilitenin
Brezilya ve İMKB üzerindeki etkisini incelemiştir. Bu çalışmada Ozun (2007), Avrupa
borsalarının İMKB endeksi üzerindeki açıklayıcılık oranının Amerikan endekslerinin
etkisine göre daha fazla olduğunu göstermiş olmakla beraber Amerikan endekslerinin de
pozitif yönde bir etkisi olduğunu belirtmiştir. Diğer taraftan Vuran (2010) çalışmasında
IMKB ile FTSE-100, Dax ve Bovespa endeksleri ile eş bütünleşik olduğunu
göstermiştir. IMKB-100 endeks değerinin tahminlenmesi üzerinde yaptıkları çalışmada
Boyacıoğlu ve Avcı (2010), makro ekonomik değişkenlerin yanında DJI, DAX ve
BOVESPA endekslerinin açıklayıcı değişken olarak kullanmışlardır.
Çinko ve Avcı (2007) çalışmalarında İMKB Ulusal 100 endeksinin günlük ve
seanslık getirilerinin hesaplanmasında yapay sinir ağları ve regresyon modellerini
karşılaştırmış ve yapay sinir ağlarının daha iyi tahminler verdiğini göstermişlerdir.
Ayrıca bu çalışmada açıklayıcı değişken olarak sadece endeksin kendi gecikmeli
değerleri kullanılmıştır. Özdemir (2011) v.d ise çalışmalarında IMKB Ulusal 100
endeksinin yönünü tahminlemede makro ekonomik değişkenlerin yanında EM (MSCI
Emerging Markets Index), EU (MSCI European Index) ve S&P500 endekslerini
kullanmışlardır.
Buraya kadar verilmiş olan literatür taramasından yararlanarak İMKB100
endeksinin yönünün tahminlenmesinde kullanılacak uluslarası endekslerden oluşan
değişkenler Tablo 7-4 ile verilmiştir. Ayrıca dolar kurundaki artışlardan tahmin
modelimizin etkilenmemesi için IMKB100 endeksinin dolar getirisi kullanılmıştır.
117
Tablo 7-4 Modelde kullanılan endeksler
Kısalt ma
DeğiĢken
Adı
1
İMKB100
IMKB
2
3
4
5
6
S&P500
DAX
FTSE100
NIK225
BVSP
SP
DAX
FTSE
NIK
BVSP
7
EU
EU
8
EM
EM
Açıkla ma
İstanbul Menkul Kıymetler Borsası Ulusal 100 Getiri
Dolar bazında Endeksi
Standard & Poor ‟s 500 Getiri Endeksi
Almanya Borsası Getiri Endeksi
Birleşik Krallık Getiri 100 Endeksi
Osaka 225 Getiri Endeksi
Sao Paolo Borsa Getiri Endeksi
European Index: 16 Avrupa ülkesinin hisse senedi
piyasasının performansını gösteren piyasa değeri
ağırlıklı bir endekstir (Özdemir, Tolun, & Demirci,
2011)
MSCI Emerging Markets Index: 21 yükselen piyasa
ekonomisinin hisse senedi piyasa performansını
gösteren piyasa değeri ağırlıklı bir endekstir
(Özdemir, Tolun, & Demirci, 2011) .
Uygulama çalışmasının bu kısmında yapılacak analizlere ilişkin akış diyagramı
Şekil 7-8 ile verilmektedir.
VERĠNĠN
HAZIRLANMASI
EĞĠTĠM VERĠ KÜMESĠ
BÜYÜKLÜĞÜNÜN
BELĠRLENMESĠ
EN ĠYĠ MODELĠN
EN ĠYĠ RADYAL TABANLI
BELĠRLENMESĠ
FONKSĠYONUN BELĠRLENMESĠ
ENDEKS YÖNÜ TAHMĠNĠ
ÇAPRAZ DOĞRULAMA
ġekil 7-8 Endeks yönü tahmini uygulaması için akıĢ diyagramı
118
7.3.2
Verilerin Analiz için Hazırlanması
Bu aşamada öncelikle Tablo 7-4 ile verilen değişkenlere ait günlük endeks
değerlerini içeren veriler elde edilmiştir. IMKB değişkeni www.imkb.gov.tr, EU
değişkeni
http://www.msci.com/products/indices/tools/
http://www.msci.com/products/indices/country_and_regional/em/,
ve
EM
değişkeni
diğer tüm değişkenlere ait
veriler ise finance.yahoo.com internet sitesinden elde edilmiştir. Çalışmada kullanılan
veriler 5 Ocak 2009 – 22 Şubat 2011 tarihleri arasındaki İMKB‟de gerçekleştirilen 536
işlem gününe aittir. Belirlenen tarihlerde İMKB‟de işlem günü olup ta diğer uluslararası
borsalarda işlem gününe denk gelmeyen gözlemler için borsaların bir önceki
gerçekleşmiş olan işlem gününe ait kapanış değerleri kullanılmıştır. Çalışmada amaç hali
hazırda gerçekleşmiş gözlemlerden yararlanarak bir sonraki işlem gününün İMKB100
endeksinin yönünü belirlemek olduğu için her bir değişkene ait gecikmeli değerlerden
oluşan başka değişkenler oluşturulmuştur. Borsaların birbirlerini hızla etkilemesinden
dolayı borsa gecikmeleri 1 ve 2 gecikme ile sınırlandırılmıştır. Gecikmeli değişkenler
oluşturulurken sadece bir ve iki gecikmeli değişkenler kullanılmasıyla 536 olan gözlem
sayısı 534‟e düşmüştür. Yeni değişkenlere isim verirken bir değişkenlerin daha önce
tanımlanmış olan adlarının sonuna, bir gün gecikmeli değerler için “1”, iki gün
gecikmeli değerler için “2” sayıları eklenmiştir. Bu tanımlamaya göre örneğin IMKB
değişkeninin bir gün gecikmeli değerlerinden oluşan değişken IMKB1 ile iki gün
gecikmeli değerlerinden oluşan değişken ise IMKB2 ile gösterilmektedir.
Değişkenlerin gecikmeli değerleri hesaplanırken saat farkları da dikkate
alınmıştır. Buna göre Japonya ile olan saat farkı nedeniyle NIK değişkeninin gecikmeli
değerleri hesaplanırken IMKB kapanmadan önce kapanmış olan son iki endeks değeri
alınmıştır. Diğer bir ifade ile bugünün IMKB endeksini tahminlemek üzere gecikmeli
değerler olarak aynı günün NIK değeri (NIK1) ve bir gün öncesinin NIK değeri (NIK2)
dikkate alınmıştır. Buna göre veri kümesinin düzenlenmesini ardından değişken seçimi
aşamasına geçilmiştir.
119
7.3.3
ĠMKB Ulusal 100 Endeksi Ġçin DeğiĢken Seçimi
Bu aşamada yapılmak istenen, tanımlanmış olan uluslararası endeks değerlerinin
gecikmeli değerlerinden hangilerinin IMKB 100 endeksi üzerinde etkili olduğunun
belirlenmesi ve tahminleme aşamasına hazırlık yapılmasıdır. Bu bağlamda ilgili
bağımsız değişkenlerin uygun alt kümesini belirlemek amacıyla daha önce tanıtılmış
olan kullanıcı arayüzleri kullanılarak değişken seçimi yapılmıştır. Değişken seçimi
aşamasında kullanılan model parametreleri Tablo 7-5 ile verilmiştir.
Tablo 7-5 DeğiĢken seçimi için model parametreleri
Hibrit RTFA Modeli Parametreleri
Genetik Algoritma Parametreleri
30
Ġterasyon Sayısı
DeğiĢken
Kriteri
ICOMP(IFIM) H M
Popülasyon Sayısı
25
RTF Türü
Gauss,
Cauchy,
Çoklu Kuadratik,
Ters
Çoklu
Kuadratik
Çaprazlama Türü
Tek Nokta
Regresyon Türü
Global Ridge
Ridge Kestiricisi
p mi n
Hoerl Kennard
5
Seçim
Çaprazlama
Olasılığı
Mutasyon Olasılığı
Elitizm
0,5
0,1
Evet
Değişken seçimi aşaması dört farklı radyal tabanlı fonksiyonun her biri için
ayrıca yapılmış, her bir model için seçilen değişkenler 1, seçilmeyen değişkenler 0 ile
gösterilerek Tablo 7-6 „da verilmiştir.
120
Tablo 7-6 DeğiĢken Seçimi Sonuçları
Y=IMKB
IMKB1
SP1
DAX1
FTSE1
NIK1
BVSP1
EU1
EM1
IMKB2
SP2
DAX2
FTSE2
NIK2
BVSP2
EU2
EM2
Tam
Model
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Gauss
Cauchy
0
1
1
1
1
1
1
0
0
0
1
0
1
1
0
1
0
1
0
0
1
1
1
1
0
0
1
0
1
1
1
1
Çoklu
Kuadratik
1
0
1
0
1
1
1
1
0
1
1
1
1
1
1
1
Ters Çoklu
Kuadratik
0
1
1
0
1
1
1
1
0
1
0
0
1
1
1
1
Toplam
Seçilim
1
3
3
1
4
4
4
3
0
2
3
1
4
4
3
4
Tablo 7-6‟dan da görüldüğü gibi her bir radyal tabanlı fonksiyona karşılık farklı
bir değişken alt kümesi elde edilmiştir. Oluşturulan dört farklı modelin dördünde de yer
alan değişkenler NIK1, BVSP1, EU1, NIK2, BVSP2 ve EM2 değişkenleridir. Buradan
hareketle bu değişkenlerin IMKB değişkenindeki değişimi açıklamakta diğerlerinde göre
daha önemli oldukları söylenebilir. Diğer taraftan, SP1, DAX1, EM1, DAX2 ve EU2
değişkenleri toplam dört modelin üçünde yer aldıkları görülmektedir. Bu bağlamda bu
iki değişken gruplarından oluşan ayrı iki model daha oluşturulmuştur. Buna göre her
dört model tarafından da seçilen değişkenler Model 6, en az 3 defa seçilen değişkenler
ise Model 7 olarak adlandırılmış ve çalışmanın devam eden kısmına dahil edilmiştir.
Değişken seçimi çalışmasından çıkan ilginç bir sonuç ise IMKB2 değişkeninin
hiç, IMKB1 değişkeninin ise sadece bir defa seçilmiş olmasıdır. Diğer bir ifade ile
İMKB Ulusal 100 endeksi kendi gecikmeli değerlerinin değil, diğer uluslararası
endekslerin etkisinde kalmaktadır. Bu sonuç uygulama çalışmamızın giriş kısmında
değindiğimiz küreselleşme ile ilgili analizlerimizi de doğrular niteliktedir.
121
Yukarıda Tablo 7-6 ile verilen ve sonrada oluşturulan iki modelden hangisinin
daha iyi olduğunun anlaşılabilmesi için her bir model kullanılarak ayrı ayrı tahminler
yapılmış ve tahmin sonuçlarına göre karar verilmeye çalışılmıştır. Bu bağlamda devam
eden kısımda tam model, Hibrit RTFA modeli ile seçilmiş olan dört farklı model ve
sonradan oluşturduğumuz 2 model için tahminler yapılmış ve sonuçlar karşılaştırılarak
en iyi model seçilmiştir.
7.3.4
ĠMKB Ulusal 100 Endeksinin Yönünün Tahmini
Bu kısımda, bir önceki aşamada farklı radyal tabanlı fonksiyonlar kullanılarak
Hibrit RTFA modeli tarafından seçilen değişkenlere bağlı olarak belirlenen modeller
için tahminler yapılıp hangi modelin daha iyi sonuç verdiğine karar verilecektir. Bu
bağlamda karşılaştırılacak modeller için bağımlı ve bağımsız değişkenler Tablo 7-7 ile
gösterilmiştir.
Tablo 7-7 DeğiĢken Seçimi Sonucu OluĢan Modeller
Model
Bağımlı
DeğiĢken
Model 1
(Tam model)
IMKB100
Model 2
(Gauss)
Model 3
(Cauchy)
Model 4
(Çoklu Kuadratik)
Model 5
(Ters
Çoklu
Kuadratik)
Model 6
(4 defa seçilenler)
Model 7
(3 veya 4 defa
seçilenler )
IMKB100
IMKB100
IMKB100
Bağımsız DeğiĢkenler
IMKB1–SP1–DAX1–FTSE1-NIK1-BVSP1EU1-EM1 IMKB2 - SP2–DAX2–FTSE2-NIK2BVSP2-EU2-EM2
SP1–DAX1–FTSE1-NIK1-BVSP1-EU1-DAX2 NIK2- BVSP2-EM2
SP1–NIK1-BVSP1-EU1-EM1–DAX2 -NIK2BVSP2-EU2-EM2
IMKB1–DAX1 -NIK1-BVSP1-EU1-EM1-SP2–
DAX2–FTSE2-NIK2-BVSP2-EU2-EM2
IMKB100
SP1–DAX1–NIK1-BVSP1-EU1-EM1-SP2–
NIK2-BVSP2-EU2-EM2
IMKB100
NIK1-BVSP1-EU1- NIK2-BVSP2- EM2
IMKB100
SP1–DAX1–NIK1-BVSP1-EU1-EM1-DAX2NIK2-BVSP2-EU2-EM2
Tablo 7-7 ile verilmiş olan 7 modelin karşılaştırılması amacıyla her bir model
için ayrı ayrı tahminler yapılacaktır. Söz konusu tahmin endeks yönü, dolayısıyla al-sat
122
kararı olduğu için tahminleri karşılaştırmada kullanılacak kriterlerden birisi endeks
yönünün doğru tahmin yüzdesi olarak belirlenmiştir. Ayrıca yapılan tahminler için
HKOK ve OMH değerleri de diğer karşılaştırma kriterleri olarak değerlendirilmiştir.
Çalışmanın sonuçlarının yatırımcı açısından kazancını belirlemesi amacıyla
parasal değer alan ikinci bir karşılaştırma kriteri belirlenmesinin gerekliliği görülmüştür.
Belirlenecek tahmin döneminin başında IMKB100 endeksine 100 dolar yatırım yapıldığı
varsayılarak her bir model için ayrı ayrı günlük tahminlerle al-sat kararları verilmiş ve
bu kararlara göre yatırılmış olan 100 dolar (100 Dolar Kriteri), borsadaki gerçek getiri
ile kümülatif olarak güncellenecektir. Tahmin yapılan dönem sonunda 100 doları daha
yüksek miktara ulaştıran modelin bu kriter açısından diğerlerinden daha iyi sonuç
verdiği kabul edilecektir.
Tahminleme yapılacak dönem 5 Mayıs 2010 - 22 Şubat 2011 arasındaki son 200
işlem günü olarak belirlenmiştir. Ayrıca bu 200 işlem günü kendi içinde 20 günlük
kısımlara ayrılmıştır. Bunun nedeni, borsa endeksleri arasındaki sürekli değişen dinamik
yapıya uygun şekilde verinin güncellenmesi gerekliliğidir. Buna göre 5 Mayıs 2010
tarihinden önceki, belirlenmiş sayıda güne ait veri ile Hibrit RTFA modelleri eğitilecek,
daha sonra sonra 5 Mayıs 2010 - 2 Haziran 2010 arasındaki 20 işlem günlük için kısım
için tahminler yapılacaktır. Bu işlem bittikten sonra 3 Haziran 2010 tarihinden önceki
aynı belirlenmiş sayıda veri için Hibrit RTFA modeli eğitilecek ve 3 Haziran – 30
Haziran arası 20 günlük kısım için tahminler yapılacaktır. Bu işlemin 9 defa
tekrarlanması ile toplamda 200 günlük tahmin dönemi tamamlanmış olmaktadır. Diğer
taraftan, 100 dolar ile başlayan yatırımın her 20 günlük kısmın sonunda ulaştığı miktar,
bir sonraki 20 günlük kısmın başlangıç değeri olarak alınmıştır. Dolayısıyla sonuçta tam
200 gün sonunda ele alınmış olan modellere göre al-sat yapan bir kişinin yatırdığı 100
doların ulaştığı miktar görülmektedir.
Yukarıda açıklanan tahminleme sürecinde belirlenmesi gereken önemli bir
parametre, modellerin eğitiminde kullanılacak gözlem sayısının, diğer bir ifade ile işlem
123
günü sayısının belirlenmesidir. Finansal piyasaların oldukça dinamik ve sürekli değişen
yapıda olması nedeniyle genellikle yapay sinir ağlarında geçerli olan “ne kadar çok veri
o kadar iyi öğrenme” yaklaşımı bu uygulama için geçerli olmayabilir. Bu nedenle
tahminler farklı büyüklükteki eğitim veri kümeleri (100, 150, 200, 250, 300, 334) için
yapılarak uygun eğitim veri kümesi büyüklüğünün belirlenmesi amaçlanmıştır.
Tahminleme sürecinde daha önce belirlenmiş olan 7 farklı model ve bu
modellerin her birisi için kullanılan 4 farklı radyal tabanlı fonksiyon ile
adet
Hibrit RTFA modeli yapılandırılmıştır. Bu 28 adet modelin her birisi de yine yukarıda
belirtilmiş olan 6 farklı büyüklükteki eğitim veri kümeleri için ayrı ayrı oluşturulmuş
dolayısıyla toplamda
farklı model için 200 günlük tahminler yapılmıştır.
Yapılan tahminlerin ele alınmış olan 7 farklı model ve 4 farklı radyal tabanlı fonksiyon
üzerinden ortalama değerleri aşağıdaki Tablo 7-8 ile verilmiştir.
Tablo 7-8 Yapılan Tahminlerin ele alınan 7 model üzerinden ortalamaları
KarĢılaĢtırma
Kriteri
100 Dolar
Yön
HKOK
OMS
100
182.675
66.643
0,0148
0,0111
Eğitim Veri Kümesi Büyüklüğü
150
200
250
300
179.522
192.010
200.844
192.490
61.839
64.214
66.446
66.214
0,0156
0,016
0,016
0,016
0,0115
0,012
0,012
0,012
350
182.624
63.554
0,0168
0,013
Tablo 7-8 ile verilen sonuçlara göre 100 Dolar kriterine göre eğitim veri kümesi
büyüklüğüne bağlı olarak tahminler arasında büyük farklar görülmektedir. Diğer taraftan
Yön kriterine bakımından büyük farklılıklar gözlenmemiştir. Buna göre eğitim veri
kümesi büyüklüğü 250 olduğunda IMKB100 endeksinin yönü yaklaşık %66 doğru
tahminlenmekte ve yatırılan 100 dolar, 200 işlem günü sonunda ortalama 200 dolara
ulaşmaktadır. Buradan hareketle daha fazla kazanç sağlaması nedeniyle eğitim veri
kümesi büyüklüğü 250 olarak belirlenmiştir. Diğer taraftan, aynı dönemde yatırılmış ve
hiç al-sat yapılmamış olan 100 dolarlık yatırımın yaklaşık 101 dolara ulaştığı göz önüne
alındığında Hibrit RTFA modeli verilen al-sat kararlarına göre yönlendirilen yatırımın
oldukça karlı olduğu gözlenmiştir.
124
Tablo 7-8‟de çıkan diğer bir sonuç ise daha önce tanımlanmış olan HKOK ve
OMH kriterleri tüm eğitim veri büyüklükler için birbirine çok yakın olmasıdır. BU
nedenle ilgili kriterler eğitim veri kümesi büyüklüğünün (250) belirlenmesinde dikkate
alınmamıştır.
Bu noktada üzerinde karar verilmesi gereken diğer bir husus ise Hibrit RTFA
modelinin mimarisinde kullanılacak radyal tabanlı fonksiyonun belirlenmesidir. Bu
bağlamda yapılmış olan tahminlerin farklı eğitim kümesi büyüklükleri ve farklı modeller
üzerinden hesaplanan ortalamaları, her bir radyal tabanlı fonksiyon için Tablo 7-9 ile
özetlenmiştir.
Tablo 7-9 Tüm Modeller ve Eğitim veri kümesi büyüklükleri üzerinden ortalamalar
KarĢılaĢtırma
Kriteri
100 Dolar
Yön
HKOK
OMH
Gauss
Cauchy
189,617
63,988
0,017
0,014
189,6174
65,34524
0,017
0,013
Çoklu
Kuadratik
191,469
65,262
0,016
0,013
Ters Çoklu Kuadratik
189,272
64,679
0,016
0,013
Tablo 7-9 ile verilen ortalama değerler, gerek Yön kriteri gerekse 100 Dolar
kriteri açısından büyük farklılıklar göstermemekle beraber, Çoklu Kuadratik tipi radyal
tabanlı fonksiyon kullanılarak oluşturulan Hibrit RTFA modelleri ile elde edilen
tahminlerin biraz daha iyi olduğu görülmektedir. Diğer taraftan HKOK ve OMH
kriterleri için hesaplanan değerler de birbirine çok yakın olmakla beraber Çoklu
Kuadratik tipi fonksiyon biraz daha küçük hata vermektedir. Burada ifade edilen
nedenlerle Hibrit RTFA modelinin mimarisinde kullanılacak olan radyal tabanlı
fonksiyon Çoklu Kuadratik olarak seçilmiştir.
Çalışmanın değişken seçimi aşamasında verilecek olan son karar, ele alınan 7
modelden hangisini daha iyi olduğuna karar verilmesidir. Bu kararın verilmesi ile İMKB
Ulusal 100 endeksinin yönünün tahminlenmesinde etkili olan değişkenler belirlenmiş
olacaktır. Bu kararın verilmesine yardımcı olmak üzere, 6 farklı eğitim veri kümesi
125
büyüklüğü ve 4 farklı radyal tabanlı fonksiyon üzerinden yapılmış olan tahminlerin
ortalaması Tablo 7-10‟da gösterilmiştir.
Tablo 7-10 Tüm eğitim veri kümesi büyüklükleri ve RTF’lar üzerinden ortalamalar
KarĢılaĢtırma
Kriteri
100 Dolar
Yön
HKOK
OMH
Model
1
189,078
64,917
0,0166
0,0135
Model
2
190,189
65,000
0,01655
0,0134
Model
3
187,987
64,792
0,0166
0,0135
Model
4
187,076
64,667
0,0166
0,0134
Model 5
187,118
64,625
0,0166
0,0134
Model
6
188,403
64,792
0,0166
0,0134
Model
7
188,675
64,938
0,0165
0,0134
Tablo 7-10‟dan açıkça görüldüğü gibi tüm hata kriterlerine göre farklı modeller
arasında büyük farklılıklar yoktur. Diğer taraftan, Gauss tipi radyal tabanlı fonksiyon
kullanılarak oluşturulan Model 2, az farklarla olsa da diğer modellerden daha iyi
sonuçlar vermiştir. Uygulamanın benzetim çalışması kısmında da Gauss tipi fonksiyon
kullanılarak yapılan değişken seçiminin en iyi modeli verdiği görülmüştür.
Seçilen modelden İMKB Ulusal 100 endeks yönünün tahmininde SP1, DAX1,
FTSE1, NIK1, BVSP1, EU1, DAX2, NIK2, BVSP2 ve EM2 değişkenlerinin etkili
olduğu gözlenmiştir. İMKB Ulusal 100 endeksini kendi gecikmeli değerlerinin modelde
yer almaması, bunun yanında diğer endeks değerlerinin özellikle bir gecikmeli
değerlerinden etkilenmesi,
Türkiye finansal
piyasalarının
uluslararası
finansal
piyasalarla olan olan hızlı ve yoğun etkileşimini göstermektedir.
Model 2‟nin seçilmesi ile ortaya çıkan diğer bir sonuç ise toplamda 16 olan
bağımsız değişken sayısının 10‟a düşürülmüş olmasıdır. Değişken seçimi yapılmış olan
modelin hem model karmaşıklığını indirgediği hem de ele alınan tüm hata kriterleri
açısından tam modele göre daha iyi sonuçlar verdiği görülmüştür. Buradan hareketle
değişken seçiminde kullandığımız ICOMP(IFIM)YM kriterinin oldukça iyi bir
performans gösterdiğini ortaya çıkarmaktadır.
Bu aşamaya kadar tahminleme modeli ile verilen kararlar özetlenecek olursa;
eğitim verisi büyüklüğü 250 olan, mimarisi Çoklu Kuadratik radyal tabanlı fonksiyon ile
126
oluşturulan ve Gauss radyal tabanlı fonksiyonu kullanılarak seçilmiş Hibrit RTFA
modeli İMKB Ulusal 100 endeksinin yönünün tahmininde en iyi sonuçları vermektedir.
İfade edilen bu kombinasyon ile 20 günlük kısımlardan oluşan 200 günlük tahmin
dönemi için elde edilmiş detaylı sonuçlar Tablo 7-11 ile verilmektedir.
Tablo 7-11 Model 2 için 200 iĢlem günlük tahmin
Tahminleme Dönemi
BaĢlangıç
20. Gün Sonu
40. Gün Sonu
60. Gün Sonu
80. Gün Sonu
100. Gün Sonu
120. Gün Sonu
140. Gün Sonu
160. Gün Sonu
180. Gün Sonu
200. Gün Sonu
Hibrit RTFA Modeline Göre
Verilen Al-Sat Kararları
100
117,8346
128,2444
145,8518
153,3419
171,9641
185,0689
162,6970
176,5294
186,1654
202,0610
IMKB100 Endeksi
100
91,2655
90,6202
104,5077
99.7200
114.4346
131.0021
113.3602
112.0803
108,9440
105,5242
Tablo 7-11 ile Hibrit RTFA modelini önerdiği al-sat kararlarına göre yapılan 100
dolarlık yatırımın 200 gün sonunda yaklaşık 202 dolara ulaştığı görülmektedir. Aynı
dönemde yapılan 100 dolarlık yatırım, hiçbir al-sat yapılmaması durumunda yaklaşık
105 dolar olmaktadır. Bu sonuçlar itibariyle Hibrit RTFA modelinin endeks yönü
tahmininde oldukça başarılı olduğu görülmektedir. Ayrıca Tablo 7-11 ile özetlenmiş
olan sonuçlar Şekil 7-9‟dan da anlaşılmaktadır.
127
ġekil 7-9Tahmin dönemi boyunca Hibrit RFTA modeli ile verilen al-sat kararları ve IMKB100
endeksinin seyri
Şekil 7-9 ile tahminleme yapılan on tane 20 günlük olmak üzere toplam 200
günlük dönemin 9 tanesinde Hibrit RTFA modeli ile verilen al-sat kararlarına hareket
edilmesi durumunda sürekli yatırımın değerlendiği görülmektedir. Bu sürekli artış
sadece endeksin artışta olduğu dönemlerde değil, gerçek endeks değerini azalışta olduğu
dönemlerde de sağlanmıştır.
Buraya kadar yapılan bütün tahminlerde 200 işlem günü için yapılan tahminlerin
sonuçları verilmiştir. Bu tahminleme sürecinden yapılan işlemlerin daha iyi
anlaşılabilmesi için ele alınan 200 günlük tahmin döneminin ilk 20 günlük kısmı detaylı
olarak Tablo 7-12 ile verilmiştir.
128
Tablo 7-12 20 iĢlem günlük tahminler için yatırımın seyri
Günler
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Endeks Yönü
+
+
+
+
+
+
+
+
+
Endeks Yönü Tahmini
+
+
+
+
+
+
+
+
+
+
-
Karar
Sat
Al
Sat
Al
Sat
Bekle
Al
Sat
Bekle
Al
Sat
Bekle
Al
Sat
Al
Bekle
Bekle
Bekle
Bekle
Sat
Al-Sat Var
Al-Sat Yok
100.0000
97.2299
97,5386
97,5386
107,8638
107,8638
107,8638
108,5335
108,5335
108,5335
110,8596
110,8596
110,8596
112,5537
112,5537
117,5910
119,3674
121,7044
118,6782
117,8346
117,8346
94,8367
87,8112
97,1066
96,0809
99,1060
99,7213
95,1962
94,8693
96,9026
90,0334
89,3095
90,6742
85,6230
89,4550
90,8064
92,5842
90,2821
89,6404
91,2655
Tablo 7-12‟den anlaşılacağı gibi, borsada iken ertesi günün endeks yönü pozitif
olarak tahminlendiğinde borsada beklenmekte, negatif olarak tahminlendiğinde ise satış
kararı verilmektedir. Diğer taraftan borsa dışında iken ertesi günün pozitif
tahminlenmesi durumunda alım yapılmakta, negatif tahminlenmesi durumunda ise
beklenmektedir. Burada yapılan tahminlerde alım satım işlem komisyon ücretleri ihmal
edilmiştir. Tablo 7-12 ile verilen tahminlerde her al-sat işlemi için yatırımdan binde bir
oranında komisyon kesilmesi durumunda 100 doların ulaşacağı değer 117,8346 yerine
116,8951 dolar olmaktadır. Buradan, Hibrit RTFA modeli ile yapılan tahminlerin gerçek
piyasa ortamından çok fazla etkilenmeyeceği sonucuna varılmaktadır.
129
Tablo 7-12 ile verilen al-sat kararlarının belirlenmesinde kullanılan Hibrit RTFA
modeli, tahmin döneminden geriye doğru 250 günlük verinin kullanılmasıyla elde
edilmiştir. Eğitim sonucu elde edilen Hibrit RTFA modeli (7.3) ile gösterilmiştir.
0,1951
1+0,0010,1121
0,1951
0,1578
0,1195 0,14501+
1+0,00130,1065
1+0,0010,1121
5]}
0,1951
1+0,00130,1065
0,1418
0,1195+
0,1060
0,1195 0,3575{1+
1
1+0,01770,0451
0,1951
0,0670
1+0,0010,1121
0,1578
0,1951
0,1418
0,1951
7
0,1951
1+0,00080,1231
0,1951
0,1578
1+0,00080,1231
0,1418
1+0,00800,0459
0,1578
0,1418
1+0,01710,0822
0,1578
0,1195 0,03261+
+0,00130,1065
0,1578
⁡
0,1418
1+0,00080,1231
1+0,01950,0551
0,1951
0,121
0,119
(7.3)
Buraya kadar yapılan tahminlerde verinin belirli bir bir kısmında Hibrit RTFA
modeli eğitilmiş, daha sonra 20 günlük kısımda ise test (tahmin yapılması) edilmiştir.
Ancak herhangi bir yapay sinir ağı modelini geçerliliğinin sınanmasında verinin eğitimtest olarak ayrılması yeterli görülmez. Bunların yanında çapraz doğrulama ile modelin
geçerliliği sınanmalıdır. Bu bağlamda devam eden kısımda, yapılmış olunan tahminlerin
güvenilirliğinin araştırılması açısından çapraz doğrulama yapılmıştır.
130
7.3.5
Çapraz Doğrulama ile Model Tutarlılığının Kontrolü
Bir önceki aşamada modeller belirli bir sayıda veri içeren eğitim veri kümesi için
eğitilmiş ve 20 gün için tahminler yapılmıştır. Buradaki tahminlerin yapıldığı verinin 20
günlük kısmı, test verisi görevini görmektedir. Daha önce Tablo 7-7 ile verildiği gibi
tahminlerin eğitim ve test verileri için yaptıkları tahminlerin tutarlı olduğu gösterilmişti.
Ancak bu tutarlılığın çapraz doğrulama ile bir kez daha sağlamasını yapılması, yapay
sinir ağları literatüründe yapılması beklenen bir çalışmadır. Bu bağlamda çapraz
doğrulama yapılmak üzere daha önce en iyi olarak belirlenen, Model 2 ele alınmıştır.
Gözlem sayısındaki tutarlılığı sağlamak için 534 gözlemin ilk dört tanesi silinerek 530
gözlemden oluşan yeni veri seti hazırlanmıştır. Bu veri setinin ilk 250 tanesi ile model
eğitilmiş, takip eden 20 tanesi için tahmin yapılmıştır. Daha sonra sürekli baştan 20 veri
silinip aynı süreç tekrarlanarak 14 farklı dönem için elde edilen tahmin değerleri çapraz
doğrulama için kullanılmıştır. Buna göre sözü edilen 14 farklı dönem için yapılan
tahminlere ait karşılaştırma kriteri ve hata değerleri Tablo 7-13 ile verilmiştir.
131
0,012
0,011
0,009
0,011
0,090
0,016
0,013
0,015
0,012
0,034
0,027
0,017
0,013
Eğitim
0,016
Test
0,014
Dönem 12
0,018
Eğitim
0,009
0,016
0,012
Test
0,011
Dönem 13
0,010
Dönem 14
0,013
0,019
0,013
0,011
Eğitim
0,013
0,025
0,015
0,012
Test
0,017
Ortalama
0,014
0,012
0,014
0,012
Eğitim
0,010
0,015
0,016
0,012
Test
0,0122
OMH
0,014
0,012
Eğitim
0,013
HKOK
0,017
0,013
Test
0,017
Dönem 11
Eğitim
0,018
Dönem 7
Test
0,016
Dönem 8
Eğitim
0,019
Dönem 9
0,010
Test
0,015
Dönem 10
0,013
Eğitim
Eğitim
0,019
Test
0,013
Test
0,014
Eğitim
0,017
Eğitim
Test
0,019
Test
Çapraz
Doğrulama
Test
0,015
Eğitim
OMH
Eğitim
Eğitim
0,019
Test
HKOK
Test
Çapraz
Doğrulama
Dönem 6
OMH
Eğitim
Dönem 4
Dönem 3
Dönem 2
Dönem 1
Çapraz
Doğrulama
Dönem 5
HKOK
Test
Tablo 7-13 En iyi model için çapraz doğrulama sonuçları
0,016
0,013
Tablo 7-13‟ten anlaşılacağı gibi çapraz doğrulama için ele alınan her bir döneme
karşılık yapılan tahminlere ait hata değerleri ile ortalama hata değerleri hem eğitim hem
132
de test verisi için birbirine oldukça yakındır. Dolayısıyla yapılan tahminlerin başarısının
seçilen veri kümesine bağlı olmadığı dolayısıyla rastlantısallık içermediği sonucuna
varılmıştır.
7.3.6
ĠMKB
Ulusal
100
Endeks
Yönü
Tahmini
Uygulama
Sonuçların
Yorumlanması
Uygulama çalışmasının bu kısmında öncelikle İMKB100 endeksinin yönü,
üzerinde etkili olan uluslararası endeksler belirlenmiştir. Yapılan değişken seçimi
çalışması, İMKB100 endeksini yönü üzerinde kendi gecikmeli değerlerinin etkili
olmadığı yönündedir. Diğer taraftan değişken seçimi aşamasında belirlenmiş olan Model
2, açıklayıcı değişkenlerin en iyi alt kümesini oluşturmaktadır. Model 2 incelendiğinde,
İMKB100 endeksinin ele alınan uluslararası endeksleri takip ettiği söylenebilir.
Değişken seçimi aşamasını takiben İMKB100 endeksinin yönü, kendisinin ve
diğer uluslararası endekslerin gecikmeli değerleri yardımıyla tahminlenmiştir. Yapılan
tahminleme çalışmaları, mevcut değişkenler kullanılarak İMKB100 endeksinin hareket
yönünün
%65‟in
üzerinde
bir
doğrulukla
Hibrit
RTFA
modeli
tarafından
tahminlenebildiği görülmüştür. İstatistiksel açıdan tahmini oldukça güç olan bu alanda
%65 başarı, yatırımcılar için oldukça iyi bir referans oluşturabilir. Zaten yapılan 200
işlem günlük tahminleme sonuçları da göstermiştir ki, İMKB100 endeksine 100 dolarlık
yatırımla başlayan ve Hibrit RTFA modelinin tahminleri ile al-sat (ya da elde tut)
kararları veren bir yatırımcının 100 doları yaklaşık 202 dolara kadar yükselmektedir.
Aynı dönemde 100 dolarlık yatırımla başlayan ve hiç al sat yapmadan kişinin 200 işlem
günü sonrası yatırımının ulaştığı değerin 105 dolar civarında olduğu düşünüldüğünde
Hibrit RTFA modelinin başarısı daha anlamlı görülmektedir.
Bu kısımda yapılan çalışma, uluslararası endekslerin İMKB100 endeksi
üzerindeki etkileri üzerinde olduğu için açıklayıcı değişkenler arasında döviz kuru,
petrol, altın v.b. günlük değişim gösteren diğer finansal araçlara yer verilmemiştir. Bu
133
açıdan da bakıldığında sadece uluslararası endeksler kullanılarak yakalanmış %65‟lik
tahmin başarısı, sözü edilen bu değişkenlerin de model eklenmesi ile geliştirilebilir.
Hibrit-RBF modeli birden fazla tekniğin bir kombinasyonu olduğu için oldukça
fazla parametreye sahiptir. Bu parametrelerden birçoğu çalışmamızda sabit tutulmuştur.
Bu bağlamda Hibrit RTFA modelinin mevcut performansı, ilgili parametreler üzerinden
yapılacak değişikliklerle artırılabilir.
Buraya kadar ifade edilenler göre, ortaya konulan modelin İMKB100 endeks
yönünün tahmininde kullanılabileceği söylenebilir. Diğer taraftan, İMKB Ulusal 100 ve
İMKB Ulusal 30 endekslerinin yönü arasında %100‟e yakın bir korelasyon olduğu
dikkate alınırsa, önerilen modelin IMKB Ulusal 30 kapsamındaki hisse senetlerinde
oluşturulan portföyün al-sat kararlarında da benzer bir başarı ile kullanılabileceği
söylenebilir.
134
SONUÇ VE ÖNERĠLER
Çalışmamızda RTFA ve bu ağlarla yapılan analizlerde karşılaşılan sorunlar ele
alınmış ve bu sorunlara çözüm getirecek istatistik teknikler ile RTFA entegre edilerek
Hibrit RTFA ağları oluşturulmuştur. Bu çalışmada Hibrit RTFA ağlarına getirilen
yenilik,
modelin
bilgi
karmaşıklığı
temelli
değişken
seçim
kriterleri
ile
güçlendirilmesidir. Bu sayede Hibrit RTFA modeli ile bağımlı değişken üzerinde etkili
olan açıklayıcı değişkenlerin belirlenmesinde kullanılabilir hale gelmiştir. Bu aşamada
özellikle Hibrit RTFA modelinin doğrusal olmayan ilişkileri yakalama gücü ile ICOMP
tipi değişken seçim kriterlerinin çok yönlü değişken seçim gücü tek bir modelde
toplanmış olmaktadır.
Geliştirilen model hem benzetim verisi hem de gerçek veri üzerinde
uygulanmıştır. Oldukça yüksek dereceden doğrusal olmayan yapıda oluşturulan
benzetim verisi üzerinde model, hem değişken seçimi hem de tahminleme açısından
oldukça başarılı sonuçlar vermiştir. Diğer taraftan gerçek veri için endeks yönü tahmini
konusu gibi hem doğrusal olmayan ilişkilerin hem de çoklu doğrusal bağlantı
probleminin sıklıkla ortaya çıktığı bir alan seçilmiştir. Burada da ICOMP tipi değişken
seçim kriterlerinin çoklu doğrusal bağlantıyı da cezalandırarak değişken seçimi yapan
yapısı ile Hibrit RTFA modeli başarılı sonuçlar vermiştir. Ortaya çıkan diğer bir önemli
sonuç ise gerek benzetim çalışmasında gerekse gerçek veri üzerine yapılan çalışmada en
iyi modelin Gauss fonksiyonu ile yapılandırılmış Hibrit RTFA modeli tarafından
seçilmiş olmasıdır.
Seçilmiş olan model ile yapılan 200 işlem günlük tahminleme sonuçları, Hibrit
RTFA modeli ile yapılan tahminlere göre yatırımın yönlendirilmesi durumunda
yatırımın dolar bazında yaklaşık 2 katı değere ulaştığı gösterilmiştir. Ayrıca yapılan
çalışmada sadece uluslararası endeks değerlerini kullanılarak bu başarı elde edilmiştir.
Dolayısıyla Hibrit RTFA modeli yatırım uzmanları tarafından bir karar destek sistemi
135
olarak kullanılması durumunda daha yüksek performans gösterebilir. Yapılan uygulama
çalışmalarında model parametreleri sabit tutulmuştur. Bu bağlamda model parametreleri
değiştirilerek sonuçların geliştirilmesi mümkündür.
Oluşturulan Hibrit RTFA modelinin değişkenlerle ilgili varsayımı tek bir bağımlı
değişken ile çalışılmasıdır. Bu bağlamda modelin birden fazla bağımlı değişkenle
çalışılır hale getirilmesi ile aynı açıklayıcı değişkenlerden etkilenen farklı bağımlı
değişkenler için tek seferde analiz yapılması sağlanabilir. Diğer taraftan modelimizde ele
aldığımız bağımlı değişkenin sürekliliği varsayımı, modele regresyon ağaçları yerine
sınıflandırma ağaçlarının entegre edilmesi ile aşılabilir.
136
KAYNAKÇA
Ackley, D., Hinton, G., & Sejnowski, T. (1985). A Learning Algorithm for Boltzmann
Machines. Cognitive Science, (s. 147-169).
Akaike, H. (1974). A New Look at the Statistical Model Identification. IEEE
Transactions on Automatic Control , AC-19, 716-723.
Akaike, H. (1973). Information Theory and An Extension of The Maximum Likelihood
Principle. B. Petrox, & F. Csaki (Dü.), Second International Symposium on Information
Theory içinde (s. 267-281). Budapest: Academiai Kiado.
Akaike, H. (1981). Modern Development of Statistical Methods. P. Eykhoff içinde,
Trends and Progress in System Identification (s. 169-184). New York: Pergamon Press.
Akbilgiç, O., & Keskintürk, T. (2008, Haziran). Yapay Sinir Ağları ve Çoklu Regresyon
Analizinin Karşılaştırılması. Yönetim , 74-83.
Angelini, E., Tollo, G. d., & Roli, A. (2008). A neural network approach for credit risk
evaluation. The Quarterly Review of Economics and Finance , 48 (4), 735-755.
Baykal, N., & Timur, B. (2004). BULANIK MANTIK UZMAN SISTEMLER VE
DENETLEYICILER. Bıçaklar Kitabevi.
Bellman, R. E. (1978). An Introduction to Artificial Intelligence: Can Copmputers
Think? San Fransisco: Boyd & Fraser Pub. Co.
Berk, R. A. (2004). Regression Analysis: A Constructive Critique. USA: Sage
Publication.
137
Bhansali, R. J., & Downham, D. Y. (1977). Some Properties of the Order of
Autoregresıce Model Selected vy a Genaralization of Akaike's EPF Criterion.
Biometrica , 64 (3), 547-551.
Bjorksrtrom, A. (2001). Ridge regression and inverse problems. Sweden: Stockholm
University.
Bluman, A. G. (1998). Elemantary Statistics. USA: McGraw-Hill.
Bonate, P. L. (2006). Pharmacokinetic-Pharmacodynamic Modelling and Simulation.
San Antonio, USA: Springer.
Boyacioglu, M., & Avci, D. (2010). An Adaptive Network-BAsed Fuzzy Inference
Systems (ANFIS) for the prediciton of stock market return: The case of Istanbul Stock
Exchange. Expert Systems with Applications , 37, 7902-7912.
Boyce, D. E., Farhi, A., & Weischedel, R. (1974). Optimal Subset Selection: Multiple
Regression, Interdepedence, and Optimal Network Algorithms. New York: Springer
Verlag.
Bozdogan, H. (2000). Akaike's Information Criterion and Recent Developments in
Informational Complexity. Journal of Mathematical Psychology , 44, 62-91.
Bozdogan, H. (1988). ICOMP: A New Model-Selection Criteria. H. Bock içinde,
Classification and Related Methods of Data Analysis. North-Holland.
Bozdogan, H. (2004). Intelligent Statistical Data Mining with Information Complexity
and Genetic Algorithms. H. Bozdogan içinde, Statistical Data Mining and Knowledge
Discovery (s. 15-56). Florida: Chapman and Hall/CRC,.
Bozdogan, H. (1994). Mixture-Model Cluster Analysis Using A New Informational
Complexity and Model Selection Criteria. 2, 69-113.
138
Bozdogan, H. (1987). Model Selection and Akaike's Information Criterion (AIC): The
General Theory and It's Analytical Extension. Journal of Mathematical Psychology , 5,
345-370.
Bozdogan, H. (2007, January). Predictive Data Mining with Regression Trees and RBF
Neural Networks. Lecture Note . Tennessee.
Breiman, L., & Friedman, J. H. (1984). Classification and regression trees. Monterey,
CA: Wadsworth & Brooks/Cole Advanced Books & Software.
Breiman, L., Freidman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and
Regression Trees. Wadsworth.
Calderon, T. G., & Cheh, J. J. (2002). A roadmap for future neural networks research in
auditing and risk assessment. International Journal of Accounting Information Systems ,
3, 203-226.
Cganh, F.-J., Liang, J.-M., & Chen, Y.-C. (2001). Flood Forecasting Using Radial Basis
Function Neural Networks. IEEE Transaction on Systems, Man, and Cybernetics Part
C: Applications and Rewievs , 31 (4), 530-535.
Çinko, M., & Avcı, E. (2007). A Comparison of Neural Network and Linear Regression
Forecasts of The ISE-100 Index. Öneri , 7 (28), 301-307.
Comrie, A. C. (1997). Comparing Neural Networks and Regression Models for Ozone
Forecasting. Arizona: Air & Waste Management Association.
Conniffe, D., & Stone, J. (1973). A Critical View of Ridge Regression. Journal of the
Royal Statistical Society. Series D , 23 (3), 191-197.
Cover, T. (1965). Geometrical and statistical prpperties of system of linear inequalities
with applications in pattern recognition. IEEE Transactions on Electronic Computers ,
14, 326-334.
139
Dawson, C., Harpham, C., Wilby, R., & Chen, Y. (2002). Evaluation of artificial neural
network techniques for flow forecasting in the River Yangtze, China. Hydrology and
Earth System Sciences , 6 (4), 619-626.
Deniz, E. (2010). Regresyon Analizi. E. Çetin içinde, Hastane Yönetiminde Sayısal
Yöntemler.
Deniz, E. (2007). Yapısal Eşitlik Modellerinde Bilgi Kriterleri. İstanbul: Mimar Sinan
Güzel Sanantlar Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Ana Bilim Dalı,
Basılmamış Doktora Tezi.
Draper, N. R., & Smith, H. (1981). Applied Regression Analysis. New York: Wiley.
Engle, R. F. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the
Variance of United Kingdom Inflation. Econometrica , 50 (4), 987-1007.
Fausett, L. V. (1993). Fundamentals of Neural Networks: Architectures, Algorithms And
Applications. US: Prentıce Hall.
Feigenbaum, E. A., & McCorduck, P. (1983). The fifth generation . Reading, MA:
Addison-Wesley.
Fraser, N. (1998, 9 21). The Biological Neuron. 3 5, 2011 tarihinde Carleton University:
http://vv.carleton.ca/~neil/neural/neuron-a.html adresinden alındı
Fuller, R. (2000). Lecture Note:. Introduction to Neuro Fuzzy Systems . Abo Akademy
University.
Fuller, R. (2000). Systems, Introduction to Neuro-Fuzzy. New York: Springer Verlag.
Gibson, G. J., Siu, S., & Cowan, C. F. (1989). Multilayer Perceptoron Structures
Applied to Adaptive Equalisers for Data Communications. Acoustics, Speech, and
Signal Processing, 1989. ICASSP-89, (s. 1183-1186). Glasgow, UK.
140
Golub, G. H., Heath, M., & Wahba, G. (1979). Generalized Cross-Validation as a
Method for Choosing a Good Ridge Parameter. Technometrics , 12, 215-223.
Haan, C. T. (2002). Statistical Methods in Hydrology. Iowa State University Press.
Halıcı, U. (2001). Artificial Neural Networks. Lecture Notes on Introduction to Neural
Networks . Ankara: METU.
Hannan, E. J., & Quinn, B. G. (1979). The Determinatiom of the Order of an
Autoregression. Journal of the Royal Statistical Society B , 41, 190-195.
Harrel, F. E. (2001). Regression Modelling Strategies: with Applications to Lİnear
Models, Data Mining, Inference, and Prediction. New York: Springer-Verlag.
Haykin, S. S. (1994). Neural Networks. Macmillan.
Haykin, S. S. (1999). Neural Networks. Macmillan.
Hebb, D. (1949). The Organization of Behavior. New York: Wiley & Sons.
Hebb, D. (1949). The Organization of Behavior: A neuropsychological Theory. New
York: Wiley.
Heugeland, J. (1985). Artificial Intelligence: The Very Idea. Cambridge: MIT Press.
Hocking, R. R. (1983). Developments in
Linear Regression Methodology.
Technometrics , 25, 219-230.
Hoerl, A. E., & Kennard, R. W. (1970). Ridge Regression: Biased Estimation for
Nonorthogonal Problems. Technometrics , 12, 55-67.
Hoerl, A. E., Kennard, R. W., & Baldwin, K. F. (1975). Ridge Regression: Some
Simulations. Communications in Statistics , 4, 105-123.
Holland, J. (1975). Adaptation of Natural and Artificial Systems. Ann Arbor, Michigan:
University of Michigan Press.
141
Holland, J. (1992). Genetic Algorithms. Scienti¯c American, , 66-72.
Hornik, K. (1989). Multilayer Feedforward Networks are Unıversal Approximators.
Neural Networks (2), 359-366.
Howe, J. A. (2007). A New Generaion of Mixture-Model Cluster Analysis with
Information Complexity and the Genetic Algorithm. Tennessee: The University of
Tennessee.
Huang, S.-M., Tsai, C.-F., Yen, D. C., & Cheng, Y.-L. (2008). A hybrid financial
analysis model for business failure prediction. Expert Systems with Applications: An
International Journal , 35 (3), 1034-1040.
J. L. Eastaugh, S. W. (1997). Comparison of neural networks and statistical models to
predict gestational age at birth. NEURAL COMPUTING & APPLICATIONS , 6, 156164.
J., M., & C., D. (1989). Fast learning in networks of locally-tunned processing units.
Neural Computation , 1, 281-294.
Johnson, R. A., & Bhattacharyya, H. K. (2006). Statistics: Principles and Methods.
USA: John Wiley & Sons.
Judge, G. G., Griffits, W. E., Hill, R. C., Lütkepohl, H., & Lee, T. C. (1985). The Theory
and Practice of Econometrics. New York: John Wiley and Sons.
Kappen, H., & Rodriguez, F. (1998). Efficient learning in Boltzmann Machines using
linear reponse. Neural Computatıon , 1137-1156.
Kasabov, N. K. (1998). Foundations of Neural Networks, Fuzzy Systems, and
Knowledge Engineering. Cambridge: MIT Press.
Kodratof, Y. (1988). Introduction to Machine Learning. Toulouse, France: Cepadues
Editions.
142
Kohonen, T. (2001). Self-Organizing Maps. Germany: Springer Verlag.
Korkmaz, T., Çevik, E. I., Birkan, E., & Özataç, N. (2011). Causality in mean and
variance between ISE 100 and S&P 500: Turkcell case. African Journal of Business
Management , 5 (5), 1673-1683.
Kotz, S., & Johnson, N. L. (1982). Encylopedia od Statistics Sciences (3 b.). John
Wiley&Sons.
Koutsoyiannis, A. (1977). Theory of Econometrics : An Introductory Exposition of
Econometric Methods. London: Macmillan.
Kröse, B., & Smagt, P. v. (1996). An Introduction to Neural Networks. The University
of Amsterdam.
Kubat, M. (1998). Decision Trees Can Initialize Radial Basis Function Networks.
Transactions on Neural Networks , 9, 818-821.
Kullback, A., & Leibler, R. (1951). On Information and Sufficiency. Annals of
Mathematical Statistics , 22, 79-86.
Kurzweil, R. (1990). The Age of Intelligent Machines. Cambridge, Mass: MIT Press.
Lawless, J. F., & Wang, P. (1975). A Simulation Study of Ridge and other Regression
Estimators. Communications in Statistics A , 4, 307-323.
Li, Q., Asma, E., Qi, J., Bading, J. R., & Leahy, R. M. (2004). Accurate Estimation of
the Fisher Information Matrix for the PET Image Reconstruction Problem. IEEE
Transactions on Medical Imaging , 23 (9), 1057-1065.
Lindley, D. V., & Smith, A. F. (1972). Bayes Esimates for The Linear Model. Journal of
Royal Statistics Society B , 34, 1-41.
Loh, W. Y., & Shih, Y. S. (1997). Split Selection Methods for Classification Trees.
Statistica Sinica , 7, 815-840.
143
Luger, G. F. (2009). Artificle İntelligence: Structures and Strategies for Complex
Problem Solving. USA: Addison Wiley.
Mantel, N. (1970). Why Stepdown Procedures in Variable Selection. Technometrics ,
12, 591-612.
Mark A. Pitt, I. J. (2002). Toward a Method of Selecting Among Computational Models
of Cognition. Psychological Review , 109 (3), 472-491.
Masters, T. (1993). Practical Neural Network Recipes in C++. USA: Academic Press.
McCulloch, W. S., & Pitts, W. (1943). A Logical Calculus of the Ideas Immanent ın
Nervous Activity. Bulletin of Mathematical Biophysics , 5, 115-133.
Mehrotra, K., Mohan, C. K., & Ranka, S. (2000). Elements of Artificial Neural
Networks. Massachusets: MIT Press.
Minksy, M., & Papert, S. (1969). Perceptrons. MIT Press.
Minsky, M. (1967). Computation: Finite and Infinite Machines. Englewood Cliffs:
Prentice-Hall.
Minsky, M. (1963). Steps Towards Artificial Intelligence. Computer Tought , 406-450.
Minsky, M. (1954). Theory of Neural-Analog Reinforcement Systems and Its
Application to the Brain Model Problem. Princeton University.
Moisen, G. G. (2008). Classification and Regression Trees. Ecological Informatics ,
582-588.
Morgan, J. N., & Messenger, R. C. (1973). THAID: a sequential search program for the
analysis of nominal scale dependent variables. Michigan: University of Michigan,
Institue for Social Research .
144
Morgan, J. N., & Sonquist, J. A. (1963). Problems in The Analysis of Survey Data, and
A Proposal. Journal of American Statistical Society , 58, 415-434.
Moses, L. E. (1986). Think and Explain with Statistics. Reading, MA: Addison-Vesley.
Munch, D., & Branson, P. (2004). Statistical Protocol for the Determination of the
Single-Laboratory Lowest Concentration Minimum Reporting Level (LCMRL) and
Validation of Laboratory Performance at or Below the Minimum Reporting Level
(MRL). Cincinnati, OH, USA: U.S. Environmental Protection Agency Office of Ground
Water and Drinking Water Standards and Risk Management Division Technical Support
Center.
Nabiyev, V. V. (2005). Yapay Zeka. Seçkin Yayıncılık.
Nascimento, C. L. (1994, February). Artificial Neural Networks in Control and
Optimization. Doctor of Philosophy . Manchester: Unıversıty of Manchester.
Newell, A., & Simon, H. A. (1961). Computer simulation of human thinking. Science ,
134, 2011-2017.
Newell, A., Shaw, J., & Simon, H. (1959). Report on a general problem-solving
program. Proceedings of the International Conference on Information Processing, (s.
256-264).
Orr, M. (2000). Combining Regression Trees and RBF's. International Journal of
Neural Systems , 10.
Orr, M., Hallam, J., Takezawa, K., Murray, A., Ninomiya, S., Oide, M., et al. (1999).
Combining Regression Trees and Radial Basis Functions. International Journal of
Neural Systems , 10 (6), 453-465.
Orr, M., Hallam, J., Takezawa, K., Murray, A., Ninomiya, S., Oide, M., et al. (2000).
Combining Regression Trees and Radial Basis Functions. International Journal of
Neural Systems , 10 (6), 453-465.
145
Ostrom, C. W. (1990). Time Series Analysis: Regression Techniques (Quantitative
Applications in the Social Sciences). Newbury Park: Sage Publications.
Özdemir, A. K., Tolun, S., & Demirci, E. (2011). Endeks Getirisi Yönünün İkili
Sınıflandırma Yöntemiyle Tahmin Edilmesi: İMKB-100 Endeksi Örneği. Niğde
Üniversitesi İİBF Dergisi (Baskıda) .
Ozun, A. (2007). Are the Reactions of Emerging Equity Markets to the Volatility in
Advanced Markets Similar? Comparative Evidence from Brazil and Turkey.
International Research Journal of Finance and Economics , 9, 220-230.
Pelaez, R. (2006). Using Neural Nets to Forecast the Unemployment Rate. Business
Economics , 41 (1), 37-44.
Poggio, T., & Girosi, F. (1989). A theory of networks for approximation and learning.
Cambridge, MA: MIT Artificle Intelleigence Laboratory.
Pop, H. F. (2004). DATA ANALYSIS WITH FUZZY SETS: A SHORT SURVEY.
INFORMATICA, , 49 (2), 111-122.
Quinn, G., & Keough, M. J. (2001). Experimental Design and Data Analysis for
Biologist. Cambridge University Press.
Rissanen, J. (1978). Modelling by Shortest Data Description. Automatica , 14, 465-471.
Rojas, R. (1996). Neural Networks: A Systematic Introduction. Berlin: Springer Verlag.
Rosenblatt., F. (1958). The perceptron: A probabilistic model for information storage
and organization in the brain. Psychological review , 65, 386-408.
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning internal
representations by error propagation. Parallel distributed processing: explorations in the
microstructure of cognition. 1, s. 318-361. MA: MIT Press Cambridge.
146
Russell, S., & Norvig, P. (2009). Artificial Intelligence: A Modern Approach. Prentice
Hall.
Schwartz, G. (1978). Estimating The Dimension of Model. Annals of Statistics , 6, 461464.
Sejnowski, T. (1977). Statistical constraints on synaptic plasticity. Journal of
Theoretical Biology , 69, 385-389.
Shannon, C. E. (1951). Prediction and entropy of printed English. The Bell System
Technical Journal , 30, 50-64.
Simon, H. (1965). Understanding creativity. Carnegie Review , 8, 2.
Sokal, R. R., & Rohlf, F. J. (1981). Biometry (2 b.). New York: W.H. Freeman
Company.
Steinberg, D., & Colla, P. (1995). CART: Tree-Structured Nonparametric Data Analysis.
San Diego, CA: Salford Systems.
Sutton, C. D. (2005). Classification and Regression Trees, Bagging, and Boosting.
Handbook of Statistics , 24, 303-329.
Tikhonov, A. (1963). On solving incorrectly posed problems and method of
regularization. Doklady Akademii Nauk USSR , 151, 501-504.
Touretzky, D. S. (2006, Fall). Radial Basis Functions. Lecture Notes on Artificial Neural
Networks .
Turing, A. (1950). Computing Machinery and Intelligence. Mind , 59 (236), 433-460.
Türkşen, İ. B. (1985). Fuzzy Set Theory and Its Applications. TJOR , 4 (4), 1-15.
147
Urmanov, A. M., Bozdogan, H., Gribok, A. V., Hines, J. W., & Uhrig, R. E. (2002).
Information Complexity-Based Regularization Parameter Selection for Solution of IllConditioned Inverse Problems. Inverse Problems , 18 (3).
Van Emden, M. H. (1971). An Analysis of Complexity. Amsterdam: Mathematisch
Centrum Amsterdam.
Vose, M. (1999). The Simple Genetic Algorithm: Foundations and Theory. MIT Press.
Vuran, B. (2010). The determination of long-run relationship between ISE 100 and
international equity indices using cointegration analysis. Istanbul Unıversity Journal of
The School of Busines Administration , 39 (1), 154-168.
Walczak, S., & Sincich, T. (1999). A comparative analysis of regression and neural
networks for university admissions. Information Sciences , 119 (1-2), 1-20.
Wang, Q. A. (2008). Probability distribution and entropy as a measure of uncertainty.
Journal of Physics A: Mathematical and Theoretical , 41 (6), 1-12.
Wettschereck, D., & Dietterich, T. (1992). Improving the Performance of Radial Basis
Function Networks by Learning Center Locations. Advences in Neural Information
Processing Systems (s. 1133-1140). San Mateo, CA: Morgan Kaufmann Publıshers.
White, H. (1982). Maximum Likelihood Estimation of Misspecified Models.
Econometrica , 50, 1-25.
Widrow, B., & Hoff, M. (1960). Adaptive Switching Circuits. IRE Wescon (s. 96-104).
New York: IRE.
Wilkinson, L. (1989). SYSTAT: The System for Statistics. Evantson, IL: SYSTAT.
Williams, J. L., Bozdogan, H., & Aiman-Smith, L. (1995). Inference Problems with
Equivalent Models. (A. G. Macoulides, & R. E. Scgumaker, Dü) New Jersey: Lawrence
Erlbaum Associates.
148
Yamane, T. (1973). Statistics: An Introductory Analysis. USA: Harper&Row Publishers
.
Zadeh, L. A. (1965). Fuzzy Sets. Informatıon and Control , 8, 338-353.
Zadeh, L. (1965). Fuzzy Sets. Information and Control , 8, 338-353.
149
ÖZGEÇMĠġ
1980 İstanbul doğumlu olan yazar, 2001 yılında İstanbul Üniversitesi, Fen
Fakültesi, Matematik Bölümü‟nden lisans derecesini almış, aynı yıl Milli Eğitim
Bakanlığı‟na bağlı bir okulda matematik öğretmenliği yapmaya başlamıştır. 2002 yılında
Mimar Sinan Güzel Sanatlar Üniversitesi, Fen-Edebiyat Fakültesi, İstatistik Bölümü‟nde
araştırma görevliliği ve Mimar Sinan Güzel Sanatlar Üniversitesi, İstatistik Anabilim
Dalı‟nda yüksek lisans eğitimine başlayarak bu programdan ve 2005 yılında mezun
olmuştur. Aynı yıl İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Sayısal Yöntemler
Anabilim Dalı‟nda doktora eğitimine başlamıştır. 2009-2010 yıllarında bir yıllığına
Amerika Birleşik Devletleri, University of Tennessee‟de burslu olarak doktora tez
çalışmalarını devam ettiren Oğuz Akbilgiç, 2006 yılından beri İstanbul Üniversitesi,
İşletme Fakültesinde araştırma görevlisi olarak çalışmaktadır. Uluslararası ve ulusal
çeşitli dergilerde yayınlanmış makaleleri bulunan yazar iyi derece İngilizce ve orta
düzeyde Rusça bilmektedir.
150
Download