tc yüzüncü yıl üniversitesi fen bilimleri enstitüsü istatistik anabilim

advertisement
T.C.
YÜZÜNCÜ YIL ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
İSTATİSTİK ANABİLİM DALI
DIRICHLET DAĞILIMI VE PARAMETRELERİNİN TAHMİNİ
YÜKSEK LİSANS TEZİ
HAZIRLAYAN: Ayşe Kübra DEMİREL
DANIŞMAN: Doç. Dr. H. Eray ÇELİK
VAN-2015
T.C.
YÜZÜNCÜ YIL ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
İSTATİSTİK ANABİLİM DALI
DIRICHLET DAĞILIMI VE PARAMETRELERİNİN TAHMİNİ
YÜKSEK LİSANS TEZİ
HAZIRLAYAN: Ayşe Kübra DEMİREL
VAN-2015
KABUL VE ONAY SAYFASI
İstatistik Anabilim Dalı’nda Doç. Dr. H. Eray ÇELİK danışmanlığında, Ayşe
Kübra
Demirel
tarafından
sunulan
”DIRICHLET
DAĞILIMI
VE
PARAMETRELERİNİN TAHMİNİ” isimli bu çalışma Lisansüstü Eğitim–Öğretim
Yönetmeliği’nin ilgili hükümleri gereğince 15/01/2015
tarihinde aşağıdaki jüri
tarafından oy birliği/ oy çokluğu ile başarılı bulunmuş ve Yüksek Lisans Tezi olarak
kabul edilmiştir.
Başkan
: Doç. Dr. H. Eray ÇELİK
İmza:
Üye
: Doç. Dr. Cesim TEMEL
İmza:
Üye
: Yrd. Doç. Dr. Hatice TAŞKESEN
İmza:.
Fen Bilimleri Enstitüsü Yönetim Kurulu’nun ……../……../2014 tarih ve
……………………………. sayılı kararı ile onaylanmıştır.
……/……/2014
Prof. Dr. Turgut AYGÜN
Enstitü Müdürü
TEZ BİLDİRİMİ
Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde
elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu
çalışmada bana ait olmayan her türlü ifade ve bilginin kaynağına eksiksiz atıf
yapıldığını bildiririm.
Ayşe Kübra DEMİREL
ÖZET
DIRICHLET DAĞILIMI VE PARAMETRELERİNİN TAHMİNİ
DEMİREL, Ayşe Kübra
Yüksek Lisans Tezi, İstatistik Anabilim Dalı
Tez Danışmanı: Doç. Dr. H. Eray ÇELİK
Ocak 2015, 66 sayfa
Bu tez çalışmasında Dirichlet dağılımı, tarihçesi ve kullanım alanları ele
alınmıştır. Daha sonra karakteristik özellikleri hesaplanmış ve parametrelerinin tahmin
edilmesi amaçlanmıştır. Parametre tahmini için en yaygın kullanılan parametre tahmin
yöntemlerinden en çok olabilirlik tahmin edicisi kullanılmıştır. Parametre tahmini
yaparken
nümerik
yöntemlerden
Newton-Raphson
metodu
ve
sabit
nokta
iterasyonundan yararlanılmıştır. Daha sonra MATLAB 7.13 (R2011b) programı
kullanılarak parametreleri tahmin eden bir program yazılmıştır.
Anahtar kelimeler: Dirichlet dağılımı, En çok olabilirlik tahmin edicisi,
Newton-raphson metodu, Sabit nokta iterasyonu
i
ABSTRACT
DIRICHLET DISTRIBUTION AND ESTIMATION OF PARAMETERS
DEMİREL, Ayşe Kübra
M. Sc., Statistics
Supervisor: Assoc. Prof. Dr. H. Eray ÇELİK
January 2015, 66 pages
In this study, Dirichlet distribution, its history and usage of Dirichlet
distributions are discussed. Then characteristic properties are calculated and it is aimed
to estimate the parameters. For parameter estimation, maximum likelihood estimation,
which is the most widely used method, is used. The numerical methods, NewtonRaphson method and fixed point iteration, are utilized when parameter estimation is
done. Then using MATLAB 7.13 (R2011b), a program has been written for estimating
the parameters.
Key words: Dirichlet distribution, Maximum likelihood estimation, NewtonRaphson method, Fixed point iteration
ii
ÖN SÖZ
Bu tez çalışmasında her türlü ilgi ve yardımlarını esirgemeyen danışmanım
Sayın Doç. Dr. H. Eray ÇELİK' e, ve tez jürimde bulunarak tezimin daha iyi bir duruma
gelmesini sağlayan Sayın Doç. Dr. Cesim TEMEL'e ve Sayın Yrd.Doç. Dr. Hatice
TAŞKESEN'e teşekkür ederim. Ayrıca çalışmalarımda yardımlarını esirgemeyen
Eskişehir Osmangazi Üniversitesi öğretim üyesi Sayın Doç. Dr. Dursun IRK'a, Yüzüncü
Yıl Üniversitesi İstatistik Bölümü öğretim üyelerine ve çalışma arkadaşlarıma teşekkür
ederim. Eğitimimin her aşamasında maddi ve manevi desteklerini esirgemeyen sevgili
aileme teşekkürü bir borç bilirim.
Ayşe Kübra DEMİREL
Ocak, 2015
iii
İÇİNDEKİLER
Sayfa
ÖZET .. ........................................................................................................................ i
ABSTRACT ................................................................................................................ iii
ÖN SÖZ ....................................................................................................................... v
İÇİNDEKİLER ............................................................................................................ vii
ÇİZELGELER LİSTESİ...... ....................................................................................... ix
ŞEKİLLER LİSTESİ......................... .......................................................................... xi
SİMGELER VE KISALTMALAR ............................................................................. xiii
EKLER DİZİNİ ..... ..................................................................................................... xv
1. GİRİŞ ...................................................................................................................... 1
2. TEMEL TANIM VE TEOREMLER ...................................................................... 3
2.1. Olasılık Yoğunluk Fonksiyonu.................. ....................................................... 3
2.1.1. Kesikli olasılık yoğunluk fonksiyonu .................................................... 3
2.1.2. Sürekli olasılık yoğunluk fonksiyonu .................................................... 3
2.2. Birikimli Dağılım Fonksiyonu.......................................................................... 3
2.3. Beklenen Değer ................................................................................................ 4
2.4. Varyans ............................................................................................................. 4
2.5. Mod ................................................................................................................... 4
2.6. Medyan ............................................................................................................. 4
2.7. Gama Fonksiyonu ............................................................................................. 4
2.8. Gama Fonksiyonunun Bazı Özellikleri ............................................................ 4
2.9. Digama Fonksiyonu .......................................................................................... 5
2.10. Digama Fonksiyonunun Bazı Özellikleri ....................................................... 5
2.11. Trigama Fonksiyonu ....................................................................................... 5
2.12. Trigama Fonksiyonunun Bazı Özellikleri ...................................................... 5
2.13. Hessian Matrisi ............................................................................................... 6
2.14. Gradient .......................................................................................................... 6
2.15. Diagonal(Köşegen) Matris ............................................................................. 6
2.16. Sabit Nokta İterasyonu ................................................................................... 6
iv
2.17. Sabit Nokta Teoremi ....................................................................................... 7
2.18. Newton-Raphson Metodu ............................................................................... 7
3. DIRICHLET DAĞILIMININ KARAKTERİSTİK ÖZELLİKLERİ...................... 9
3.1. Olasılık Yoğunluk Fonksiyonu ......................................................................... 9
3.2. Birikimli Dağılım Fonksiyonu.......................................................................... 9
3.3. Beklenen Değer ................................................................................................ 10
3.4. Varyans ............................................................................................................. 11
3.5. Mod ................................................................................................................... 12
3.6. Medyan ............................................................................................................. 13
4. DIRICHLET DAĞILIMININ EN ÇOK OLABİLİRLİK YÖNTEMİ İLE
PARAMETRE TAHMİNİ ................................ ..................................................... 15
4.1. En Çok Olabilirlik Yönteminin Tarihçesi ........................................................ 15
4.2. En Çok Olabilirlik Yönteminin Mantığı ........................................................... 16
4.2.1. Olabilirlik ilkesi ..................................................................................... 17
4.2.2. En çok olabilirlik yönteminin özellikleri ............................................... 18
4.2.3. En çok olabilirlik yönteminin uygulama aşamaları ...............................18
4.3. Dirichlet Dağılımının En Çok Olabilirlik Tahmin Edicisi ile Parametre
Tahmini ..............................................................................................................20
4.4. Ortalama ve Kesinlik İçin Parametre Tahmini ................................................. 24
4.5. Çok Terimli Dirichlet Dağılımı ........................................................................ 29
5. MATLAB İLE UYGULAMA................................... .............................................. 32
KAYNAKLAR ............................................................................................................ 35
EKLER ....................................................................................................................... 38
ÖZ GEÇMİŞ ............................................................................................................... 53
v
ÇİZELGE LİSTESİ
Çizelge
Sayfa
Çizelge 5.2. Dirichlet Dağılımının Farklı "N" gözlem değerleri için
Karakteristik Özellikleri .................................................................... 32
Çizelge 5.2. Dirichlet Dağılımının Farklı "N" gözlem değerleri için
Parametre Tahmini ............................................................................ 34
vi
ŞEKİLLER LİSTESİ
Şekil
Sayfa
Şekil 5.1. Dirichlet Dağılımının
Koordinatlarında
3 boyutlu yüzey grafiği ............................................................................ 33
Şekil 5.2. Dirichlet Dağılımının
Koordinatlarında
3 boyutlu yüzey grafiği ............................................................................ 33
vii
SİMGELER
Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda
sunulmuştur.
Simgeler
Açıklama
α
Alfa
β
Beta
θ
Teta
П
Çarpım Sembolü
Σ
Toplam Sembolü
Γ(x)
Gama Fonksiyonu
ψ(x)
Digama Fonksiyonu
ψ'(x)
Trigama Fonksiyonu
J(x)
Jakobien Matrisi
g
Gradient (gradyan)
H
Hessian Matrisi
L
Olabilirlik Fonksiyonu
viii
EKLER DİZİNİ
sayfa
Ek 1. Dirichlet2_fit_newton.m dosyası
Ek 2. Dirichlet2_logProb_fast.m dosyası
Ek 3. Dirichlet2_moment_match.m dosyası
Ek 4. Digamma2.m dosyası
Ek 5. Trigamma2.m dosyası
Ek 6. Flops2.m dosyası
Ek 7. Addflops2.m dosyası
Ek 8. Flops2_digamma.m dosyası
Ek 9. Flops2_log.m dosyası
Ek 10. Flops2_exp.m dosyası
Ek 11. Flops2_div.m dosyası
Ek 12. Drchrnd.m dosyası
Ek 13. Dirichlet.m dosyası
Ek 14. Grafik.m dosyası
37
40
40
41
44
46
47
47
47
48
48
49
49
49
.
.
ix
1
1. GİRİŞ
Dirichlet dağılımı, iki parametreli beta dağılımının çok terimli genelleştirilmiş
bir halidir (Narayanan, 1991). Dirichlet dağılımı üstel ailesinin bir üyesi olduğu için,
çok terimli veriler için bayes çıkarımında konjuge önsel dağılımdır, öyle ki sonsal
dağılımda yine Dirichlet dağılımıdır (Ng and ark., 2011). Ancak, sonsal dağılımın pratik
problemlerde kullanımı zor olduğundan, Dirichlet dağılımının bayes tahmini genelde
analitik olarak kullanışlı değildir. Önsel ve sonsal dağılımları pratikte kolayca
kullanabilmek için, önsel ve sonsal dağılımın her ikisininde yaklaştığı bazı yaklaşımlar
gereklidir. Böylece önsel ve sonsal dağılım arasındaki konjuge eşleme kavranır ve elde
edilen sonsal dağılım kolayca kullanılabilir (Ma, 2012).
Dirichlet dağılımı çok çeşitli kullanım alanlarına sahiptir. Bayesci analiz, çok
terimli veri modeli, istatistiksel genetik, eğrilerin pearson sistemleri, non-parametrik
çıkarsamalar, güvenirlilik teorisi, olasılıksal eşitsizlikler, çok dağılımlı analizler,
stokastik süreçler kullanım alanları arasındadır (Gupta and Richards, 2001).
Bienayme'nın, Dirichlet dağılımının önsel olarak kullanıldığı bayesci düşünceyle
hareket ettiği ancak, "Dirichlet dağılımı" terminolojisini kullanmadığı bildirilmiştir. Bu
terminolojinin uzun yıllar sonra ilk kez Wilks (1962) tarafından rasgele değişkenler için
kullanıldığı bildirilmiştir (Gupta and Richards, 2001). Daha sonra Wilks (1962) 'in
Dirichlet dağlımını teorik istatistikte, sıra istatistiklerinin bir dizi dağılım fonksiyonunu
elde etmek için kullandığı bildirilmiştir (Ng and ark., 2011).
Bachelier (1912) 'in, çok terimli parametreler üzerindeki bayesci analizde tek
yönlü hat üzerinde uniform önsel kullanarak, sonsal dağılım olarak Dirichlet dağılımını
elde ettiği belirtilmiştir (Gupta and Richards, 2001).
Fisher (1929) 'ın, Bartan ve David (1955) 'in ve Mauldan (1959) 'ın çeşitli
bağlamlarda sıra istatistiklerinin teorisi ve Dirichlet dağılımı arasındaki bağlantıyı
çalıştığı belirtilmiştir (Gupta and Richards, 2001).
Polya (1931) 'nın ise çok terimli anakütlelerde göreceli sıklıkların sınırlı
dağılımları olarak Dirichlet dağılımını elde ettiği bildirilmiştir (Gupta and Richards,
2001).
1
2
Theil (1975) 'in, Dirichlet dağılımını tüketim harcamalarındaki rasgele rasyonel
davranışı modellemek için kullanmıştır (Ng and ark., 2011). Spiegelhalter (1994) 'in ise
ırsi kalp hastalıklarının sıklıklarını çalışmak için Dirichlet dağılımını kullandığı
belirtilmiştir (Gupta and Richards, 2001).
Biyolojide gizli Markov modelleri ile dizileri modellerken amino asitlerin
oranlarını belirlemek için Sjölander (1996) 'in Dirichlet dağılımını kullandığı
bildirilmiştir (Wicker and ark., 2007).
Kigman (1980) tarafından alel frekansları için bir denge dağılımı olarak
istatistiksel genetikte de Dirichlet dağılımının ortaya çıktığı bildirilmiştir (Wicker and
ark., 2007 ; Gupta and Richards, 2001).
Metin madenciliğinde ve görüntü analizinde de Blei (2006) tarafından söz
konusu olasılıkları modellemek için Dirichlet dağılımının kullanıldığı belirtilmiştir.
Richardson ve Green (1997) 'in bayes karışım modelinin içeriğinde farklı bileşenlerin
olasılıklarını modellemek için kullandığı bildirilmiştir (Wicker and ark., 2007).
Martin (1967) 'in, Markovian anahtarlama modelinde Dirichlet Dağılımından
faydalandığı belirtilmiştir (Narayanan, 1991).
Bu yüksek lisans tezi kapsamında Dirichlet dağılımının tarihi ve kullanıldığı
alanlar Bölüm-1'de ele alınarak, Bölüm-2'de temel tanım ve teoremlere değinilmiştir.
Bölüm-3'de Dirichlet dağılımının karakteristik özellikleri hesaplanmıştır. Bölüm-4'de
ise en çok olabilirlik tahmin edicisi ele alınarak nümerik yöntemler de kullanılarak,
Dirichlet dağılımının parametreleri tahmin edilmiştir. Bölüm-5'te ise MATLAB
programı kullanılarak Dirichlet dağılımının karakteristik özellikleri, grafiği ve
parametre tahminleri incelenmiştir.
2
3
2. TEMEL TANIM VE TEOREMLER
2.1. Olasılık Yoğunluk Fonksiyonu
2.1.1. Kesikli olasılık yoğunluk fonksiyonu
kesikli rassal değişkenini olmak üzere,
’in her olası
değeri için
olasılığının kesikli olasılık fonksiyonu (olasılık fonksiyonu)
olabilmesi için aşağıdaki koşulları sağlaması gerekir (Akdeniz, 2012).
a) Tanım bölgesi dışında (
dır.
b) Tanım bölgesi içinde
dir.
c) Tanım bölgesindeki tüm değerler için olasılıklar toplamı 1’dir.
dir.
2.1.2. Sürekli olasılık yoğunluk fonksiyonu
sürekli rassal değişkeni olmak üzere
’in her olası
değeri için
fonksiyonunun sürekli olasılık fonksiyonu (olasılık yoğunluk fonksiyonu) olabilmesi
için aşağıdaki koşulları sağlaması gerekir (Akdeniz, 2012).
a)
b)
c)
;
2.2. Birikimli Dağılım Fonksiyonu
,
bir gerçek
örneklem uzayında tanımlanmış bir rassal değişkeni olmak üzere herhangi
değeri için,
rassal değişkeninin ’e eşit ya da ondan küçük bir değer alma
olasılığı birikimli dağılım fonksiyonu ya da kısaca dağılım fonksiyonu olarak
tanımlanır.
ile gösterilir.
sürekli rassal değişkeni ise dağılım fonksiyonu
aşağıdaki gibidir (Akdeniz, 2012).
3
4
2.3. Beklenen Değer
Beklenen değer bir rassal değişkenin alabileceği bütün değerlerin ağırlıklı bir
ortalamasıdır. Kesikli rassal değişken için
için
ve sürekli rassal değişken
ile hesaplanır (Akdeniz, 2012 ).
2.4. Varyans
Varyans
rassal
değişkeninin
değişkenliğinin bir ölçüsüdür.
kendi
beklenen
değeri
çevresindeki
şeklinde hesaplanır
(Akdeniz, 2012).
2.5. Mod
Bir veri setinde en çok gözlenen (en çok tekrar edilen) değere mod veya tepe
değeri adı verilir. Veri setinin modu olmayacağı gibi birden fazla modu da olabilir
(Akdeniz, 2012).
2.6. Medyan
Büyüklüklerine göre sınırlanmış gözlemler grubunun merkezi değerine medyan
yada ortanca adı verilir. Çift sayıda gözlem varsa orta değer iki merkezi değerin
aritmetik ortalamasıdır. Veri setinde aşırı uçlu elemanlar olduğunda aritmetik
ortalamaya göre daha güvenilirdir. Medyan, veri setindeki tüm elemanlardan etkilenmez
(Akdeniz, 2012).
2.7. Gama Fonksiyonu
Gama fonksiyonu faktöriyel kavramının karmaşık sayılar ve tamsayı olmayan
reel sayılar için genelleştirilmiş halidir.
şeklinde gösterilir
(Jeffrey and Dai, 2008).
2.8. Gama Fonksiyonunun Bazı Özellikleri
1.
2.
4
5
(gama için refleksiyon formülü)
3.
4.
2.9. Digama Fonksiyonu
Gama fonksiyonunun logaritmasının türevi olarak tanımlanır.
şeklinde gösterilir. Bu fonksiyon poligama fonksiyonunun ilkidir (Jeffrey and Dai,
2008).
2.10. Digama Fonksiyonunun Bazı Özellikleri
1.
2.
(digama için yineleme formülü)
(digama için refleksiyon formülü)
2.11. Trigama Fonksiyonu
Digama fonksiyonunun türevidir ve ikincil poligama fonksiyonu olarak da
adlandırılır (Jeffrey and Dai, 2008). Aşağıdaki gibi gösterilebilir;
2.12. Trigama Fonksiyonunun Bazı Özellikleri
1.
(trigama için yineleme formülü)
(trigama için refleksiyon formülü)
2.
5
6
2.13. Hessian Matrisi
Hessian matrisi fonksiyonun ikinci türevlerinden oluşan matristir aşağıdaki gibi
gösterilir (Giordan, 2014);
2.14. Gradient
Bir skaler büyüklüğün gradienti, bize onun büyüklüğünü ve skalar büyüklüğün
değişiminin maksimum oranını gösteren yönü bulmak için kullanılır. Gradient işlemi
skaler fonksiyon üzerinde uygulanır ve sonuç bir vektördür. Fonksiyonun birinci
türevleri hesaplanarak bulunur. Aşağıdaki gibi gösterilebilir (Giordan, 2014);
2.15. Diagonal (Köşegen) Matris
Bir kare matristir ve köşegenlerinin üstündeki ve altındaki farklı diğer bütün
elemanları sıfıra eşittir (Giordan, 2014).
2.16. Sabit Nokta İterasyonu
türünden
denklemleri
çözmek
için
kullanılan
nümerik
iterasyonlardan biri sabit nokta iterasyonudur. Sabit nokta iterasyonu metodunda, ilk
olarak (*) denklemi
formunda yeniden yazılır. Burada (**)
denkleminin herhangi bir çözümü (*) denklemininde bir çözümü olur ve bu çözüm
'in sabit noktası olur. O halde iterasyon algoritması aşağıdaki şekilde kurulur. Bir
6
7
ve
'nin sabit noktası
fonksiyonununda sabit noktasıdır
ise bu takdirde
(Conte, 1980 ; Cheney, 2008).
Eğer
fonksiyonu sürekli ve
noktasına yakınsıyor ise
bir
noktası
fonksiyonunun sabit noktasıdır ve bundan dolayı (*) denkleminin çözümüdür.
Dahası,
,
(*) denkleminin yaklaşık çözümü olarak düşünülebilir. Eğer
fonksiyonu tersinir ve
'nin sabit noktası
ise bu takdirde
fonksiyonununda
sabit noktasıdır (Conte, 1980 ; Cheney, 2008).
2.17. Sabit Nokta Teoremi
ve
aralığında
ise
fonksiyonunun en az bir sabit noktası vardır. Bunlara ek olarak
türevi mevcut ve her
pozitif sabiti var ise
için
aralığında
aralığında
eşitsizliğini sağlayacak bir
'nin tek türlü belirli bir sabit noktası
vardır (Conte, 1980 ; Cheney, 2008).
2.18. Newton-Raphson Metodu
Öncelikle Newton-Raphson metodunun newton metodu veya teğetler metodu
gibi farklı isimlerle bilindiğini belirtelim. Yukarıdaki (*) denkleminin sadece reel
köküne sahip olduğunu varsayalım. Bu durumda,
Ayrıca
fonksiyonunun
kökünün belli bir
olsun.
komşuluğunda ikinci
mertebeye kadar sürekli türevlere sahip olduğunu kabul edelim. (*) denklemi için uygun
newton-raphson iterasyonu aşağıdaki gibi kurulur (Ypma, 1995 ; Cheney, 2008).
çözümüne sahip olsun. Burada,
(**) sistemi herhangi
dir.
vektör fonksiyonu ve onun
7
8
türevi
bölgesinde sürekli olsun.
matrisinin
matrisine
noktasında determinantı sıfırdan farklı olsun. Bu durumda,
noktasının belli bir komşuluğunda
altında, (**) sisteminin
in jacobianı denir. Ayrıca bu
ters matrisi mevcuttur. Bu şartlar
çözümü aynı zamanda
vektör denkleminin çözümü olacaktır (Cheney, 2008).
Newton-Raphson yönteminde yakınsama koşullarının çok iyi olmasının yanı sıra
bazı dezavantajlara da sahiptir. Bu yöntemde her iterasyonda bir doğrusal denklem
çözmek gerekir. Ayrıca hessian matrisinin tersi her zaman hesaplanamayabilir. Zayıf
koşulluluk problemi ortaya çıkabilir. Türevlerin bulunması bazen çok işlem
gerektirebilir. Başlangıç değeri iyi seçilmezse iyi sonuç alınamayabilir. Ancak bütün bu
dezavantajlarına rağmen Newton-Raphson yöntemi en çok kullanılan yöntemdir
(Cheney, 2008).
8
9
3. DIRICHLET DAĞILIMININ KARAKTERİSTİK ÖZELLİKLERİ
3.1. Olasılık Yoğunluk Fonksiyonu
Dirichlet dağılımının olasılık yoğunluk fonksiyonu cebirsel olarak aşağıdaki gibi
tanımlanmıştır.
Burada
tanımlanmıştır.
dir. Ayrıca
ve
ise gama fonksiyonudur ve
şeklinde
eşitliği ile
gösterilir.
3.2. Birikimli Dağılım Fonksiyonu
Dirichlet dağılımının birikimli dağılım fonksiyonu şu şekilde hesaplanabilir.
9
10
3.3. Beklenen Değer
Dirichlet dağılımının beklenen değeri aşağıdaki şekilde hesaplanır.
Burada
dönüşümü yapalım.
dır.
,
10
11
3.4. Varyans
Bir olasılık dağılımının varyansı
hesaplanır.
Burada
dönüşümü yapalım.
11
eşitliği ile
12
3.5. Mod
Bir olasılık dağılımının modu, dağılımın birinci türevinin sıfıra eşitlenmesiyle
elde edilir.
biçimindeki bir fonksiyonun türevi şu eşitlikle kolayca
hesaplanabilir.
Eşitlik (1.12) yi kullanarak Dirichlet dağılımının türevini alalım ve sıfıra
eşitleyelim;
12
13
Benzer işlemlerle;
Bu işlemler sonucunda Dirichlet dağılımının modunu aşağıdaki şekilde
yazabiliriz:
3.6. Medyan
Bir olasılık dağılımının medyanı birikimli dağılım fonksiyonunun 0.5 değerine
eşitlenmesiyle hesaplanır.
13
14
Buradan, Dirichlet dağılımının medyanını şu şekilde yazabiliriz:
14
15
4. DIRICHLET DAĞILIMININ EN ÇOK OLABİLİRLİK YÖNTEMİ İLE
PARAMETRE TAHMİNİ
4.1. En Çok Olabilirlik Yönteminin Tarihçesi
Simpson ve Weiner (1989) in belirttiğine göre olabilirlik kelimesinin kökeni 14.
yüzyılın sonlarında ortaya çıkmıştır. 20. yüzyılın başlarında ise Ronald Fisher parametre
tahmini için bir "mutlak kriter" sunmuş ve 9 yıl sonra bu kritere "olabilirlik" adını
vermiştir ( Aldrich, 1997).
Olabilirlik özellikle bayesci yaklaşım gibi diğer istatistiksel paradigmaların
altında yatan temel konsepttir ( Millar, 2011).
En çok olabilirlik tekniğinin ise ilk kez Edgeworth tarafından 1908 yılında
kullanıldığı bildirilmiştir. Fisher'a göre en çok olabilirlik adının, teorik istatistiğin
matematik temelinde görüldüğü belirtilmiştir ( Aldrich, 1997).
En
çok
olabilirlik
istatistiksel
anlamlılığın
değerlendirilmesini,
güven
aralıklarının hesaplanmasını, model değerlendirme ve tahmini içeren çıkarsama için
genel amaçlı bir araç olarak sunulmuştur ( Millar, 2011).
Fisher'ın en çok olabilirlik tekniği ile bulunan tahmin edicinin varyansı için
genel formülü bulmasından sonra ise, bu yöntemin daha da önem kazandığı
belirtilmiştir (Aldrich¸ 1997).
15
16
4.2. En Çok Olabilirlik Yönteminin Mantığı
Parametre tahmininde kullanılan tahmin yöntemi ne olursa olsun, bir örneklem
anakütlenin ne kadar iyi temsil edicisiyse, örneklem tahminleri de anakütle
parametrelerine o kadar yakın olur. Ancak çoğu zaman anakütleyi bilmediğimizden,
eldeki örneklemin ne kadar iyi temsilci olduğuna doğrudan karar veremeyiz. En çok
olabilirlik ilkesi, rassal bir örneklemin temsil edilebilirlik sorununu ele alır. En çok
olabilirlik ilkesi, temel istatistikteki çıkarsama kavramını tersine çevirir (Gould and ark.,
2010).
İstatistikteki klasik çıkarsamada tek bir anakütleden çok sayıda rassal
örneklemin türetileceği varsayılır. Gözlemlenen örneklemin rassal olduğu varsayılıp ve
bundan, tek anakütle hakkında, yani onun sabit katsayıları hakkında çıkarsamalar
yapılır. Bir örnekleme dağılımında örneklemlerin değişken olduğu varsayılırken
anakütlenin parametrelerinin sabit olduğu varsayılır (Aldrich, 1997 ; Gould and ark.,
2010).
En çok olabilirlik ilkesi uygulanırken örneklemin sabit olduğu varsayılır. Ancak,
bu örneklem her biri farklı parametrelere sahip çeşitli anakütlelerden türetilmiş olabilir.
En çok olabilirlik yaklaşımında örneklem sabittir, parametrelerin ise değişken olduğu
varsayılır. Çünkü parametreler farklı anakütlelere aittir. Olanak içindeki tüm parametre
kümelerinden, anakütlesi gerçekte gözlenen örneklemi türetme olasılığı en çok olan
küme seçilir. Başka bir deyişle, en çok olabilirlik yöntemi belli bir örneklem değerinin
gerçekleşme olabilirliğini en yüksek yapan anakütle parametrelerini bulmaya çalışır. En
çok olabilirlik tahmin tekniğine ilişkin bazı sonuçlar şöyledir (Millar, 2011 ; Gould and
ark., 2010).

En çok olabilirlik tahmin edicisi yansız ve küçük varyanslı olabilir,

En çok olabilirlik tahmin edicisinin yansız olması gerekmez,

En çok olabilirlik tahmin edicisi her zaman diferansiyel işlemi ile elde
edilemeyebilir,

Bir parametre için birden çok olabilirlik tahmin edicisi bulunabilir.
En çok olabilirlik tekniği, olanak içindeki tüm parametre tahminleri arasında,
gözlemlenen değerleri elde etmenin olasılığını olabildiğince yükseğe çıkaranları seçen
16
17
bir tekniktir. En çok olabilirlik tekniğinin kısıtlayıcı bir özelliği ise, rassal değişkenlerin
dağılımının şeklinin bilinmesi gerektiğidir (Gould and ark., 2010).
En çok olabilirlik tekniği ile tahminde hareket noktası olabilirlik fonksiyonudur.
Ω parametre uzayında değerler alan
parametresine bağlı,
olasılık yoğunluk fonksiyonuna sahip bağımsız rassal değişkenler olsun. Bu rassal
değişkenlerin bileşik olasılık yoğunluk fonksiyonu, değişkenler birbirinden bağımsız
olduğunda marjinal dağılımların çarpımı şeklinde yazılır.
rassal
değişkenlerinin bileşik olasılık yoğunluk fonksiyonu
ile
verilsin. Bu bileşik olasılık yoğunluk fonksiyonu θ'nın bir fonksiyonu olduğuna göre,
biçiminde
gösterilebilir.
Bu
fonksiyonuna
"olabilirlik
fonksiyonu" denir. Olabilirlik fonksiyonunu şu şekilde yazabiliriz (Gould and ark.,
2010):
olabilirlik fonksiyonu bir olasılık yoğunluk
Genelde,
fonksiyonu değildir. Çünkü,
'nın bir fonksiyonu olan
için
değeri 1'e eşit olmayabilir.
Olabilirlik fonksiyonu ortak olasılık fonksiyonuna verilen başka bir isimdir. Tek
fark şu ki, ortak olasılık fonksiyonunda
'nın bilindiği
lerin bilinmediği; olabilirlik
lerin bilindiği, bir başka deyişle belli bir gerçekleşmenin
fonksiyonunda ise
gözlemlenmiş olduğu, 'nın ise bilinmediği örtük olarak varsayılır (Aldrich, 1997).
4.2.1. Olabilirlik ilkesi
Bir deneyden ( gözlemden )
hakkında elde edilebilecek tüm bilgiyi, verilen
gözlem vektörü için θ'nın olabilirlik fonksiyonu içerir.
olmak üzere her
için;
olduğunda
hakkında
gözlemlerinden çıkarılacak sonuçlar aynı olmalıdır.
durumunda olabilirlik ilkesi, aynı olabilirlik değerlerine sahip gözlemlerin
hakkında aynı bilgiyi içerdiklerini söylemektedir.
17
18
Eğer
ise
kestiricisine en çok olabilirlik tahmin edicisi denir (Aldrich, 1997 ; Gould and ark.,
2010).
4.2.2. En çok olabilirlik yönteminin özellikleri
a) Değişmezlik:
'nın en çok olabilirlik tahmin edicisi olsun.
'nın
gibi bir fonksiyonu tanımlanmış olsun. Değişmezlik özelliğine göre γ'nın en
çok olabilirlik tahmin edicisi
olur (Gould and ark., 2010 ; Aldrich,
1997).
b) Tutarlılık: En çok olabilirlik tahmin edicisi
tutarlıdır (Millar, 2011 ;
Gould and ark., 2010).
c)
Asimptotik
Normallik:
'nın
en
çok
olabilirlik
tahmin
edicisi
asimptotik normaldir (Gould and ark., 2010).
En çok olabilirlik tahmin edicisi doğru parametre değeri
olarak normal dağılır. Yukarıdaki varyans ifadesindeki
çevresinde yaklaşık
terimi "Fisher
information" olarak bilinir. Bu değer ne kadar büyükse varyans o kadar küçük olur
(Efron, 1982).
4.2.3. En çok olabilirlik yönteminin uygulama aşamaları
n boyutlu bir örneklem ise,
1.aşama:
dir. Burada
'yı bulmak için gözlemlenen
örneklem değerinin benzerlik fonksiyonu oluşturulur (Gould and ark., 2010).
18
19
2.aşama:
fonksiyonu artan bir fonksiyon olduğundan,
olabilirlik fonksiyonunu
'ya göre en büyük yapmak yerine
fonksiyonu en büyük yapılabileceğinden benzerlik fonksiyonunun
logaritması alınır (Gould and ark., 2010).
3.aşama: Maksimum noktaları (yada parametre tahmin değerlerini) bulmak için,
ilgili parametrelere göre türev alınıp sıfıra eşitlenir ve
değeri bulunur (Gould and ark.,
2010).
4.aşama: Benzerlik fonksiyonu k tane parametreye sahip olduğunda; k tane
tahmin edici, k denklemli bir sistemin çözüm sonucu bulunur (Gould and ark., 2010).
olmak üzere;
...
olsun.
Benzerlik fonksiyonunu maksimum yapan
aşağıdaki kısmi türev denklemleri setinin çözümüyle bulunur.
19
tahmin ediciler seti,
20
...
Burada,
logaritmik olabilirlik fonksiyonunun parametreye göre birinci
türevinin sıfıra eşitlenmesi ile elde edilen denkleme olabilirlik denklemi denir (Gould
and ark., 2010).
Bazı durumlarda,
çözümünü
ler cinsinden ifade
etmek, yani analitik çözüm elde etmek mümkün olmamaktadır. Analitik çözüm elde
edilemediğinde en çok olabilirlik tahmin edicisi biçimsel olarak bilinmemekte, yani
örneklemin bir fonksiyonu olarak açık bir biçimde yazılamamaktadır. Böyle bir
durumda, optimizasyon problemi belli bir sayısal algoritma ile çözülüp parametrenin
tahmini elde edilmektedir (Giordan, 2014).
4.3. Dirichlet Dağılımının En Çok Olabilirlik Tahmin Edicisi ile Parametre
Tahmini
çok terimli gözlemlerin verisi verilsin.
parametreleri,
küme setinden elde edilebilir.
Dirichlet dağılımının olasılık yoğunluk fonksiyonunun
şeklinde olduğunu biliyoruz. Şimdi, bu dağılım için olabilirlik fonksiyonunu yazalım.
20
21
Burada
fonksiyonu digama fonksiyonudur. Digama fonksiyonu, gama
fonksiyonunun logaritmik türevi olarak tanımlanır (Jeffrey and Dai, 2008).
Analitik çözüm elde edilemediğinden sayısal olarak çözüme yardımcı bazı
maksimizasyon yöntemleri kullanılmalıdır. Bunun için,
iterasyonu kullanılabilir.
21
)
için sabit nokta
22
Bu durumda,
' nin tersini almak gerekir. Bu karmaşık işlem yerine
kullanılabilecek diğer bir metot Newton-Raphson metodudur (Minka, 2000).
Newton-Raphson algoritması yinelemeli olarak kök bulma algoritmasıdır.
Olabilirlik fonksiyonunun birinci türevinin sıfıra eşit olduğu yerin sayısal olarak
hesaplanmasında Newton-Raphson algoritması kullanılabilir. Parametre tahmini için
yakınsak bir metot sağlar. Bir Newton adımı aşağıdaki eşitlikle verilir (Cheney, 2008).
hessian matrisidir. Hessian matrisi log-olabilirlik fonksiyonunun ikinci
türevlerinden oluşur.
ise olabilirlik fonksiyonunun gradiyentidir (Giordan, 2014).
trigama fonksiyonudur. Ve aşağıdaki gibi hessian matris formunda
yazılabilir.
22
23
matrisi diagonal matris olmak üzere
şeklinde gösterilir.
Hessian matrisini ters çevirmek için, sıfır olmayan
skaleri ve
matrisini
inceleriz.
matrisi diagonal matris olduğu için tersi kolayca hesaplanabilir ve NewtonRaphson metodu için kural her koordinat açısından yeniden yazılabilir.
23
24
4.4. Ortalama ve Kesinlik İçin Parametre Tahmini
Dirichlet dağılımının
parametresi aşağıdaki alternatif temsiller düşünülerek de
anlaşılabilir.
24
25
için yakınsak sabit nokta iterasyonu aşağıdaki gibidir:
Bu iterasyon sadece birinci dereceden yakınsaktır, çünkü sınır sadece
olabilirliğin birinci türeviyle eşleşir. Genelleştirilmiş Newton iterasyonu kullanarak
ikinci dereceden metot türetebiliriz. Bu fikir, ilk iki türevi eşleştirerek basit bir
fonksiyon tarafından olabilirliğe yaklaşır (Minka, 2000).
25
26
Bu yaklaşımı maximize etmek için yeni bir güncelleştirme gerekir.
Bu güncelleme, Newton-Raphson metoduna benzer fakat Newton-Raphson
metoduna göre daha hızlı yakınsar.
yi başlatmak için, kapalı form şeklinde yaklaşık en yüksek olabilirlik kestirimi
elde etmek için kullanışlıdır.
26
27
Şimdi ise m ortalamasını tahmin etmek istediğimizi varsayalım. Burada yine,
Burada z vektörünü kullanarak aşağıdaki gibi yeniden parametrize edebiliriz.
O halde, olabilirlik fonksiyonu şu şekilde yazılabilir:
27
28
Bu alternatif, hızlıca yakınsayan bir sabit nokta dönüşümü olacaktır.
28
29
4.5. Çok Terimli Dirichlet Dağılımı
Çok terimli Dirichlet dağılımı bir birleşik dağılımdır. Burada
edilir. Farklı sonuçların örneği olan
Dirichletten elde
olasılık vektörlü çok terimli dağılımdan elde
edilir (Minka, 2000).
Bu dağılım,
kümesinden tahmin edilen
parametreleştirilebilir Bu dağılımın olabilirlik fonksiyonu aşağıdaki gibidir:
29
ile de
30
Log-olabilirlik fonksiyonunun gradiyenti de aşağıdaki gibidir:
Log-olabilirlik fonksiyonunu maximize etmek için Dirichlet durumundaki gibi
basitleştirilmiş Newton iterasyonu vardır.
Hessian matris formu olarak şu şekilde yazılır.
30
31
Daha önceden olduğu gibi Newton adımıyla hesaplanabilir.
31
32
5. MATLAB İLE UYGULAMA
Bu bölümde MATLAB programı kullanılarak Dirichlet dağılımını uygun
farklı gözlem değerlerine göre
veri türetilmiş, karakteristik özellikleri hesaplanmış ve sonuçlar incelenmiştir. Daha
sonra üç boyutlu yüzey grafiği çizilmiş ve en çok olabilirlik yöntemi ile NewtonRaphson iterasyonu kullanılarak yine
farklı gözlem değerleri için parametre tahmini yapılıp gerçek parametre değerlerine
göre bu sonuçlar karşılaştırılmıştır. MATLAB program kodları ekte verilmiştir.
Çizelge 5.1. Dirichlet dağılımının farklı "N" gözlem değerleri için karakteristik
özellikleri
Karakterist
ik
Özellikler
Varyans
Standart
Sapma
Aritmetik
Ortalam
a
Mod
Medyan
Simetri
Ölçüsü
Basıklı
k
Ölçüsü
N=50 için
0.0001284
0.0113
0.0200
0.0004066
0.0194
0.3305
2.3807
N=100 için
0.00003307
0.0058
0.0100
0.00002058
0.0098
0.1933
2.0839
N=200 için
0.000008270
0.0029
0.0050
0.000005951
0.0049
0.1038
1.9541
N=400 için
0.000002074
0.0014
0.0025
0.000000473
0.0025
0.0510
1.8720
N=500 için
0.000001327
0.0012
0.0020
0.000001678
0.0020
0.0405
1.8602
Çizelge 5.1' de görüldüğü gibi
sıfıra yaklaşır.
gözlem değeri arttıkça
simetrilik ölçüsü
olduğunda dağılımın şekli simetrik olduğundan gözlem değeri
arttıkça dağılım daha simetrik hale gelmektedir. Yine
basıklık ölçüsü azalmaktadır.
daha basık olduğundan
gözlem değeri arttıkça
olduğunda dağılımın şekli normal dağılıma göre
gözlem değeri arttıkça dağılım daha basık bir şekil
almaktadır.
32
33
Şekil 5.1. Dirichlet dağılımının
yüzey grafiği
Şekil 5.2. Dirichlet dağılımının
koordinatlarında 3 boyutlu
koordinatlarında yüzey grafiği
33
34
Çizelge 5.2. Farklı "N" gözlem değerleri için Dirichlet dağılımının parametre tahminleri
alpha(1)
alpha(2)
alpha(3)
...
alpha(N-2)
alpha(N-1)
alpha(N)
N=50 için
gerçek
değerler
N=50 için
tahminler
2.0000
2.5000
3.0000
...
25.5000
26.0000
26.5000
2.2466
2.3578
3.1123
...
25.7105
26.0730
26.4158
N=100 için
gerçek
değerler
N=100 için
tahminler
2.0000
2.5000
3.0000
...
50.5000
51.0000
51.5000
2.0814
2.6666
2.9670
...
50.9066
52.0639
52.2055
N=200 için
gerçek
değerler
N=200 için
tahminler
2.0000
2.5000
3.0000
...
100.5000
101.0000
101.5000
2.0101
2.6730
3.0163
...
100.7414
101.5808
102.4116
N=400 için
gerçek
değerler
N=400 için
tahminler
2.0000
2.5000
3.0000
...
200.5000
201.0000
201.5000
2.0379
2.4802
3.1267
...
200.6640
201.6116
202.1894
N=500 için
gerçek
değerler
N=500 için
tahminler
2.0000
2.5000
3.0000
...
250.5000
251.0000
251.5000
2.0588
2.4809
2.9788
...
249.9636
250.5598
251.2482
Dirichlet dağılımının parametre tahmini öncelikle farklı gözlem değerleri için
dağılıma uygun veri türetilmiş, daha sonra en çok olabilirlik tahmin edicisi kullanılmış
ve analitik çözüm elde edilemediğinden nümerik yöntemlere başvurulmuştur. Nümerik
yöntemlerden Newton-Raphson iterasyonu ve sabit nokta iterasyonu incelenmiş ancak
en yakınsak sonucu verdiğinden dolayı Newton-Raphson iterasyonu tercih edilmiştir.
Parametre tahmini için kullanılan program kodları ekte verilmiştir.
Çizelge 5.2. de görüldüğü gibi farklı
gözlem değerleri için parametrelerin
gerçek değerleri ile tahmin değerleri tutarlılık göstermiştir.
34
35
KAYNAKLAR
Açıkgöz, İ., 2007. Sonlu Karma Dağılımlarda Parametre Tahmini (doktora tezi).
Ankara Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Anabilim Dalı, Ankara.
Akdeniz, F., 2012. Olasılık ve İstatistik. 17. Baskı, Nobel Kitabevi, Adana.
Aldrich, J., 1997. R. A. Fisher and the Making of Maximum Likelihood. University of
Southampton, Department of Economics, Statistical Science, Vol:12, No:3, 162176, United Kingdom.
Cheney, W., Kincaid, D., 2008. Numerical Mathematics and Computing. Sixth
Edition. ISBN-13: 978-0-495-11475-8, USA.
Feng, S.,2010. The Poisson-Dirichlet Distributions and Related Topics, Models and
Asimptotic Behaviours. e-ISBN 978-3-642-11194-5, McMaster University,
Canada.
Gould, W., Pitblado, J., Poi, B., 2010. Maximum Likelihood Estimation with Stata.
Fourth Edition, ISBN-13: 978-1-59718-078-8, A Stata Press Publication, Texas.
Gupta, R. D., Richards, D. St. P., 2001. The History of the Dirichlet and Liouville
Distributions.
http://onlinelibrary.wiley.com/doi/10.1111/j.1751-
5823.2001.tb00468.x/pdf
Hortensius,
L.,
2012.
Dirichlet
Distribution.
February
7.
http://www.tc.umn.edu/~horte005/docs/Dirichletdistribution.pdf
Huang, J., Maximum Likelihood Estimation of Dirichlet Distribution Parameters.
http://web.stanford.edu/~jhuang11/research/Dirichlet/Dirichlet.pdf
Jeffrey, A., Dai, H., 2008. Handbooks of Mathematical Formulas and Integrals.
Fourth Edition. ISBN: 978-0-12-374288-9.
Kotz, S., Balakrishnan, N., Johnson, N. L., 2000. Continuous Multivariate
Distributions II, Volume 1: Models and Applications. Second Edition, 485-512.
Ma, Z., 2012. Bayesian Estimation of the Dirichlet Distribution with Expectation
Propagation. KTH-Ryal Institute of
Engineering, Stockholm, Sweden.
35
Technology, School of Electrical
36
Millar, R. B., 2011. Maximum Likelihood Estimation and Inference with Examples in
R, SAS, ADMB. University of Auckland, Department of Statistics, New
Zealand.
Minka,
T.
P.,
2000.
Estimating
a
Dirichlet
Distribution.
http://research.microsoft.com/en-us/um/people/minka/papers/Dirichlet/minkaDirichlet.pdf
Narayanan, A., 1991. Maximum Likelihood Estimation of the Parameters of the
Dirichlet Distribution. Journal of the Royal Statistical Society, Series C, Applied
Statistics, Vol:40, No:2, 365-374.
Ng, K. W., Tian, G. L., Tang, M. L., 2011. Dirichlet and Related Distributions Theory,
Methods, Applications. First Edition, ISBN: 978-0-470-68819-9, The University
of Hong Kong and Hong Kong Baptist University, Hong Kong.
O'Connor, A. N., 2011. Probability Distributions Used in Reliability Engineering.
University of Maryland, College Park, Maryland, 181-184.
Wicker, N., Muller, J., Kalathur, R. K. R., Poch, O., 2007. A Maximum Likelihood
Approximation Method for Dirichlet's Parameter Estimation. Computational
Statistics and Data Analysis, 1315-1322.
36
37
EKLER
EK-1: Dirichlet2_fit_newton.m dosyası
function [a,run] = Dirichlet2_fit_newton(x,a)
% DİRİCHLET2_FIT_NEWTON Dirichlet Dağılımının En Çok Olabilirlik
% Tahmin Yöntemi İle Parametre Tahmini
show_progress = (nargout > 1);
% byi=beklenen yeterli istatistik
byi = mean(log(x));
[N,K] = size(x);
addflops2(numel(x)*(flops2_exp + 1));
if nargin < 2
a = Dirichlet2_moment_match(x);
%s = Dirichlet_başlangıç_s(a,byi);
%a = s*a/sum(a);
end
old_e = N*Dirichlet2_logProb_fast(a, byi);
lambda = 0.1;
run.e = [];
for iter = 1:100
old_a = a;
if sum(a) == 0
break
end
g = digamma2(sum(a)) - digamma2(a) + byi;
addflops2(K-1+(K+1)*flops2_digamma + 2*K);
37
38
abort = 0;
% Newton iterasyonu
% Tekil olmayan bir hessian matrisi elde edene kadar döngü
while(1)
hg = hessian_gradient(a, g, lambda);
addflops2(2*K);
if all(hg < a)
run.e(iter) = N*Dirichlet2_logProb_fast(a-hg, byi);
addflops2(2);
if(run.e(iter) > old_e)
old_e = run.e(iter);
a = a - hg;
lambda = lambda/10;
addflops2(K+1);
break
end
end
lambda = lambda*10;
addflops2(3);
if lambda > 1e+6
abort = 1;
break
end
end
if nargout > 1
run.flops2(iter) = flops2;
end
if abort
38
39
% disp('Arama durduruldu')
run.e(iter) = old_e;
break
end
a(find(a < eps)) = eps;
if max(abs(a - old_a)) < 1e-10
% max(abs(g)) < 1e-16
break
end
if show_progress & rem(iter,5) == 0
plot(run.e)
drawnow
end
end
if show_progress
%disp(['çıkıştaki gradient = ' num2str(max(abs(g)))])
plot(run.e)
end
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
function hg = hessian_gradient(a, g, lambda)
sum2 = sum(a);
q = -trigamma2(a);
c = trigamma2(sum2);
q = q - lambda;
39
40
q = 1./q;
b = sum(g .* q)/(1/c + sum(q));
hg = (g - b).*q;
K = length(a);
addflops2(K-1 + (K+1)*flops2_digamma + 1 + 7*K);
EK-2: Dirichlet2_logProb_fast.m dosyası
function lfonk = Dirichlet2_logProb_fast(a, byi)
lfonk =gammaln(sum(a))-sum(gammaln(a)+sum((a-1).*byi);
K = length(a);
flops2(flops2 + (K+1)*flops2_digamma + 3*K);
EK-3: Dirichlet2_moment_match.m dosyası
function a = Dirichlet2_moment_match(x)
% x'in her bir satırı, basit olasılık üzerinde çok değişkenli bir
% gözlemdir.
a = mean(x);
m2 = mean(x.*x);
ok = (a > 0);
s = (a(ok) - m2(ok)) ./ (m2(ok) - a(ok).^2);
% x'in her bir boyutu s'nin bağımsız tahminini verir.
40
41
s = median(s);
a = a*s;
EK-4: digamma2.m dosyası
function y = digamma2(x)
%DIGAMMA Digamma fonksiyonu.
% DIGAMMA(X), digamma(x) = d log(gamma(x)) / dx
large = 9.5;
d1 = -0.5772156649015328606065121; % digamma(1)
d2 = pi^2/6;
small = 1e-6;
s3 = 1/12;
s4 = 1/120;
s5 = 1/252;
s6 = 1/240;
s7 = 1/132;
s8 = 691/32760;
s9 = 1/12;
s10 = 3617/8160;
% başlangıç
y = zeros(size(x));
% geçersiz değişkenler
i = find(x == -Inf | isnan(x));
if ~isempty(i)
x(i) = NaN;
41
42
y(i) = NaN;
end
% Negatif değerler
i = find(x < 0);
if ~isempty(i)
% yansıma formülünü kullan (Jeffrey 11.1.6):
% digamma(-x) = digamma(x+1) + pi*cot(pi*x)
y(i) = digamma2(-x(i)+1) + pi*cot(-pi*x(i));
% Bu özdeşlik(benzerlik) ile ilişkili.
% digamma(-x) = digamma(x+1) - digamma(z) + digamma(1-z)
% burada z, x'in kesirli kısmıdır.
% Örneğin:
% digamma(-3.1) = 1/3.1 + 1/2.1 + 1/1.1 + 1/0.1 + digamma(1-0.1)
%
= digamma(4.1) - digamma(0.1) + digamma(1-0.1)
% Daha sonra aşağıdaki eşitliği kullanılır..
% digamma(1-z) - digamma(z) = pi*cot(pi*z)
end
i = find(x == 0);
if ~isempty(i)
y(i) = -Inf;
end
% eğer değişken<= small ise bu yaklaşımı kullan.
i = find(x > 0 & x <= small);
42
43
if ~isempty(i)
y(i) = y(i) + d1 - 1 ./ x(i) + d2*x(i);
end
% (X + N) >= large olduğunda digamma(X + N) e çevir.
while(1)
i = find(x > small & x < large);
if isempty(i)
break
end
y(i) = y(i) - 1 ./ x(i);
x(i) = x(i) + 1;
end
% eğer değişken >= large ise Moivre's genişlemesini kullan.
% asympt(Psi(x), x);
i = find(x >= large);
if ~isempty(i)
r = 1 ./ x(i);
y(i) = y(i) + log(x(i)) - 0.5 * r;
r = r .* r;
y(i) = y(i) - r .* ( s3 - r .* ( s4 - r .* (s5 - r .* (s6 - r .* s7))));
end
43
44
EK-5: trigamma2.m dosyası
function y = trigamma2(x)
%TRIGAMMA Trigama fonksiyonu
% TRIGAMMA(X), trigamma(x) = d**2 log(gamma(x)) / dx**2 şeklindedir.
% x bir matris ise, trigama fonksiyonu her bir elemanı değerlendirir.
small = 1e-4;
large = 8;
c = pi^2/6;
c1 = -2.404113806319188570799476;
b2 = 1/6;
b4 = -1/30;
b6 = 1/42;
b8 = -1/30;
b10 = 5/66;
% başlangıç
y = zeros(size(x));
% geçersiz değerler
i = find(isnan(x) | (x == -inf));
if ~isempty(i)
y(i) = nan;
end
44
45
% sıfır veya negatif tamsayı
i = find((x <= 0) & (floor(x)==x));
if ~isempty(i)
y(i) = Inf;
end
% Negatif olmayan tamsayı
i = find((x < 0) & (floor(x) ~= x));
if ~isempty(i)
% digama fonksiyonunun türevinin yansıma formülünü kullan
% -trigamma(-x) = trigamma(x+1) - (pi*csc(pi*x))^2
y(i) = -trigamma2(-x(i)+1) + (pi*csc(-pi*x(i))).^2;
end
% yaklaşık small değeri
i = find(x > 0 & x <= small);
if ~isempty(i)
y(i) = 1./(x(i).*x(i)) + c + c1*x(i);
end
% ( X + N ) >= large olduğunda trigamma(x+n) değerini azalt
while(1)
i = find(x > small & x < large);
if isempty(i)
break
45
46
end
y(i) = y(i) + 1./(x(i).*x(i));
x(i) = x(i) + 1;
end
% X >= large olduğunda asimptotik formülü uygula
i = find(x >= large);
if ~isempty(i)
z = 1./(x(i).*x(i));
y(i) = y(i) + 0.5*z + (1.0 + z.*(b2 + z.*(b4 + z.*(b6 + z.*(b8 + z.*b10))))) ./ x(i);
end
EK-6: flops2.m dosyası
function f = flops2(fl)
% FLOPS
flopcount değişkenini ayarlar.
global flopcount;
if nargin == 1
flopcount = fl;
if nargout == 1
f = fl;
end
else
f = flopcount;
end
46
47
EK-7: addflops2.m dosyası
function f = addflops2(fl)
% ADDFLOPS, flopcount değişkenini artırır.
% ADDFLOPS(fl), FLOPS(FLOPS+FL) ile eşdeğerdir fakat daha % etkilidir.
global flopcount;
if ~isempty(flopcount)
flopcount = flopcount + fl;
end
EK-8: flops2_digama.m dosyası
function fl = flops2_digamma
% FLOPS_DIGAMMA digama fonksiyonu için flops komutudur.
% digama fonksiyonunun uygulanmasından;
fl = 12*(4+flops2_div)+flops2_log+flops2_div+13;
EK-9: flops2_log.m dosyası
function f = flops2_log
% FLOPS_LOG logaritma için flops komutu
47
48
% FLOPS_LOG, skalerlerin logaritmasını hesaplamak için
% gerekli flops sayısını verir.
% eğer bu değişirse, flops_pow da değişmelidir.
f = 20;
%f = 20; % yansız
EK-10: flops2_exp.m dosyası
function f = flops2_exp
% FLOPS_EXP exponantiel için flops komutu
% FLOPS_EXP skalerlerin exponantielini hesaplamak için
% gerekli flops sayısını verir
% eğer bu değişirse,flops_pow da değişmelidir.
f = 40;
%f = 20; % yansız
EK-11: flops2_div.m dosyası
function f = flops2_div
% FLOPS_DIV bölme için flops komutu
% FLOPS_DIV iki skaleri bölmek için gereken flop sayısını verir.
f = 8;
48
49
EK-12: drchrnd.m dosyası
function r = drchrnd(a,n)
% Dirichlet dağılımına uygun veri türetir.
x = length(a);
r = gamrnd(repmat(a,n,1),1,n,x);
r = r ./ repmat(sum(r,2),1,x);
end
EK-13: Dirichlet.m dosyası
clear all
clc
N=100;
for k=1:N
a(k)=2+(0.5)*(k-1);
end
x=drchrnd(a,N);
Dirichlet2_fit_newton(x,a)
format short; varyans=var(x(:));
ssapma=sqrt(var(x(:)));
ortalama=mean(x(:));
mod=mode(x(:));
medyan=median(x(:));
simetri=skewness(x(:));
basiklik=kurtosis(x(:));
EK-14: grafik.m dosyası
N=3;
% Dirichlet dağılımının 3 boyutlu grafiğini çizer.
alpha=2:0.5:N;
49
50
x1 = linspace(0,1);
x2 = linspace(0,1);
[X1,X2] = ndgrid(x1,x2);
X3 = 1 - X1 - X2;
bad =(X1+X2 > 1); X1(bad)=NaN; X2(bad)=NaN; X3(bad)=NaN;
beta=(gamma(sum(alpha))./prod(gamma(alpha)));
F=(X1.^(alpha(1)-1) .* X2.^(alpha(2)-1) .* X3.^(alpha(3)-1))/beta;
figure, surf(X1,X2,F,'EdgeColor','none');
xlabel('x1'); ylabel('x2'); zlabel('f(x1,x2,1-x1-x2)');
view(-160,40);
title(sprintf('alpha=%5.3f', alpha))
figure, surf(X1,X2,X3,F,'EdgeColor','none');
xlabel('x1'); ylabel('x2'); zlabel('x3');
view(-160,40);
title(sprintf('alpha=%5.3f', alpha))
50
51
ÖZ GEÇMİŞ
Mayıs 1990'da Van'da doğmuştur. İlk ve orta öğrenimini Van'da tamamlamıştır.
2008-2012 yılları arasında Yüzüncü Yıl Üniversitesi Fen Fakültesi Matematik
Bölümünde okumuştur. 2012 yılında buradan mezun olmuştur. 2014 yılı ocak ayından
itibaren Yüzüncü Yıl Üniversitesi Fen Fakültesi İstatistik Bölümünde araştırma
görevlisi olarak görev yapmaktadır.
51
Download