AST416 Astronomide Sayısal Çözümleme

advertisement
AST416
Astronomide Sayısal Çözümleme - II
Ders 7: Bayesian İstatistiğe Giriş
Thomas Bayes
1701-1761
Los Alamos National Laboratory
http://www.lanl.gov/bayesian/
Bayes Formülü
Bayesian istatistiğin temeli aşağıdaki basit formüle dayanır:
P(veri | θ), Olabilirlik fonksiyonu (ing. Likelihood Function): θ model olarak
seçildiğinde söz konusu veri setini elde etme olasılığı,
P(θ), Öncül (ing. Prior): Herhangi bir önbilgi (veri) olmaksızın θ gibi bir
modelin (ya da teorinin) doğru olma olasılığı,
P(veri), Veri (Kanıt, ing. Evidence): Tüm olası θ model seçimleri için söz
konusu veri setini elde etme olasılığı (hesaplanmasının zor olacağı açıktır),
P(θ | veri), Ardıl (ing. Posterior): Eldeki veriye dayalı olarak θ modelinin geçerli
olma olasılığı olarak tanımlanabilir. Aslında bu parametreler doğrudan
olasılıklara karşılık gelmeyebilir, ancak başlangıç için bunları olasılık olarak
düşünebilirsiniz.
Bayesian istatistik paradigmasının temel amacı θ’nın bütün değerleri için birer
olasılık değeri, bir başka deyişle, tüm θ modellerinin gerçekleşme olasılıklarını
ayrı ayrı hesaplamaktır. Bu nedenle ardıl (posterior) bir olasılık dağılımıdır.
Bayes Formülü
Örnek: İngiltere milli futbol takımının bir Dünya Kupası maçında Fransa milli
futbol takımını yenme olasılığı nedir?
Bu soruya Bayesian istatistik paradigması ve geçmiş maçladan toplanan verinin
ışığında bir cevap aramak üzere aşağıdaki soruları cevaplandırmaya çalışalım:
1. Herhangi bir veri (kanıt) görmeden İngiltere’nin Fransa’yı yeneceğinden ne
kadar emin olabilirsiniz? --> Öncül (prior)
2. Geçmişte yapılmış maçlara ilişkin verileri topladığınızda İngiltere’nin
Fransa’yı yeneceği varsayımıyla böyle bir veri setini toplamanız ne kadar
olasıdır? --> Olabilirlik Fonksiyonu (likelihood function)
3. İngiltere – Fransa arasındaki tüm olası maç sonuçlarının her biri için
elinizdeki veri setine ulaşmanız ne kadar olasıdır? --> Kanıt, Veri (evidence)
Klasik istatistik paradigmasında İngiltere – Fransa arasında oynanmış (N çok
büyük olmak üzere) N maçtan oluşan bir popülasyon hayal edip, bu
popülasyondan örnekler alarak İngiltere’nin Fransa’yı yendiği örnekleri
belirleyerek aradığımız olaslılığa ulaşabiliriz. Ancak İngiltere ile Fransa arasında
oynanmış ve tüm olası sonuçları içeren N tane maçtan oluşan bir popülasyon
aslında yoktur!
İstatistiğe Klasik Yaklaşım ile Bayesian Yaklaşım
Arasındaki Farklar
Örnek 1. Diyelim ki karnımız ağrıyor ve biri klasik (F), biri de Bayesian yaklaşım
uygulayan (B) iki ayrı doktora gidiyoruz.
Klasik yaklaşımı uygulayan doktorun karın ağrısına neden olabilecek tüm olası hastalıklar
gibi bir modeli vardır. Daha sonra sizi muayene eder (örneğin ultrason çeker) ve muayene
sonucunun hangi modelle açıklanabileceğine bakarak karın ağrınızın nedenini tanımlar.
Bayesian yaklaşımı uygulayan doktorun da karın ağrısına neden olabilecek hastalıklar gibi
bir modeli vardır. Ancak bu doktor, hastanın geçmişteki hastalıkları ile (örneğin karın
ağrısı) ilgilenir. Hastayı muayene eder ve muayene sonucunun hangi modelle açıklandığına
bakar, ancak bu sırada hastanın hastalık geçmişinden de faydalanır (örneğin hastanın
bugün karın ağrısı çekmesine neden olabilecek geçmiş bir hastalığı olabilir mi?).
Örnek 2. Diyelim ki kayıp bir denizaltıyı arıyoruz. Klasik yaklaşımda bir gemiden sonar
sinyalleri gönderip, geri dönüş sürelerine bakılarak bir model oluşturulur. Bu modelde eğer
sonar sinyalleri her zamankinden erken dönüyorsa bir denizaltı olmasından şüphenilir.
Baysesian yaklaşımda ise yine sonar sinyallerine dayalı bir model olmakla birlikte,
denizaltının olası rotaları da dikkate alınır ve bu rotalarda model uygulanarak denizaltı
aranır.
İstatistiğe Klasik Yaklaşım ile Bayesian Yaklaşım
Arasındaki Farklar
Örnek 3. Diyelim ki yazı-tura atıyoruz.
Klasik yaklaşımda yazı gelme olasılığı da tura gelme olasılığı da birbiriyle aynı koşullarda sonsuz
kez gerçekleştirilmiş bir yazı-tura deneyinde yazı (ya da tura) gelme sıklıklarını değerlendirmektir.
Bu durumda atılan her bir yazı-turayla değişen şey veridir, modelin parametreleri (yazı ve tura
gelme olasılıkları) ise sabittir!
Bayesian yaklaşımda ise yazı gelme olasılığı, yapılan yazı-tura atışlarında yazı gelen deney
sayısının olası tüm durumların sayısına oranıdır. Bu şekilde tüm olası durumların (yazı ve tura)
eşit olasılığa sahip olduğunu varsıyoruz. Bu durumda verimiz sabit olur (yazı gelen deneylerin
sayısı) ve parametreler değişkendir (yazı ve tura gelme olasılıklarını bilmiyor ve serbest
bırakıyoruz). Böylece, hesaplanan olasılık uzun vadede bu olayın gerçekleşme sıklığını değil,
üzerindeki belirsizliği (ya da bu olayın gerçekleşmesine olan inancımızın derecesini) temsil etmiş
olur. Zira madeni paranın hileli olup olmadığını, parayı atan kişinin yere hep aynı uzaklık ve açıda
parayı atıp atmaya çalıştığını bilmediğimizden başlangıç parametreleri üzerinde bir belirsizlik söz
konusudur. Diyelm ki 10 kez yazı / tura atılmış ve 7’si tura gelmiş, acaba kullanılan madeni para
da bir problem var mıdır?
Örnek 4. Örneğin yakın gezegenlerin yıldızları üzerinde manyetik etkinliğin artışına neden olup
olmayacağını merak ediyoruz.
Klasik yaklaşımda tüm olası yakın gezegenler ve yıldızlardan oluşan bir popülasyon varsayarız.
Gözlediğimiz örneklemde gezegenlerin yakınlıkları ile yıldızlarının morötesindeki ışınım güçleri
arasında bir ilişki olup olmadığına bakarak popülasyon konusunda bir kesitirimde bulunuruz.
Bayesian yaklaşımda ise böyle bir popülasyon varsayamayız. Gözlediğimiz örneklemin
gezegenlerin yıldızları üzerinde (ve bunun sonucu olarak morötesi ışınım güçleri) manyetik
etkinliği arttırıcı bir etkisi olması durumunda elde edilip edilemeyeceğiyle ilgileniriz.
Olasılık Dağılımları
Süreksiz Durum: Diyelim ki bir torbanın içinde 1’den 100’e kadar numaralanmış toplar olsun. Her
bir topu torbadan çekme olasılığımız bu durumda 1 / 100’dür ve bu olasılıkların toplamı da 1’dir.
Süreksiz Tekdüze (ing. Uniform) Olasılık Dağılımı
Olasılık Dağılımları
Sürekli Durum: Örneğin Türkiye’deki insanların boylarının dağılımıyla ilgileniyoruz. Diyelim ki
rastgele seçilen bir bireyin 1.73 m boya sahip olma olasılığını merak ediyoruz. İnsanların
boylarının normal dağıldığı varsayımıyla ve gerçekte hiç kimsenin tam olarak 1.73 m boya sahip
olamayacağı (bunun için mükemmel bir ölçüm yapmamız gerekir) noktasından hareketle rastgele
seçilen bireyin 1.725 m < x < 1.735 m arasında boya sahip olma olasılığını hesaplayabiliriz.
Olasılık = Alan
μ = 1.60 m
Normal (Gaussyen) Olasılık Dağılımı
Marjinal Olasılık (ing. Marginal Probability)
Marjinal Olasılık: Herhangi bir olayı birlikte gerçekleştiği diğer tüm olaylardan ayırdığımızda
(marjinalize ettiğimizde) tek başına gerçekleşme olasılığıdır.
Örnek: Diyelim ki X bir bireyin bir hastalığının olması durumunu göstersin ve bu durum için iki
olasıık var olsun: Hastalığını olması (1) ve olmaması (0).
Y ise bir bireyin bu hastalığa ilişkin bir semptomu göstermesi (1) ya da göstermemesi (0)
durumunu ifade etsin. Bu durumda aşağıdaki tabloda verilen 4 olası durum oluşur.
Y=0
Y=1
X=0
0.5
0.1
X=1
0.1
0.3
Bireyin hastalığın
semptomunu gösteriyor
olması olasılığı
Marjinal Olasılık: Rastgele seçilen bir bireyin hastalığın bir semptomunu gösterme olasılığı nedir?
Bu durumda bütün X değerleri için (hasta olma ya da olmama) Y = 1 (semptomu gösterme)
olasılıklarını toplamalıyız. P( Y = 1) = P(X = 0, Y = 1) + P(X = 1, Y = 1) = 0.1 + 0.3 = 0.4
Bileşke Olasılık (ing. Joint Probabiity)
Bileşke Olasılık: Herhangi bir olayın başka olay(lar)la birlikte gerçekleşme olasılığıdır.
Örnek: Rastgele seçilen bir bireyin hasta olma ve bu hastalığın semptomunu gösterme olasılığı
nedir?
Y=0
Y=1
X=0
0.5
0.1
X=1
0.1
0.3
Bireyin hasta ve bu
hastalığın semptomunu
gösteriyor olması
olasılığı
Bu durumda sadece her iki durumun birlikte gerçekleşme olasılığına bakmalıyız. P(X=1, Y=1) = 0.3
Koşullu Olasılık (ing. Conditional Probabiity)
Koşullu Olasılık: Herhangi bir olayın başka bir olayın gerçekleşmiş olması halinde (varsayımında)
gerçeklşme olasılığıdır.
Örnek: Rastgele seçilen bir bireyin bir hastalığın semptomunu gösteriyor olduğu varsayımı
(bilgisi) halinde hastalığa sahip olma olasılığı nedir?
Y=0
Y=1
X=0
0.5
0.1
X=1
0.1
0.3
Bu durumda bireyin sadece semptomu göstermesiyle, sadece hasta olmasıyla ya da hem semptomu
gösterip, hem de hasta olmasıyla ilgilenemeyiz. İlgilendiğimiz eğer rastgele seçilen hasta semptomu
gösteriyorsa (bu durumda bu olasılığı değerlendirmeliyiz) bu bireyin hasta olmasıdır; yani hasta
hem semptomu göstermeli hem de hasta olmalıdır (bu olasılığı da değerlendirmeliyiz).
Çarpım
Kuralı
P(X = 1 | Y = 1) = P(X = 1, Y = 1) / (P(X = 0, Y = 1) + P(X = 1, Y = 1)) = 0.3 / (0.1 + 0.3) = 0.75
Not: Rastgele seçilen bireyin semptom gösteriyor olduğunun bilinip hasta olmama olasılığı da 0.25’tir
((P(X=0|Y=1) = 0.25, gösteriniz!) Bu iki olasılığın toplamı doğal olarak 0.75 + 0.25 = 1.00 yapar!
Koşullu Olasılık (ing. Conditional Probabiity)
Örnek: Rastgele seçilen bir bireyin göğüs kanseri olma olasılığı %1 olsun (P(C) = 0.01). Diyelim
ki rastgele seçilen bir bireyin gerçekten göğüs kanseri olduğu bilindiğinde uygulanan mamografi
testinin de pozitif çıkma ihtimali %90 (P(+ | C) = 0.90), göğüs kanseri olmadığı bilindiğinde ise
testin pozitif çıkma ihtimali %8 (P(+ | ~C = 0.08) olsun. (Bu ikisinin toplamının 1.00 olmak
zorunda olmadığına dikkat ediniz!)
Acaba testi pozitif çıktığı bilinen bir hastanın gerçekten kanser olma olasılığı (P(C | +) = ?) nedir?
P(C | +) = P(C, +) / P(+)
Ancak biz P(C,+)’yı (herhangi bir bireyin kanser olma ve testinin pozitif çıkma olaslığını) da
P(+)’yı (herhangi bir bir yerin testinin pozitif çıkma olasılığını da bilmiyoruz ama bulabiliriz!
P(+ | C) = P(+, C) / P(C) → P(+,C) = P(C) * P(+ | C)
P(+, C) = 0.01 * 0.90 = 0.009 = P(C,+)
Burada basit bir eşitliği kullandık bir bireyin hem kanser, hem de testinin pozitif olması olasılığı
(P(+,C) ile hem testinin pozitif, hem de kanser olma olasılığı (P(C,+)) aynı şeydir!
P(+) = P(C, +) + P(~C,+)
Burada P(C,+) ‘yı biliyoruz ama P(~C,+)’yı bilmiyoruz ama onu da bulabiliriz!
P(+ | ~C) = P(+, ~C) / P(~C) → P(+,~C) = P(~C) * P(+ | ~C)
P(+, ~C) = (1 - P(C)) * P(+ | ~C) = (1 – 0.01) * 0.08 = 0.0792
Bu durumda P(+) = P(C,+) + P(~C,+) = 0.009 + 0.0792 = 0.0882 ve
P(C | +) = P(C,+) / P(+) = 0.009 / 0.0882 = 0.1020
Yani testi pozitif çıktığı bilinen hastaların yalnızca %10.20’si gerçekten kanserdir! Testte pek çok
yanlış pozitif (ing. false positive) sonuç çıkmaktadır!
Bayes Formülünün Türetilmesi
Bayes formülü aslında klasik istatistiksel yaklaşım üzerinden de türetilebilir.
ve
Bayesian İstatistik
Astronomide (aslında tüm bilimlerde) istatistik yaklaşımlara başvurmamız gerektiğinde
(örneğin geçerli bir teoremiz olmadığında) en temel problem verinin yetersizliğidir.
Örneğin galaksimizdeki ötegezegenlerin oluşumuna ilişkin bir çalışma yapmak
istediğimizde tüm ötegezegen sistemlerine ilişkin tüm parametrelere (popülasyon) sahip
olmadığımız için bugüne kadar keşfedilenlerin bilinen parametreleri (örneklem) üzerinden
çıkarım yapmak zorunda kalırız.
Olasılık Yoğunluğu
Örneğin Güneş-benzeri salınımlar gözlenen yıldızlarda ortalama büyük ayrışma (ing. large
separation) gibi bir parametreyle ilgileniyorsanız, ancak bu parametrenin hesaplandığı
(örneğin Kepler örneklemi) örneklemle sınırlı kalırsınız. Örneklemeniz gelişip (örneğin
TESS örneklemi) parametrenin yeni bir ortalama değerini elde ettiğinizde bu değer de tüm
Güneş-benzeri yıldızlarınkiyle (popülasyon) aynı olmaz. Buna örneklem hatası (ing.
sampling error) diyoruz. Burada popülasyonun ortalama büyük ayrışması sabit bir
değerken, değişen şey veri setidir. Bayesian istatistiksel yaklaşımda popülasyon gibi bir
bilgi olmadığı için, elde ettiğimiz şey elimizdeki veriye dayanarak ortalama büyük
ayrışmanın alabileceği tüm değerlerin olasılıkları, yani bir olasılık dağılımıdır. Dolayısı ile
değişenimiz aslında ortalama büyük ayrışma olur, sabit olansa elimizdeki veri setidir.
Ortalama Ayrışma (Δν)
Bayesian İstatistik
Dolayısıı ile hesaplamaya çalıştığımız şey elimizdeki veriyle herhangi bir ortalama ayrışma
değerinin elde edilme olasılığıdır --> P(Δν | veri).
Bunun için öncelikle Δν’nün herhangi bir değeri için elimizdeki verinin türemiş olma
ihtimaline bakarız (olabilirlik fonksiyonu, likelihood function). Daha sonra eğer hiç veri
almamış olsaydık ortalama ayrışma için her bir değerin olasılığının ne olması gerektiğini
düşünürüz (öncül, prior). Ortalama ayrışma için her bir değerin olasılığının ne olması
gerektiği teoriden geliyor olabilir (informative), tahmini bir değer etrafında rastgele
dağıldığı öngörülebilir (random) veya her değeri alma ihtimali aynı olabilir (uniform)
(uninformative). Son olarak da her bir ortalama ayrışma için bu ayrışma değerini elde
etme olasılığımıza bakarız (kanıt, evidence). Sonuçta elde etmek istediğimiz de herhangi
bir ortalama ayrışma değerinin elde edilme olasılığı (ardıl, posterior) ve hangi ortalama
ayrışma değerinin en olası olduğudur (ardılın maksimum değeri).
Gerçekte bir modelimiz olmadan ne herhangi bir ortalama ayrışma değeri için elimizdeki
veriyi elde etme olasılığını (olabilirlik fonksiyonunu), ne herbir ortalama ayrışma değerinin
olasılığını (öncül), ne de tüm ortalama ayrışma değerleri için olasılık hesaplamamız (kanıt)
mümkündür. Bu nedenle bu ifadeye bir modelin varlığında bu olasılıkların hesaplanacağını
girmeliyiz.
Bayesian Çıkarım: Olabilirlik Fonksiyonu
Diyelim ki iki farklı kabileden birinde bireylerin yarısı bir virüsten etkilenmiş durumda (θ =
1), diğerinde ise aynı virüsten etkilenen yok (θ = 0). Bu iki farklı kabileden gelen 3 bireyin
hiçbiri bu virüsten etkilenmemiş olsunlar. Bu 3 bireyin virüsten etkilenmeyen kabileden
gelme olasılıklarını hesaplayalım ve bu örnek üzerinden Olabilirlik Fonksiyonu’nun nasıl
oluşturulduğunu anlamaya çalışalım.
f(θ), herhangi bir bireyin virüsten etkilenme olasılığı ise model bu olasılıkları belirleyen
matematiksel ifade olmalıdır. 1. kabile için f(θ = 1) = 1/2, 2. kabile için ise f(θ = 0) = 0
olsun. Yani 1. kabilenin yarısı “hasta”, 2. kabilede ise hiç kimse hasta değil1
Elimizdeki veri rastgele seçilmiş 3 bireyin 3’ünün de virüsten etklienmemiş olması: x 1 = 0, x2 = 0, x3 = 0.
Her bir birey için virüsten etkilenmeme ihtimali 1 – f olsun. Bu durumda her 3 bireyin de virüsten
etkilenmemiş olma ihtimali P(x1 = 0, x2 = 0, x3 = 0) = (1 – f)*(1 – f) * (1 – f) = (1 – f)3 olur.
Bireylerin tamamı virüsten etkilenmiş kabileden geliyorlarsa: P(x 1 = 0, x2 = 0, x3 = 0) = (1 – 1/2)3 = 1 / 8
Bireylerin tamamı virüsten etkilenmemiş kabileden geliyorlarsa: P(x 1 = 0, x2 = 0, x3 = 0) = (1 – 0)3 = 1
Dolayısı ile elde edilen bu nicelik eldeki verinin (x1 = 0, x2 = 0, x3 = 0) her bir durum için
(θ = 0 ve θ = 1) elde edilme olasılığını vermektedir, yani olabilirllik fonksiyonudur.
P(veri | θ, model) = 0 (θ = 0), 1/8 (θ = 1)
Bayesian Çıkarım: Öncül (Prior) ve Kanıt (Evidence)
Öncül hiçbir veri görmeden (hiçbir kanıta dayanmaksızın) her bir durum için nasıl bir
olasılık öngördüğümüzü belirler. Örnek problemimiz için popülasyon hakkında bir bilgilmiz
olmadığı için her iki durumda da seçilen bireyin virüsten etkilenmiş kabileden gelme
olasılığı (P(θ = 1)) ve etklenmemiş kabileden gelme olasılığı (P(θ = 1)) ½ ‘dir diyebiliriz.
Model seçimimiz buna herhangi bir kısıt koymamaktadır.
P(θ = 0 | model) = ½
P(θ = 1 | model) = ½
Bu tür öncüllere bilgi vermeyen (ing. uninformative) öncüller adı verilir.
Kanıt, aslında tıpkı olabilirlik fonksiyonu gibidir, sadece θ’dan bağımsızdır: eldeki veriyi
θ’nın tüm değerleri için elde etme olasılıklarının toplamıdır.
Örneğimizdeki veriyi (x1 = x2 = x3 = 0) θ’nın tüm seçenekleri için elde etme olasılığımıza
P(veri|model) bakalım. θ = 0 seçimi için bu olasılık 1 (eğer bireyler virüsten etkilenmemiş
kabileden geliyorsa hepsinin virüsten etkilenmemiş olma olasılığı 1) yani %100’dür. θ = 0
seçimi için bu olasılık 1/8’dir ((1-1/2) 3 = 1/8). Rastgele seçilen bir bireyin virüsten
etkilenmemiş (P(θ = 0)) ya da etkilenmiş ((P(θ = 1)) kabileden gelme olasılığının her
ikisi de 1/2’dir (P(veri|θ,model) = ½). Bu olasılıklar toplandığında;
Bayesian Çıkarım: Ardıl (Posterior)
Örneğimizde rastgele seçilen her 3 bireyin de virüs taşımadığını gösteren veri setimiz (x i
= 0; i=1,2,3) ve modelimiz (f(θ = 0) = 0, f(θ = 1) = ½) ışığında her üçünün de virüsten
etkilenmiş kabileden gelme olasılığını hesaplayalım.
Tüm bireylerin virüsten etkilenmiş kabileden geliyor olmaları durumunda elimizdeki veri
setini (3’ü de virüsten etkilenmemiş bireyler) türetme ihtimali P(veri | θ=1, model) = 1/8.
Rastgele seçilen bir bireyin virüsten etkilenmiş kabileden olma ihtimali P(θ=1) = 1/2. Tüm
θ olasılıkları üzerinden bu verinin türetilme ihtimali P(veri | model) = 9/16 old. göre;
Bu işlemi tüm bireylerin virüsten etkilenmemiş kabileden geliyor olmaları durumu için de
yapabiliriz. Elimizdeki veri setini (3’ü de virüsten etkilenmemiş bireyler) bu durumda
türetme ihtimali P(veri | θ=0, model) = 1. Rastgele seçilen bir bireyin virüsten
etkilenmemiş kabileden olma ihtimali P(θ=0) = 1/2. Tüm θ olasılıkları üzerinden bu
verinin türetilme ihtimali P(veri | model) = 9/16 old. göre;
Sonuç olarak elimizdeki veri ve modele dayanarak tüm bu bireylerin virüsten
etkilenmemiş kabileden geliyor olma ihtimali 8/9, diğer kabileden geliyor olma ihtimalleri
ise 1/9’duır ve bu iki ihtimalin toplamı da 1 yapar.
Bayes Faktörü ve Model Karşılaştırma
Bir model seçimi için (örneğimizde θ = 1) için elde edilen ardılın (posterior), diğer bir
model seçimi için (örneğimizde θ = 0) için elde edilen ardıla oranına Bayes faktörü adı
verilir. Bu oranda her iki ardılı hesaplarken bölen olarak kullanılan P(veri|model) olasılıkları
(yani kanıtlar) birbirini götürür. Zira veri sabittir!
Aslında veri sabit olduğu için elimizdeki veriyle farklı modeller üretip karşılaştırırken
dayandığımız kanıt (evidence) hep aynı olduğundan bu terimi hesaplamak zorunda değiliz.
Bu terimi hesaplamak ayrıca oldukça zordur, zira tüm modeller için ayrı ayrı bu model
doğru kabul edildiğinde elimizdeki verinin türeme ihtimallerinin hesaplanıp toplanmasını
(olabilirlik fonksiyonunun tüm olası modeller için elde edilip toplanmasını) gerektirir ki bu
maliyetli bir iştir.
Bu nedenle ardıl (posterior) hesaplanırken başvurulan pek çok yöntem (MCMC
(Metropolis-Hastings ve diğerleri), Nested Sampling...) bu terimi hesaplamamaya dayanır.
Örnek: Hileli Yazı / Tura Problemi
Bayesian istatistik paradigmasıyla düşünme, yani deneyler ya da gözlemlerle elde edilen
veriye ve arka plan bilgimize dayalı olarak bir olayın olası tüm sonuçlarının olasılıklarını
hesaplamaya yönelik iyi bir örnek yazı / tura atış problemidir.
Las Vegas’ın kumarhanelerinde bir seri yazı / tura atışı problemine tanıklık ettiğimizi
düşünelim. Öğrenmeye çalıştığımız şey yazı / tura atışını yapan kişinin bir şekilde atışın
sonuçlarını belirleyip belirlemediği, eğer belirliyorsa bunu hangi başarımda yaptığı olsun.
Problemi klasik istatistik yaklaşımı ile ele alırsak zarın hangi miktarda hileli olduğuna
ilişkin bir 0 hipotezimiz olur (null hypothesis). Elimizdeki veriye (bir seri yazı / tura atışının
sonucuna) ve yazı / tura atışları için olasılık dağılımı belirleyen bir dağılıma (örn. Bernoulli
dağılımı) bakarak, belirlediğimiz anlamlılık düzeyinde (örn. 0.05) bu hipotezi reddedip
reddedemeyeceğimizle ilgileniriz. Zarın olası tüm hilelilik durumlarının (hep yazı gelir, hep
tura gelir, ¾ tura gelir vs.) olasılıklarını belirlemekle ilgilenmeyiz.
Şimdi aynı probleme Bayesian istatistik yaklaşımıyla yaklaşalım ve bu yolla Bayesian
istatistiğin temellerini anlamaya çalışalım.
Örnek: Hileli Yazı / Tura Problemi
Öncülün Belirlenmesi
Problem: Las Vegas'ta bir kumarhanede yapılan 4096 seri yazı-tura atışının çoğunun (?) yazı gelmesiyle yapılan
yazı / tura atışlarının hileli olmasından şüpheleniyoruz. Taraflı olabileceğinden (bias-weighted) kuşkulandığımız bu
atışlar konusundaki kuşkularımızı gidermek üzere, tüm yazı-tura atışlarının H = 0 ve tüm tura atışlarının H = 1 ile
temsil edildiği bir skala oluşturuyoruz. H = 0.5 bu durumda adil bir atışı temsil etmiş oluyor. Probleme Bayes
teoremi ile yaklaşarak elimizdeki veri (4096 yazı / tura atışının sonucu), hiç veri görmeden her bir hileli durumun
olasılığına dair inancımızı gösteren öncül (prior) ve arkaplan (background) bilgimiz (bir atışının sonucunun diğerini
belirlemedi: I) ışığında atışların adil olup olmadığını belirleyen H fonksiyonu için seçtiğimiz herhangi bir değerin ne
kadar olası olduğudur (ardıl: posterior): P(H | veri, I))
Öncül Fonksiyonun (Prior) Belirlenmesi: Elimizde hiçbir veri olmaksınız H’ın her bir değeri için sadece arkaplan
bilgimize dayanarak atadığımız olasılık değeri bizim H’ın her bir değerinin olasığına dair inancımız (ya da
önyargımız)’dır. Başlangıç olarak tüm hileli durumların eşit olasılıkta olduğunu varsayalım. Sonuçta Las Vegas’ta bir
kumarhanede neyin nasıl olacağını bilemeyiz. O nedenle H’ın her bir değerine aynı olasılığı aşağıdaki fonksiyonla
belirleyelim.
P(H | I) = 1, 0 <= H <= 1, P(H | I) = 0, H < 0, H > 1
Bu tür, herhangi bir teoriye ya da öngörüye dayanmayan öncüllere bilgi vermeyen (uninformative) öncüller adı
verilir.
Örnek: Hileli Yazı / Tura Problemi
Olabilirlik Fonksiyonunun Belirlenmesi
Olabilirlik Fonksiyonunun (Likelihood Function) Seçimi: Verilen bir hileli durum için (H’ın herhangi bir değeri
için) elimizdeki veri setini (4096 yazı / tura atışının sonuçlarını) oluşturabilme olasılığımızı belirleyen fonksiyon
olabilirlik fonksiyonudur. Arkaplan bilgimiz ışığında bunu hesaplayabliriz. Arkaplan bilgimiz (I) bir atışın sonucunun
bir sonrakini belirlemediğidir. Tıpkı klasik istatistikte olduğu gibi her bir hileli durum için elimizdeki veri setini
üretebileceğimiz bir dağılım öngörüyoruz. Yazı / tura atışı gibi iki seçenekli durumlarda olasılıkların dağılımını
Bernoulli dağılımı ile belirleriz (qm (q’)n-m, q’ = 1 – q). Problemimizi kolaylıkla buna adapte edebiliriz. q önermesini
yazı / tura atışına atadığımız hilelilik durumu (H) olarak belirlediğimizde, H atışların tura gelmeye ayarlanma oranını
gösterdiği için 1-H’da diğer seçenek yani yazı gelmeye ayarlanma oranını (yani q’) göstermektedir ve bu ikisinin
toplamı 1’dir. Atış ne şekilde hileli olursa olsun para ya yazı ya da tura gelir, üçüncü bir seçenek yoktur. Paranın R
denemede tura geldiğini ve N kez atıldığını varsayarak N-R denemede de yazı geldiği sonucu çıkar. Bu durumda
olabilirlik fonksiyonu
P(veri | H, I) = HR (1 – H)N-R
olarak belirlenmiş olur.
Kanıt (Evidence) Hesabı: Bu kez her bir H durumu için elimizdeki veri setini (4096 yazı / tura atışının
sonuçlarını) üretebilme ihtimalidir. Gördüğümüz gibi kanıt olabilirlik fonksiyonuna çok benzemekte, ondan tüm
durumlar için olasılıkların toplamını belirlemesi bağlamında ayrılmaktadır. Yani olabilirlik fonksiyonu herhangi bir
hileli durum (H’ın herhangi bir değeri) için bu veri setinin türetilme ihtimalini belirlerken, kanıt (evidence) tüm hileli
durumlar için bu veri setinin türetilme olasılıklarının toplamıdır. Yani aslında H’ın herhangi bir değeri için olabilirlik
fonksiyonunu da içeren ve tüm olasılıkları kapsayan bir normalizasyon terimidir. Sonuç olarak belilremek istediğimiz
elimizdeki veriyle her bir H durumunun (tek tek) gerçekleşme olasılğını gösteren ardıl olasılık dağılımı (posterior
probability distribution) ‘dır. Bu nedenle seçilmiş bir H durumu için öncülümüzün (prior) ne öngordüğü ile olabilirlik
fonksiyonunun bu H durumu için elimizdeki veriyi üretme konusunda belirlediği olasılığın çarpımını tüm olası H
değerleri için bu veriyi üretme olasılığının toplamını ifade eden kanıta bölerek, söz konusu H durumunun elimizdeki
veri ile üretlimiş olma olasılığını (ardıl olasılık) bulmuş oluruz. Bunu tüm H durumları için yapar ve toplarsak,
toplamda 1 elde etmeliyiz! Görüldüğü gibi her bir ardıl olasılığın hesabı için hep aynı kanıtı (evidence) kullanıyoruz.
O nedenle her bir H durumunun doğrudan olasılığı yerine bunların birbirlerine göre ne kadar olası olduklarını
karşılaştırmak istersek kanıtı hesaplamaya ihtiyacımız olmaz. Bayes teoremini bir eşitlik olarak değil bir bağıntı
olarak yazmamız yeter:
P(H | veri, I)
α P(veri | H, I) x P(H | I)
Örnek: Hileli Yazı / Tura Problemi
Ardıl (Posterior) Dağılımın Hesabı
Örnek olarak ilk yazı / tura atışının ardıl (posterior) dağılımını hesaplayalım ve ilk atışın tura geldiğini varsayalım.
Bu durumda P(veri | H, I) = HR (1 – H)N-R şeklinde verilen olabliirlik fonksiyonunda R = 1 ve N = 1’dir. Olabilrlik
fonksiyonu
P(veri | H, I) = H1 (1 – H)1-1 = H
olarak belirlenmiş olur. Öncülümüz H’ın her değeri için eşit ve 1 idi.
P(H | I) = 1
Ardıl olasılık dağılımı (posterior probability function)
P(H | veri, I)
α P(veri | H, I) x P(H | I) = H x 1 = H
Şeklilde y ekseni olasılık olarak belirtilkmiş olmasına karşılık herhangi bir ölçek verilmemiştir. Bunun nedeni eksenin gerçekte
bir olasılık yoğunluk fonksiyonu (probability density function) biriminde olması ve olasılıkların eğrinin altında kalan alanlarla
belirlenmesi ve kanıt hesaplanmadığı için bunların göreli olasılıklar olmasıdır. Eğer her bir H durumu için veriyi elde etme
olasılıkları (kanıt) hesaplanır ve hesaba dahil edilirse eğrinin altında kalan toplam alan 1’e eşit çıkar. Sol üst köşede en son
yapılan atış (H: heads, tura), sağ üst köşede ise toplam deney sayısı (yazı / tura atışı sayısı) verilmektedir. Görüldüğü gibi
atışların tümünün yazıya ayarlanmış olma ihtimali kalmamıştır (P(H = 0 | veri, I) = 0). En büyük olasılık ise tüm atışların
turaya ayarlanmış olması durumuna verilmiştir, zira şu ana kadar yapılmış olan tek atışın sonucu turadır.
Örnek: Hileli Yazı / Tura Problemi
Ardıl (Posterior) Dağılımın Hesabı
Şimdi ikinci yazı / tura atışın sonrası ardıl (posterior) dağılımını hesaplayalım ve yine tura geldiğini varsayalım. Bu
durumda R = 2 ve N = 2’dir. Olabilrlik fonksiyonu
P(veri | H, I) = H2 (1 – H)2-2 = H2
olarak belirlenmiş olur. Öncülümüz H’ın her değeri için eşit ve 1 idi.
P(H | I) = 1
Ardıl olasılık dağılımı (posterior probability function)
P(H | veri, I)
α P(veri | H, I) x P(H | I) = H
2
x 1 = H2
H > 0.5 durumları (atışların çoğunun tura gelmeye ayarlanmış olma durumu) giderek daha olası hale gellirken H <
0.5 durumlarının olasılığı giderek azalmaktadır. Zira ilk 2 atışın 2’si de tura gelmiştir. Yine en büyük olasılık tüm
atışların turaya ayarlanmış olması durumundadır (H = 1).
Örnek: Hileli Yazı / Tura Problemi
Ardıl (Posterior) Dağılımın Hesabı
Şimdi üçüncü yazı / tura atışı sonrası ardıl (posterior) dağılımını hesaplayalım ve bu kez yazı geldiğini varsayalım.
Bu durumda R = 2 ve N = 3’tür. Olabilrlik fonksiyonu
P(veri | H, I) = H2 (1 – H)3-2 = H2 (1 - H)
olarak belirlenmiş olur. Öncülümüz H’ın her değeri için eşit ve 1 idi.
P(H | I) = 1
Ardıl olasılık dağılımı (posterior probability function)
P(H | veri, I)
α P(veri | H, I) x P(H | I) = H (1-H) x 1 = H
2
2
(1 - H)
Artık tüm atışların tura gelmeye ayarlanmadığını da biliyoruz. Zira son atışımız yazı (T: tails) gelmiştir:
P(H = 1 | veri , I) = 0
Ancak hala atışların çoğunun tura gelmeye ayarlandığı düşüncesi hakimdir ve ardıl dağılımda açıkça görülmektedir.
P(H > 0.5 | veri, I) > P(H < 0.5 | veri, I)
Örnek: Hileli Yazı / Tura Problemi
Ardıl (Posterior) Dağılımın Hesabı
Ve deneyi yapmayı sürdüyor, her durumda ardıl dağılımı hesaplıyor ve grafiğe geçiriyoruz. Burada y-ekesninde
olasılık yoğunluğu dağılımının göreli bir ifadesinin olduğunu hatırlatalım. Aksi durumda hesaba kanıtı da dahil
etmemiz gerekirdi.
Gördüklerimiz giderek bizi yazı / tura atışlarının adil olmadığına “ikna” ediyor. Başlangıçta tüm olasılıklara eşit şans
tanırken 4096 atış sonunda tüm atışların neredeyse 3/4’ünün yazı gelmeye ayarlanmış olduğu kanısına varıyoruz.
Hala diğer durumlar da olası ama olasılıkları daha az!
Örnek: Hileli Yazı / Tura Problemi
Farklı Öncüller Kullanmak
Acaba tekdüze (uniform, flat) bir öncül (prior) yerine farklı öncüller kullansak sonuç değişir miydi? Örneğin parayı
adil varsaysak ve maksimum olasılığı H = 0.5 olan ve H = 0.35 ile H = 0.65 arasında olasılığın daha fazla olduğu
bir dağılımla yola çıksak (bir sonraki slayttaki şekilde --- kesikli eğri), ya da parayı inanılmaz yanlı olarak hayal
ettiğimiz ve maksimum ağırlığı paranın tamamen yazı ya da tamamen tura gelme olasılıklarına doğru dağıttığımız
bir olasılık dağılımı (bir sonraki slayttaki şekilde .... noktalı eğri) ile yola çıksak ne olur? Karşılaştırma için her
durumda elde edilen posterior pdf'ler aşağıdaki şekilde verilmektedir. Deney sayısı arttıkça aynı sonuçları elde
etmemiz durumunda (yani veri setimizin değişmemesi durumunda) dağılımın aynı ardıla (posterior pdf) doğru
evrildiği açıktır.
Şekle bakılarak her dağılımın aynı maksimum olasılık değerlerini verdiği düşünülmemelidir. Daha iyi bir
karşılaştırma için ardıl (posterior probability density function) değerleri tekdüze (uniform) dağılımla elde edilene
ölçeklenmiş durumdadır. Ancak sonuç olarak öncül bilgimiz ve yaklaşımımız ne olursa olsun veri arttıkça olabilirlik
fonksiyonunun öncülü domine etmesi nedeniyle olayın doğasının gerektirdiği olasılık dağılımına yakınsanmaktadır.
Başlangıçtaki öncüle bağımlılık giderek azalmakta başlangıç inancımız ne olursa olsun deneysel kanıtın artmasıyla
aynı sonuçlara ulaşılmaktadır.
Şekilde görülen bir başka sonuç ancak bin küsür atış sonrası paranın doğasına yönelik olan inancımızın
güçlendiğidir. Diğer bir husus da paranın tüm hileli durumlara eşit olasılıkla sahip olduğu durum (sürekli eğri) ile
paranın neredeyse tamamen hileli varsayıldığı (noktalı eğri) hızla birbirine yaklaşır ve bir H değerini yakınsarken,
hemen hemen adil olduğunun varsayıldığı öncülle yola çıkıldığında (kesikli eğri) yakınsamanın ancak 2000
deneyden sonra gerçekleşmesidir. Birinci gözlemimizin nedeni paranını hilelilik derecesinin çok yüksek olmamasıdır,
yoksa hemen farkedilirdi. İkinci gözlememiz ise kesikli eğriyle gösterilen öncülün uniform ve hileliği yüksek zar
yaklaşımlarına göre daha az belirsizlik içermesiyle açıklanabliir. Zira uniform öncül zaten tamamıyla düzdür, hileliği
yüksek zar yaklaşımı (noktalı eğri) da H'ın çok fazla değeri için neredeyse düzdür. Kesikli eğri ise Gaussyen'e
benzeyen bu nedenle de adil bir zar yaklaşımına daha yakın bir yaklaşımdır. O nedenle de zarın hileli olduğuna çok
daha zor "ikna" olmaktadır... Öncüller zarın hileli olduğuna ilişkin başlangıç varsayımları (ön yargıları) farklı 3 insan
gibidir. Başlangıçta bütün veriyi kendi ön yargılarının gözünden değerlendirmektedirler. Ancak bu 3 insan da ne
kadar ön yargılı başlasalar da "makul" insanlardır ve veriyi gördükçe yaklaşımlarını değiştirmektedirler ve ikna
olmaya açıktırlar. En zor ikna olan doğal olarak başlangıçta zarların hileli olmadığı konusunda en ön yargılı olan
olacaktır. Dolayısı ile prior bütünüyle önemsiz değildir. Veri sayısına ve bilgi düzeyimize göre yanlılıklarımız
çıkarımlarımızda önemli rol oynayabilir. Doğal olan da budur ve gerçekten biz bu deneyimi yaşarız... Gerçekten en
uzakta yanlılığa sahip olanlar inatçılıkları oranında gerçeğe en az uyananlardır. Ama gerçek orada durur ve daha
çok veri gördükleri vakit o gerçeğe eninde sonunda uyanırlar...
Adım Adım Ya da Tek Adımda Veri Analizi
Acaba N tane örnekten oluşan Dk = {D1, D2, D3, .., DN} veri setini tek bir kere de alıp analiz etmekle (P(H | Dk, I)),
biraz önce yazı / tura deneyinde yaptığımız gibi veri geldikçe analiz etmek (P(H | D 1, I), P(H | D2, I), ... ) arasında
bir fark var mıdır? Öncelikle durumu sadece 2 veri açısından (D 1 ve D2) değerlendirelim.
İlk olarak bu iki veriyi aynı anda analiz ettiğimizi varsayalım. Bu durumda ardıl olasılık yoğunluk fonksiyonu:
Bu kez diyelim ki öncelikle D1'i gözledik ve D1 ile öncülümüze dayalı olarak D2 verisi de alındıktan sonra ardıl
olasılıığı yoğunluk fonksiyonunu hesaplıyoruz. Bu kez,
Bu ifadenin en sağındaki öncülün D1 ile yapılan analizin sonucunda elde edilen ardıl olasılık yoğunluk fonksiyonu
(posterior) olduğu kolayca görülebilir. Bu ifadedeki olabilirlik fonksiyonu ise klasik kullandıklarımızdan bir miktar
farklı olmakla birlikte verilerin birbirinden bağımsız oldukları, yani bir veriyle ulaşacağımız sonuç ikincisiyle
ulaşacağımızdan (ya da tersi) bağımsızdır. Örneğin 5. kez para atışı soncunda yapacağımız analiz 4. sonucundan
bağımsız olmalıdır. Bu durum matematiksel olarak şu şekilde ifade edilebilir:
Bu ifade yukarıdaki ikinci ifadede yerine konduğunda 1. ifade elde edilir ki bu adım adım ilerleyerek analizle, tek bir
seferde tüm verinin analizi arasında bir fark olmadığını ortaya koyar.
İteratif bir yöntemle daha iyi bir sonuç elde edilebilir mi?
Burada iteratif yöntemden kasıt aynı verinin analizinde bir adımda elde edilen ardılın
(posterior) bir sonraki adımda öncül (prior) olarak kullanılmak suretiyle izlenen bir
yöntemdir. Böyle bir yöntem yanlış ve yanıltıcı sonuçlar verir! Bu tür bir "boot-strapping"
yöntemi bir ardıl olasılık yoğunluk fonksiyonunu tekrar kendisine bağlar. Veri değişmediği
için bu iki ardıl fonksiyon birbirine ancak eşit olabilir, bir olabilirlik fonksiyonu ile
bağlanamaz. Eğer ısrar edilirse iterasyonun birinci adımında ulaşılan ardılın öngördüğü en
muhtemel değer etrafında giderek keskinleşen dağılım fonksiyonları elde edilir ve veri
analizcisi yaptığının doğru olduğuna yanlış bir şekilde giderek daha fazla inanır. Bir
analizi iyileştirmenin tek yolu daha fazla veri almak ya da veri az ise gerçekçi
öncül ve olabilirlik fonksiyonları kullanmaktır.
En İyi Tahminler, Hata Barları ve Güvenilirlik Aralıkları
Ardıl olasılık fonksiyonunun (posterior pdf) analiz sonuçlarını nasıl ortaya koyduğunu gördük: parametrenin her
olası değer aralığı için bir olasılık değeri belirleyerek! Ancak bazen bir parametre için en olası değere ve bu değer
için de bir güvenilirlik seviyesine (confidence level) ihtiyacımız olur. En iyi tahmin açık ki ardılın (posterior pdf)
aldığı maksimum değere denk gelen parametre değeridir. Matematiksel olarak bu değeri (X 0) ardılın (P(X | veri, I))
türevini alıp 0'a eşitleyerek bulabiliriz.
Yine matematiksel olarak bu noktanın maksimum olduğunu güvence altına almak için ikinci türevin 0'dan küçük
olup olmadığı da kontrol edilmelidir. Süreksiz durumda iş daha kolaydır zira y-ekseni doğrudan olasılıktır (posterior
probability mass function). En olası değer de o maksimum olasılığın olduğu X değeri olur.
Bu değerin güvenilirliği için ise ardılın X0 civarında nasıl dağıldığına bakılır. Herhangi bir fonksiyonun bir nokta
etrafında nasıl dağıldığına bakmanın iyi bir yolu, fonksiyonun o nokta civarında Taylor açılımını elde etmektir.
Aslında bu o nokta civarında fonksiyona düşük dereceden bir polinom fiti yapmakla özdeştir. Genellikle bu durumda
pdf'in kendisinin yerine daha yavaş değiştiği için onun logaritması ile ilgilenilir. L = ln(P(X | {veri}, I). Bu durumda
ardılın X0 civarındaki Taylor açılımı:
En İyi Tahminler, Hata Barları ve Güvenilirlik Aralıkları
Bu tanım dahilinde en iyi tahmin dL / dX = 0'ın karşılık geldiği X 0 değeri olur. Maksimum civarında bir seri açılımı
olduğu için lineer terim bu seride bulunmaz. Birinci terim (L(X 0)) da bir sabit olup ardılın şekliyle ilişkiil değildir.
Dolayısı ile ardılın şeklini (en olası değer etrafındaki saçılmasını) kuadratik terim temsil eder. Diğer tüm üst
dereceden terimleri çok küçük olacakları gerekçesiyle ihmal edecek olursak
Tekrar ardıla geçmek için L'nin e üzerini almalıyız. Bu durumda X0 civarında pdf yukarıdaki fonksiyonla ifade edilmiş
olur. Bu Aslında bu şekilde X0 civarında seriyi Taylor serisinie açmakla X0 civarında ardılı bir Gaussyen fonksiyonla
ifade etmiş oluruz. Burada A bir normalizasyon sabitidir. Ardıl böylece bir Gaussyen, bir başka deyişle bir normal
dağılım olmuş olur.
En İyi Tahminler, Hata Barları ve Güvenilirlik Aralıkları
Bu dağılımın standart sapması L'nin X = X0 'daki ikinci türevinin karekökü ile ters orantılıdır.
X parametresi için en iyi tahmin (en olası değer; best estimate) ise klasik şekilde verilir X = X 0 +/- σ. Doğal olarak
normal dağılımın gereği X'in gerçek değerinin X0 +/- 1σ arasında olma ihtimali %67'dir.
Örnek: Hileli Yazı / Tura Problemi
En Olası Değer ve Hatasının Hesabı
Tekdüze (uniform, flat) öncül (prior) ile binomial olabilirlik fonksiyonlarının (likelihood function) ardıl olasılık
yoğunluk dağılımı fonksiyonunu
şeklinde elde etmiştik. Bu ifadenin ln'ini alarak L fonksiyonunu hesaplayacak olursak
ifadesi elde edilir. Bu ifade değişkeni olan H'ye göre iki kez türevlenirse
elde edilmiş olur. En olası değeri bulmak için birinci türev 0'a eşitlenir ve cebirsel düzenleme yapılacak olursa
bulunmuş olur. Bu basit bir şekilde en olası hilelilik değerinin tura sayısının toplam yazı/tura atış sayısına oranı
olduğunu gösterir. Dağılımın standart sapması ise L'nin ikinci türeviyle verilir.
Örnek: Hileli Yazı / Tura Problemi
En Olası Değer ve Hatasının Hesabı
Dağılımın standart sapması ise L'nin ikinci türeviyle verilir.
Standart sapma hatırlanacağı gibi bu değerin tersinin karaköküdür.
H (atışın yanlılık oranı) bir süre deney yaptıktan sonra H0'a doğru yakınsar ve ardılın maksimumu H0 civarına gelir.
Ancak bu maksimum etrafındaki dağılımın standart sapmasının azalması (yani bu maksimumun daha güvenilir hale
gelmesi) daha çok veri almakla (N'i büyütmekle) mümkün hale gelir. Ayrıca bu denklemden adil bir atışın (H ~ 0.5)
yanlılık oranını bulmak çok daha zordur zira H0 = 0.5 için standart sapma ifadesinin bölüm çizgisinin üstünde kalan
tarafı (H0 x (1 - H0)) maksimum olur; dağılımın genişliği de bu değer için maksimumdur!
Kaynaklar
✔ Devinderjit Sivia, John Skilling, “Data Analysis: A Bayesian Tutorial” Oxford
University Press, USA (2006)
✔ Bayesian Statistics: A Comprehensive Course, Ox Education,
https://www.youtube.com/watch?v=U1HbB0ATZ_A&list=PLFDbGp5YzjqXQ4
oE4w9GVWdiokWB9gEpm
Download