AST416 Astronomide Sayısal Çözümleme - II Ders 7: Bayesian İstatistiğe Giriş Thomas Bayes 1701-1761 Los Alamos National Laboratory http://www.lanl.gov/bayesian/ Bayes Formülü Bayesian istatistiğin temeli aşağıdaki basit formüle dayanır: P(veri | θ), Olabilirlik fonksiyonu (ing. Likelihood Function): θ model olarak seçildiğinde söz konusu veri setini elde etme olasılığı, P(θ), Öncül (ing. Prior): Herhangi bir önbilgi (veri) olmaksızın θ gibi bir modelin (ya da teorinin) doğru olma olasılığı, P(veri), Veri (Kanıt, ing. Evidence): Tüm olası θ model seçimleri için söz konusu veri setini elde etme olasılığı (hesaplanmasının zor olacağı açıktır), P(θ | veri), Ardıl (ing. Posterior): Eldeki veriye dayalı olarak θ modelinin geçerli olma olasılığı olarak tanımlanabilir. Aslında bu parametreler doğrudan olasılıklara karşılık gelmeyebilir, ancak başlangıç için bunları olasılık olarak düşünebilirsiniz. Bayesian istatistik paradigmasının temel amacı θ’nın bütün değerleri için birer olasılık değeri, bir başka deyişle, tüm θ modellerinin gerçekleşme olasılıklarını ayrı ayrı hesaplamaktır. Bu nedenle ardıl (posterior) bir olasılık dağılımıdır. Bayes Formülü Örnek: İngiltere milli futbol takımının bir Dünya Kupası maçında Fransa milli futbol takımını yenme olasılığı nedir? Bu soruya Bayesian istatistik paradigması ve geçmiş maçladan toplanan verinin ışığında bir cevap aramak üzere aşağıdaki soruları cevaplandırmaya çalışalım: 1. Herhangi bir veri (kanıt) görmeden İngiltere’nin Fransa’yı yeneceğinden ne kadar emin olabilirsiniz? --> Öncül (prior) 2. Geçmişte yapılmış maçlara ilişkin verileri topladığınızda İngiltere’nin Fransa’yı yeneceği varsayımıyla böyle bir veri setini toplamanız ne kadar olasıdır? --> Olabilirlik Fonksiyonu (likelihood function) 3. İngiltere – Fransa arasındaki tüm olası maç sonuçlarının her biri için elinizdeki veri setine ulaşmanız ne kadar olasıdır? --> Kanıt, Veri (evidence) Klasik istatistik paradigmasında İngiltere – Fransa arasında oynanmış (N çok büyük olmak üzere) N maçtan oluşan bir popülasyon hayal edip, bu popülasyondan örnekler alarak İngiltere’nin Fransa’yı yendiği örnekleri belirleyerek aradığımız olaslılığa ulaşabiliriz. Ancak İngiltere ile Fransa arasında oynanmış ve tüm olası sonuçları içeren N tane maçtan oluşan bir popülasyon aslında yoktur! İstatistiğe Klasik Yaklaşım ile Bayesian Yaklaşım Arasındaki Farklar Örnek 1. Diyelim ki karnımız ağrıyor ve biri klasik (F), biri de Bayesian yaklaşım uygulayan (B) iki ayrı doktora gidiyoruz. Klasik yaklaşımı uygulayan doktorun karın ağrısına neden olabilecek tüm olası hastalıklar gibi bir modeli vardır. Daha sonra sizi muayene eder (örneğin ultrason çeker) ve muayene sonucunun hangi modelle açıklanabileceğine bakarak karın ağrınızın nedenini tanımlar. Bayesian yaklaşımı uygulayan doktorun da karın ağrısına neden olabilecek hastalıklar gibi bir modeli vardır. Ancak bu doktor, hastanın geçmişteki hastalıkları ile (örneğin karın ağrısı) ilgilenir. Hastayı muayene eder ve muayene sonucunun hangi modelle açıklandığına bakar, ancak bu sırada hastanın hastalık geçmişinden de faydalanır (örneğin hastanın bugün karın ağrısı çekmesine neden olabilecek geçmiş bir hastalığı olabilir mi?). Örnek 2. Diyelim ki kayıp bir denizaltıyı arıyoruz. Klasik yaklaşımda bir gemiden sonar sinyalleri gönderip, geri dönüş sürelerine bakılarak bir model oluşturulur. Bu modelde eğer sonar sinyalleri her zamankinden erken dönüyorsa bir denizaltı olmasından şüphenilir. Baysesian yaklaşımda ise yine sonar sinyallerine dayalı bir model olmakla birlikte, denizaltının olası rotaları da dikkate alınır ve bu rotalarda model uygulanarak denizaltı aranır. İstatistiğe Klasik Yaklaşım ile Bayesian Yaklaşım Arasındaki Farklar Örnek 3. Diyelim ki yazı-tura atıyoruz. Klasik yaklaşımda yazı gelme olasılığı da tura gelme olasılığı da birbiriyle aynı koşullarda sonsuz kez gerçekleştirilmiş bir yazı-tura deneyinde yazı (ya da tura) gelme sıklıklarını değerlendirmektir. Bu durumda atılan her bir yazı-turayla değişen şey veridir, modelin parametreleri (yazı ve tura gelme olasılıkları) ise sabittir! Bayesian yaklaşımda ise yazı gelme olasılığı, yapılan yazı-tura atışlarında yazı gelen deney sayısının olası tüm durumların sayısına oranıdır. Bu şekilde tüm olası durumların (yazı ve tura) eşit olasılığa sahip olduğunu varsıyoruz. Bu durumda verimiz sabit olur (yazı gelen deneylerin sayısı) ve parametreler değişkendir (yazı ve tura gelme olasılıklarını bilmiyor ve serbest bırakıyoruz). Böylece, hesaplanan olasılık uzun vadede bu olayın gerçekleşme sıklığını değil, üzerindeki belirsizliği (ya da bu olayın gerçekleşmesine olan inancımızın derecesini) temsil etmiş olur. Zira madeni paranın hileli olup olmadığını, parayı atan kişinin yere hep aynı uzaklık ve açıda parayı atıp atmaya çalıştığını bilmediğimizden başlangıç parametreleri üzerinde bir belirsizlik söz konusudur. Diyelm ki 10 kez yazı / tura atılmış ve 7’si tura gelmiş, acaba kullanılan madeni para da bir problem var mıdır? Örnek 4. Örneğin yakın gezegenlerin yıldızları üzerinde manyetik etkinliğin artışına neden olup olmayacağını merak ediyoruz. Klasik yaklaşımda tüm olası yakın gezegenler ve yıldızlardan oluşan bir popülasyon varsayarız. Gözlediğimiz örneklemde gezegenlerin yakınlıkları ile yıldızlarının morötesindeki ışınım güçleri arasında bir ilişki olup olmadığına bakarak popülasyon konusunda bir kesitirimde bulunuruz. Bayesian yaklaşımda ise böyle bir popülasyon varsayamayız. Gözlediğimiz örneklemin gezegenlerin yıldızları üzerinde (ve bunun sonucu olarak morötesi ışınım güçleri) manyetik etkinliği arttırıcı bir etkisi olması durumunda elde edilip edilemeyeceğiyle ilgileniriz. Olasılık Dağılımları Süreksiz Durum: Diyelim ki bir torbanın içinde 1’den 100’e kadar numaralanmış toplar olsun. Her bir topu torbadan çekme olasılığımız bu durumda 1 / 100’dür ve bu olasılıkların toplamı da 1’dir. Süreksiz Tekdüze (ing. Uniform) Olasılık Dağılımı Olasılık Dağılımları Sürekli Durum: Örneğin Türkiye’deki insanların boylarının dağılımıyla ilgileniyoruz. Diyelim ki rastgele seçilen bir bireyin 1.73 m boya sahip olma olasılığını merak ediyoruz. İnsanların boylarının normal dağıldığı varsayımıyla ve gerçekte hiç kimsenin tam olarak 1.73 m boya sahip olamayacağı (bunun için mükemmel bir ölçüm yapmamız gerekir) noktasından hareketle rastgele seçilen bireyin 1.725 m < x < 1.735 m arasında boya sahip olma olasılığını hesaplayabiliriz. Olasılık = Alan μ = 1.60 m Normal (Gaussyen) Olasılık Dağılımı Marjinal Olasılık (ing. Marginal Probability) Marjinal Olasılık: Herhangi bir olayı birlikte gerçekleştiği diğer tüm olaylardan ayırdığımızda (marjinalize ettiğimizde) tek başına gerçekleşme olasılığıdır. Örnek: Diyelim ki X bir bireyin bir hastalığının olması durumunu göstersin ve bu durum için iki olasıık var olsun: Hastalığını olması (1) ve olmaması (0). Y ise bir bireyin bu hastalığa ilişkin bir semptomu göstermesi (1) ya da göstermemesi (0) durumunu ifade etsin. Bu durumda aşağıdaki tabloda verilen 4 olası durum oluşur. Y=0 Y=1 X=0 0.5 0.1 X=1 0.1 0.3 Bireyin hastalığın semptomunu gösteriyor olması olasılığı Marjinal Olasılık: Rastgele seçilen bir bireyin hastalığın bir semptomunu gösterme olasılığı nedir? Bu durumda bütün X değerleri için (hasta olma ya da olmama) Y = 1 (semptomu gösterme) olasılıklarını toplamalıyız. P( Y = 1) = P(X = 0, Y = 1) + P(X = 1, Y = 1) = 0.1 + 0.3 = 0.4 Bileşke Olasılık (ing. Joint Probabiity) Bileşke Olasılık: Herhangi bir olayın başka olay(lar)la birlikte gerçekleşme olasılığıdır. Örnek: Rastgele seçilen bir bireyin hasta olma ve bu hastalığın semptomunu gösterme olasılığı nedir? Y=0 Y=1 X=0 0.5 0.1 X=1 0.1 0.3 Bireyin hasta ve bu hastalığın semptomunu gösteriyor olması olasılığı Bu durumda sadece her iki durumun birlikte gerçekleşme olasılığına bakmalıyız. P(X=1, Y=1) = 0.3 Koşullu Olasılık (ing. Conditional Probabiity) Koşullu Olasılık: Herhangi bir olayın başka bir olayın gerçekleşmiş olması halinde (varsayımında) gerçeklşme olasılığıdır. Örnek: Rastgele seçilen bir bireyin bir hastalığın semptomunu gösteriyor olduğu varsayımı (bilgisi) halinde hastalığa sahip olma olasılığı nedir? Y=0 Y=1 X=0 0.5 0.1 X=1 0.1 0.3 Bu durumda bireyin sadece semptomu göstermesiyle, sadece hasta olmasıyla ya da hem semptomu gösterip, hem de hasta olmasıyla ilgilenemeyiz. İlgilendiğimiz eğer rastgele seçilen hasta semptomu gösteriyorsa (bu durumda bu olasılığı değerlendirmeliyiz) bu bireyin hasta olmasıdır; yani hasta hem semptomu göstermeli hem de hasta olmalıdır (bu olasılığı da değerlendirmeliyiz). Çarpım Kuralı P(X = 1 | Y = 1) = P(X = 1, Y = 1) / (P(X = 0, Y = 1) + P(X = 1, Y = 1)) = 0.3 / (0.1 + 0.3) = 0.75 Not: Rastgele seçilen bireyin semptom gösteriyor olduğunun bilinip hasta olmama olasılığı da 0.25’tir ((P(X=0|Y=1) = 0.25, gösteriniz!) Bu iki olasılığın toplamı doğal olarak 0.75 + 0.25 = 1.00 yapar! Koşullu Olasılık (ing. Conditional Probabiity) Örnek: Rastgele seçilen bir bireyin göğüs kanseri olma olasılığı %1 olsun (P(C) = 0.01). Diyelim ki rastgele seçilen bir bireyin gerçekten göğüs kanseri olduğu bilindiğinde uygulanan mamografi testinin de pozitif çıkma ihtimali %90 (P(+ | C) = 0.90), göğüs kanseri olmadığı bilindiğinde ise testin pozitif çıkma ihtimali %8 (P(+ | ~C = 0.08) olsun. (Bu ikisinin toplamının 1.00 olmak zorunda olmadığına dikkat ediniz!) Acaba testi pozitif çıktığı bilinen bir hastanın gerçekten kanser olma olasılığı (P(C | +) = ?) nedir? P(C | +) = P(C, +) / P(+) Ancak biz P(C,+)’yı (herhangi bir bireyin kanser olma ve testinin pozitif çıkma olaslığını) da P(+)’yı (herhangi bir bir yerin testinin pozitif çıkma olasılığını da bilmiyoruz ama bulabiliriz! P(+ | C) = P(+, C) / P(C) → P(+,C) = P(C) * P(+ | C) P(+, C) = 0.01 * 0.90 = 0.009 = P(C,+) Burada basit bir eşitliği kullandık bir bireyin hem kanser, hem de testinin pozitif olması olasılığı (P(+,C) ile hem testinin pozitif, hem de kanser olma olasılığı (P(C,+)) aynı şeydir! P(+) = P(C, +) + P(~C,+) Burada P(C,+) ‘yı biliyoruz ama P(~C,+)’yı bilmiyoruz ama onu da bulabiliriz! P(+ | ~C) = P(+, ~C) / P(~C) → P(+,~C) = P(~C) * P(+ | ~C) P(+, ~C) = (1 - P(C)) * P(+ | ~C) = (1 – 0.01) * 0.08 = 0.0792 Bu durumda P(+) = P(C,+) + P(~C,+) = 0.009 + 0.0792 = 0.0882 ve P(C | +) = P(C,+) / P(+) = 0.009 / 0.0882 = 0.1020 Yani testi pozitif çıktığı bilinen hastaların yalnızca %10.20’si gerçekten kanserdir! Testte pek çok yanlış pozitif (ing. false positive) sonuç çıkmaktadır! Bayes Formülünün Türetilmesi Bayes formülü aslında klasik istatistiksel yaklaşım üzerinden de türetilebilir. ve Bayesian İstatistik Astronomide (aslında tüm bilimlerde) istatistik yaklaşımlara başvurmamız gerektiğinde (örneğin geçerli bir teoremiz olmadığında) en temel problem verinin yetersizliğidir. Örneğin galaksimizdeki ötegezegenlerin oluşumuna ilişkin bir çalışma yapmak istediğimizde tüm ötegezegen sistemlerine ilişkin tüm parametrelere (popülasyon) sahip olmadığımız için bugüne kadar keşfedilenlerin bilinen parametreleri (örneklem) üzerinden çıkarım yapmak zorunda kalırız. Olasılık Yoğunluğu Örneğin Güneş-benzeri salınımlar gözlenen yıldızlarda ortalama büyük ayrışma (ing. large separation) gibi bir parametreyle ilgileniyorsanız, ancak bu parametrenin hesaplandığı (örneğin Kepler örneklemi) örneklemle sınırlı kalırsınız. Örneklemeniz gelişip (örneğin TESS örneklemi) parametrenin yeni bir ortalama değerini elde ettiğinizde bu değer de tüm Güneş-benzeri yıldızlarınkiyle (popülasyon) aynı olmaz. Buna örneklem hatası (ing. sampling error) diyoruz. Burada popülasyonun ortalama büyük ayrışması sabit bir değerken, değişen şey veri setidir. Bayesian istatistiksel yaklaşımda popülasyon gibi bir bilgi olmadığı için, elde ettiğimiz şey elimizdeki veriye dayanarak ortalama büyük ayrışmanın alabileceği tüm değerlerin olasılıkları, yani bir olasılık dağılımıdır. Dolayısı ile değişenimiz aslında ortalama büyük ayrışma olur, sabit olansa elimizdeki veri setidir. Ortalama Ayrışma (Δν) Bayesian İstatistik Dolayısıı ile hesaplamaya çalıştığımız şey elimizdeki veriyle herhangi bir ortalama ayrışma değerinin elde edilme olasılığıdır --> P(Δν | veri). Bunun için öncelikle Δν’nün herhangi bir değeri için elimizdeki verinin türemiş olma ihtimaline bakarız (olabilirlik fonksiyonu, likelihood function). Daha sonra eğer hiç veri almamış olsaydık ortalama ayrışma için her bir değerin olasılığının ne olması gerektiğini düşünürüz (öncül, prior). Ortalama ayrışma için her bir değerin olasılığının ne olması gerektiği teoriden geliyor olabilir (informative), tahmini bir değer etrafında rastgele dağıldığı öngörülebilir (random) veya her değeri alma ihtimali aynı olabilir (uniform) (uninformative). Son olarak da her bir ortalama ayrışma için bu ayrışma değerini elde etme olasılığımıza bakarız (kanıt, evidence). Sonuçta elde etmek istediğimiz de herhangi bir ortalama ayrışma değerinin elde edilme olasılığı (ardıl, posterior) ve hangi ortalama ayrışma değerinin en olası olduğudur (ardılın maksimum değeri). Gerçekte bir modelimiz olmadan ne herhangi bir ortalama ayrışma değeri için elimizdeki veriyi elde etme olasılığını (olabilirlik fonksiyonunu), ne herbir ortalama ayrışma değerinin olasılığını (öncül), ne de tüm ortalama ayrışma değerleri için olasılık hesaplamamız (kanıt) mümkündür. Bu nedenle bu ifadeye bir modelin varlığında bu olasılıkların hesaplanacağını girmeliyiz. Bayesian Çıkarım: Olabilirlik Fonksiyonu Diyelim ki iki farklı kabileden birinde bireylerin yarısı bir virüsten etkilenmiş durumda (θ = 1), diğerinde ise aynı virüsten etkilenen yok (θ = 0). Bu iki farklı kabileden gelen 3 bireyin hiçbiri bu virüsten etkilenmemiş olsunlar. Bu 3 bireyin virüsten etkilenmeyen kabileden gelme olasılıklarını hesaplayalım ve bu örnek üzerinden Olabilirlik Fonksiyonu’nun nasıl oluşturulduğunu anlamaya çalışalım. f(θ), herhangi bir bireyin virüsten etkilenme olasılığı ise model bu olasılıkları belirleyen matematiksel ifade olmalıdır. 1. kabile için f(θ = 1) = 1/2, 2. kabile için ise f(θ = 0) = 0 olsun. Yani 1. kabilenin yarısı “hasta”, 2. kabilede ise hiç kimse hasta değil1 Elimizdeki veri rastgele seçilmiş 3 bireyin 3’ünün de virüsten etklienmemiş olması: x 1 = 0, x2 = 0, x3 = 0. Her bir birey için virüsten etkilenmeme ihtimali 1 – f olsun. Bu durumda her 3 bireyin de virüsten etkilenmemiş olma ihtimali P(x1 = 0, x2 = 0, x3 = 0) = (1 – f)*(1 – f) * (1 – f) = (1 – f)3 olur. Bireylerin tamamı virüsten etkilenmiş kabileden geliyorlarsa: P(x 1 = 0, x2 = 0, x3 = 0) = (1 – 1/2)3 = 1 / 8 Bireylerin tamamı virüsten etkilenmemiş kabileden geliyorlarsa: P(x 1 = 0, x2 = 0, x3 = 0) = (1 – 0)3 = 1 Dolayısı ile elde edilen bu nicelik eldeki verinin (x1 = 0, x2 = 0, x3 = 0) her bir durum için (θ = 0 ve θ = 1) elde edilme olasılığını vermektedir, yani olabilirllik fonksiyonudur. P(veri | θ, model) = 0 (θ = 0), 1/8 (θ = 1) Bayesian Çıkarım: Öncül (Prior) ve Kanıt (Evidence) Öncül hiçbir veri görmeden (hiçbir kanıta dayanmaksızın) her bir durum için nasıl bir olasılık öngördüğümüzü belirler. Örnek problemimiz için popülasyon hakkında bir bilgilmiz olmadığı için her iki durumda da seçilen bireyin virüsten etkilenmiş kabileden gelme olasılığı (P(θ = 1)) ve etklenmemiş kabileden gelme olasılığı (P(θ = 1)) ½ ‘dir diyebiliriz. Model seçimimiz buna herhangi bir kısıt koymamaktadır. P(θ = 0 | model) = ½ P(θ = 1 | model) = ½ Bu tür öncüllere bilgi vermeyen (ing. uninformative) öncüller adı verilir. Kanıt, aslında tıpkı olabilirlik fonksiyonu gibidir, sadece θ’dan bağımsızdır: eldeki veriyi θ’nın tüm değerleri için elde etme olasılıklarının toplamıdır. Örneğimizdeki veriyi (x1 = x2 = x3 = 0) θ’nın tüm seçenekleri için elde etme olasılığımıza P(veri|model) bakalım. θ = 0 seçimi için bu olasılık 1 (eğer bireyler virüsten etkilenmemiş kabileden geliyorsa hepsinin virüsten etkilenmemiş olma olasılığı 1) yani %100’dür. θ = 0 seçimi için bu olasılık 1/8’dir ((1-1/2) 3 = 1/8). Rastgele seçilen bir bireyin virüsten etkilenmemiş (P(θ = 0)) ya da etkilenmiş ((P(θ = 1)) kabileden gelme olasılığının her ikisi de 1/2’dir (P(veri|θ,model) = ½). Bu olasılıklar toplandığında; Bayesian Çıkarım: Ardıl (Posterior) Örneğimizde rastgele seçilen her 3 bireyin de virüs taşımadığını gösteren veri setimiz (x i = 0; i=1,2,3) ve modelimiz (f(θ = 0) = 0, f(θ = 1) = ½) ışığında her üçünün de virüsten etkilenmiş kabileden gelme olasılığını hesaplayalım. Tüm bireylerin virüsten etkilenmiş kabileden geliyor olmaları durumunda elimizdeki veri setini (3’ü de virüsten etkilenmemiş bireyler) türetme ihtimali P(veri | θ=1, model) = 1/8. Rastgele seçilen bir bireyin virüsten etkilenmiş kabileden olma ihtimali P(θ=1) = 1/2. Tüm θ olasılıkları üzerinden bu verinin türetilme ihtimali P(veri | model) = 9/16 old. göre; Bu işlemi tüm bireylerin virüsten etkilenmemiş kabileden geliyor olmaları durumu için de yapabiliriz. Elimizdeki veri setini (3’ü de virüsten etkilenmemiş bireyler) bu durumda türetme ihtimali P(veri | θ=0, model) = 1. Rastgele seçilen bir bireyin virüsten etkilenmemiş kabileden olma ihtimali P(θ=0) = 1/2. Tüm θ olasılıkları üzerinden bu verinin türetilme ihtimali P(veri | model) = 9/16 old. göre; Sonuç olarak elimizdeki veri ve modele dayanarak tüm bu bireylerin virüsten etkilenmemiş kabileden geliyor olma ihtimali 8/9, diğer kabileden geliyor olma ihtimalleri ise 1/9’duır ve bu iki ihtimalin toplamı da 1 yapar. Bayes Faktörü ve Model Karşılaştırma Bir model seçimi için (örneğimizde θ = 1) için elde edilen ardılın (posterior), diğer bir model seçimi için (örneğimizde θ = 0) için elde edilen ardıla oranına Bayes faktörü adı verilir. Bu oranda her iki ardılı hesaplarken bölen olarak kullanılan P(veri|model) olasılıkları (yani kanıtlar) birbirini götürür. Zira veri sabittir! Aslında veri sabit olduğu için elimizdeki veriyle farklı modeller üretip karşılaştırırken dayandığımız kanıt (evidence) hep aynı olduğundan bu terimi hesaplamak zorunda değiliz. Bu terimi hesaplamak ayrıca oldukça zordur, zira tüm modeller için ayrı ayrı bu model doğru kabul edildiğinde elimizdeki verinin türeme ihtimallerinin hesaplanıp toplanmasını (olabilirlik fonksiyonunun tüm olası modeller için elde edilip toplanmasını) gerektirir ki bu maliyetli bir iştir. Bu nedenle ardıl (posterior) hesaplanırken başvurulan pek çok yöntem (MCMC (Metropolis-Hastings ve diğerleri), Nested Sampling...) bu terimi hesaplamamaya dayanır. Örnek: Hileli Yazı / Tura Problemi Bayesian istatistik paradigmasıyla düşünme, yani deneyler ya da gözlemlerle elde edilen veriye ve arka plan bilgimize dayalı olarak bir olayın olası tüm sonuçlarının olasılıklarını hesaplamaya yönelik iyi bir örnek yazı / tura atış problemidir. Las Vegas’ın kumarhanelerinde bir seri yazı / tura atışı problemine tanıklık ettiğimizi düşünelim. Öğrenmeye çalıştığımız şey yazı / tura atışını yapan kişinin bir şekilde atışın sonuçlarını belirleyip belirlemediği, eğer belirliyorsa bunu hangi başarımda yaptığı olsun. Problemi klasik istatistik yaklaşımı ile ele alırsak zarın hangi miktarda hileli olduğuna ilişkin bir 0 hipotezimiz olur (null hypothesis). Elimizdeki veriye (bir seri yazı / tura atışının sonucuna) ve yazı / tura atışları için olasılık dağılımı belirleyen bir dağılıma (örn. Bernoulli dağılımı) bakarak, belirlediğimiz anlamlılık düzeyinde (örn. 0.05) bu hipotezi reddedip reddedemeyeceğimizle ilgileniriz. Zarın olası tüm hilelilik durumlarının (hep yazı gelir, hep tura gelir, ¾ tura gelir vs.) olasılıklarını belirlemekle ilgilenmeyiz. Şimdi aynı probleme Bayesian istatistik yaklaşımıyla yaklaşalım ve bu yolla Bayesian istatistiğin temellerini anlamaya çalışalım. Örnek: Hileli Yazı / Tura Problemi Öncülün Belirlenmesi Problem: Las Vegas'ta bir kumarhanede yapılan 4096 seri yazı-tura atışının çoğunun (?) yazı gelmesiyle yapılan yazı / tura atışlarının hileli olmasından şüpheleniyoruz. Taraflı olabileceğinden (bias-weighted) kuşkulandığımız bu atışlar konusundaki kuşkularımızı gidermek üzere, tüm yazı-tura atışlarının H = 0 ve tüm tura atışlarının H = 1 ile temsil edildiği bir skala oluşturuyoruz. H = 0.5 bu durumda adil bir atışı temsil etmiş oluyor. Probleme Bayes teoremi ile yaklaşarak elimizdeki veri (4096 yazı / tura atışının sonucu), hiç veri görmeden her bir hileli durumun olasılığına dair inancımızı gösteren öncül (prior) ve arkaplan (background) bilgimiz (bir atışının sonucunun diğerini belirlemedi: I) ışığında atışların adil olup olmadığını belirleyen H fonksiyonu için seçtiğimiz herhangi bir değerin ne kadar olası olduğudur (ardıl: posterior): P(H | veri, I)) Öncül Fonksiyonun (Prior) Belirlenmesi: Elimizde hiçbir veri olmaksınız H’ın her bir değeri için sadece arkaplan bilgimize dayanarak atadığımız olasılık değeri bizim H’ın her bir değerinin olasığına dair inancımız (ya da önyargımız)’dır. Başlangıç olarak tüm hileli durumların eşit olasılıkta olduğunu varsayalım. Sonuçta Las Vegas’ta bir kumarhanede neyin nasıl olacağını bilemeyiz. O nedenle H’ın her bir değerine aynı olasılığı aşağıdaki fonksiyonla belirleyelim. P(H | I) = 1, 0 <= H <= 1, P(H | I) = 0, H < 0, H > 1 Bu tür, herhangi bir teoriye ya da öngörüye dayanmayan öncüllere bilgi vermeyen (uninformative) öncüller adı verilir. Örnek: Hileli Yazı / Tura Problemi Olabilirlik Fonksiyonunun Belirlenmesi Olabilirlik Fonksiyonunun (Likelihood Function) Seçimi: Verilen bir hileli durum için (H’ın herhangi bir değeri için) elimizdeki veri setini (4096 yazı / tura atışının sonuçlarını) oluşturabilme olasılığımızı belirleyen fonksiyon olabilirlik fonksiyonudur. Arkaplan bilgimiz ışığında bunu hesaplayabliriz. Arkaplan bilgimiz (I) bir atışın sonucunun bir sonrakini belirlemediğidir. Tıpkı klasik istatistikte olduğu gibi her bir hileli durum için elimizdeki veri setini üretebileceğimiz bir dağılım öngörüyoruz. Yazı / tura atışı gibi iki seçenekli durumlarda olasılıkların dağılımını Bernoulli dağılımı ile belirleriz (qm (q’)n-m, q’ = 1 – q). Problemimizi kolaylıkla buna adapte edebiliriz. q önermesini yazı / tura atışına atadığımız hilelilik durumu (H) olarak belirlediğimizde, H atışların tura gelmeye ayarlanma oranını gösterdiği için 1-H’da diğer seçenek yani yazı gelmeye ayarlanma oranını (yani q’) göstermektedir ve bu ikisinin toplamı 1’dir. Atış ne şekilde hileli olursa olsun para ya yazı ya da tura gelir, üçüncü bir seçenek yoktur. Paranın R denemede tura geldiğini ve N kez atıldığını varsayarak N-R denemede de yazı geldiği sonucu çıkar. Bu durumda olabilirlik fonksiyonu P(veri | H, I) = HR (1 – H)N-R olarak belirlenmiş olur. Kanıt (Evidence) Hesabı: Bu kez her bir H durumu için elimizdeki veri setini (4096 yazı / tura atışının sonuçlarını) üretebilme ihtimalidir. Gördüğümüz gibi kanıt olabilirlik fonksiyonuna çok benzemekte, ondan tüm durumlar için olasılıkların toplamını belirlemesi bağlamında ayrılmaktadır. Yani olabilirlik fonksiyonu herhangi bir hileli durum (H’ın herhangi bir değeri) için bu veri setinin türetilme ihtimalini belirlerken, kanıt (evidence) tüm hileli durumlar için bu veri setinin türetilme olasılıklarının toplamıdır. Yani aslında H’ın herhangi bir değeri için olabilirlik fonksiyonunu da içeren ve tüm olasılıkları kapsayan bir normalizasyon terimidir. Sonuç olarak belilremek istediğimiz elimizdeki veriyle her bir H durumunun (tek tek) gerçekleşme olasılğını gösteren ardıl olasılık dağılımı (posterior probability distribution) ‘dır. Bu nedenle seçilmiş bir H durumu için öncülümüzün (prior) ne öngordüğü ile olabilirlik fonksiyonunun bu H durumu için elimizdeki veriyi üretme konusunda belirlediği olasılığın çarpımını tüm olası H değerleri için bu veriyi üretme olasılığının toplamını ifade eden kanıta bölerek, söz konusu H durumunun elimizdeki veri ile üretlimiş olma olasılığını (ardıl olasılık) bulmuş oluruz. Bunu tüm H durumları için yapar ve toplarsak, toplamda 1 elde etmeliyiz! Görüldüğü gibi her bir ardıl olasılığın hesabı için hep aynı kanıtı (evidence) kullanıyoruz. O nedenle her bir H durumunun doğrudan olasılığı yerine bunların birbirlerine göre ne kadar olası olduklarını karşılaştırmak istersek kanıtı hesaplamaya ihtiyacımız olmaz. Bayes teoremini bir eşitlik olarak değil bir bağıntı olarak yazmamız yeter: P(H | veri, I) α P(veri | H, I) x P(H | I) Örnek: Hileli Yazı / Tura Problemi Ardıl (Posterior) Dağılımın Hesabı Örnek olarak ilk yazı / tura atışının ardıl (posterior) dağılımını hesaplayalım ve ilk atışın tura geldiğini varsayalım. Bu durumda P(veri | H, I) = HR (1 – H)N-R şeklinde verilen olabliirlik fonksiyonunda R = 1 ve N = 1’dir. Olabilrlik fonksiyonu P(veri | H, I) = H1 (1 – H)1-1 = H olarak belirlenmiş olur. Öncülümüz H’ın her değeri için eşit ve 1 idi. P(H | I) = 1 Ardıl olasılık dağılımı (posterior probability function) P(H | veri, I) α P(veri | H, I) x P(H | I) = H x 1 = H Şeklilde y ekseni olasılık olarak belirtilkmiş olmasına karşılık herhangi bir ölçek verilmemiştir. Bunun nedeni eksenin gerçekte bir olasılık yoğunluk fonksiyonu (probability density function) biriminde olması ve olasılıkların eğrinin altında kalan alanlarla belirlenmesi ve kanıt hesaplanmadığı için bunların göreli olasılıklar olmasıdır. Eğer her bir H durumu için veriyi elde etme olasılıkları (kanıt) hesaplanır ve hesaba dahil edilirse eğrinin altında kalan toplam alan 1’e eşit çıkar. Sol üst köşede en son yapılan atış (H: heads, tura), sağ üst köşede ise toplam deney sayısı (yazı / tura atışı sayısı) verilmektedir. Görüldüğü gibi atışların tümünün yazıya ayarlanmış olma ihtimali kalmamıştır (P(H = 0 | veri, I) = 0). En büyük olasılık ise tüm atışların turaya ayarlanmış olması durumuna verilmiştir, zira şu ana kadar yapılmış olan tek atışın sonucu turadır. Örnek: Hileli Yazı / Tura Problemi Ardıl (Posterior) Dağılımın Hesabı Şimdi ikinci yazı / tura atışın sonrası ardıl (posterior) dağılımını hesaplayalım ve yine tura geldiğini varsayalım. Bu durumda R = 2 ve N = 2’dir. Olabilrlik fonksiyonu P(veri | H, I) = H2 (1 – H)2-2 = H2 olarak belirlenmiş olur. Öncülümüz H’ın her değeri için eşit ve 1 idi. P(H | I) = 1 Ardıl olasılık dağılımı (posterior probability function) P(H | veri, I) α P(veri | H, I) x P(H | I) = H 2 x 1 = H2 H > 0.5 durumları (atışların çoğunun tura gelmeye ayarlanmış olma durumu) giderek daha olası hale gellirken H < 0.5 durumlarının olasılığı giderek azalmaktadır. Zira ilk 2 atışın 2’si de tura gelmiştir. Yine en büyük olasılık tüm atışların turaya ayarlanmış olması durumundadır (H = 1). Örnek: Hileli Yazı / Tura Problemi Ardıl (Posterior) Dağılımın Hesabı Şimdi üçüncü yazı / tura atışı sonrası ardıl (posterior) dağılımını hesaplayalım ve bu kez yazı geldiğini varsayalım. Bu durumda R = 2 ve N = 3’tür. Olabilrlik fonksiyonu P(veri | H, I) = H2 (1 – H)3-2 = H2 (1 - H) olarak belirlenmiş olur. Öncülümüz H’ın her değeri için eşit ve 1 idi. P(H | I) = 1 Ardıl olasılık dağılımı (posterior probability function) P(H | veri, I) α P(veri | H, I) x P(H | I) = H (1-H) x 1 = H 2 2 (1 - H) Artık tüm atışların tura gelmeye ayarlanmadığını da biliyoruz. Zira son atışımız yazı (T: tails) gelmiştir: P(H = 1 | veri , I) = 0 Ancak hala atışların çoğunun tura gelmeye ayarlandığı düşüncesi hakimdir ve ardıl dağılımda açıkça görülmektedir. P(H > 0.5 | veri, I) > P(H < 0.5 | veri, I) Örnek: Hileli Yazı / Tura Problemi Ardıl (Posterior) Dağılımın Hesabı Ve deneyi yapmayı sürdüyor, her durumda ardıl dağılımı hesaplıyor ve grafiğe geçiriyoruz. Burada y-ekesninde olasılık yoğunluğu dağılımının göreli bir ifadesinin olduğunu hatırlatalım. Aksi durumda hesaba kanıtı da dahil etmemiz gerekirdi. Gördüklerimiz giderek bizi yazı / tura atışlarının adil olmadığına “ikna” ediyor. Başlangıçta tüm olasılıklara eşit şans tanırken 4096 atış sonunda tüm atışların neredeyse 3/4’ünün yazı gelmeye ayarlanmış olduğu kanısına varıyoruz. Hala diğer durumlar da olası ama olasılıkları daha az! Örnek: Hileli Yazı / Tura Problemi Farklı Öncüller Kullanmak Acaba tekdüze (uniform, flat) bir öncül (prior) yerine farklı öncüller kullansak sonuç değişir miydi? Örneğin parayı adil varsaysak ve maksimum olasılığı H = 0.5 olan ve H = 0.35 ile H = 0.65 arasında olasılığın daha fazla olduğu bir dağılımla yola çıksak (bir sonraki slayttaki şekilde --- kesikli eğri), ya da parayı inanılmaz yanlı olarak hayal ettiğimiz ve maksimum ağırlığı paranın tamamen yazı ya da tamamen tura gelme olasılıklarına doğru dağıttığımız bir olasılık dağılımı (bir sonraki slayttaki şekilde .... noktalı eğri) ile yola çıksak ne olur? Karşılaştırma için her durumda elde edilen posterior pdf'ler aşağıdaki şekilde verilmektedir. Deney sayısı arttıkça aynı sonuçları elde etmemiz durumunda (yani veri setimizin değişmemesi durumunda) dağılımın aynı ardıla (posterior pdf) doğru evrildiği açıktır. Şekle bakılarak her dağılımın aynı maksimum olasılık değerlerini verdiği düşünülmemelidir. Daha iyi bir karşılaştırma için ardıl (posterior probability density function) değerleri tekdüze (uniform) dağılımla elde edilene ölçeklenmiş durumdadır. Ancak sonuç olarak öncül bilgimiz ve yaklaşımımız ne olursa olsun veri arttıkça olabilirlik fonksiyonunun öncülü domine etmesi nedeniyle olayın doğasının gerektirdiği olasılık dağılımına yakınsanmaktadır. Başlangıçtaki öncüle bağımlılık giderek azalmakta başlangıç inancımız ne olursa olsun deneysel kanıtın artmasıyla aynı sonuçlara ulaşılmaktadır. Şekilde görülen bir başka sonuç ancak bin küsür atış sonrası paranın doğasına yönelik olan inancımızın güçlendiğidir. Diğer bir husus da paranın tüm hileli durumlara eşit olasılıkla sahip olduğu durum (sürekli eğri) ile paranın neredeyse tamamen hileli varsayıldığı (noktalı eğri) hızla birbirine yaklaşır ve bir H değerini yakınsarken, hemen hemen adil olduğunun varsayıldığı öncülle yola çıkıldığında (kesikli eğri) yakınsamanın ancak 2000 deneyden sonra gerçekleşmesidir. Birinci gözlemimizin nedeni paranını hilelilik derecesinin çok yüksek olmamasıdır, yoksa hemen farkedilirdi. İkinci gözlememiz ise kesikli eğriyle gösterilen öncülün uniform ve hileliği yüksek zar yaklaşımlarına göre daha az belirsizlik içermesiyle açıklanabliir. Zira uniform öncül zaten tamamıyla düzdür, hileliği yüksek zar yaklaşımı (noktalı eğri) da H'ın çok fazla değeri için neredeyse düzdür. Kesikli eğri ise Gaussyen'e benzeyen bu nedenle de adil bir zar yaklaşımına daha yakın bir yaklaşımdır. O nedenle de zarın hileli olduğuna çok daha zor "ikna" olmaktadır... Öncüller zarın hileli olduğuna ilişkin başlangıç varsayımları (ön yargıları) farklı 3 insan gibidir. Başlangıçta bütün veriyi kendi ön yargılarının gözünden değerlendirmektedirler. Ancak bu 3 insan da ne kadar ön yargılı başlasalar da "makul" insanlardır ve veriyi gördükçe yaklaşımlarını değiştirmektedirler ve ikna olmaya açıktırlar. En zor ikna olan doğal olarak başlangıçta zarların hileli olmadığı konusunda en ön yargılı olan olacaktır. Dolayısı ile prior bütünüyle önemsiz değildir. Veri sayısına ve bilgi düzeyimize göre yanlılıklarımız çıkarımlarımızda önemli rol oynayabilir. Doğal olan da budur ve gerçekten biz bu deneyimi yaşarız... Gerçekten en uzakta yanlılığa sahip olanlar inatçılıkları oranında gerçeğe en az uyananlardır. Ama gerçek orada durur ve daha çok veri gördükleri vakit o gerçeğe eninde sonunda uyanırlar... Adım Adım Ya da Tek Adımda Veri Analizi Acaba N tane örnekten oluşan Dk = {D1, D2, D3, .., DN} veri setini tek bir kere de alıp analiz etmekle (P(H | Dk, I)), biraz önce yazı / tura deneyinde yaptığımız gibi veri geldikçe analiz etmek (P(H | D 1, I), P(H | D2, I), ... ) arasında bir fark var mıdır? Öncelikle durumu sadece 2 veri açısından (D 1 ve D2) değerlendirelim. İlk olarak bu iki veriyi aynı anda analiz ettiğimizi varsayalım. Bu durumda ardıl olasılık yoğunluk fonksiyonu: Bu kez diyelim ki öncelikle D1'i gözledik ve D1 ile öncülümüze dayalı olarak D2 verisi de alındıktan sonra ardıl olasılıığı yoğunluk fonksiyonunu hesaplıyoruz. Bu kez, Bu ifadenin en sağındaki öncülün D1 ile yapılan analizin sonucunda elde edilen ardıl olasılık yoğunluk fonksiyonu (posterior) olduğu kolayca görülebilir. Bu ifadedeki olabilirlik fonksiyonu ise klasik kullandıklarımızdan bir miktar farklı olmakla birlikte verilerin birbirinden bağımsız oldukları, yani bir veriyle ulaşacağımız sonuç ikincisiyle ulaşacağımızdan (ya da tersi) bağımsızdır. Örneğin 5. kez para atışı soncunda yapacağımız analiz 4. sonucundan bağımsız olmalıdır. Bu durum matematiksel olarak şu şekilde ifade edilebilir: Bu ifade yukarıdaki ikinci ifadede yerine konduğunda 1. ifade elde edilir ki bu adım adım ilerleyerek analizle, tek bir seferde tüm verinin analizi arasında bir fark olmadığını ortaya koyar. İteratif bir yöntemle daha iyi bir sonuç elde edilebilir mi? Burada iteratif yöntemden kasıt aynı verinin analizinde bir adımda elde edilen ardılın (posterior) bir sonraki adımda öncül (prior) olarak kullanılmak suretiyle izlenen bir yöntemdir. Böyle bir yöntem yanlış ve yanıltıcı sonuçlar verir! Bu tür bir "boot-strapping" yöntemi bir ardıl olasılık yoğunluk fonksiyonunu tekrar kendisine bağlar. Veri değişmediği için bu iki ardıl fonksiyon birbirine ancak eşit olabilir, bir olabilirlik fonksiyonu ile bağlanamaz. Eğer ısrar edilirse iterasyonun birinci adımında ulaşılan ardılın öngördüğü en muhtemel değer etrafında giderek keskinleşen dağılım fonksiyonları elde edilir ve veri analizcisi yaptığının doğru olduğuna yanlış bir şekilde giderek daha fazla inanır. Bir analizi iyileştirmenin tek yolu daha fazla veri almak ya da veri az ise gerçekçi öncül ve olabilirlik fonksiyonları kullanmaktır. En İyi Tahminler, Hata Barları ve Güvenilirlik Aralıkları Ardıl olasılık fonksiyonunun (posterior pdf) analiz sonuçlarını nasıl ortaya koyduğunu gördük: parametrenin her olası değer aralığı için bir olasılık değeri belirleyerek! Ancak bazen bir parametre için en olası değere ve bu değer için de bir güvenilirlik seviyesine (confidence level) ihtiyacımız olur. En iyi tahmin açık ki ardılın (posterior pdf) aldığı maksimum değere denk gelen parametre değeridir. Matematiksel olarak bu değeri (X 0) ardılın (P(X | veri, I)) türevini alıp 0'a eşitleyerek bulabiliriz. Yine matematiksel olarak bu noktanın maksimum olduğunu güvence altına almak için ikinci türevin 0'dan küçük olup olmadığı da kontrol edilmelidir. Süreksiz durumda iş daha kolaydır zira y-ekseni doğrudan olasılıktır (posterior probability mass function). En olası değer de o maksimum olasılığın olduğu X değeri olur. Bu değerin güvenilirliği için ise ardılın X0 civarında nasıl dağıldığına bakılır. Herhangi bir fonksiyonun bir nokta etrafında nasıl dağıldığına bakmanın iyi bir yolu, fonksiyonun o nokta civarında Taylor açılımını elde etmektir. Aslında bu o nokta civarında fonksiyona düşük dereceden bir polinom fiti yapmakla özdeştir. Genellikle bu durumda pdf'in kendisinin yerine daha yavaş değiştiği için onun logaritması ile ilgilenilir. L = ln(P(X | {veri}, I). Bu durumda ardılın X0 civarındaki Taylor açılımı: En İyi Tahminler, Hata Barları ve Güvenilirlik Aralıkları Bu tanım dahilinde en iyi tahmin dL / dX = 0'ın karşılık geldiği X 0 değeri olur. Maksimum civarında bir seri açılımı olduğu için lineer terim bu seride bulunmaz. Birinci terim (L(X 0)) da bir sabit olup ardılın şekliyle ilişkiil değildir. Dolayısı ile ardılın şeklini (en olası değer etrafındaki saçılmasını) kuadratik terim temsil eder. Diğer tüm üst dereceden terimleri çok küçük olacakları gerekçesiyle ihmal edecek olursak Tekrar ardıla geçmek için L'nin e üzerini almalıyız. Bu durumda X0 civarında pdf yukarıdaki fonksiyonla ifade edilmiş olur. Bu Aslında bu şekilde X0 civarında seriyi Taylor serisinie açmakla X0 civarında ardılı bir Gaussyen fonksiyonla ifade etmiş oluruz. Burada A bir normalizasyon sabitidir. Ardıl böylece bir Gaussyen, bir başka deyişle bir normal dağılım olmuş olur. En İyi Tahminler, Hata Barları ve Güvenilirlik Aralıkları Bu dağılımın standart sapması L'nin X = X0 'daki ikinci türevinin karekökü ile ters orantılıdır. X parametresi için en iyi tahmin (en olası değer; best estimate) ise klasik şekilde verilir X = X 0 +/- σ. Doğal olarak normal dağılımın gereği X'in gerçek değerinin X0 +/- 1σ arasında olma ihtimali %67'dir. Örnek: Hileli Yazı / Tura Problemi En Olası Değer ve Hatasının Hesabı Tekdüze (uniform, flat) öncül (prior) ile binomial olabilirlik fonksiyonlarının (likelihood function) ardıl olasılık yoğunluk dağılımı fonksiyonunu şeklinde elde etmiştik. Bu ifadenin ln'ini alarak L fonksiyonunu hesaplayacak olursak ifadesi elde edilir. Bu ifade değişkeni olan H'ye göre iki kez türevlenirse elde edilmiş olur. En olası değeri bulmak için birinci türev 0'a eşitlenir ve cebirsel düzenleme yapılacak olursa bulunmuş olur. Bu basit bir şekilde en olası hilelilik değerinin tura sayısının toplam yazı/tura atış sayısına oranı olduğunu gösterir. Dağılımın standart sapması ise L'nin ikinci türeviyle verilir. Örnek: Hileli Yazı / Tura Problemi En Olası Değer ve Hatasının Hesabı Dağılımın standart sapması ise L'nin ikinci türeviyle verilir. Standart sapma hatırlanacağı gibi bu değerin tersinin karaköküdür. H (atışın yanlılık oranı) bir süre deney yaptıktan sonra H0'a doğru yakınsar ve ardılın maksimumu H0 civarına gelir. Ancak bu maksimum etrafındaki dağılımın standart sapmasının azalması (yani bu maksimumun daha güvenilir hale gelmesi) daha çok veri almakla (N'i büyütmekle) mümkün hale gelir. Ayrıca bu denklemden adil bir atışın (H ~ 0.5) yanlılık oranını bulmak çok daha zordur zira H0 = 0.5 için standart sapma ifadesinin bölüm çizgisinin üstünde kalan tarafı (H0 x (1 - H0)) maksimum olur; dağılımın genişliği de bu değer için maksimumdur! Kaynaklar ✔ Devinderjit Sivia, John Skilling, “Data Analysis: A Bayesian Tutorial” Oxford University Press, USA (2006) ✔ Bayesian Statistics: A Comprehensive Course, Ox Education, https://www.youtube.com/watch?v=U1HbB0ATZ_A&list=PLFDbGp5YzjqXQ4 oE4w9GVWdiokWB9gEpm