11. Ders ĐSTATĐSTĐKTE SĐMÜLASYON Tahmin Edicilerin ve Test Đstatistiklerinin Simülasyon ile Karşılaştırılması Đstatistik, rasgelelik olgusu içeren olay, süreç ve sistemlerin modellenmesinde özellikle bu modellerden sonuç çıkarmada ve bu modellerin geçerliliğini sınamada kullanılan bazı bilgi ve yöntemleri sağlayan bir bilim dalıdır. Đstatistikte simülasyon; eğitimde kavramların kavratılmasında, örneklemin birer fonksiyonu olan istatistiklerin dağılımları ile ilgili analitik olarak elde edilemeyen bazı özelliklerin irdelenmesinde, tahmin edicilerin iyilik ölçütlerine göre karşılaştırılmasında, test fonksiyonlarının güç fonksiyonu değerlendirmelerinde, son yıllarda çok kullanılan bootstrap gibi yeniden örneklem tekniklerinde, beklenen değer yani integral hesabı yapılan Monte Carlo integrasyonunda ve başka birçok konuda kullanılmaktadır. Ancak, istatistikteki simülasyonun amacı olgu veya sistem simülasyonundaki amaçlardan farklıdır. Örneğin bir benzin istasyonu ile ilgili kuyruk modeli üzerinde yapılan simülasyonun amacı sistemdeki bekleme zamanını ve maliyeti en küçük yapacak şekilde hizmet birimlerinin sayısını belirlemek olabilir. Burada istatistik bilimi açısından bir amaç yoktur. Gamma dağılımı için parametre tahmininde, momentler ve en-çok olabilirlik tahmin edicilerinden hangisi hata kareleri ölçütüne göre daha iyidir, sorusunun cevabı simülasyon yaparak verilmeye çalışıldığında, burada istatistiksel bir amaç söz konusudur. Özellikle bu soruya analitik olarak cevap verilemiyorsa simülasyon önem kazanmaktadır. Ancak, simülasyonun ispatın yerini tutacağı sanılmasın. Simülasyon bir ispat yöntemi değildir. Simülasyona, örneklerle doğruyu yanlışı tespit etme, bazı durumlarda analitik olarak çözülemeyen problemlere çözüm yolu getirme, bazen de kendisinin en iyi çözüm yolunu sunduğu bir yöntem olarak bakabiliriz. Örneklem Đstatistikleri ve Dağılımları Đstatistik eğitimindeki simülasyonun uçak pilotu eğitimindeki simülasyondan ayırt edilmesi gerekmektedir. Pilot eğitiminde suni olarak simülasyon ile yaratılan ortamlar içinde (Bunlarda rasgelelik de bulunabilir.) pilota bir davranış biçimi kazandırılmak istenmekte veya kazandığı davranışların sınanması yapılmaktadır. Đstatistik eğitiminde öğrencilere; gerçek dünyadaki rasgelelik olgusunun sezdirilmesi, sezdirildikten sonra irdelenmesi, irdelemenin önemli bir savhası olan rasgeleliğin ölçülmesi, yani olasılık ölçüsü kavramının zihinlerde oluşturulması, rasgelelik ortamında hesap yapılması gibi nitelikler kazandırılmak istenmektedir. Önceki bölümlerdeki örneklerden görüldüğü gibi, simülasyon, istatistikte eğitim amaçlı da kullanılabilir. Belli bir rasgelelik olgusunu modelleyen olasılık dağılımı F olsun. X 1 , X 2 ,..., X n bağımsız ve aynı F dağılımlı rasgele değişkenler, yani F dağılımından bir örneklem olmak üzere, bu kısaca X 1 , X 2 ,..., X n örneklem ( F ) biçiminde gösterilir. Örneklemin Borel ölçülebilir herhangi bir T ( X 1 , X 2 ,..., X n ) foksiyonuna istatistik denir. Đstatistikler birer rasgele değişkendir veya rasgele vektördür. Birçok durumda istatistikler örneklemin karmaşık fonksiyonu olduklarından dağılımlarının bulunması kolay olmamaktadır. Örneklem istatistikleri arasında n X= ∑X i =1 i n örneklem ortalamasının çok özel bir yeri vardır. Örneğin, örneklem N ( µ , σ 2 ) normal dağılımdan alındığında X ~ N ( µ , σ 2 / n) dır. N ( µ = 1, σ 2 = 1) dağılımının olasılık yoğunluk fonksiyonunun grafiği ve bu dağılımdan alınan n = 10,20,50 birimlik örneklemler için simülasyon ile gözlenen x1 , x 2 ,..., x100 örneklem ortalamalarının histogramları aşağıdadır. close all; clear all ; subplot(2,3,2) ; fplot('1/sqrt(2*pi)*exp(-.5*(x-1)^2)',[-4 4],'k') for i=1:100 ; x=randn(10,1)+1; xort(i)=mean(x); end subplot(2,3,4) ; hist(xort) ; title('n=10') for i=1:100 ; x=randn(20,1)+1; xort(i)=mean(x); end subplot(2,3,5) ; hist(xort) ; title('n=20') for i=1:100 ; x=randn(50,1)+1; xort(i)=mean(x); end subplot(2,3,6) ; hist(xort): title('n=50') 0.4 0.3 0.2 0.1 0 -4 n=10 -2 0 2 4 n=20 20 15 n=50 25 25 20 20 15 15 10 10 5 5 10 5 0 0 1 2 0 0 1 2 0 0.5 1 1.5 Örneklem α , β parametreli Γ(α , β ) Gamma dağılımından alındığında X ~ Γ(nα , β / n) dır. Örneğin Γ(α = 2, β = 1 / 2) dağılımının olasılık yoğunluk fonksiyonunun grafiği ve bu dağılımdan alınan n = 10,20,50 birimlik örneklemler için simülasyon ile gözlenen x1 , x 2 ,..., x100 örneklem ortalamalarının histogramları aşağıdaki gibidir. 0.8 0.6 0.4 0.2 0 0 n=10 2 4 n=20 20 15 n=50 25 25 20 20 15 15 10 10 5 5 10 5 0 0 1 2 0 0.5 1 1.5 0 0.5 1 1.5 Örneklem, olasılık yoğunluk fonksiyonu 2 (1 − bx ) , 0 < x < b f ( x) = b , d . y. 0 olan dağılımdan alındığında X nin dağılımı nedir? b (b ∈ (0, ∞)) parametresinin b = 3 olması durumunda olasılık yoğunluk fonksiyonunun grafiği ve olasılık yoğunluk fonksiyonu bu olan dağılımdan alınan n = 10,20,50 birimlik örneklemler için simülasyon ile gözlenen x1 , x 2 ,..., x100 örneklem ortalamalarının histogramları aşağıdaki gibidir. 1 0.8 0.6 0.4 0.2 0 0 n=10 2 4 n=20 20 15 n=50 25 25 20 20 15 15 10 10 5 5 10 5 0 0 1 0 0.5 2 1 0 0.5 1.5 1 1.5 Örneklem, olasılık fonksiyonu, f ( x) = 1 , x = 1,2,3,4,5,6 6 olan dağılımdan alındığında X nin dağılımı nedir? Olasılık fonksiyonunun grafiği ve n = 10,20,50 birimlik örneklemler için simülasyon ile gözlenen x1 , x 2 ,..., x100 örneklem ortalamalarının histogramları aşağıdadır. 0.5 0.4 0.3 0.2 0.1 0 0 n=10 5 n=20 20 15 n=50 25 25 20 20 15 15 10 10 10 5 5 0 5 0 2 4 6 0 2 4 6 2 4 6 Dağılımdan bağımsız olarak, yani dağılım ne olursa olsun örneklem ortalaması ile ilgili aşağıdaki iki teorem söz konusudur. Beklenen değeri µ ve varyansı σ 2 sonlu olan bir dağılımdan alınan X 1 , X 2 ,..., X n örneklemi için 1- Zayıf Büyük Sayılar Kanunu n Xn = ∑X i i =1 n p → µ (ε > 0 için lim P( X n →∞ n ) − µ < ε) = 1 2- Merkezi Limit Teoremi n n i =1 i =1 ∑ X i − E (∑ X i ) n Var (∑ X i ) = X n −µ σ/ n d → Z ~ N (0,1) i =1 dır. Bu iki teoremin söylediklerini anlamak için n = 10,20,50 için çizilen yukarıdaki histogramları yeniden gözden geçiriniz. Düzgün bir tavla zarının atılması deneyini modelleyen f ( x) = 1 , x = 1,2,3,4,5,6 6 dağılımından üretilen sayıların dizisi X 1 , X 2 ,..., X n ,... ve ortalamalar dizisi X 1 , X 2 ,..., X n ,... olmak üzere simülasyon sonucu elde edilen yörüngeler aşağıdaki gibi olmuştur. Örneklem hacmi n arttıkça örneklem ortalaması kitle ortalamasına daha yakın bir çevrede salınmaktadır. 6 4 2 0 0 10 20 30 40 50 60 0 10 20 30 40 50 60 6 4 2 0 Örneklem istatistikleri arasında X örneklem ortalamasının yanında önemli olan ikinci bir istatistik, n S2 = ∑(X i =1 i −X ) 2 n −1 örneklem varyansıdır. Bilindiği gibi, örneklem N (µ , σ 2 ) dağılımından alındığında, (n − 1) S 2 σ 2 ~ χ (2n−1) dır. Örneklem Γ(α , β ) dağılımından alındığında S 2 'nin dağılımı nedir? Simülasyon yaparak S 2 'nin dağılımını irdelemeye çalışalım. Örneğin, N ( µ = 1, σ 2 = 1) dağılımından alınan n = 10,20,50 birimlik örneklemler için 2 simülasyon ile gözlenen s12 , s 22 ,..., s300 örneklem varyanslarının histogramları aşağıdaki gibidir. 0.4 0.3 0.2 0.1 0 -5 n=10 0 5 n=20 n=50 80 80 80 60 60 60 40 40 40 20 20 20 0 0 0 2 4 0 0 2 4 0 1 2 Γ(α = 2, β = 1 / 2) dağılımından alınan n = 10,20,50 birimlik örneklemler için 2 simülasyon ile gözlenen s12 , s 22 ,..., s300 örneklem varyanslarının histogramları aşağıdadır. 0.8 0.6 0.4 0.2 0 0 2 n=10 4 n=20 150 150 100 100 50 50 n=50 80 60 40 20 0 0 0 2 4 0 0 1 2 0 1 2 Normal dağılımda X örneklem ortalaması ile S 2 örneklem varyansı bağımsız istatistiklerdir. Gamma dağılımında durum nedir? X ile S 2 'nin bağımsızlığı simülasyon yaparak irdelenebilir mi? Histogram gibi frekans poligonu da bir istatistiktir (Bir rasgele elemandır). Örneğin N ( µ = 1, σ 2 = 1) dağılımından alınan 60 birimlik simülasyonla üretilen bir örneklem için histogram ile frekans poligonu aşağıdaki gibidir. 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 15 10 5 0 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 Histogram ile frekans poligonunun ortaya çıkardığı görsel etki, N ( µ = 1, σ 2 = 1) dağılımının olasılık yoğunluk fonksiyonunun grafiğinin biçimi ile ilgilidir. Eğer düşey eksen frekans yerine, frekans bölü histogram alanı olarak ölçeklendirilirse, frekans plogonu ile olasılık yoğunluk fonksiyonu arasındaki uyum aynı grafik üzerinde görülebilir. Örneklem hacmi arttıkça bu uyum daha iyi olmaktadır. n=60 0.5 0.4 0.3 0.2 0.1 0 -2 -1 0 1 2 3 4 2 3 4 n=600 0.4 0.3 0.2 0.1 0 -2 -1 0 1 Histogramların ilgili dağılımların biçimleri hakkında fikir verdiklerini görmek için, N ( µ = 1, σ 2 = 1) dağılımının olasılık yoğunluk fonksiyonunu, n = 100 birimlik örneklem için histogramı ve n = 100 için üretilen 100 adet X örneklem ortalaması için üst üste çizilen aşağıdaki histogramları gözden geçiriniz. 0.4 0.3 0.2 0.1 0 -4 -3 -2 -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 4 30 20 10 0 -4 Parametre Tahmini Rasgelelik olgusunu modelleyen olasılık dağılımının biçiminin bilinmesi, yani model olarak kullanılabilecek dağılımlar ailesinin bilinmesi ve bu ailenin bir parametre ile modellenmiş olması durumunda problem bu parametrenin belirlenmesine indirgenmektedir. Parametre kümesi Θ ve X 1 , X 2 ,..., X n örneklem F (⋅ ;θ ) , θ ∈ Θ olmak üzere, θ parametresini tahmin etmek için kullanılacak bir T ( X 1 , X 2 ,..., X n ) istatistiğinin (tahmin edicisinin) belirlenmesi gerekmektedir. Burada birbiri ile ilgili iki sorun söz konusudur. Bunlardan birisi, tahmin edicilerde aranan özellikler neler olmalı ve diğeri de tahmin edicileri bulma yöntemidir. Örneğin N ( µ , σ 2 ) dağılımının parametrelerinin ençok olabilirlik tahmin edicileri, µ için n X = ∑X i =1 i n ve σ 2 için n S2 = ∑(X i =1 i −X ) 2 n dır. X yansız ve S 2 yansız değildir. Her ikisi de olasılıkta tutarlı, yani p X → µ p S2 → σ2 dır. µ parametresi aynı zamanda kitle medyanı olduğundan örneklem medyanı M de µ için bir tahmin edici olarak düşünülebilir. M örneklem medyanı µ için yansız bir tahmin edici midir? Hata Kareleri Ortalaması (MSE) ölçütüne göre hangisi daha iyidir? Bu soruların cevabı kolay görünmemektedir. MSE ( X ) = E ( X − µ ) = Var ( X ) = 2 ve σ2 n MSE ( M ) = E ( M − µ ) 2 olmak üzere, N ( µ = 1, σ 2 = 1) dağılımında n = 10 için 100 kez simülasyon ile gözlenen, x1 , x 2 ,..., x100 m1 , m 2 ,..., m100 değerleri için, 100 Mˆ SE ( X ) = ∑ (x i =1 i − µ)2 100 100 Mˆ SE ( M ) = ∑ (m i =1 i = 0.0966 − µ)2 100 olarak elde edilmiştir. Mˆ SE ( X ) değerinin çıkması gerekmektedir. = 0.1697 σ2 n Mˆ SE ( M ) değerinin değerine, yani 1/10 sayısına yakın hangi sayıya yakın çıkması gerekmektedir. Bunu bilmiyoruz. 100 değil de 500, 1000, 1500,…,15000 kez n = 10 için M örneklem medyanı gözlenip, Mˆ SE ( M ) hesaplandığında Şekil4.13'deki gibi bir durum ortaya çıkmaktadır. Şekilden görüldüğü gibi Mˆ SE ( M ) değerleri 0.138 gibi bir sayı etrafında salınmaktadır. MSE ( X ) < MSE ( M ) olduğu söylenebilir mi? Evet. MSE ölçütüne göre örneklem ortalaması, örneklem medyanından daha iyi bir tahmin edicidir. Bunun simülasyon ile söylendiği unutulmamalıdır. Simülasyon sadece N ( µ = 1, σ 2 = 1) dağılımı üzerinde yapılmıştır. Acaba diğer normal dağılımlarda durum nedir? 0.144 0.142 0.14 0.138 0.136 0.134 0.132 0 5000 10000 15000 Üstel dağılımın olasılık yoğunluk fonksiyonu, 1 −θx , x>0 e f ( x) = θ 0 , d . y. ve beklenen değeri θ, varyansı θ2 medyanı θ ln(2) olmak üzere θ (θ ∈ (0, ∞)) parametresi için T1 = X T2 = S 2 T3 = M ln(2) tahmin edicileri düşünülsün. Hangisinin Hata Kareleri Ortalaması ölçütüne göre daha iyi olduğunu simülasyon yaparak gözleyiniz (Aşağıdaki matlab programını kullanabilirsiniz). clc close all clear all teta=1; n=10; N=100; for i=1:N x=-teta*log(rand(n,1)); T1(i)=mean(x); T2(i)=std(x); T3(i)=median(x)/log(2); end MSET1=sum((T1-teta).^2)/100 MSET2=sum((T2-teta).^2)/100 MSET3=sum((T3-teta).^2)/100 Bilindiği gibi Poisson dağılımında beklenen değer ile varyans birbirine eşittir ve bu değer dağılımın parametresi olan λ 'dır. λ parametresi için yansız birer tahmin edici olan, n Xn = ∑X i =1 i n ile n S n2−1 = ∑(X i =1 i −X ) 2 n −1 tahmin edicilerinden hangisi daha küçük varyanslıdır? Teorik, yani analitik olarak bu soruya cevap vermek biraz zordur. Simülasyon ile bu kolayca görülebilir. Simülasyon, tahmin edicilerin belli ölçütlere (özelliklere) göre karşılaştırılmasında çok kullanılan bir araçtır. Önceki kısımda geniş bir şekilde üzerinde durulduğu gibi simülasyon yaparak tahmin edicilerin diğer özellikleri de incelenebilir. Hipotez Testi Đstatistiksel hipotez, dağılım hakkında bir önermedir. Örneğin, bir rasgelelik olgusunu modelleyen dağılımın üstel olduğunun söylenmesi (iddia edilmesi) bir hipotezdir. Bir dağılımla ilgili, örneğin, varyansının belli bir sayıdan küçük olduğunun söylenmesi, iki değişkenli bir dağılımda değişkenlerin bağımsız olduğunun söylenmesi birer hipotezdir. Parametrelerle ilgili hipotezlerde, Θ parametre kümesi olmak üzere, parametrenin bir Θ 0 ⊂ Θ kümesinde bulunmasına veya kısaca Θ 0 'a hipotez denir ve H0 ile gösterilir. Θ1 = Θ \ Θ 0 'ya da karşıt (alternatif) hipotez denir ve H1 (veya H A ) ile gösterilir. Hipotezler, H 0 :θ ∈ Θ 0 H 1 : θ ∈ Θ1 F (.;θ ),θ ∈ Θ = Θ 0 ∪ Θ olmak üzere, ve X 1 , X 2 ... X n örneklem ϕ : Rn → [ 0, 1] ( X1, X 2 ... X n ) → ϕ ( X1, X 2 ... X n ) istatistiğinin aldığı değer y = φ ( X 1 , X 2 ... X n ) olduğunda: “ b(1, p = y ) Bernoulli denemesi başarı ile sonuçlandığında H 0 reddedilsin, aksi halde H0 kabul edilsin”, biçiminde bir karara götüren φ ( X 1 , X 2 ... X n ) istatistiğine, rasgeleleştirilmiş test fonksiyonu (kısaca test fonksiyonu) denir. Eğer φ nin görüntü kümesi {0,1} yani 1 , ( X1, X 2 ... X n ) ∈ B ⊂ R n φ ( X1, X 2 ... X n ) = 0 , ( X1, X 2 ... X n ) ∈ B biçiminde ise φ ye rasgeleleştirilmemiş test fonksiyonu, B kümesine H0 hipotezi için red bölgesi, B kümesine de H0 hipotezi için kabul bölgesi denir. Bir φ test fonksiyonu ile ilgili güç fonksiyonu, π : Θ 0 ∪ Θ1 →[0, 1] θ →π (θ ) = Pθ ,φ ( H 0 ın reddedilmesi) olmak üzere, α = sup{π (θ ) :θ ∈ Θ 0 } değerine, testin anlam düzeyi denir. Anlam düzeyi, H0 doğru iken H0 'ın reddedilmesi yani I. tip hata yapma olasılığı için üst sınırdır. Anlam düzeyi α olan test fonksiyonları arasında tüm θ ∈ Θ1 için β (θ ) değerleri en büyük olan φ testine, düzgün en güçlü test denir. Genel olarak böyle φ testlerini bulmak mümkün olmamakla birlikte bazı durumlar, örneğin basit hipotezler için düzgün en güçlü test bulunabilmektedir. Örnek: N ( µ , σ 2 = 1) dağılımı için H 0 : µ = 1 , H 1 : µ ≠ 1 hipotezi ile ilgili, 1 , X − 1 > 0.2 φ= 0 , X − 1 < 0.2 test fonksiyonu önerilsin. n = 100 birimlik örneklem için α = P ( X − 1 > 0.2 / H 0 do ğ ru ) = P ( Z > 2) = 0.0436 dır. π güç fonksiyonunun grafiği aşağıdadır. fplot('1-normcdf(10*(1.2-x))+normcdf(10*(.8-x))',[-2 3]) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -1 -0.5 0 0.5 1 1.5 2 2.5 3 Güç fonksiyonu simülasyon yaparak da çizdirilebilir. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -1 -0.5 0 0.5 1 1.5 % güç fonksiyonu grafiğini simülasyon yaparak çizdirmek clc : close all:clear all s=0; for mu=-1:.05:3 say=0; s=s+1; for i=1:200 x=randn(100,1)+mu; ort(i)=mean(x); if (ort(i)>0.8) if (ort(i)<1.2) say=say+1; end end end olas=1-say/200; guc(s)=olas; end mu=-1:.05:3 plot(mu,guc,'k') 2 2.5 3 Örnek: Bernoulli dağılımı ( b(1, p), p ∈ Θ = (0,1) ) ile ilgili, H 0 : p ≥ 0.70 (Θ 0 = [0.70 , 1)) H 1 : p < 0.70 (Θ1 = (0 , 0.70)) hipotezini test etmek amacıyla, X 1 , X 2 ... X 10 örneklem b(1, p ) alınması durumu için 1 , a) φ ( X 1 , X 2 ... X 10 ) = 0 , 10 ∑X i =1 10 ∑X i ≥7 i ≤7 i =1 1 , b) φ ( X 1 , X 2 ... X 10 ) = 0 , ∑X 1 , c) φ ( X 1 , X 2 ... X 10 ) = 0.5 , 0 , ∑X ≤6 i 10 i =1 10 ∑X i i =1 10 i =1 10 ≥8 ≤6 i ∑X i =7 ∑X i ≥8 i =1 10 i =1 test fonksiyonları önerilsin. Bu test fonksiyonlarından, a ile b şıkkındakiler rasgeleleştirlmemiş, c şıkkındaki test fonksiyonu rasgeleleştirilmiş bir test fonksiyonlarının grafikleri aşağıda fonksiyonudur. Bunlar için π güç verilmiştir. %guc fonksiyonu (teorik) clc ;close all ;clear all s=0; for p=0.01:.05:.99 s=s+1; guca(s)=binocdf(6,10,p); end s=0; for p=0.01:.05:.99 s=s+1; gucb(s)=binocdf(7,10,p); end s=0; for p=0.01:.05:.99 s=s+1; gucc(s)=binocdf(6,10,p)+0.5*binopdf(7,10,p); end p=0.01:.05:.99 plot(p,guca,'k',p,gucb,'k--',p,gucc,'k-.') legend('a','b','c') 1 a b c 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Güç fonksiyonlarının simülasyon yapılarak çizdirilen grafikleri aşağıda verilmiştir. %güç fonksiyonu (simülasyon) clc: close all: clear all:s=0; for p=0.01:.05:.99 s=s+1; guca(s)=sum(sum(rand(10,1000)<p)<=6)/1000; end s=0; for p=0.01:.05:.99 s=s+1; gucb(s)=sum(sum(rand(10,1000)<p)<=7)/1000; end s=0; for p=0.01:.05:.99 s=s+1; m=sum(rand(10,1000)<p); m7=sum(m==7); red=sum(rand(m7,1)<0.5); gucc(s)=(sum(sum(rand(10,1000)<p)<=6)+red)/1000; end p=0.01:.05:.99 plot(p,guca,'k',p,gucb,'k--',p,gucc,'k-.') legend('a','b','c') 1 a b c 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 P-Değeri N ( µ , σ 2 ) dağılımı ile ilgili ( σ 2 bilindiğinde) H 0 : µ = µ0 H 1 : µ = µ1 ( µ1 > µ 0 ) hipotezleri α anlam düzeyinde test edilmek istensin. Basit hipotezler için Neyman-Pearson Lemması yardımıyla elde edilen düzgün en güçlü test fonksiyonu 1 , X>c 0 , X<c φ ( X 1 , X 2 ... X n ) = biçimindedir. c sabiti, Pµ0 ( X > c) = α P( X - µ0 σ/ n P(Z > > c - µ0 σ/ n c - µ0 σ/ n ) =α ) =α ⇒ c - µ0 σ/ n = Z 1−α c = Z1−α σ/ n + µ 0 olarak bulunur. φ test fonksiyonu alışılagelmiş olarak X - µ0 > Z 1−α 1 , / n σ φ ( X 1 , X 2 ... X n ) = 0 , X - µ 0 < Z1−α σ/ n biçiminde yazılır. Hesaplanan, Zh = X - µ0 σ/ n değeri normal dağılım tablosundan okunan Z tablo = Z 1−α değerinden büyük olduğunda H0 reddedilir. Bu hipotez için p-değeri, p = P( Z > Z h ) = ∞ ∫ Zh 1 2π dır. Küçük p değerlerinde H0 reddedilir. e − z2 2 dz P-değeri Z h istatistiğinin (rasgele değişkeninin) bir fonksiyonu olduğundan kendisi de bir rasgele değişkendir. Bu rasgele değişken PZ ile gösterilsin. PZ rasgele değişkeninin dağılımı nedir? Sıfır hipotezi doğru iken PZ rasgele değişkeninin dağılımını simülasyon ile görmeye çalışalım. Örneğin, N ( µ , σ 2 = 9) dağılımında h h h H0 :µ = 0 H1 : µ = 1 için, n = 16 olduğunda 1000 kez simülasyon yaparak bulunan PZ değerlerinin h histogramı, sıfır hipotezi altında ve karşıt hipotez altında sırasıyla aşağıdaki gibidir. %Sıfır hipotezi altında clc;close all;clear all zh=(mean(3*randn(16,1000))-0)/(3/sqrt(16)); p=1-normcdf(zh,0,1);hist(p,10) Karsit hipotez altinda Sifir hipotezi altinda 600 120 500 100 400 80 300 60 200 40 100 20 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Gerçekte sıfır hipotezi doğru olduğunda p değerinin olasılık dağılımı düzgün dağılımdır. Dolayısıyla p değeri ile ilgili yorumlamalar-da, p değerinin büyük olması sıfır hipotezinin kabul edilmesi anlamına gelip p değerinin büyüklüğünün bir anlamı yoktur. Simülasyonun Tasarlanması ve Sonuçların Değerlendirilmesi