ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ TEMEL KAVRAMLAR PARAMETRE: ÖRNEK İSTATİSTİĞİ (PARAMETRE • Populasyonun sayısal açıklayıcı bir ölçüsüdür ve TAHMİNLEYİCİSİ): anakütledeki tüm • Bir örneğin sayısal betimsel elemanlar dikkate ölçüsüdür ve örnekteki alınarak hesaplanabilir. gözlemlerden hesaplanır. • Ana kütledeki tek bir • Diğer bir deyişle bilinmeyen bir eleman dahi işlemin parametrenin sayısal değerini dışında kalır ise elde bulabilmek (tahminlemek) için edilen sonuç parametre kullanılır. olarak kabul edilemez. PARAMETRE VE ÖRNEK İSTATİSTİKLERİ İÇİN ÖRNEKLER Parametre • Anakütle ortalaması • Anakütle Medyan M • Anakütle Varyansı 2 • Anakütle Standart sapması • Anakütle Oranı Örnek istatistiği ˆ • Örnek ortalaması • Örnek Medyanı • Örnek Varyansı • Örnek Standart sapması • Örnek Oranı x m s2 s p Bir Populasyon Parametresi Hakkında En Geniş Bilgiyi Hangi Örnek İstatistiğinin İçerdiğine Nasıl Karar Verilecek? Örneğin anakütle ortalaması için • Aritmetik ortalama • Geometrik ortalama • Harmonik ortalama • Medyan vb. örnek istatistiklerinden hangisi tercih edilmelidir. Örnek 1 a Bir zar atılışında x üst yüzdeki sayıyı göstersin. E(x)= anakütle parametresini (anakütle ortalamasını) bulunuz. x 1 2 3 4 5 6 P(x) 1/6 1/6 1/6 1/6 1/6 1/6 xP(x) 1/6 2/6 3/6 4/6 5/6 6/6 6 1 2 6 21 E ( x) xP( x) ...... 3,5 6 6 6 6 x 1 Örnek 1b • Ancak bu değerinin bir an için bilinmediği ve bunu tahmin etmek için populasyondan 3 örnek alındığını varsayılsın. • Zar 3 kez atılsın ve örnek sonuçları; x1=2, x2=2, x3=6 elde edilsin. x 2 2 6 10 x 3,333 ve m=2 hesaplanabilir. n 3 3 1 2 m=2 SONUÇ: x =3.5 3 4 X=3.3 değeri değerine daha yakındır. 5 6 •Zar 3 kez daha atılsın ve örnek sonuçları; x1=3, x2=4, x3=6 elde edilsin. x 13 4,3 3 ve m=4 1 2 3 4 5 x m SONUÇ: m değeri değerine daha yakındır. 6 Örnek İçin Yorum 1. Örnekten hesaplanan örnek istatistikleri (tahminleyiciler) birer şans değişkenidir. 2. Ne örnek aritmetik ortalaması x Ne de örnek medyanı (m) , populasyon ortalamasına daima daha yakındır denilemez. Sonuçların genellenebilmesi için örnek istatistiklerinin dağılışına gerek duyulmaktadır. ÖRNEKLEME DAĞILIMLARI • Anakütleden n adet ölçümden x1, …, xn oluşan bir örnekten alınmış olsun. • Anakütledeki eleman sayısı N olsun. • Anakütleden alınabilecek her biri n adet eleman içeren tüm N mümkün örnek sayısı: k n ÖRNEKLEME DAĞILIMLARI • Bu koşullar (N, n) altında hesaplanabilecek örnek istatistiği sayısı k adettir. • Örnek istatistiğinin anakütlesindeki eleman sayısı k olur. • Örnek verilerinden hesaplanan bir örnek istatistiği için elde edilen bu anakütle örnekleme dağılışı olarak adlandırılır. ÖRNEKLEME DAĞILIMLARI • Örnekleme dağılımı bu istatistiğin bir olasılık dağılışıdır. • Örnekleme dağılımı anakütledeki eleman sayısı N ve n örnek hacminin bir fonksiyonudur. ÖRNEK 2 Büyük bir populasyondan alınmış 3 ölçümün (0, 3, 12) olasılık dağılışı aşağıdaki gibidir. x P(x) 0 1 3 3 1 3 12 1 3 n=3 a) Örnek ortalaması ( x )’ nın örnekleme dağılışı b) Örnek medyanı (m)’ nın örnekleme dağılışını bulunuz. DİKKAT: ANAKÜTLEDEKİ ELEMAN SAYISI N BİLİNMİYOR. FAKAT ŞANS DEĞİŞKENİNİN OLASILIK DAĞILIMI P(x) BİLİNİYOR. Mümkün Örnekler 0 0 0 0 0 0 0 0 0 3 3 3 3 3 3 3 3 3 12 12 12 12 12 12 12 12 12 0 0 0 3 3 3 12 12 12 0 0 0 3 3 3 12 12 12 0 0 0 3 3 3 12 12 12 x 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 1 4 1 2 5 4 5 8 1 2 5 2 3 6 5 6 9 4 5 8 5 6 9 8 9 12 m 0 0 0 0 3 3 0 3 12 0 3 3 3 3 3 3 3 12 0 3 12 3 3 12 12 12 12 Olasılık 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 p= x / n (x tek sayı gelmesi durumu) 0/3 1/3 0/3 1/3 2/3 1/3 0/3 1/3 0/3 1/3 2/3 1/3 2/3 3/3 2/3 1/3 2/3 1/3 0/3 1/3 0/3 1/3 2/3 1/3 0/3 1/3 0/3 5 ÖRNEK 2 Aritmetik Ortalama Örnekleme Dağılışı x P x 0 1 27 1 3 27 2 3 27 3 1 27 4 3 27 5 6 27 6 3 27 8 3 27 9 3 12 1 27 27 Medyan Örnekleme Dağılışı m P (m) 0 7 27 3 13 27 12 7 27 ÖRNEK İSTATİSTİKLERİNİNTAHMİNLEYİCİLERİN ÖZELLİKLERİ sapmasızlık minimum varyanslılık Eğer bir tahminleyici bu iki özelliği de sağlıyor ise buna en iyi tahminleyici-etkin tahminleyici denir. SAPMASIZLIK Eğer örnek istatistiğinin örnekleme dağılışının anakütle ortalaması populasyon parametresine eşit ise bu istatistiğe parametrenin sapmasız tahminleyicisi denir. E ˆ : Parametre A, B : İstatistik f(A) A için sapmasız örnek istatistiği f(B) Sapma için sapmalı örnek istatistiği B ÖRNEK 3 Sapmasızlık Anakütle ortalaması için aritmetik ortalama sapmasız fakat medyan sapmalı bir tahminleyicidir. Ex E m Sapmasız P(X) Sapmalı A C x m X ÖRNEK 3: • Örnek 2 verileri için aritmetik ortalama ve örnek medyanının tahminleyici özelliklerini araştırınız. ÖRNEK 3: Aritmetik ortalama x , anakütle ortalamasının sapmasız bir tahminleyicisi midir? 0 3 12 x P(x) 1/3 1/3 1/3 N E x xi P( xi ) i 1 1 1 1 0 3 12 3 3 3 5 ÖRNEK 3: 0 1 2 3 4 5 6 8 9 12 x P x 1/27 3/27 3/27 1/27 3/27 6/27 3/27 3/27 3/27 1/27 N x E x xi P( xi ) i 1 1 3 0 1 27 27 5 1 12 27 ÖRNEK 3: Sonuç: Ex olduğundan aritmetik ortalama (tahminleyici), anakütle ortalamasının (parametrenin) sapmasız bir tahminleyicisidir. ÖRNEK 3: Sonuç: E m olduğundan örnek medyanı (tahminleyici), anakütle ortalamasının (parametrenin) sapmalı bir tahminleyicisidir. MİNİMUM VARYANSLILIK Anakütle parametresi olsun. Parametrenin tahminleyicileri; ˆ1 , olsun. Eğer, V ˆi V ˆj i j 1,..., k 1 ,ˆk ise ˆi tahminleyicisi parametresinin minimum varyanslı tahminleyicisidir. ÖRNEK: MİNİMUM VARYANSLILIK Anakütle parametresi (anakütle ortalaması) olsun. Parametrenin alternatif tahminleyicileri; ˆ1 x ˆ2 G.O ˆ3 H .O ˆ4 m olsun. V x V m V G.O V H .O x tahminleyicisi parametresinin minimum varyanslı tahminleyicisidir. ÖRNEK: ETKİN TAHMİNLEYİCİ Anakütle parametresi (anakütle ortalaması) olsun. Parametrenin alternatif tahminleyicileri; ˆ1 x ˆ2 G.O ˆ3 H .O ˆ4 m olsun. E x ve V x V m V G.O V H .O x tahminleyicisi parametresinin etkin tahminleyicisidir. ÖRNEK: ETKİN TAHMİNLEYİCİ P(X) Ortalamanın örnekleme dağılışı B Medyanın örnekleme dağılışı A X ÖRNEKLEME DAĞILIMI ÖRNEK HACMİNİN BİR FONKSİYONUDUR Örnek Hacmi büyüdükçe tahminleyicinin varyansı küçülür. P(X) Büyük örnek hacimli durum B Küçük örnek hacimli durum A X ÖRNEK 3: Örnek medyanı m, anakütle ortalamasının sapmasız bir tahminleyicisi midir? 0 3 12 m P(m) 7/27 13/27 7/27 7 13 7 E m mi P mi 0 3 12 i 27 27 27 4.56 E m ÖRNEK 3: Aritmetik ortalama x , anakütle ortalamasının Minimum Varyanslı bir tahminleyicisi midir? 0 3 12 x P(x) 13 13 13 x2 0 9 144 x2P(x) 0 9 3 144 3 E x 2 xi2 P ( xi ) 153 3 V x E x E x 2 x 2 153 2 5 3 26 2 ÖRNEK 3 Aritmetik ortalamanın varyansı x2 xi 0 1 2 3 4 5 6 8 9 12 3 3 3 6 3 3 3 1 1 1 P xi 27 27 27 27 27 27 27 27 27 27 0 1 4 9 16 25 36 64 81 144 xi 2 xi 2 P xi 0 3 27 12 27 9 27 48 27 150 27 108 27 192 27 243 27 144 27 909 E x xi P xi 27 2 2 V x E ( x ) E ( x ) 909 (5)2 27 =8,66 2 2 ÖRNEK 3 Örnek medyanının varyansı mi P(mi) mi2 2 mi P(mi) E m 2 0 7 3 13 27 0 0 12 27 9 117 7 27 144 27 1008 27 m P m 41.66 2 i i V m E (m ) E (m) 41.66 (4.56)2 =20.86 2 2 2 m ÖRNEK 3 Sonuç: V x V m Aritmetik ortalama x , anakütle ortalamasının Sapmasız ve Minimum Varyanslı bir tahminleyicisidir. BEKLENEN DEĞER VE VARYANS OPERATÖRLERİNİN ÖZELLİKLERİ BEKLENEN DEĞER OPERATÖRÜ E(.) Şans değişkeni x anakütle ortalaması ve 2 anakütle varyansı olsun. a ile b birer sabit sayı olmak üzere, E(a)=a E(ax)=aE(x)=a E(ax+b)=aE(x)+b=a+b BEKLENEN DEĞER VE VARYANS OPERATÖRLERİNİN ÖZELLİKLERİ VARYANS OPERATÖRÜ V(.) Şans değişkeni x anakütle ortalaması ve anakütle varyansı 2 olsun. a ile b birer sabit sayı olmak üzere, V(a)=0 2 2 2 V(ax)=a V(x)= a V(ax+b)= a2V(x)= a22 MERKEZİ LİMİT TEOREMİ Şans değişkeni x’in dağılımı ne olursa olsun bu anakütleden alınan n hacimli örneklerden hesaplanan aritmetik ortalamanın x dağılımı yaklaşık olarak normal dağılıma sahiptir. Örnek hacmi büyüdükçe aritmetik ortalamanın x dağılımının normal dağılıma yakınsaması artar. Şans Değişkenlerinin Standartlaştırılması • Standart değişkenler genellikle z ile gösterilir. • ortalaması sıfır, E(z)=0 • Varyansı bir, V(Z)=1. şans değişkeni-anakütle ortalaması z anakütle standart sapması BAZI ÖNEMLİ TAHMİNLEYİCİLER İÇİN ÖRNEKLEME DAĞILIMLARININ BELİRLENMESİ Aritmetik ortalama x 2 Örnek varyansı s Örnek oranı p BİR DAĞILIMIN BELİRLENMESİ • Dağılışın tipinin belirlenmesi, (Normal, Üstel, Poisson vb.) • Dağılımın parametrelerinin belirlenmesi ARİTMETİK ORTALAMA x İÇİN ÖRNEKLEME DAĞILIMI Şans değişkeni x anakütle ortalaması ve anakütle varyansı 2 olsun. x i 1 i x n x1 x2 xn n n Cevaplanması gereken sorular Dağılımın tipi? Parametreleri; Ex ? V x ? DAĞILIMIN TİPİ • Merkezi limit teoremine göre aritmetik ortalamanın dağılımı yaklaşık olarak normal dağılıma sahiptir. • Normal dağılımın parametreleri: – Anakütle ortalaması – Anakütle varyansı Dağılımın Parametreleri: Aritmetik Ortalama için Anakütle Ortalaması in1 xi 1 Ex E E x1 n n 1 n E x n n Ex E xn Dağılımın Parametreleri: Aritmetik Ortalama için Anakütle Varyansı i 1 xi V x V n 1 2 V x 2 n n V x 2 n 1 2 V x1 n 2 n 2 2 n V xn ARİTMETİK ORTALAMA x İÇİN ÖRNEKLEME DAĞILIMI x ~N x ; N x ; n 2 x 2 x Aritmetik Ortalamanın Standartlaştırılması x - x z x x - x z x n Normal olmayan dağılışlardan örnekleme •Merkezi eğilim Anakütle dağılışı = 10 x •Yayılma x n – Yerine koyarak örnekleme = 50 X Örnekleme dağılışı n = 4 X = 5 n =30 X = 1.8 X- = 50 X Normal dağılış gösteren bir anakütleden örnekleme •Merkezi eğilim Anakütle dağılışı = 10 x •Yayılma x n Yerine konularak örnekleme = 50 X Örnekleme dağılışı n = 4 X = 5 n =16 X = 2.5 X- = 50 X Merkezi limit teoremi Örnek hacmi yeterince büyükse (n 30) ... x n x Örnekleme dağılışı hemen hemen normal olur. X ÖRNEK 3 •Telekom’da çalışan bir uzman, uzun zaman yaptığı gözlemlerden, telefon konuşma sürelerinin (x), = 8 dk. & = 2 dk. olan normal dağılış gösterdiğini belirlemiştir. 25 görüşme rasgele seçilirse, örnek ortalamasının 7.8 & 8.2 dakika arasında çıkması olasılığı nedir? © 1984-1994 T/Maker Co. Çözüm X 7.8 8 Z .50 n 2 25 X 8.2 8 .50 Standart Normal Örnekleme dağılışıZ n 2 25 Dağılış X = .4 =1 .3830 .1915 .1915 7.8 8 8.2 X -.50 0 .50 Z ÖRNEK ORANI: p Birbirinden bağımsız n adet Bernoulli Deneyinin bir araya gelmesi sonucunda x başarı sayısı Binom Dağılımına sahiptir. Başarı olayının populasyon oranının bilinmediği durumlarda olasılık hesaplamaları için kullanacak dağılışı belirlemek bir problemdir olarak. Örnek olarak bir yeni ilin A partisi için oy oranının belirlenmesi veya yeni çıkan bir derginin tüm rakip dergiler dikkate alında satış yüzdesinin belirlenmesi verilebilir. ÖRNEK ORANI: p Bu gibi örneklerde anakütle başarı olasılığını “” ’yi tahminlemek amacıyla populasyondan alınan örnekten elde edilen bilgiler doğrultusunda örnek oranı p hesaplanır. İlgilenilen başarı olasılığının ’nin bilinmediği durumlarda n hacimlik örnek alındığında ve x örnekteki başarı sayısı olarak ele alındığında, örnekten elde edilen başarı olasılığı (örnek oranı); x p n ÖRNEK ORANI p İÇİN ÖRNEKLEME DAĞILIMI Şans değişkeni x sabit n hacimli denemede ortaya çıkan başarı sayısı olsun. x ~B n; Örnek oranı: x p n Cevaplanması gereken sorular Dağılımın tipi? Parametreleri; p E p ? p2 V p ? DAĞILIMIN TİPİ • Merkezi limit teoremine göre örnek oranının dağılımı eğer n örnek hacmi yeterince büyük ise yaklaşık olarak normal dağılıma sahiptir. • Bunun temel sebebi örnek oranının, n adet denemede ortaya çıkan ortalama başarı sayısını temsil etmesidir. • Normal dağılımın parametreleri: – Anakütle ortalaması – Anakütle varyansı Dağılımın Parametreleri: Örnek Oranı için Anakütle Ortalaması x 1 E p E E x n n n E p n E p Not: x şans değişkeni binom dağılımına sahip olduğundan: E(x)=n Dağılımın Parametreleri: Örnek oranı için Anakütle Varyansı x 1 V p V 2 V x n n n 1 V p n2 1 V p n Not: x şans değişkeni binom dağılımına sahip olduğundan: V(x)=n(1-) ÖRNEK ORANI p İÇİN ÖRNEKLEME DAĞILIMI 1 2 p ~N p ; p N ; n Örnek Oranının Standartlaştırılması z z p - p p p- 1 n Örnek Hacminin Örnek Oranı Üzerindeki Etkisi Anakütle oranı sabitken örnek hacmi arttığında örnek oranının standart hatası küçülür. Aşağıdaki şekilde görüldüğü gibi örnek hacmi arttığında p’in kendi ortalaması etrafında yoğunlaştığı görülmektedir. f ( p) n=400 n=100 .68 .72 .76 .80 .84 .88 .92 p ÖRNEK 4 Büyük bir populasyondan alınan 3 ölçüm ile ilgili örneğe dönersek x başarı sayısının örnekte tek sayı gelme olayını göstermek üzere örnek oranının beklenen değerini ve varyansını bularak dağılımını elde ediniz. ÖRNEK 4 pi 0/3 1/3 2/3 3/3 pi2 0/9 1/9 4/9 9/9 P(pi) 8/27 12/27 6/27 1/27 E ( p) pi P pi i E ( p) p E ( p) 8 0 12 1 6 2 1 3 0.33 27 3 27 3 27 3 27 3 ÖRNEK 4 I. YÖNTEM 2 p V p 1 n (1 ) 0.33(1 0.33) p2 0.074 n 3 II. YÖNTEM p2 E ( p 2 ) E ( p)2 E ( p 2 ) pi2 P pi i E( p2 ) 8 0 12 1 6 4 1 9 0.185 27 9 27 9 27 9 27 9 p2 E ( p 2 ) E ( p) 0.185 (0.33) 2 0.074 2 ÖRNEK 5 Gelirler Genel Müdürlüğü’ne göre, bütün vergi beyannamelerinin % 75’i vergi iadesine yol açmaktadır. 100 beyannamelik bir rassal örneklem alınmıştır. a) Vergi iadesine yol açan beyannamelerin örneklem oranının ortalaması kaçtır? b) Örneklem oranının varyansı kaçtır? c) Örneklem oranının standart hatası kaçtır? d) Örneklem oranının 0,8’den büyük olma olasılığı kaçtır? ÖRNEK 5 Çözüm: a) E ( p) 0,75 b) 2 p (1 ) n 0,75(1 0,75) 0,001875 100 2 p c) Standart Sapma (ya da Standart Hata) p 0,001875 0,0433 2 p ÖRNEK 5 d) P( p 0,8) ? P( p 0,8) P( p p 0,8 p ) 0,8 0,75 0,8 0,75 P( z ) P( z ) 0,0433 0,0433 P( z 1,15) 0,5 0,3749 0,1251 Ki-Kare Dağılışı 2 v = (n - 1) s 2 2 n = örnek miktarı s 2 = örnek varyansı 2 = anakütle varyansı df = serbestlik derecesi = n – 1=v Ki-Kare Dağılışı Ki-kare dağılımının tek bir parametresi vardır: v Bu parametre genel olarak serbestlik derecesi olarak adlandırılır. 2 v şeklinde gösterilir. Ki-kare dağılımı normal (standart normal) dağılıma sahip şans değişkenlerinden elde edlilir. Ki-Kare Dağılışı Şans değişkenleri xi ler normal dağılıma sahip olmak üzere, Örnek varyansı: s 2 x x i n 1 2 n 1 s 2 xi x 2 Eşitliğin her iki tarafı anakütle varyansına bölünerek n 1 s 2 2 x x i 2 2 n21 Ki-Kare Dağılışı Ki-kare şans değişeninin beklenen değeri: E v2 v Ki-kare şans değişeninin varyansı: V v2 2v Ki-kare istatistiğinin dağılışının özellikleri 1. ki-kare dağılışı simetrik değildir 2. Serbestlik derecesi arttıkça, dağılış daha simetrik hale gelir (normale yaklaşır) df = 10 Simetrik değil df = 20 0 x2 0 Tüm değerler sıfır veya pozitif 5 10 15 20 25 30 35 40 45 ÖRNEK VARYANSININ ÖRNEKLEME DAĞILIMI Anakütle ortalaması x ve anakütle varyansı x olan bilinmeyen bir populasyondan x1, x2,…, xn ile gösterilen n adet rassal bir örnek alındığında populasyon varyansı aşağıdaki gibi bir beklenen değer ifadesine eşittir: 2 x2 E ( xi x ) 2 Populasyon ortalaması x bilinmediğinde yerine x konularak örnek varyansı aşağıdaki gibi tanımlanır. n 1 2 sx2 ( x x ) i n 1 i 1 ÖRNEK VARYANSININ ÖRNEKLEME DAĞILIMI Varyansı x2 olan bir populasyondan alınan n hacimlik bir örneğin örnek varyansı s x2 olarak ifade edildiğinde; 2 n 1 s x 2 s 2 2 n 1 x x2 n21 n 1 ÖRNEK VARYANSININ ÖRNEKLEME DAĞILIMI s x2 ’nin örnekleme dağılımının ortalaması x2 ’dir. E s 2 x x2 E n21 n 1 E ( s x2 ) x2 x2 n 1 n 1 ÖRNEK VARYANSININ ÖRNEKLEME DAĞILIMI s x2 ’nin örnekleme dağılımının varyansı, örnekleme dağılımın Ki- Kare dağılımına uygun olduğunu sonucundan hareketle ; 4 2 V n1 x V s V n 1 4 2 x n 1 2 V sx 2 n 1 2 x 2 x 2 V s n 1 2 x 4 x 2 n 1 n 1 2