İstatistik Tahmin ve Güven aralıkları

advertisement
İstatistik Tahmin ve Güven aralıkları
•
•
•
•
•
•
•
•
•
•
Nokta tahmini ve aralık tahmini
Tahminlerde aranan özellikleri
Güven Aralıkları
Kütle ortalaması için güven aralığı
Kütle oranı için güven aralığı
İki kütle ortalamasının farkının güven aralığı
İki kütle oranının farkının güven aralığı
Varyansların güven aralığı
İki kütle varyansının oranlarının güven aralığı
Örnek hacminin belirlenmesi
İstatistik tahmin ve güven aralıkları
• Tahmin: Akıl, sezgi yoluyla ya da derlenmiş olan veriler ve
istatistik teknikler yardımıyla bir olayın alacağı değerler
hakkında kestirim yapma işlemine tahmin adı verilir.
İstatistikte örneğe dayanarak kütle parametrelerinin
tahminleri yapılabilmektedir. Kütle parametresinin tahmini
için tek bir değer bulunabileceği gibi bir değerler aralığı da
bulunabilir. Bu sebeple tahmin nokta ve aralık tahmini
şeklinde iki kısımda incelenir. Tahmin yoluna, özellikle ana
kitlenin çok büyük olduğu ve parametrelerin doğrudan
hesaplanmasının mümkün olmadığı durumlarda ya da
zaman
ve
maliyet
kısıtlarının
varlığı
hallerinde
başvurulmaktadır.
• Nokta tahmini: Bilinmeyen bir kütle parametresini tahmin
etmek için kullanılan örnek istatistiğine tahmin edici denir.
Bir tahmin edicinin bir tek değerle ifade edilmesine nokta
tahmini adı verilir. Kütle ortalaması µ nün tahmincisi X ,
Kütle varyansının  2 tahmincisi s2 birer nokta tahminidir.
Tahmin edicilerde aranan istatistik özellikler
• Tahmin edicilerin sahip olması gereken istatistik özelliklerini
şöyle sıralamak mümkündür.
• 1. Sapmasızlık: Eğer bir örnek istatistiğinin beklenen değeri
tahmin edilmek istenen ana kütle parametresine eşit ise, söz
konusu istatistik ana kitle parametresinin “sapmasız”
(sistematik hata içermeyen) bir tahminidir.
E( X )   , E( ~
p)  p ise X ve ~
p sirasiyla  ve p' nin
sapmasız tahmincileridir.
• İadeli seçim halinde örneklem varyansı, ana kitle varyansının
2
2
sapmasız bir tahminidir. Yani; Es   σ
dir. Aynı s2 iadesiz
seçimde ise, 2 için sapmalı bir tahmin olmaktadır. Bu
durumda 2 sapmasız tahmincisi;
 ns 2 
  σ 2 olur.
E
 n 1 
Tahmin edicilerde aranan istatistik özellikler
• 2. Tutarlılık: Örnek hacmi artarken tahmin edici tahmin
edilmek istenen kütle parametresine yaklaşıyorsa bu tahmin
ediciye tutarlı tahmin edici adı verilir. Örnek ortalaması, X
n büyüdükçe ’ye yaklaşacaktır. n  N giderken X  
olur. Çünkü, n = N durumunda X =  olacaktır. Yani, tahmin
hatası sıfıra eşit olur.
• Ancak sapmasızlık ve tutarlılık gerekli olmakla beraber yeterli
değildir. Çünkü sapmasız olmayan bir tahmin edicinin tutarlı
olması mümkündür.
• 3. Etkinlik: Tutarlı tahmin ediciler arasından birinin seçilmesi
istendiğinde seçim etkinlik kriterine göre yapılır. Tahmin
edicilerin etkinliği varyanslarına dayanır. Hangi örnek
istatistiğinin dağılımı daha küçük varyansa sahipse, tahmin
olarak o istatistik tercih edilir.
• Θ’ nın iki sapmasız tahmincisi ˆ1 veˆ2 olsun Var (ˆ1 )  Var (ˆ2 )
ise ˆ , ˆ den daha etkindir denir.
1
2
Tahmin edicilerde aranan istatistik özellikler
• Etkinliğin ölçüsü olarak aşağıdaki oran kullanılır.
•
Var ˆ1  Bu oran 1 den küçükse ˆ1 tahminci,
Etkinlik 
•
aksi halde ˆ2 etkin tahmincidir.
Var ˆ2 
• Örnek: Aynı örnek hacmi için örnek aritmetik ortalaması ve
örnek medyanından hangisinin etkin olduğunu belirleyiniz.
2
 2
Var ( X ) 
Var ( Medyan) 
n
2n
Var ( X )
 2 /n
2


 0,64
2
Var ( Medyan)  2n 
• Olduğundan aritmetik ortalama medyandan daha etkin
tahmin edicidir.
• Yeterlilik: Bir tahmin edici tahmin edilmek istenen parametre
hakkında örnekte bulunan bütün veriyi kullanıyorsa bu
tahmin edicinin yeterli olduğu söylenir. Buna göre örnek
aritmetik ortalaması ve oranı yeterli tahmin ediciler oldukları
halde mod ve medyan yeterli tahmin ediciler değildir.
Tahmin edicilerde aranan istatistik özellikler
• Nokta tahminleri sapmasız, tutarlı, etkin ve yeterli olsa bile
içerdiği hata miktarının belirlenememesi sebebiyle güvenle
kullanımı mümkün değildir. Bu sebeple tahminin güven
derecesini de beraberinde veren aralık tahminleri kullanılır.
• Nokta tahmin metotları olarak önceki kısımlarda görmüş
olduğumuz yöntemler kullanılır. Nokta tahmincilerini “en çok
benzerlik”, “en küçük kareler” ve “momentler” gibi
yöntemlerle belirlemek mümkündür.
• Aralık Tahmini (Güven Aralıkları)
• Kütle parametresinin tahmini tek bir değer yerine bir değerler
aralığı içinde verilmesi istenebilir. Belli bir güvenle bu aralığın
tahmin edilmek istenen parametreyi içerdiği söylenebilir. 1-
olarak ifade edilen güven düzeyi parametrenin gerçek
değerinin 1- olasılıkla belirlenen aralık içinde olduğunu
ifade eder. Bununla birlikte aralığın  olasılıkla parametreyi
içermemesi de muhtemeldir.
1- Ortalamaların Güven Aralığı
• Bilindiği gibi ortalamaların dağılımı kütle varyansının bilinip
bilinmemesine göre farklılık göstermektedir. Güven
aralıklarının oluşturulmasında da bu durum dikkate alınır.
• Kütle varyansının bilindiği durumlarda kütle ortalamasının
güven aralığı:
• Önceki bölümde örneklerin alındığı kütle ortalaması µ ve
varyansı 2 olan normal dağılıma uyduğunda örnek
ortalamalarının da ortalaması µ ve varyansı 2/n olan normal
dağılıma uyduğu ifade edilmişti. Öte yandan örnek hacmi (n)
büyük olduğu zaman ortalamaların örnekleme dağılımı
normal dağılıma yaklaşmaktadır.
• Z/2
yi öyle belirleyelim ki standart normal yoğunluk
fonksiyonunun Z/2 ile sonsuz arasındaki integrali /2 olsun.
Bu durumda
X   rassal değişkeni 1- olasılıkla
Z
•
/ n
-Z/2 ile Z/2 arasında bulunacağı söylenebilir.
1- Ortalamaların Güven Aralığı
• Şu halde Z değişkeni 1-α güvenle;
 Z  Z 
X 
 Z
 n
2
• Aralığında olacaktır. Burada µ yalnız bırakılırsa:
2
σ
σ
X  Zα .
 μ  X  Zα
olacaktir.
n
n
2
2
1- Ortalamaların Güven Aralığı
• Buna göre kütle ortalaması µ nün yukarıda verilen aralık
içinde bulunma olasılığı (1-) olacaktır. Bu aralığa µ nün
(1-) güven aralığı adı verilir.
• Kütle sınırlı, iadesiz seçim yapılıyorsa ve n/N örnekleme
oranı %5 ten büyükse güven aralığı sınırlı kütle düzeltme
faktörü kullanılarak şöyle yazılır.
σ
N n
σ
N n
X  Zα .

 μ  X  Zα

N 1
N 1
n
n
2
2
N n
•
N 1
faktörüne sınırlı kütle düzeltme faktörü adı verilir.
1- Ortalamaların Güven Aralığı
• Kütle varyansının bilinmediği durumlarda kütle
ortalamasının güven aralığı:
• Gerçek kütle varyansı çoğu zaman bilinmez. Kütle
varyansı 2 bilinmediği zaman kütlenin dağılımı normal
olmak kaydıyla kütle ortalaması µ’nün (1-) güven
aralığı t dağılımı ile belirlenir. Normal bir kütleden
çekilen n büyüklüğündeki rassal bir örnek için X   nin
S n
dağılımı n-1 serbestlik dereceli t dağılımına uyar.
• Buna göre kütle varyansı bilinmeyen bir kütleden çekilen
n birimlik bir örneğe dayanarak kütle ortalamasının (1-)
güven aralığı şöyle yazılır.
X  tα
2
, n 1
.
S
S
 μ  X  tα 
, n 1
n
n
2
1- Ortalamaların Güven Aralığı
• Eğer kütle sınırlı ve iadesiz seçim yapılıyorsa µ’nün
(1-) güven aralığı düzeltme faktörü kullanılarak şöyle
yazılır.
S
N n
S
N n
X  tα .

 μ  X  tα

, n 1
N 1
N 1
n
n
2
2
• Eğer örnek hacmi büyükse (n>30) kütlenin dağılımına
bakılmaksızın ortalamanın Dağılımının normal olduğu
kabul edilerek güven aralığı oluşturulur. Ancak küçük
örneklerde (n<30) kütlenin dağılımı normal değilse
teorik bir çözüm belirtilmez.
Ortalamaların Güven Aralığı – Örnek• Örnek: Bir cins elektrik ampulünün ortalama ömrü tahmin
edilmek isteniyor. Geçmiş verilerden bu ampullerin ömrünün
standart sapmasının 120 saat olduğu bilinmektedir. Bu
ampullerden 36 tane rasgele alınıp ömür testine tabi
tutulduğunda ömürlerinin ortalamasının 1500 saat olduğu
görülüyor.%95 güvenle bu ampullerin ortalama ömrünü
tahmin ediniz.
• Çözüm:
• Verilenler:   120, n  36, X  1500, (1   )  0,95 olup   0,05
• Z/2 = Z0,05/2 = Z0,025 = 1,96
σ
σ
X  Zα .
 μ  X  Zα
n
n
2
2
120
120
1500  1,96 
   1500  1,96 
36
36
1460,8    1539,2 saat
Ortalamaların Güven Aralığı – Örnek• Örnek: A marka otomobillerin 10 lt benzinle şehir içinde
almış olduğu yolun normal dağıldığı biliniyor. Bu
otomobillerle yapılan 16 ölçümde 10 lt yakıtla alının yolun
ortalaması 90 km. standart sapması 12 km olarak
bulunmuştur. Bu verilere göre %95 güvenle bu A marka
otomobillerin şehir içinde aldığı yolun ortalamasını tahmin
ediniz.
• Çözüm: Kütle standart sapması bilinmiyor ancak kütlenin
dağılımı normal olduğundan örnek hacmi küçük olup
ortalamaların dağılımı t dağılımına uyar.
• Veriler: n  16, X  90, S  12, 1    0,95 olup t /2,sd  t0,025,15  2,13
S
S
X  tα .
 μ  X  tα
, n 1
, n 1
n
n
2
2
12
12
90  2,13 
   90  2,13 
16
16
83,61    96,39 km
Tablo: t dağılımı tablosu
Olasılık (α)
Serbestlik
derecesi
0,100
0,050
0,025
0,010
0,005
0,001
1
3,078
6,314
12,706
31,821
63,657
318,309
2
1,886
2,920
4,303
6,965
9,925
22,327
3
1,638
2,353
3,182
4,541
5,841
10,215
4
1,533
2,132
2,776
3,747
4,604
7,173
5
1,476
2,015
2,571
3,365
4,032
5,893
6
1,440
1,943
2,447
3,143
3,707
5,208
7
1,415
1,895
2,365
2,998
3,499
4,785
8
1,397
1,860
2,306
2,896
3,355
4,501
9
1,383
1,833
2,262
2,821
3,250
4,297
10
1,372
1,812
2,228
2,764
3,169
4,144
11
1,363
1,796
2,201
2,718
3,106
4,025
12
1,356
1,782
2,179
2,681
3,055
3,930
13
1,350
1,771
2,160
2,650
3,012
3,852
14
1,345
1,761
2,145
2,624
2,977
3,787
15
1,341
1,753
2,131
2,602
2,947
3,733
t dağılım tablosu (devam)
Olasılık (α)
Serbestlik
derecesi
0,100
0,050
0,025
0,010
0,005
0,001
16
1,337
1,746
2,120
2,583
2,921
3,686
17
1,333
1,740
2,110
2,567
2,898
3,646
18
1,330
1,734
2,101
2,552
2,878
3,610
19
1,328
1,729
2,093
2,539
2,861
3,579
20
1,325
1,725
2,086
2,528
2,845
3,552
21
1,323
1,721
2,080
2,518
2,831
3,527
22
1,321
1,717
2,074
2,508
2,819
3,505
23
1,319
1,714
2,069
2,500
2,807
3,485
24
1,318
1,711
2,064
2,492
2,797
3,467
25
1,316
1,708
2,060
2,485
2,787
3,450
26
1,315
1,706
2,056
2,479
2,779
3,435
27
1,314
1,703
2,052
2,473
2,771
3,421
28
1,313
1,701
2,048
2,467
2,763
3,408
29
1,311
1,699
2,045
2,462
2,756
3,396
30
1,310
1,697
2,042
2,457
2,750
3,385
2- Oranların güven aralığı
• n Bağımsız deneme olmak üzere bu deneylerin uygun ve
uygun olmayan haller şeklinde sadece iki sonucu varsa bu
tür deneyler binom dağılımına uymaktadır. n ve p binom
dağılımının parametreleri olup n bilindiğinde p nin tahmini
mümkündür. Binom dağılımının beklenen değer ve varyansı
E(X) = np ve Var(X) = npq dur.
X
~
p
• X uygun hal sayısı olmak üzere
olup bu oranın
n
beklenen değeri alınırsa;
X 1
~
E ( p )  E    np  p olur.
n n
X
• n büyük olduğu
zaman n
yani
~
yaklaşır. p nin varyansı ise
X
Var 
n
~
p nin dağılımı normale
npq pq
 1
olur.
  2 . Var (X)  2 
n
n
 n
2- Oranların güven aralığı
• p’ nin 1- güven aralığı normal dağılım varsayımı ile
şöyle yazılır.
~
~
pq~
X
pq~
 p   Zα
yani
n
n
n
2
~
~
~
~
p
q
p
q
~
p  Z 
 p ~
p  Z 
n
n
2
2
X
 Zα
n
2
2- Oranların güven aralığı
• Örnek: Bir bölgede 30 yaşın üzerindeki kişilerde
şeker hastası oranını tahmin etmek amacıyla
rasgele 200 kişi seçilmiş ve bunların 24 tanesinin
şeker hastası olduğu görülmüştür. Bu verilere göre
bu bölgedeki şeker hastası oranını %99 güvenle
tahmin ediniz.
• Çözüm:
24
~
p
~
p  0,12
200
~
p  Z 
2
q~  0,88 n  200 1    0,99   0,01 Z  / 2  Z 0, 005  2,58
~
~
pq~
pq~
0,12  0,88
0,12  0,88
~
 p  p  Z 
 0,12  2,58 
 p  0,12  2,58 
n
n
200
200
2
0,061  p  0,179 olur.
Problem
• Bir şehrin ortalama su tüketimini tahmin etmek amacıyla
rassal olarak yapılan 36 günlük araştırmada ortalama
tüketimin 120 bin ton, standart sapmasının 14 bin ton
olduğu görülmüştür.
• a) %95 güvenle şehrin günlük ortalama su tüketimini
tahmin ediniz.
• b) Şehrin iletim hattının kapasitesinin 145 bin ton olduğu
bilindiğine göre herhangi bir günde arz yetersizliği
sebebiyle (talebin karşılanamaması sebebiyle) şehirde
su kesintisi olma olasılığını tahmin ediniz.
Problem
• Bir seramik fabrikasında üretilen fayanslar bir
metrekarelik kutulara konarak pazarlanmaktadır.
Kutulardaki fayanslar kusurlu olabilmektedir. Kusurlu
fayans içeren kutu oranını tahmin etmek için 150 kutu
rastgele seçiliyor.
• a) Seçilen kutuların 6 tanesinde kusurlu fayansa
rastlandığına göre %98 güvenle kusurlu fayans içeren
kutu oranını tahmin ediniz.
• b) Bu 150 kutu için kusurlu fayans içeren kutu oranı
0,025 ile 0,055 olduğu hesaplandığına göre tahminin
güven düzeyini belirleyiniz.
Download