İstatistik Tahmin ve Güven aralıkları • • • • • • • • • • Nokta tahmini ve aralık tahmini Tahminlerde aranan özellikleri Güven Aralıkları Kütle ortalaması için güven aralığı Kütle oranı için güven aralığı İki kütle ortalamasının farkının güven aralığı İki kütle oranının farkının güven aralığı Varyansların güven aralığı İki kütle varyansının oranlarının güven aralığı Örnek hacminin belirlenmesi İstatistik tahmin ve güven aralıkları • Tahmin: Akıl, sezgi yoluyla ya da derlenmiş olan veriler ve istatistik teknikler yardımıyla bir olayın alacağı değerler hakkında kestirim yapma işlemine tahmin adı verilir. İstatistikte örneğe dayanarak kütle parametrelerinin tahminleri yapılabilmektedir. Kütle parametresinin tahmini için tek bir değer bulunabileceği gibi bir değerler aralığı da bulunabilir. Bu sebeple tahmin nokta ve aralık tahmini şeklinde iki kısımda incelenir. Tahmin yoluna, özellikle ana kitlenin çok büyük olduğu ve parametrelerin doğrudan hesaplanmasının mümkün olmadığı durumlarda ya da zaman ve maliyet kısıtlarının varlığı hallerinde başvurulmaktadır. • Nokta tahmini: Bilinmeyen bir kütle parametresini tahmin etmek için kullanılan örnek istatistiğine tahmin edici denir. Bir tahmin edicinin bir tek değerle ifade edilmesine nokta tahmini adı verilir. Kütle ortalaması µ nün tahmincisi X , Kütle varyansının 2 tahmincisi s2 birer nokta tahminidir. Tahmin edicilerde aranan istatistik özellikler • Tahmin edicilerin sahip olması gereken istatistik özelliklerini şöyle sıralamak mümkündür. • 1. Sapmasızlık: Eğer bir örnek istatistiğinin beklenen değeri tahmin edilmek istenen ana kütle parametresine eşit ise, söz konusu istatistik ana kitle parametresinin “sapmasız” (sistematik hata içermeyen) bir tahminidir. E( X ) , E( ~ p) p ise X ve ~ p sirasiyla ve p' nin sapmasız tahmincileridir. • İadeli seçim halinde örneklem varyansı, ana kitle varyansının 2 2 sapmasız bir tahminidir. Yani; Es σ dir. Aynı s2 iadesiz seçimde ise, 2 için sapmalı bir tahmin olmaktadır. Bu durumda 2 sapmasız tahmincisi; ns 2 σ 2 olur. E n 1 Tahmin edicilerde aranan istatistik özellikler • 2. Tutarlılık: Örnek hacmi artarken tahmin edici tahmin edilmek istenen kütle parametresine yaklaşıyorsa bu tahmin ediciye tutarlı tahmin edici adı verilir. Örnek ortalaması, X n büyüdükçe ’ye yaklaşacaktır. n N giderken X olur. Çünkü, n = N durumunda X = olacaktır. Yani, tahmin hatası sıfıra eşit olur. • Ancak sapmasızlık ve tutarlılık gerekli olmakla beraber yeterli değildir. Çünkü sapmasız olmayan bir tahmin edicinin tutarlı olması mümkündür. • 3. Etkinlik: Tutarlı tahmin ediciler arasından birinin seçilmesi istendiğinde seçim etkinlik kriterine göre yapılır. Tahmin edicilerin etkinliği varyanslarına dayanır. Hangi örnek istatistiğinin dağılımı daha küçük varyansa sahipse, tahmin olarak o istatistik tercih edilir. • Θ’ nın iki sapmasız tahmincisi ˆ1 veˆ2 olsun Var (ˆ1 ) Var (ˆ2 ) ise ˆ , ˆ den daha etkindir denir. 1 2 Tahmin edicilerde aranan istatistik özellikler • Etkinliğin ölçüsü olarak aşağıdaki oran kullanılır. • Var ˆ1 Bu oran 1 den küçükse ˆ1 tahminci, Etkinlik • aksi halde ˆ2 etkin tahmincidir. Var ˆ2 • Örnek: Aynı örnek hacmi için örnek aritmetik ortalaması ve örnek medyanından hangisinin etkin olduğunu belirleyiniz. 2 2 Var ( X ) Var ( Medyan) n 2n Var ( X ) 2 /n 2 0,64 2 Var ( Medyan) 2n • Olduğundan aritmetik ortalama medyandan daha etkin tahmin edicidir. • Yeterlilik: Bir tahmin edici tahmin edilmek istenen parametre hakkında örnekte bulunan bütün veriyi kullanıyorsa bu tahmin edicinin yeterli olduğu söylenir. Buna göre örnek aritmetik ortalaması ve oranı yeterli tahmin ediciler oldukları halde mod ve medyan yeterli tahmin ediciler değildir. Tahmin edicilerde aranan istatistik özellikler • Nokta tahminleri sapmasız, tutarlı, etkin ve yeterli olsa bile içerdiği hata miktarının belirlenememesi sebebiyle güvenle kullanımı mümkün değildir. Bu sebeple tahminin güven derecesini de beraberinde veren aralık tahminleri kullanılır. • Nokta tahmin metotları olarak önceki kısımlarda görmüş olduğumuz yöntemler kullanılır. Nokta tahmincilerini “en çok benzerlik”, “en küçük kareler” ve “momentler” gibi yöntemlerle belirlemek mümkündür. • Aralık Tahmini (Güven Aralıkları) • Kütle parametresinin tahmini tek bir değer yerine bir değerler aralığı içinde verilmesi istenebilir. Belli bir güvenle bu aralığın tahmin edilmek istenen parametreyi içerdiği söylenebilir. 1- olarak ifade edilen güven düzeyi parametrenin gerçek değerinin 1- olasılıkla belirlenen aralık içinde olduğunu ifade eder. Bununla birlikte aralığın olasılıkla parametreyi içermemesi de muhtemeldir. 1- Ortalamaların Güven Aralığı • Bilindiği gibi ortalamaların dağılımı kütle varyansının bilinip bilinmemesine göre farklılık göstermektedir. Güven aralıklarının oluşturulmasında da bu durum dikkate alınır. • Kütle varyansının bilindiği durumlarda kütle ortalamasının güven aralığı: • Önceki bölümde örneklerin alındığı kütle ortalaması µ ve varyansı 2 olan normal dağılıma uyduğunda örnek ortalamalarının da ortalaması µ ve varyansı 2/n olan normal dağılıma uyduğu ifade edilmişti. Öte yandan örnek hacmi (n) büyük olduğu zaman ortalamaların örnekleme dağılımı normal dağılıma yaklaşmaktadır. • Z/2 yi öyle belirleyelim ki standart normal yoğunluk fonksiyonunun Z/2 ile sonsuz arasındaki integrali /2 olsun. Bu durumda X rassal değişkeni 1- olasılıkla Z • / n -Z/2 ile Z/2 arasında bulunacağı söylenebilir. 1- Ortalamaların Güven Aralığı • Şu halde Z değişkeni 1-α güvenle; Z Z X Z n 2 • Aralığında olacaktır. Burada µ yalnız bırakılırsa: 2 σ σ X Zα . μ X Zα olacaktir. n n 2 2 1- Ortalamaların Güven Aralığı • Buna göre kütle ortalaması µ nün yukarıda verilen aralık içinde bulunma olasılığı (1-) olacaktır. Bu aralığa µ nün (1-) güven aralığı adı verilir. • Kütle sınırlı, iadesiz seçim yapılıyorsa ve n/N örnekleme oranı %5 ten büyükse güven aralığı sınırlı kütle düzeltme faktörü kullanılarak şöyle yazılır. σ N n σ N n X Zα . μ X Zα N 1 N 1 n n 2 2 N n • N 1 faktörüne sınırlı kütle düzeltme faktörü adı verilir. 1- Ortalamaların Güven Aralığı • Kütle varyansının bilinmediği durumlarda kütle ortalamasının güven aralığı: • Gerçek kütle varyansı çoğu zaman bilinmez. Kütle varyansı 2 bilinmediği zaman kütlenin dağılımı normal olmak kaydıyla kütle ortalaması µ’nün (1-) güven aralığı t dağılımı ile belirlenir. Normal bir kütleden çekilen n büyüklüğündeki rassal bir örnek için X nin S n dağılımı n-1 serbestlik dereceli t dağılımına uyar. • Buna göre kütle varyansı bilinmeyen bir kütleden çekilen n birimlik bir örneğe dayanarak kütle ortalamasının (1-) güven aralığı şöyle yazılır. X tα 2 , n 1 . S S μ X tα , n 1 n n 2 1- Ortalamaların Güven Aralığı • Eğer kütle sınırlı ve iadesiz seçim yapılıyorsa µ’nün (1-) güven aralığı düzeltme faktörü kullanılarak şöyle yazılır. S N n S N n X tα . μ X tα , n 1 N 1 N 1 n n 2 2 • Eğer örnek hacmi büyükse (n>30) kütlenin dağılımına bakılmaksızın ortalamanın Dağılımının normal olduğu kabul edilerek güven aralığı oluşturulur. Ancak küçük örneklerde (n<30) kütlenin dağılımı normal değilse teorik bir çözüm belirtilmez. Ortalamaların Güven Aralığı – Örnek• Örnek: Bir cins elektrik ampulünün ortalama ömrü tahmin edilmek isteniyor. Geçmiş verilerden bu ampullerin ömrünün standart sapmasının 120 saat olduğu bilinmektedir. Bu ampullerden 36 tane rasgele alınıp ömür testine tabi tutulduğunda ömürlerinin ortalamasının 1500 saat olduğu görülüyor.%95 güvenle bu ampullerin ortalama ömrünü tahmin ediniz. • Çözüm: • Verilenler: 120, n 36, X 1500, (1 ) 0,95 olup 0,05 • Z/2 = Z0,05/2 = Z0,025 = 1,96 σ σ X Zα . μ X Zα n n 2 2 120 120 1500 1,96 1500 1,96 36 36 1460,8 1539,2 saat Ortalamaların Güven Aralığı – Örnek• Örnek: A marka otomobillerin 10 lt benzinle şehir içinde almış olduğu yolun normal dağıldığı biliniyor. Bu otomobillerle yapılan 16 ölçümde 10 lt yakıtla alının yolun ortalaması 90 km. standart sapması 12 km olarak bulunmuştur. Bu verilere göre %95 güvenle bu A marka otomobillerin şehir içinde aldığı yolun ortalamasını tahmin ediniz. • Çözüm: Kütle standart sapması bilinmiyor ancak kütlenin dağılımı normal olduğundan örnek hacmi küçük olup ortalamaların dağılımı t dağılımına uyar. • Veriler: n 16, X 90, S 12, 1 0,95 olup t /2,sd t0,025,15 2,13 S S X tα . μ X tα , n 1 , n 1 n n 2 2 12 12 90 2,13 90 2,13 16 16 83,61 96,39 km Tablo: t dağılımı tablosu Olasılık (α) Serbestlik derecesi 0,100 0,050 0,025 0,010 0,005 0,001 1 3,078 6,314 12,706 31,821 63,657 318,309 2 1,886 2,920 4,303 6,965 9,925 22,327 3 1,638 2,353 3,182 4,541 5,841 10,215 4 1,533 2,132 2,776 3,747 4,604 7,173 5 1,476 2,015 2,571 3,365 4,032 5,893 6 1,440 1,943 2,447 3,143 3,707 5,208 7 1,415 1,895 2,365 2,998 3,499 4,785 8 1,397 1,860 2,306 2,896 3,355 4,501 9 1,383 1,833 2,262 2,821 3,250 4,297 10 1,372 1,812 2,228 2,764 3,169 4,144 11 1,363 1,796 2,201 2,718 3,106 4,025 12 1,356 1,782 2,179 2,681 3,055 3,930 13 1,350 1,771 2,160 2,650 3,012 3,852 14 1,345 1,761 2,145 2,624 2,977 3,787 15 1,341 1,753 2,131 2,602 2,947 3,733 t dağılım tablosu (devam) Olasılık (α) Serbestlik derecesi 0,100 0,050 0,025 0,010 0,005 0,001 16 1,337 1,746 2,120 2,583 2,921 3,686 17 1,333 1,740 2,110 2,567 2,898 3,646 18 1,330 1,734 2,101 2,552 2,878 3,610 19 1,328 1,729 2,093 2,539 2,861 3,579 20 1,325 1,725 2,086 2,528 2,845 3,552 21 1,323 1,721 2,080 2,518 2,831 3,527 22 1,321 1,717 2,074 2,508 2,819 3,505 23 1,319 1,714 2,069 2,500 2,807 3,485 24 1,318 1,711 2,064 2,492 2,797 3,467 25 1,316 1,708 2,060 2,485 2,787 3,450 26 1,315 1,706 2,056 2,479 2,779 3,435 27 1,314 1,703 2,052 2,473 2,771 3,421 28 1,313 1,701 2,048 2,467 2,763 3,408 29 1,311 1,699 2,045 2,462 2,756 3,396 30 1,310 1,697 2,042 2,457 2,750 3,385 2- Oranların güven aralığı • n Bağımsız deneme olmak üzere bu deneylerin uygun ve uygun olmayan haller şeklinde sadece iki sonucu varsa bu tür deneyler binom dağılımına uymaktadır. n ve p binom dağılımının parametreleri olup n bilindiğinde p nin tahmini mümkündür. Binom dağılımının beklenen değer ve varyansı E(X) = np ve Var(X) = npq dur. X ~ p • X uygun hal sayısı olmak üzere olup bu oranın n beklenen değeri alınırsa; X 1 ~ E ( p ) E np p olur. n n X • n büyük olduğu zaman n yani ~ yaklaşır. p nin varyansı ise X Var n ~ p nin dağılımı normale npq pq 1 olur. 2 . Var (X) 2 n n n 2- Oranların güven aralığı • p’ nin 1- güven aralığı normal dağılım varsayımı ile şöyle yazılır. ~ ~ pq~ X pq~ p Zα yani n n n 2 ~ ~ ~ ~ p q p q ~ p Z p ~ p Z n n 2 2 X Zα n 2 2- Oranların güven aralığı • Örnek: Bir bölgede 30 yaşın üzerindeki kişilerde şeker hastası oranını tahmin etmek amacıyla rasgele 200 kişi seçilmiş ve bunların 24 tanesinin şeker hastası olduğu görülmüştür. Bu verilere göre bu bölgedeki şeker hastası oranını %99 güvenle tahmin ediniz. • Çözüm: 24 ~ p ~ p 0,12 200 ~ p Z 2 q~ 0,88 n 200 1 0,99 0,01 Z / 2 Z 0, 005 2,58 ~ ~ pq~ pq~ 0,12 0,88 0,12 0,88 ~ p p Z 0,12 2,58 p 0,12 2,58 n n 200 200 2 0,061 p 0,179 olur. Problem • Bir şehrin ortalama su tüketimini tahmin etmek amacıyla rassal olarak yapılan 36 günlük araştırmada ortalama tüketimin 120 bin ton, standart sapmasının 14 bin ton olduğu görülmüştür. • a) %95 güvenle şehrin günlük ortalama su tüketimini tahmin ediniz. • b) Şehrin iletim hattının kapasitesinin 145 bin ton olduğu bilindiğine göre herhangi bir günde arz yetersizliği sebebiyle (talebin karşılanamaması sebebiyle) şehirde su kesintisi olma olasılığını tahmin ediniz. Problem • Bir seramik fabrikasında üretilen fayanslar bir metrekarelik kutulara konarak pazarlanmaktadır. Kutulardaki fayanslar kusurlu olabilmektedir. Kusurlu fayans içeren kutu oranını tahmin etmek için 150 kutu rastgele seçiliyor. • a) Seçilen kutuların 6 tanesinde kusurlu fayansa rastlandığına göre %98 güvenle kusurlu fayans içeren kutu oranını tahmin ediniz. • b) Bu 150 kutu için kusurlu fayans içeren kutu oranı 0,025 ile 0,055 olduğu hesaplandığına göre tahminin güven düzeyini belirleyiniz.