4 TANIMLAYICI İSTATİSTİKLER 4.1. Merkezi Eğilim Ölçüleri 4.1.1. Aritmetik Ortalama 4.1.2. Ağırlıklı Aritmetik Ortalama 4.1.3. Kesilmiş aritmetik ortalama 4.1.4. Geometrik Ortalama 4.1.5. Harmonik Ortalama 4.1.6. Kuadratik Ortalama 4.1.7. Medyan 4.1.8. Kartiller 4.1.9. Decile ve Percentile 4.1.10. Mod 4.2. Değişkenlik Ölçüleri 4.2.1. Varyans Ve Standart Sapma: 4.2.2. Ortalama Mutlak Sapma –OMS 4.2.3. Nispi Varyasyon Ölçüleri 4.3. Asimetri Ölçüleri 4.3.1.Pearson Asimetri Ölçüsü 4.3.2. Kartillerden Asimetri Hesaplanması 4.3.3. Bowley Asimetri Ölçüsü 4.4. Tanımlayıcı istatistiklere ait grafikler 4.4.1. Box plot 4.4.2 Q-Q plot 4.4. Bölüm Özeti (Verilerin Özetlenmesi) Ek 4. Momentler Prof. Dr. Levent ŞENYAY IV - 1 İstatistik Tanımlayıcı örnek istatistikleri, örnek verilerini kullanarak, bunlardan elde edilen dağılışları sayısal olarak özetleyen değerlerdir. Bir veri grubunu tanımlamak diğer tüm veri gruplarından ayırt edilebilecek en az sayıda örnek istatistiği ile yapılmalıdır. Bu istatistiklerin en genel olarak elde edilmesini sağlayan değerler momentlerdir. Tanımlayıcı istatistikler üç ana grupta toplanır, 1. Merkezi eğilim ölçüleri (yer ölçüleri) 2. Değişkenlik ölçüleri 3. Asimetri ölçüleri 4.1. Merkezi Eğilim Ölçüleri Bunlardan merkezi eğilim ölçüleri, bir veri grubuna ilişkin değişkenin tüm farklı değerlerinin etrafında toplandığı merkezi değerlerdir. Veri setlerinin merkezi değerlerini belirlemeyi sağlar. Çok çeşitli olan ortalamalardan en önemlileri: 12345678910- Aritmetik ortalama (mean) Ağırlıklı aritmetik ortalama Kesilmiş aritmetik ortalama (trancated mean) Geometrik ortalama Harmonik ortalama Kuadratik ortalama. Medyan Kartil (çeyrek) Sentil Mod Ortalamalar (averages) başlıca iki amaca hizmet ederler: 1) Herhangi bir örnekten elde edilen kantitatif (sayısal) veri grubunun kısa açıklaması; 2) İndirek (dolaylı) olarak ve belli bir doğruluk derecesinde populasyonu açıklamasıdır. Örnek ortalamaları, populasyon ortalamalarının yakın tahminleyicileri (taktircileri) olduğundan genelleştirmeye müsaittirler ve böylece örnek limitleri dışında açıklamaların yapılmasına yarar. Kısa veya ekonomik şekilde açıklamayı ve daha önemlisi bilimsel araştırmayı olanaklı kılar. 4.1.1. Aritmetik Ortalama Örnek verileri toplamının örnek hacmine bölümüdür. N = Populasyon hacmi n = Örnek hacmi Prof. Dr. Levent ŞENYAY IV - 2 İstatistik Basit serilerde aritmetik ortalamanın hesaplanması N populasyon aritmetik ortalaması x i 1 i N n örnek aritmetik ortalaması x x i 1 i n Örnek: 9 işçinin bir günlük üretim miktarları aşağıda verilmiştir. Buna göre işçiler için üretim miktarlarının aritmetik ortalaması nedir? 15, 18, 20, 11, 23, 14, 17, 13, 25 Aritmetik Ortalama: x x x 1 n x x 15 18 20 11 23 14 17 13 25 17,33 n 9 x2 ... xn ’nün tahminleyicisidir. n Aritmetik ortalamanın özellikleri: 1- Örnek elemanları x ortalama etrafında toplanma eğilimdedir yani örneği en iyi temsil eden tek bir elemandır ve simetri oluşturan değerdir., 2- Aritmetik ortalamadan sapmaların toplamı sıfırdır. x x 0 x x n nx x x nx 0 x xn 0 n x x 0 Sapma: Herhangi bir elemanın değerinden aritmetik ortalamanın veya bir sabitin çıkartılmasıdır. x d i xi x ve x n Prof. Dr. Levent ŞENYAY IV - 3 İstatistik n n n n d x x x x (x x i 1 i i i 1 i 1 i 1 i 1 xi nx xi n 2 ... xn ) ( x x ... x ) n xi z1 x1 y1 z 2 x2 y 2 0 n d i xi a d1 x1 a …….. ………. z n xn y n d n xn a z xy d x a Σz=Σ(x+y) Σz/n=Σx/n+Σy/n x ad 3- Örnek elemanlarının aritmetik ortalamadan sapmaları kareleri toplamı minimumdur. n x i 1 x min 2 i 4- Örnek değerlerinde meydana gelen değişim çok küçük de olsa aritmetik ortalama bu değişimden etkilenir. 5- Verilerin tümünün bir fonksiyonudur. Bu nedenle güçlü bir istatistiktir. 6- Örnek gözlemlerin tümü a gibi bir sabit ile çarpılırsa bu yeni veri setinin aritmetik ortalaması da eski veri setinin aritmetik ortalamasının a ile çarpımı kadar değişir. 7- Örnek gözlemlerin tümü a gibi bir sabit ile toplanırsa bu yeni veri setinin aritmetik ortalaması da eski veri setinin aritmetik ortalamasının a ile toplamı kadar değişir. 8- Aritmetik ortalama verilerdeki uç değerlerden etkilenmesi ise bu istatistiğin zayıf yönünü oluşturur. Gruplandırılmış ve Sınıflandırılmış Frekans verilerinde aritmetik ortalamanın hesaplanması x fx fx n f Örnek: Bir kuru üzüm üreticisi ürünlerini 0,5 kg. , 1 kg. , 2 kg., 5 kg. ve 10 kg. poşetlerde satışa sunmaktadır. Bir hafta boyunca ürünlerin satış miktarları aşağıdaki tabloda verilmiştir. Buna göre kurum üzüm için ortalama satış miktarını hesaplayınız. Poşet (Kg.)(xi) Satış Adedi (fi) x fx f i i i 0,5 kg 50 1 kg. 23 2 kg. 12 5 kg. 9 10 kg. 6 0,5 * (50) 1* (23) 2 * (12) 5 * (9) 10 * (6) 1,77 kg. 100 Prof. Dr. Levent ŞENYAY IV - 4 İstatistik Sınıflandırılmış frekans verilerinde aritmetik ortalama x La Lü altlimit üstlimit 2 2 (sınıf orta noktası) Örnek : Sınıflar La Lü 2 – 6 7 – 11 12 – 16 17 – 21 22 – 26 Toplam x = fx f x frekans 8 17 25 12 10 f = 72 fx 4 9 14 19 24 = A=9 d=x -A 32 153 350 228 240 fx = 1003 -5 0 5 10 15 A=14 fd=f(x-A) -40 0 125 120 150 fd 355 i=5 d fd -2 -1 0 1 2 -16 -17 0 12 20 ' fd =-1 1003 13.93 72 Aritmetik ortalanın Sınıflandırılmış verilerle kısa metotla hesaplanışı: fd f x A A: varsayımlı ortalama (herhangi bir x) d: varsayımlı ortalamalardan sapmalar x 9 355 13.93 72 fd d xi A : düzeltme faktörü f Aritmetik ortalamanın Sınıf aralığı verileri ve kısa metotla hesaplanışı: x A x 14 fd f ' .i i=6-2+1=5 1 .5 13.93 72 d ' : sınıfların varsayımlı ortalamalarının içinde bulunduğu sınıftan yer farkı (sapma) i: sınıf aralığı (sınıf hacmi) i L2 L1 1 4.1.2. Ağırlıklı Aritmetik Ortalama Gözlemler belli bir kritere göre ağırlıklandırılmış ise ağırlıklı aritmetik ortalama kullanılır. Ağırlıklı aritmetik ortalama kullanılırken tüm gözlemlerin ağırlıkları eşit ise aritmetik ortalama ile aynı sonucu verir. İndex sayıların hesaplanmasında, yüzdelerin ortalamasında çarpımların ortalamasının alınmasında kullanılır. Basit seriler için Prof. Dr. Levent ŞENYAY xw wx w veya IV - 5 İstatistik Frekans verileri için x w wfx wf f1 x1 f 2 x2 ... f1 f 2 ... ˆ xw x w ............... f x f 2 x2 ........ i i Xw 1 1 1 1 w1 f1 f 2 ...... wi x w f i wi / wi Örnek: Bir öğrenci w kredili, f adet dersten x notu almıştır. Buna göre not ortalamasını hesaplayınız. W 4 4 3 f 3 2 2 x 100 A(4) 90 B(3) 100 A(4) 3 3 85 B(3) xw 4 3 4 4 2 3 ... 2 2 2 149 2.77 4 3 4 2 ... 2 2 54 3 2 75 C(2) 3 2 50 D(1) 3 1 20 F(0) 2 2 60 C(2) Örnek: İstatistiki Bölge Birimleri Sınıflandırmasına göre Türkiye toplam 12 bölgeye ayrılmaktadır. Aşağıda bu bölgelere ilişkin 2000 yılı nüfus ve kişi başına düşen GSYİH (YTL) miktarları verilmektedir. Bu verilerden yola çıkarak Türkiye geneline ilişkin ortalama kişi başına düşen GSYİH miktarını bulunuz. Toplam nüfus BÖLGE ADI GSYİH (1000 YTL) (x) (1 milyon) (w) wx 1 Kuzeydoğu Anadolu 1.1 2.5 2.75 2 Ortadoğu Anadolu 1.3 3.7 4.81 3 Güneydoğu Anadolu 1.4 6.6 9.24 4 İstanbul 3.7 10.0 37 5 Batı Marmara 2.9 2.9 8.41 6 Ege 3.1 8.9 27.59 7 Doğu Marmara 3.9 5.7 22.23 8 Batı Anadolu 2.8 6.4 17.92 9 Akdeniz 2.5 8.7 21.75 10 Orta Anadolu 1.9 4.2 7.98 11 Batı Karadeniz 2.1 4.8 10.08 12 Doğu Karadeniz 1.7 3.1 5.27 TOPLAM 28.4 67.5 175.03 Aritmetik ortalama ile hesaplanırsa: x 1.1 1.3 1.4 3.7 2.9 3.1 3.9 2.8 2.5 1.9 2.1 1.7 28.4 2.367 12 12 Burada aritmetik ortalama kitlenin tüm veri gruplarının eşit olduğunu varsaydığı için gerçek ortalama değerini vermez. ( 2.367 x 67.3 = 159,29) Ağırlıklı aritmetik ortalama ile hesaplanırsa: Prof. Dr. Levent ŞENYAY IV - 6 İstatistik xw (1.1 2.5) (1.3 3.7) ... (1.7 3.1) 2.59 2.5 3.7 ... 3.1 (2,59 x 67,3 = 175.03) Örnek: Bir köydeki 10 çiftçinin dönüme buğday verimleri ve sahip oldukları buğday arazileri aşağıda verilmiştir. Çiftçi No 1 2 3 4 5 6 7 8 9 10 Verim (kg/dön) 250 340 305 300 195 275 310 330 375 210 Arazi(dön) 15 25 12 30 35 5 20 17 10 23 Sadece verim dikkate alındığında aritmetik ortalama : x 2890 289kg / dön 10 Ağırlıklar (arazi) dikkate alındığında ise ağırlıklı aritmetik ortalama : xw 250.15 340.25 ... 375.10 210.23 53500 278.6458kg / dön 15 25 ... 10 23 192 Görüldüğü gibi ağırlıklı ortalama, aritmetik ortalamadan daha küçüktür. xw x Bunun anlamı; yüksek verim elde eden çiftçilerin arazileri nispeten daha küçüktür. 4.1.3. Kesilmiş Aritmetik Ortalama Verilerin içerisinde en büyük ve en küçük değerlerin yaklaşık % 5’i verilerden kopmuş olarak aşırı sapan değerler içeriyor ve bu değerler verilerin doğal yapısına çok uygun olmadığı kanaati var ise, bu durumda verilerin en alt ve üst kısmından % 5 lik kısmı atılarak geri kalan kısmının aritmetik ortalamasının alınması ile elde edilen aritmetik ortalamadır. Örneğin, 100 kişilik bir sınıfta derslere devan etmemiş 5 yada 6 öğrenci var ve bu öğrenciler derslere sadece soruları öğrenmek için gelmişler ise, söz konusu bu öğrencilerin sınav notları olan sıfır değerleri veri setinden çıkarılarak hesaplanan ortalama sınıfın gerçek performansı olan not ortalamasını daha doğru açıklar. 4.1.4. Geometrik Ortalama Geometrik dizi şeklinde artış ya da azalış gösteren verileri en iyi temsil eden merkezi eğilim ölçüsüdür. eşittir. Tanım: Örnek veri değerleri çarpımının, örnek hacmi derecesinden köküne G n x1 .x2 .x3 ......xn Özellikleri: 1- xi 0 olmalıdır. Prof. Dr. Levent ŞENYAY IV - 7 İstatistik 2- Serideki değerlerin her birinin yerine geometrik ortalama konulduğunda serinin çarpım sonucu değişmez. 2.4.8.16.32 = 32768 = 8.8.8.8.8 3- Geometrik ortalamanın orijinal gözlemlerinin logaritmik sapmaları eşittir. Bu özellikten dolayı ortalama oranlara, değişme oranlarına, logaritmik dağılmış şekiller uygulanır. Örneğin; fiyat indekslerinde geometrik ortalama anlamlı sonuçlar verir. 4- Aritmetik ortalama gerçekte nispi olan değerler yerine mutlak değerlenmiş gibi bir işleme bağlı tutularak çok artan nispi değerleri olduğundan fazla gösterir. Bu yüzden yukarı eğilimlidir. 5- Logaritmik bir dağılımda geometrik ortalamanın tercih nedeni böyle bir dağılımda mutlak sapmaların değil ancak merkezi eğilim etrafında nispi sapmaların simetrik olma eğilimidir. 6- G < x 7891011- x x1 x2 * * .................... n 1 G G G G birimleri değerleri arasındaki orana göre değer alır. Uç değerlerden x kadar etkilenmez. x1 .x2 ...........xn G n G’nin altındaki ve üstündeki orijinal gözlemlerin logaritmik sapmaları eşittir. Diğer bir deyişle, G değeri gözlemlerin G’den nispi sapmalarını dengeler. Bu özellik nedeniyle G, özellikle ortalama oranlara, değişme oranlarına ve logaritmik dağılan serilere daha uygundur. Örneğin, fiyat endeksi. xi G G xi G Gxi xi G Geometrik ortalamanın en yararlı olarak kullanıldığı alanlardan biri de ortalama değişiklik oranıdır. Logaritmaları alınmış değişkenlerin tekrar orijinal şekle dönüştürülmüş ortalamasına geometrik ortalama denir. Basit seride geometrik ortalama hesabı : G x1 .x2 .x3 ......xn ( x1 .x2 ....xn ) n 1/ n n xi i 1 1 n Geometrik ortalama çözümü için aşağıdaki logaritma işlemi yapılır G n x1 .x2 .x3 ......xn log G n 1 log x1 log x2 ..... log xn 1 log xi n n i 1 Prof. Dr. Levent ŞENYAY IV - 8 İstatistik 1 n log xi n i ! G anti log G n x1 .x2 ......xn Örnek : x : 3, 9, 27 sayılarının geometrik ortalaması G 3 3.9.27 9 Örnek : x : 3, 5, 7, 810, 13, 16 sayılarının geometrik ortalaması G 7 3.5.7..810.13.16 7 1,747,200 log G 1 1 log 1,747,200 6,2423 0,8918 7 7 Frekans serilerinde geometrik serinin hesaplanması: x1 x2 f1 f2 … …. xn fn f N G f x1f1 .x2f2 ........xnfn x1f1 x2f2 ...xnfn 1 f G N x1 x1.....x1 x2 x2 .....x2 ............ xn xn .....xn f1tane f1 f 2 f 2 tane f n tane fn x1 x2 .... xn x1f1 x2f2 ...xnfn N N N fi i 1 1 f1 log x1 f 2 log x2 ...... f n log xn 1 f f 1 n G anti log f i log xi f i 1 log G n f i 1 i log xi Geometrik ortalamanın tercih nedeni; geometrik ortalamada merkezi eğilim (mutlak sapma değil) etrafındaki nispi sapmaların simetrik olma eğilimi/özelliğidir. Prof. Dr. Levent ŞENYAY IV - 9 İstatistik Dolar endeksi Dolar endeksinin hesaplanmasında Japon Yeni, Euro, Kanada Doları, İngiliz Poundu, İsveç Kronu ve İsviçre Frangı olmak üzere 6 etkili para birimi kullanılmaktadır. Bu para birimleri Dolar endeksi hesaplaması için aşağıdaki şekilde ağırlıklandırılmıştır; Parite Ağırlık % Euro (EUR) / USD USD / Japon Yeni (JPY) İngiliz Poundu (GBP) / USD USD / Kanada Doları (CAD) USD / İsveç Kronu (SEK) USD / İsviçre Frangı (CHF) %57,6 %13,6 %11,9 %9,1 %4,2 %3,6 Dolar Endeksi = 50.14348112 × EURUSD -0.576 × USDJPY 0.136 × GBPUSD -0.119 × USDCAD 0.091 × USDSEK 0.042 × USDCHF 0.036 Yukarıdaki formülde doların altı para birimi karşısındaki değerinin geometrik ortalaması alınmaktadır. Hesaplamanın yapıldığı günkü parite seviyesinin dolar endeksi içindeki ağırlığı kadar üssü alınmaktadır, doların baz para birimi olduğu durumlarda üssü pozitiftir, tersi durumda ise üssü negatif alınmaktadır. 50.1434 rakamı ise sabit çarpandır. Bu sabit sayı dolar endeksinin hesaplandığı ilk gün endeksi 100 seviyesine eşitleyen çarpandır. Dolar endeksi 120 seviyesinde ise bu doların endeksin hesaplandığı ilk günden itibaren altı para biriminden oluşan döviz sepeti karşısında %20 değer kazandığını gösterir. Endeks 90 ise bu da doların %10 değer kaybettiğini gösterir. 50.14348112 × EURUSD -0.576 × USDJPY 0.136 × GBPUSD -0.119 × USDCAD 0.091 × USDSEK 0.042 × USDCHF 0.036 31.01.2017 tarihindeki parideler 50,143481 eur/dolar 0,576 usd/jpy 0,136 gbp/usd 0,119 usd/cad 0,091 usd/sek 0,042 usd/chf 0,036 1,0796 112,31 1,2564 1,303 8,7485 0,9875 31.01.2017 tarihindeki dolar endeksi 99,526845 Bileşik Faiz P0=başlangıç miktarı r= faiz oranı n=yıl (faiz dönemi) Pn=n yıl sonraki meblağ 1 r n n Pn n 1 r P0 Pn P0 log(1 r ) rn Pn P0 1 r log Pn log Po n Pn 1 Po Prof. Dr. Levent ŞENYAY IV -10 İstatistik e sayısı ile bileşik faiz ilişkisi 17. yüzyılda sayıların çarpımlarını elde etmek içintoplama olarak ifade edilebilmesini sağlayan logaritma fikri üzerinde çok çalışma yapılmıştır. Bunlardan Jacob Bernoulli 1683 yılında bileşik faiz özelliklerini incelerken logaritma fikri ile e sayısı üzerine çalışmalar yapmıştır. Bu çalışma sonucu olarak aşağıdaki sonuçlar görülebilir 1 liranın bir yıl sonundaki bileşik faizi için farkli faiz dönemleri kullanılarak e sayısının elde edildiği görülür. Faiz dönemi dönem faizi 1.d. sonu 2.d.sonu … yıl sonu Yıl %100 2 2 1/2 yıl %50=%100/2 1,5 2,25 2,25 ¼ yıl %25=%100/4 1,25 2,44141 1/12 yıl (aylik) %100/12 2,61304 1/52 yıl (haftalık) % 100/52 2,71457 1/365 yıl (günlük) %100/365 2,71457 1/365*24 (saatlik) %100/(365*24) 2,71813 1/365*24*60 (dakikalık) %100/(365*24*60) 2,71828 1/365*24*60*60 (saniyelik) %100/(365*24*60*60) 2,71828 e sayısı ile ilgili bazı özellikler : 1) seri açılım özelliğini e = 1 + 1/1 + 1/(2x1) + 1/(3x2x1) + 1/(4x3x2x1) + … n = 1 + 1/1! + 1/2! + 1/3! + 1/4! + … =∑ 1/i! i=0 2) Euler özelliği eiπ + 1 = 0 dır. 3) Lim n→∞ (1 - 1/n)n = e-1 dir. e sayısı ekonomik büyüme, popülasyon büyümesi, nüfus büyümesi, bir ortamdaki baktesi miktarı değişimi, radyoaktif madde miktarındaki değişim, elektrik akımı gibi tabatta bir çok büyüklüğün değişimi gibi konularda kullanılan bir sabittir. k üstel değişim miktarı ve a popülasyon başlangıç miktarı olmak üzere dy/dt = ky denkleminin çözümü y= akt şeklindedir. Burada k sabitinin + veya – oluşuna bağlı olarak üstel artma veya azalma olarak değişim elde edilir. Örnek: 3 yılda 1000$, 5000$ a artmıştır. Yıllık ortalama artış yüzdesi nedir? %500 gibi gözükse de bu ortalama % artışı doğru değildir. Burada r ortalama artış 3 yüzdesini göstermektedir. Başlangıç 1000 1 yıl sonra 1000+1000r1000(1+r) 2 yıl sonra 1000(1+r)+ 1000(1+r)r=1000(1+r)2 3 yıl sonra 1000(1+r)2+1000(1+r)2r=1000(1+r)3=5000 1 r 3 5 r 3 5 1 Prof. Dr. Levent ŞENYAY Pn P0 1 r IV -11 n İstatistik Örnek: mal 1955 100 100 1945 50 200 A malı B malı x baz yıl 1945=100 1945 100 100 100 1955 200 50 125 A fiyatı %100 artmış B fiyatı %100 düşmüş A ve B malın arit. ort. yorumu Yanlış olur. A malı fiyatı %100 artmış , B malı fiyatı %50 düşmüş . G 200 * 50 100 Yorum : A ve B mallarını eşit oranda tüketen bir tüketicinin harcamasında 1945 ile 1955 yılları karşılaştırılırsa, bu mal grubuna ait harcamasında bir değişme olmamıştır ÖRNEK: Bir doğru üzerinde birbirine bitişik iki doğru parçasının uzunlukları a ve b olsun. Bu iki doğru parçası çap olmak üzere bir yarım çember çizelim. Çemberin r yarıçapının a ve b nin aritmetik ortalaması olduğunu ve dik “h” uzunluğunun bunların geometrik ortalaması olduğunu gösteriniz. h x y a b 2r a b ab 2 2 a h2 x2 r b h y 2 2 2 aritmetik ortalama 1. pisagor 2. pisagor x 2 y 2 ( a b) 2 3. pisagor a 2 b 2 2h 2 a 2 b 2 2ab 2h 2 2ab h 2 ab ab geometrik ortalama 4.1.5. Harmonik Ortalama Tanım: Gözlemlerin terslerinin aritmetik ortalamasının tersidir. elemanları birbirine eşit olmadıkça Serinin tüm x G H bağıntısı mevcuttur. Eğer x1 x2 .......xn ise bu bağıntı x G H Prof. Dr. Levent ŞENYAY olur. IV -12 İstatistik Harmonik ortalama küçük değerlerden çok, büyük değerlerden az etkilenir. Harmonik ortalama aşağı eğimlidir. H.O’da xi 0 (i=1,2,…., n için) olmalıdır. n 1 H 1 1 1 ...... x1 x 2 xn n n veya n 1 i 1 xi 1 H 1 x i 1 i n H.O belli koşullar altında ve belli fiyat tipleri altında zaman serilerini ortalamak için kullanılır. Uygulamada sabit ve değişken birimler vardır. Zaman sabit üretim değişken olduğunda, eşit zaman periyodlarındaki üretim ortalaması için kullanılır. Örneğin; 1 birimlik mal A kişisi tarafından 30 dk’da ve yine 1 birimlik mal B kişisi tarafından 20 dk’da üretiliyorsa mal miktarı sabit, zaman değişkendir. Ortalaması alınan değişkendir yani zamandır. H . 2 1 1 20 30 24 dk’da 1kg mal (ort.) üretilmektedir Uçakla 400 km, trenle 60 km(570km) H .O 2 1 1 400 60 2 4800 104km / h 46 46 2400 Üretim birimi sabit, maliyet değişken olduğunda birim başına ortalama maliyet için HO kullanılır. Örneğin bir kişi 1. marketten 3 kilo meyveye 10 lira, diğer marketten aldığı 4 kilo meyveye 10 lira öder ve 3. markette 5 kilo meyveye 10 lira öderse, meyvelerin ortalama fiyatı HO dır. HO 3 2.5lira 10 10 10 3 4 5 Bu örnek ağırlıklı aritmetik ortalama ile de hesaplandığında aynı doğru sonucu verir. Harmonik Ortalama uygulama yerleri Zaman birimi başına hız Para birimi başına satın alınan birim sayısı h 1 n 1 1 n i 1 xi n 1 x 2,4,9 i Prof. Dr. Levent ŞENYAY IV -13 h 3 3.48 1 1 1 2 5 9 İstatistik Örnek: A ve B gibi iki şehir arasında 100km lik bir yol vardır. Bir otomobilli yolun ilk yarısını 30 km/saat hızla gidiyor. Diğer yarısını 40 km/saat hızla gidiyor. Hız ortalaması nedir? v = ortalama hız ; t = geçen zaman ; d = alınan yol d d=v*t d/2 d v1.t1 v2 .t2 2 A t1: Yolun ilk yarısında geçen zaman B M t2: Yolun ikinci yarısında geçen zaman Buradan t1 d d ve t2 2v1 2v2 t t1 t2 d 1 1 vt 1 1 . yazılır. 2 v1 v2 2 v1 v2 Böylece hız ortalaması v d vt 2 2 34.28 1 t vt 1 1 1 1 1 2 v1 v2 v1 v2 30 40 n 1 x i = Harmonik ortalama 4.1.6. Kuadratik Ortalama Tanım: Gözlemlerin karelerinin aritmetik ortalamasının köküdür. Standart sapmanın hesaplanmasında kullanılır. Ortalama değerlerinin ortalamasında kullanılmaz. K x G H bağıntısı vardır. K x 2 n ab a2 b2 n 4.1.7. Medyan ( x) Büyüklük sırası ile dizilmiş bir dizinin en ortadaki elemanının değeridir. n 1 inci eleman değeri 2 n n Örnek hacmi çift ise ve 1 inci elemanların aritmetik ortalamasıdır. 2 2 Örnek hacmi tek ise Prof. Dr. Levent ŞENYAY IV -14 İstatistik Medyanın özellikleri : 1) xi med min . Bu medyanın en önemli özelliğidir. 2) Birim sayısındaki değişmelerden etkilenir, uç değerlerden etkilenmez. 3) Medyanın standart hatası, aritmetik ortalamanınkinden daha büyüktür. Not : Verilerin sürekli veya kesikli olmasına dayalı olarak medyan ve benzer şekilde kartillerin de hesaplanmasında bulunacak noktanın belirlenmesi için öncelikli tercih matematiksel noktadan ziyade anlamlı olan noktanın belirlenebilmesidir. Bu amaçla doğru yorumlanabilecek yer seçimi daima daha doğru olacaktır. Uygulama yerleri: gelir dağılımı, ücret dağılımı gibi değerce tam ortada yer alan değerleri bilinmesinde pratik yarar olan durumlarda tercih edilir. Basit serilerde medyan hesabı Örnek: n tek ise 16 20 21 medyan 20 n çift ise 15 19 23 25 19 23 21 medyan 2 Medyan; rütbeler, ücretler, biçiminde belirlenmiş gözlemlerin açıklanmasında anlam taşır. Sigorta hadleri genellikle medyanlardır. Ulaşım sorununda merkezi yer olarak medyanlar seçilir. 3) Medyan verilerin tümünü kullanmayan ve tümünden etkilenmeyen bir istatistik. Özellikle uç değerlerden etkilenmez, daha çok ortanca değerlerden etkilenir. Tüm verilerin bir fonksiyonu olmaması açısından zayıf bir istatistik olmasını sağlar, diğer taraftan uç değerlerden etkilenmemesi ise bazı açılardan güçlü bir özelliktir. Örnek: Bir hastanenin genel cerrahi bölümünde çalışan 16 doktorun bir aylık süre içerisinde yapmış olduğu ameliyat sayıları aşağıda verilmiştir. Buna göre ameliyat sayıları için medyan (Q 2 ) değerini hesaplayınız. 8, 11, 12, 14, 15, 16, 16, 17, 18, 19, 20, 20, 23, 25, 28, 29 n = 16 Medyan : 8. gözlem değeri ile 9. gözlem değerinin aritmetik ortalamasıdır. n n 1 2 2 17 18 Medyan = 17,5 2 2 Gruplandırılmış Frekans verileri ile medyan hesaplanması: Örnek: Matematik I dersini alan öğrenciler arasından seçilen 60 öğrencinin dersi tekrar sayılarının dağılımını ifade eden tablo aşağıda verilmiştir. Matematik I dersi için tekrar sayısının medyan değerini hesaplayınız. Tekrar Sayısı(xi) 1 2 3 4 5 Öğrenci Sayısı (fi) 29 12 8 7 4 Prof. Dr. Levent ŞENYAY İstatistik I 15 V- Kümülatif Frekans değerleri hesaplanarak aşağıdaki tablo oluşturulur Tekrar Sayısı(xi) 1 2 3 4 5 Öğrenci Sayısı (fi) 29 12 8 7 4 Σ fi 29 41 49 56 60 n/2 = 30 nci elemana karşılık gelen gözlem değeri olan “ 2 “ medyan değeridir. 1-Sınıflandırılmış frekans verileri ile aritmetik (İnterpolasyon) metotla medyan hesaplanması: Medyan değerini içinde bulunduran sınıfa ‘medyan sınıfı’ denir. Medyanın gerçek değerini bulmak için, medyan sınıfında alt sınıf limitlerinden medyan noktasına kadar dağılmış frekansların, medyan sınıfındaki tüm frekanslara oranı tayin edilir. Medyan L f /2 f i i f .i L ( f i ) fmed f med 2 f n=frekansların toplamı L=medyan sınıfının alt limiti (f / 2' yi geçen ilk sınıfın alt limiti) f med = medyan sınıfı frekansı f i medyandan önceki frekansların kümülatif toplamı i= sınıf aralığı İnterpolasyon metodu verilerin sürekli ve seri elemanlarının sınıf aralıklarında eşit dağıldığı varsayımına dayandırılır. Veya sınıf aralığı olarak medyan sınıfı aralığı kullanılır. Örnek: Sınıflar 3-5 6-8 9-11 12-14 15-17 18-20 21-23 24-26 Fr. f 10 15 35 50 40 30 28 22 f f 230 220 205 170 120 80 50 22 10 25 60 110 150 180 208 230 Medyan sınıfı f 230 f fi ) medyan L 2 i f medyan 230/2 - 110 Medyan : 15 + .3 40 ( Prof. Dr. Levent ŞENYAY İstatistik I = 15.375 16 V- Sınıf aralığının belirlenmesi Tüm sınıflarda sınıf aralıkları eşit olabilir veya olmayabilir. Ancak sınılarda kullanılan birimlerin ölçüm hassasiyetlerine (virgülden sonraki sayı miktarı) göre sınıf aralığı da aşağıdaki örneklerde olduğu gibi faklılıklar gösterir. a. Sınıflar 1 - 5 6 - 10 11 - 15 16 - 20 i =Lü-La+en küçük ölçüm aralığı i = 5-1+1 (+1 hassasiyet birimi) b. sınıflar 1.0 – 5.9 6.0 – 10,9 11.0 – 15.9 16.0 – 20.0 c. sınıflar 1.00 – 5.99 6.00 – 10.99 11.00 – 15.99 16.00 – 20.00 i= 5.9-1.0+0.1 (+0.1 hassasiyet birim) i=5,99-1.00+0.01 (+0.01 hassasiyet birimi) d. sınıflar 1 – 5 den az (=4) 5 – 10 dan az (=9) 10 – 15 den az (14) i=4-1+1 (+1 hassasiyet birimi) e. Sınıflar 1.0 – 5.0 dan az (=4.9) i=4.9-1.0+0.1 (+0.1 hassasiyet birimi) 5.0 – 10.0 dan az (=9.9) 2-Frekans verileri kullanılarak Grafik (geometrik) metotla medyanın bulunması: f i 230 208 180 150 f 2 115 110 60 25 10 3 6 9 12 15 18 21 24 27 alt limitler 15 Grafik 1 : …den daha az eğrisi Prof. Dr. Levent ŞENYAY İstatistik I 17 V- fi 225 220 205 170 f 2 115 120 80 60 22 10 5 8 11 14 17 Grafik 2 : …den daha çok eğrisi f i ve f 20 23 26 üst limitler i Medyan sınıf limitleri Grafik 3: den daha az ve den daha çok eğrilerinin birlikte çizildiği grafik Prof. Dr. Levent ŞENYAY İstatistik I 18 V- 4.1.8. Kartiller Çeyrek (Quarter) Veri setini yüzdelik olarak dört eşit parçaya ayıran nokta sırasıyla Q1 , Q2 , Q3 olarak gösterilir. %25 %25 üst-orta çeyrek alt-orta çeyrek %25 en alt çeyrek Q1 Q2 %25 en üst çeyrek Q3 Basit serilerde 1. Kartilin hesaplanması 2. kartilin (medyan) pozisyonu çift ise (n+1)/4 üncü elamandır, medyan pozisyonu tek ise veya tamsayı değil ise (n/4=a.xx) üncü elemanın tamsayı kısmı (a) alınır ve bir sonraki elman (a+1) ile aritmetik ortalaması 1. Kartirldir. Örnek: Bir dershanede görev yapan 11 Matematik öğretmeninin haftalık ders saatleri aşağıda verilmiştir. Buna göre ders saati için birinci kartil (Q 1 ) değerini hesaplayınız. 12, 15, 15, 18, 21, 21, 24, 27, 27, 30, 33 n = 11 Medyan : 6. gözlem değeridir. (Q2 =21) Birinci Kartil: (n+1) / 4 = 12 / 4 = 3. gözlem olan Q 1=15 dir Basit serilerde 3. Kartilin hesaplanması 2. kartil (medyan) pozisyonu çift ise 3(n+1)/4 üncü elamandır, medyan pozisyonu tek ise veya tamsayı değil ise (3n/4=a.xx) üncü elemanın tamsayı pozisyonu (a) ile bir sonraki (a+1) elemanın aritmetik ortalamasıdır. Örnek: Bir spor mağazasında çalışan 13 satış personelinin bir haftada yapmış olduğu satış miktarları aşağıda verilmiştir. Buna göre ayakkabı satış miktarları için üçüncü kartil (Q3) değerini hesaplayınız. 10, 13, 14, 15, 17, 20, 21, 23, 23, 26, 28, 29, 30 n = 13 Medyan : 7. gözlem(Q2 =21) Üçüncü Kartil: 3(n+1)/4=10 ve (+1)11.inci gözlem ortalaması Q 3=26,5 dir Birinci Kartil: n/4=13/4 =3 üncü ve (+1) 4 üncü gözlem ortalaması Q 1=14.5 dur Prof. Dr. Levent ŞENYAY İstatistik I 19 V- Gruplandırılmış frekans verilerinde Kartillerin hesaplanması 1.kartil Örnek: Bir otomobil galerisinde bir ay boyunca günlük satış adetlerinin dağılımına ilişkin tablo aşağıda verilmiştir. Günlük otomobil satış adetleri için birinci kartili hesaplayınız. Otomobil Sayısı(xi) Satış Adedi (fi) 0 4 1 9 2 7 3 6 4 4 Kümülatif Frekans değerleri hesaplanarak aşağıdaki tablo oluşturulur Otomobil Sayısı(xi) 0 1 2 3 Satış Adedi (fi) 4 9 7 6 Σ fi 4 13 20 4 4 26 30 n/4 = 12,5 nci elemana karşılık gelen gözlem değeri olan “ 1 “ birinci kartil (Q 1 )değeridir. 3.Kartil Örnek: Bir meşrubat üreticisi firma ürünlerini farklı miktarda şişelenmiş şekilde satışa sunmaktadır. Satılan 100 şişe meşrubat için dağılım aşağıdaki tabloda verilmiştir. Meşrubat miktarı (ml) (xi) 250 330 500 1000 Satış Adedi (fi) 12 33 17 28 Kümülatif Frekans değerleri hesaplanarak aşağıdaki tablo oluşturulur Meşrubat miktarı (ml) (xi) 250 330 500 1000 Satış Adedi (fi) 12 33 17 28 Σ fi 12 45 62 90 1500 10 1500 10 100 3n/4 = 75 nci elemana karşılık gelen gözlem değeri olan “ 1000 “ birinci kartil (Q 3 )değeridir. Sınıflandırılmış frekans verilerinde Kartillerin hesaplanması Q1 L f 4 fi f1 Q 2 Medyan L Q3 L i f 2 fi f 2 i 3 f 4 f i f 3 Prof. Dr. Levent ŞENYAY İstatistik I 20 V- Örnek: Bir mağazada bir günlük satış tutarları ve alışveriş yapan müşteri sayısı aşağıdaki gibi sınıflanmıştır. Müş. f x Miktarı 0- 8 9-17 Q1 18-26 Sayısı 10 8 12 10 18 30 4 13 22 Q 2 27-35 Q 3 36-44 28 58 31 18 14 10 76 90 100 40 49 58 Satış 45-53 54-62 100 Q1 L f 4 fi f1 i L= kümilatif frekans ¼’ü geçen sınıfın alt limiti f i Q1 ' den bir önceki sınıfa kadar f n toplamı f1 = Q1 sınıf frekansı i= sınıf aralığı Q1 18 25 18 9 23.25 12 Q 2 Medyan L Q2 27 Q3 L f 2 fi f 2 i 50 30 9 33.43 28 3 f 4 fi f3 i L=kümilatif frekansı ¾’ü geçen ilk sınıfın alt limiti f i Q 3 ' den bir önceki sınıfa kadar fr. Toplamı f 3 = Q 3 sınıfı frekansı Q3 36 75 58 9 44.5 18 Prof. Dr. Levent ŞENYAY İstatistik I 21 V- 4.1.9. Decile ve Percentile Decile bir dağılımı 10 eşit parçaya böler ve 9 tane decil vardır, Percentile ise bir dağılımı 100 eşit parçaya bölen 99 tanedir. Basit ve frekans serilerinde hesaplanışları medyan veya kartil hesaplamalarına benzer şekildedir. range percentile %30 %70 70. percentile 4.1.10. Mod Dağılımın en çok tekrar eden değeridir. Mod’un özelliği seride en yüksek olasılıklı bir eleman oluşudur. Halk dilinde ortalama olarak en çok kullanılan mod’dur. Birden fazla değer aynı frekansa sahip olduğunda tek bir mod saptanması olanaksızdır. Kesiksiz seride değerler birbirini sürekli biçimde izlediklerinden, veriler gruplandırılmadıkça mod diye bir eleman olmayabilecektır. Kesikli veriler durumunda bile birden fazla tekrarlanmayan değerlerle karşılaşılabilir, bu durumda da tabi mod yoktur. (örneğin şehir nüfusları). a. Basit serierde mod hesabı xi 3,3,5,1 3 mod değeri Mod tüm verilerin bir fonksiyonu olmayan bir istatistik, yani tüm verilerden etkilenmez. b. Gruplandırılmış frekans verilerinde Modun Hesaplanması: Örnek: Kot pantolon satın bir mağazada bayan kot pantolonlarının bedenlerine göre satış miktarları aşağıdaki tabloda verilmiştir. Buna göre satılan bayan kot pantolonların bedenlerine göre mod değerini hesaplayınız. Beden(xi) 28 30 32 34 36 38 40 42 Satış Adedi (fi) 12 15 18 24 29 32 26 20 En yüksek frekans değerine sahip olan ( 32 adet ) beden numarası 38 olduğundan dolayı bayan kot pantolonlarının bedenlerine göre mod değeri “ 38” dir. Prof. Dr. Levent ŞENYAY İstatistik I 22 V- c. Sınıflandırılmış frekans verilerinde Modun Hesaplanmasında aritmetik (İnterpolasyon) metotu: Mod = L 1 .i 1 2 L=mod sınıfının alt limiti İ= sınıf aralığı 1 modal sınıf frekansı ile premodal(möddan bir önceki) sınıf frekansı arasındaki mutlak fark 2 modal sınıf frekansı ile postmodal(moddan bir sonraki) sınıf frekansı arasındaki mutlak fark Sınıflandırılmış frekans verilerinde Grafik (Geometrik ) Metotla Mod hesaplanışı 1 1 2 2 1 1 1 2 3 m ode Li 1 2 L Örnek: sınıflar 3-5 6-8 9-11 12-14 15-17 18-20 21-23 24-26 Prof. Dr. Levent ŞENYAY İstatistik I 1/3 2/3 frekanslar 10 15 35 50 40 30 28 22 premodal sınıf mod sınıfı postmodel sınıf 23 V- 1 1 2 Mod= 12 50 35 3 13.8 50 35 50 40 i=10-5=5 Veya i=5-1+1=5 Fr. 50 40 35 9 12 MOD 15 alt limit d. Denel (Ampirik) Metotla Mod hesaplanışı Bu metod asimetrik dağılımlarda aritmetik ortalama ile mod arasındaki uzaklığın, aritmetik ortalama ile medyan arasındaki arasındaki uzaklığın 3 katı olduğu varsayımına dayanır. Fazla güvenilir bir sonucu her zaman vermeyebilir. x mod 3 * x medyan varsayılan eşitlik Tek modlu frekans eğrilerinde, moderate asimetri halinde aşağıdaki deneysel ilişki vardır. Simetrik dağılışlarda ise; x Mod x Medyan 3 x mod medyan dağılımında(+)asimetri varsa dağılımında(-)asimetri varsa bağıntıları oluşur. Prof. Dr. Levent ŞENYAY İstatistik I x medyan mod x medyan mod 24 V- (+) Asimetri mod med x (-) Asimetri med=15 x = 15.31 x mod 3 * x med x med mod mod=13.8 ve görüldüğü gibi (+) asimetrik bir dağılımdır. x med mod Bu varsayım orta derecede asimetrik bir dağılımda söz konusudur çünkü; orta derecede bir asimetrik dağılımda medyan, mod’a oranla ortalamadan üçte biri kadar uzakta bulunup asimetrik dağılımda x , mod, ve medyanın birbirinden uzaklaşma nedeni, mod dağılımının en yüksek ordinatıdır, medyan ise dağılımı iki eşit parçaya ayıracağından uzun olan tarafa gider, ortalama ise uç (extramum) değerlerden çok etkilendiği için küçük değerlerin yönüne doğru medyandan daha uzaklaşır. Elementer mod hesaplama metodlarının ayrı sonuç vermesi beklendiğinden, seriyi açıklama konusunda seçilecek mod değerleri hakkında araştırmacı kendi yargılamasını kullanmalıdır. Merkezi Eğilim Ölçüleri ( Yer Ölçüleri) içerisinde, hesaplamalarında verilerin tamamının kullanıldığı veya verilerin tamamının fonksiyonu olan ortalamalar Aritmetik Ortalama Ağırlıklı aritmetik ortalama Geometrik Ortalama Harmonik Ortalama Kuadratik Ortalama Verilerin tamamının hesaplamaya dahil olmadığı veya verilerin tamamının fonksiyonu olmayan ortalamalar ise Kesilmiş aritmetik ortalama Medyan Mod Kartil – Çeyrek (1/4) Sentil (1/10) dir. Prof. Dr. Levent ŞENYAY İstatistik I 25 V- 4.2. Değişkenlik Ölçüleri Tanımlayıcı istatistiklerden merkezi eğilim ölçüleri verilerin önemli bir çok özelliğini açıklamasına rağmen, veri grubunu diğerlerinden tam olarak ayıracak şekilde tam olarak açıklayamaz. Bu eksiklik verilerin öncelikle değişkenlik farklılığından gelir ve son olarak da asimetri yapılarının farklılıklarından meydana gelir. Diğer bir deyişle, aynı merkezi eğilim değerlerine sahip olan farklı veriler olabilir ve bu farklılık ya değişkenlik değerlerinden veya asimetri değerlerinden ya da hem değişkenlik hem de asimetri değerlerinin farklılığından kaynaklanabilir. 70 80 130 140 105 Yukarıdaki iki dağılım ayrı ranglı (ve yayılımlı) fakat aynı ortalamalı iki dağılımdır. 80-130 limitleri arasındaki dağılım homogen (türdeş) 70-140 limitleri arasındaki dağılım hetorogen (ayrı tür) dağılımlardır. RANG: Üst limit - Alt limit +1 (+1; kesikli verilerin ölçümünde kullanılan en küçük hassasiyet birimi; 10, 1, 0,1, 0,01, … vb) Yukarıdaki dağılımların rangları = 130-80+1=51 diğeri ise 140-70+1=71’dir. Varyasyon, yaygınlık miktarını ; asimetri ise simetrinin bozulma miktarını belirler. Değişkenlik (yaygınlık) derecesini gösteren tanımlayıcı istatistikler Bu grupta yer alan değişkenlik istatistikleri, tek bir değere dayalı istatistiklerdir. Diğer bir değişkenlik istatistikleri grubu ise bu tek değere dayalı değişkenlik istatistiklerinin bir birlerine değişik şekillerde oranları olarak ifade edilen ve yorumlanan değişkenlik istatistikleridir. 1-) Toplam rang 2-) Kartiller arası rang 3-) Yarı kartiller arası rang 4-)Standart sapma 5-)Ortalama sapma(A.D) Prof. Dr. Levent ŞENYAY İstatistik I 26 V- Nispi varyasyon (oranlanan değişkenlik) ölçüleri 1-) Varyasyon katsayısı 2-) Ortalama sapma katsayısı 3-) Kartil sapma katsayısı Asimetri miktarı ise x mod ’dan bulunur. Dağılımlar Arasında Diklik ya da Basıklık Ölçüsü lepta kurtik(fazla dik) m ezo kurtik (orta diklik) plati kurtik (yatik tepeli) Kurtosisler Kartiller Arası Rang = Q 3 Q1 44,5 23,25 21,25 Yarı Kartiller Arası Rang= Q.D Q 3 Q1 21,25 10,63 2 2 Q .D (yarı kartiller arası rang) çok küçük ise merkezi elemanların ufak varyansa sahip olduğu anlaşılır, ya da çok yüksek derecede tek düzen olduğu anlaşılır. Q 2 QD ancak dağılımın %50’e yakın bir rangı kapsar. 33,43 . 10,63= 22,8-44,6 dağılımın %50’si. 4.2.1. Varyans Ve Standart Sapma: Aritmetik ortalamadan sapmaların karelerinin aritmetik ortalamasının kare köküne standart sapma adı verilir.Standart sapmanın karesine varyans denir. Bir anlanda sapma karelerinin ortalamasıdır. S =Örnek standart sapması 2 = Populasyon standart sapması S 2 =Örnek varyansı 2 populasyon varyansi Prof. Dr. Levent ŞENYAY İstatistik I 27 V- Basit serilerde standart sapmanın hesaplanışı x x x 2 N 2 N x N x 2 N 2 x2 Açıklama : (x x) 2 x 2 2 2 x 2 x x nx x 2 ( x ) 2 n x x i n x x 2 2 2 x 2 ( x) 2 n 2 2 xx x 2 n x 2 n x x n 2 x x 2 x x n n n 2 ( x) 2 n 2 n 2x x nx n 2 Populasyon standart sapması x 2 N Örnek standart sapması S x 2 x n 1 Prof. Dr. Levent ŞENYAY İstatistik I 2 n 28 2 V- n 2 x n 2 2x x 2 Frekans verilerinde Standart Sapmanın hesaplanması: f x x f 1 S fx 2 2 2 x fx fx 2 f 1 fx fx fx 2 f fx f f f 1 ( fx ) ( fx ) fx 2 f f f 1 ( fx ) fx f f 1 2 2 2 2 2 2 2 veya fd S i. 2 ( fd ) 2 f f 1 şeklinde daha küçük sayısal değerler ile hesaplanabilir, burada i = sınıf aralığı ve d= (varsayımlı) ortalamadan pozisyon farkını göstermektedir. Örnek: Sınıflar 1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 Frekans 10 15 35 50 40 30 28 22 230 x 3 8 13 18 23 28 33 38 30 120 455 900 920 840 924 836 5025 (5025) 2 230 = 88.732 = 9.42 229 130105 S= Prof. Dr. Levent ŞENYAY İstatistik I f x2 fx 29 V- 90 960 5915 16200 21160 23520 30492 31768 130105 %68.27 %95.45 %99.73 -3 -2 - 2 3 x gözlemlerin %68’ini x 2 gözlemlerin %95’ini x 3 gözlemlerin %99’unu kapsar. Z-skoru Verilen bir gözlem değerinin ortalamanın kaç standart sapma uzağında olduğunu ölçer. Z= (x-µ)/ Örnek: 13.5 7.2 9.7 11.3 8.0 9.5 7.1 7.5 5.6 7.4 8.2 9.0 7.2 10.1 10.5 6.5 9.9 5.9 8.0 7.8 8.4 8.2 6.6 8.5 7.9 8.1 13.2 11.1 11.7 6.5 6.9 9.2 8.8 7.1 6.9 7.5 10.5 6.9 9.6 5.2 10.6 7.7 9.4 6.5 6.8 13.5 7.7 8.2 6.0 9.5 = (8.49 – 1.98, 8.49 + 1.98) = (6.51, 10.47) 50 ölçümün 34’unün ve ya %68’inin ortalamanın 1standart sapması içerisindedir = (8.49 – 3.96 , 8.49 + 3.96 ) = (4.53, 12.45) 50 ölçümün 47’sini ya da %94’unun ortalama etrafında 3 standart sapma aralığıdır ki bu = (8.49 – 5.94 , 8.49 + 5.94 ) = (2.55, 14.43) Burada tüm ölçümleri içerir. Prof. Dr. Levent ŞENYAY İstatistik I 30 V- Örnek: x S A ve B malı 4.03 4.03 0.405 0.959 A B x=4.03 A malı daha homojendir. Bu nedenle Amalının kalitesi B malının kalitesinden yüksektir. TCHEBYSHEFF TEOREMİ Eğer populasyonu dağılışı tek tepeli olan yani bir normal dağılışa benzemiyor veya tek tepeli ncak sağa veya sola çok çarpık durumda ise amprik kural beklendiği gibi gerçekleşmez. Bu gibi durumlarda popülasyondaki ölçüm değerlerinin belirlenen bir yüzde ile içerilen bir aralığını bulmak için Chebyshev teoremi kullanılabilir Teorem : Ortalaması ve standart sapması olan herhangi bir dağılımda, populasyon üyeliğinin en az %(1-1/k2) kadarı (k>1 iken) ortalamadan en çok 1 standart sapma uzaklıktadır ya da herhangi bir populasyondan rastgele yapılan gözlemlerin (x) ölçümlerinin en az 100(1 – 1 aralığında yer alır. k2 )% si k 1 1 a 2 Buna göre popülasyon ölçümlerinin en az %55,6’sı ortalamadan 1,5 “ “ “ “ “ “ “ %75’i “ %84’ü “ %88,9’u uzaklıktadır. Prof. Dr. Levent ŞENYAY İstatistik I 31 V- “ “ “ 2 2,5 3 Bu (µ-k < x < µ+) >= %(1-1/k2) dir. Bir örnekle ifade edersek 100(1 – 1 alır. 22 )% = 100(1 – 1 )% = %75 i , 2 aralığında yer 4 4.2.2. Ortalama Mutlak Sapma –OMS (Average Devıatıon - AD): Ortalama sapma da denir. O.M.S.= xx n x med n veya O.M.S.>0 Frekans dağılımından hesaplanması O.M.S.= f xx f veya f x med f Ondalık kesirler var ise büyük örneklerde kullanılır. Normal dağılımda x A.D. rangı seri elemanlarının %57,5’ini kapsar. A.D. küçük ise ve dağılımın çok sıkışık ya da tek düzen olduğu anlaşılır. f x x 1231,92 12,32 veya 100 f f x med 1244,88 12,45 O.M.S.= 100 f O.M.S.= x O.M .S. %57,5 idi. 32,62 12,32 20,30 44,98 veya 33,43 12,45 20,98 45,88 personelin yıllık ücretlerinin ortalama mutlak sapması 33500$ $ xi xi 34500 30800 32900 36000 34100 33800 32500 1000 -2800 -600 2500 600 300 -1000 0 Prof. Dr. Levent ŞENYAY İstatistik I xi 1000 2800 600 2500 600 300 1000 O.M.S=8800/7=1287$ 32 V- Bu ölçü yaygınlık belirtir ve standart sapmaya göre 2 üstünlüğü vardır. 1) yorumlanan (kavram/mutlak) daha kolay 2) σ , σ 2 uç değerlerden çok etkilenir. 4.2.3. Nispi Varyasyon Ölçüleri 1-Varyasyon Katsayısı: V V S x sonuç yüzdesi azaldıkça tek düzenlik artar. S *100 % ( ) şeklinde bulunan sonuçlarda; aynı konuda yapılmış başka x araştırma sonuçlarını karşılaştırmaya yarar. %’ler azaldıkça araştırmanın hassasiyeti artar. Aksi durumda azalır, yani üstün körü bir çalışma denebilir. V S 15.45 = 0.47 x 32.62 x fx 3262 32.62 f 100 2- Ortalama Sapma Katsayısı: Voms OMS 12.32 0,38 x 32.62 3-Kartil Sapma Katsayısı: Vq Q 3 Q1 Q 3 Q1 Dağılımın uçları açık olduğu zaman ya da uç değerler bulunduğunda ve dağılım çabuk bir yorumu istendiğinde dağılma ölçüsünün ileri bir hesaplama ya da başka bir maksatla kullanılmasında gerek olmadığında kullanılır. Vq 44.5 23.25 21.25 0,31 44.5 23.25 67.75 4.3. Asimetri Ölçüleri İki dağılımın x1 x2 ve S1 S 2 olduğu haldeki asimetrileri farklı olabilir. İstatistik teorisi genellikle normal dağılış varsayımına dayandırıldığından asimetri önem kazanmıştır. 4.3.1.Pearson Asimetri Ölçüsü x mod x x 3x med 3 x med S S S 16 32,62 32,54 Mod 27 * 9 32,54 0,005 16 10 15,45 S kp S kp Prof. Dr. Levent ŞENYAY İstatistik I 33 V- 4.3.2. Kartillerden Asimetri Hesaplanması Q 3 Q 2 Q 2 Q1 (+) asimetri Q 3 Q 2 Q 2 Q1 (-) asimetri Q 3 Q 2 Q 2 Q1 (0) asimetri yok 4.3.3. Bowley Asimetri Ölçüsü S kb Q3 med med Q1 S kb Q3 Q1 2Q 2 Q3 Q1 Q3 Q1 67,75 233,43 0,04 21,25 (+) as imetri mod med x (-) as imetri x med mod Prof. Dr. Levent ŞENYAY İstatistik I 34 V- 4.4. Tanımlayıcı istatistiklere ait grafikler 4.4.1 Kutu Diyagramı (Box & Whisker Gösterimi) Kutu gösterimlerinde en uç iki veri ile birlikte üç kartili de gösterebiliriz. Bu gösterimlerde kutu yatay veya dikey olarak gösterilebilir ve sol çizgi 25 oranında alt kartili ve sağ çizgi 75 oranındaki üst kartil içerir Kutu diyagramın her iki ucundaki değerler en uç noktalardır. Örnek hacminin en az 50 veya 100 olduğu büyük veri setlerinde, whiskerler en uç değerler yerine yüzde 10 veya 90 veya 5 veya 95 oranlarına ulaşır. Box and whisker gösterimi ile minimum, ilk kartil, üçüncü kartil, medyan, maximum değerler ve çarpıklık yada simetri görülebilir. Final Sınavı Sonuçları 2.yıl 3.yıl 4.yıl 47 56 43 52 59 48 52 59 50 57 61 55 63 67 61 64 69 67 69 73 72 71 76 78 72 76 80 72 80 80 78 83 83 81 83 85 81 84 89 86 90 91 91 94 97 %25 %25 %25 %25 2.yıl 57 71 81 Q1 Q2 Q3 3.yıl 61 76 83 4.yıl 55 78 85 Box Plot 100,0 80,0 Amount Q3 Q2 60,0 Q1 40,0 C1 C2 C3 Variables Verilerin analizinde karşılaşılan durumlardan en önemlisi farklı populasyonlardan elde edilen iki veya daha fazla örneğin karşılaştırılması problemidir. Kutu diyagramları bu sonuna çözüm üretir. Prof. Dr. Levent ŞENYAY İstatistik I 35 V- Örnek: A B 17,6 18,3 10,8 19,2 18 39,4 21,4 19,9 23,7 22,7 23,2 19,6 12,4 28,1 11,5 7,8 16,7 16,8 25,6 23,7 26,9 11,2 21,5 18,9 Box Plot 40,0 Amount 28,3 16,7 5,0 A B Variables 4.4.2. Quantile-quantile (q-q plot) Q-Q grafiği çizilirken izlenen adımlar; 1) 2) 3) 4) 5) Öncelikle veriler küçükten büyüğe doğru sıralanır. Verilerin ortalaması ve standart sapması hesaplanır. Sıralanmış verilere sıra numarası (1,2,3,…,n) verilir. Sıra numaraları toplam veri sayısına bölünerek (i/n) değerleri elde edilir. Ortalama ve standart sapma değerleri kullanılarak ham veriler için z değerleri elde edilir. 6) Z değerleri ile (i/n) değerleri aynı grafikte çizdirilir. 30 B 20 10 0 0 10 20 30 40 A Prof. Dr. Levent ŞENYAY İstatistik I 36 V- Örnek: İstendiğinde percentile ve kantilleri de i 0,5 12 , i=1,2,....,12 bu gösterimde kullanılabilinir. Eğimi bir olan orjinden geçen çizgi karşılaştırmaya yardımcı olur. Eğer tüm noktalar bu 45 derecelik çizgi üzerinde iseler o zaman iki örnek arasında tümüyle hiçbir fark yoktur; özellikle merkezleri ve genişlikleri aynıdır. Eğer tüm noktalar bu çizginin altında ise eski örnekteki kantiller yeniye oranla daha büyüktür. Başka bir değişle , eğer bütün noktalar bu çizginin üstünde ise yeni örnek eskisine oranla daha büyüktür. Bu box and whisker diyagramından çıkardığımız aynı sonuçtur. Quantile-quantile q-q plotunda iki dağılımın yayılımı hakkında da bilgi edinebiliriz. Eğer plot edilen noktalar 1 den büyük bir eğim ile artıyorsa bu yatay eksende plot edilen örneğin dikey eksende plot edilen örneğe nazaran daha az yayıldığını gösterir. Bölüme ait örnekler Örnek : Dağılımlar x medyan S A 100 90 10 B 90 80 10 Her iki dağılımın a) Standart sapması aynı olduğu için varyasyonları aynıdır. b) Asimetriler 3x med S 3100 90 3 10 S kb A’nın S kb B’nin Örnek: Arit.Ort. Ömrü Medyan Ömrü A malı 4000 3500 B malı 3500 4000 x mod 3x med A için mod 3medyan 2x =3(3500)-2(4000)=2500 B için mod 3medyan 2 x =3(4000)-2(3500)=5000 A’nın kalitesi B’den daha düşük Prof. Dr. Levent ŞENYAY İstatistik I 37 V- S kb 390 80 3 10 mod med x Mod< 3500< 4000 x med mod 3500<4000<mod Prof. Dr. Levent ŞENYAY İstatistik I 38 V- 4.4. Bölüm Özeti (Verilerin Özetlenmesi) Verileri özetlemek aşağıdaki işlemlerin tamamını içerir Frekans tablosu Grafikler Histogram, (dağılımın şekli) Sütun, alan grafikler Kutu grafikler Özet istatistikler (merkezi eğilim ve yayılma) Ortalama, medyan, mod Aralık, standart sapma, varyans, yüzdelik Dağılımın şekli Simetrik dağılım: bir orta değer etrafında eşit olarak dağılır. – Histogram grafiğinde çan eğrisinin iki tarafı da simetriktir. Sağa eğimli (pozitif eğimli): – histogram grafiğinde çan eğrisinin kuyruğu sağa doğrudur. Sola eğimli (negatif eğimli): – histogram grafiğinde çan eğrisinin kuyruğu sola doğrudur. Merkezi eğilim ölçüleri Ortalama, Ağırlıklı ortalama – Cebirseldir. – Uc ve eğimli değerlerden etkilenir Geometrik ortalama – Geri dönüştürülmeden önce art .ort aynı özelliktedir – Sağa eğimli veriler için uygundur Ortanca (medyan) – Uç değerlerden etkilenmez – Cebirsel değildir. – Örneklem dağılımından etkilenir Aritmetik ortalama Aralık (interval) ve oran (ratio) verilerinde hesaplanabilir. Prof. Dr. Levent ŞENYAY İstatistik I 39 V- Medyan Kategorik (ordinal), aralık (interval) ve oran (ratio) verilerinde hesaplanabilir. Mod – Kategorik (nominal, ordinal), Aralık (İnterval) ve Oran (ratio) verileri için hesaplanabilir – Örneklem dağılımı bilinmez Yaygınlık ve sapma ölçüleri Aralık – Uc değerlerden etkilenir – Örneklem sayısı arttıkça artma eğilimi gösterebilir Yüzdelik – Uc değerlerden ve örneklemden etkilenmez – Küçük örnekler için hesaplanamayabilir. – Eğimli veriler için uygundur Standart sapma ve varyans – Uc değerlerden etkilenir – Eğimli veriler için uygun değildir – H er gözlemi ele alır Prof. Dr. Levent ŞENYAY İstatistik I 40 V-