4. Tanımlayıcı istatistikler

advertisement
4
TANIMLAYICI
İSTATİSTİKLER
4.1. Merkezi Eğilim Ölçüleri
4.1.1. Aritmetik Ortalama
4.1.2. Ağırlıklı Aritmetik Ortalama
4.1.3. Kesilmiş aritmetik ortalama
4.1.4. Geometrik Ortalama
4.1.5. Harmonik Ortalama
4.1.6. Kuadratik Ortalama
4.1.7. Medyan
4.1.8. Kartiller
4.1.9. Decile ve Percentile
4.1.10. Mod
4.2. Değişkenlik Ölçüleri
4.2.1. Varyans Ve Standart Sapma:
4.2.2. Ortalama Mutlak Sapma –OMS
4.2.3. Nispi Varyasyon Ölçüleri
4.3. Asimetri Ölçüleri
4.3.1.Pearson Asimetri Ölçüsü
4.3.2. Kartillerden Asimetri Hesaplanması
4.3.3. Bowley Asimetri Ölçüsü
4.4. Tanımlayıcı istatistiklere ait grafikler
4.4.1. Box plot
4.4.2 Q-Q plot
4.4. Bölüm Özeti (Verilerin Özetlenmesi)
Ek 4. Momentler
Prof. Dr. Levent ŞENYAY
IV - 1
İstatistik
Tanımlayıcı örnek istatistikleri, örnek verilerini kullanarak, bunlardan elde
edilen dağılışları sayısal olarak özetleyen değerlerdir. Bir veri grubunu tanımlamak
diğer tüm veri gruplarından ayırt edilebilecek en az sayıda örnek istatistiği ile
yapılmalıdır. Bu istatistiklerin en genel olarak elde edilmesini sağlayan değerler
momentlerdir. Tanımlayıcı istatistikler üç ana grupta toplanır,
1. Merkezi eğilim ölçüleri (yer ölçüleri)
2. Değişkenlik ölçüleri
3. Asimetri ölçüleri
4.1. Merkezi Eğilim Ölçüleri
Bunlardan merkezi eğilim ölçüleri, bir veri grubuna ilişkin değişkenin tüm
farklı değerlerinin etrafında toplandığı merkezi değerlerdir. Veri setlerinin merkezi
değerlerini belirlemeyi sağlar. Çok çeşitli olan ortalamalardan en önemlileri:
12345678910-
Aritmetik ortalama (mean)
Ağırlıklı aritmetik ortalama
Kesilmiş aritmetik ortalama (trancated mean)
Geometrik ortalama
Harmonik ortalama
Kuadratik ortalama.
Medyan
Kartil (çeyrek)
Sentil
Mod
Ortalamalar (averages) başlıca iki amaca hizmet ederler:
1) Herhangi bir örnekten elde edilen kantitatif (sayısal) veri grubunun kısa
açıklaması;
2) İndirek (dolaylı) olarak ve belli bir doğruluk derecesinde populasyonu
açıklamasıdır.
Örnek ortalamaları, populasyon ortalamalarının yakın tahminleyicileri
(taktircileri) olduğundan genelleştirmeye müsaittirler ve böylece örnek limitleri
dışında açıklamaların yapılmasına yarar. Kısa veya ekonomik şekilde açıklamayı ve
daha önemlisi bilimsel araştırmayı olanaklı kılar.
4.1.1. Aritmetik Ortalama
Örnek verileri toplamının örnek hacmine bölümüdür.
N = Populasyon hacmi
n = Örnek hacmi
Prof. Dr. Levent ŞENYAY
IV - 2
İstatistik
Basit serilerde aritmetik ortalamanın hesaplanması
N
populasyon aritmetik ortalaması  
x
i 1
i
N
n
örnek aritmetik ortalaması
x
x
i 1
i
n
Örnek: 9 işçinin bir günlük üretim miktarları aşağıda verilmiştir. Buna göre işçiler için üretim
miktarlarının aritmetik ortalaması nedir?
15, 18, 20, 11, 23, 14, 17, 13, 25
Aritmetik Ortalama:
x
x  x
1
n
x
 x  15  18  20  11  23  14  17  13  25  17,33
n
9
 x2  ...  xn
  ’nün tahminleyicisidir.
n
Aritmetik ortalamanın özellikleri:
1- Örnek elemanları x ortalama etrafında toplanma eğilimdedir yani örneği en iyi
temsil eden tek bir elemandır ve simetri oluşturan değerdir.,
2- Aritmetik ortalamadan sapmaların toplamı sıfırdır.
 x  x   0
x
x
n
nx   x
 x  nx  0
x
xn 0
n
x x  0
Sapma: Herhangi bir elemanın değerinden aritmetik ortalamanın veya bir sabitin
çıkartılmasıdır.

 x 
d i  xi  x ve  x 
n 

Prof. Dr. Levent ŞENYAY
IV - 3
İstatistik
n
n
n
n
 d    x  x    x   x  (x  x
i 1
i
i
i 1
i 1
i
1
i 1
  xi  nx   xi  n
2
 ...  xn )  ( x  x  ...  x )
n
 xi
z1  x1  y1
z 2  x2  y 2
0
n
d i  xi  a
d1  x1  a
……..
……….
z n  xn  y n
d n  xn  a
z xy
d  x a
Σz=Σ(x+y)
Σz/n=Σx/n+Σy/n
x ad
3- Örnek elemanlarının aritmetik ortalamadan sapmaları kareleri toplamı
minimumdur.
n
 x
i 1
 x   min
2
i
4- Örnek değerlerinde meydana gelen değişim çok küçük de olsa aritmetik ortalama bu
değişimden etkilenir.
5- Verilerin tümünün bir fonksiyonudur. Bu nedenle güçlü bir istatistiktir.
6- Örnek gözlemlerin tümü a gibi bir sabit ile çarpılırsa bu yeni veri setinin aritmetik
ortalaması da eski veri setinin aritmetik ortalamasının a ile çarpımı kadar değişir.
7- Örnek gözlemlerin tümü a gibi bir sabit ile toplanırsa bu yeni veri setinin aritmetik
ortalaması da eski veri setinin aritmetik ortalamasının a ile toplamı kadar değişir.
8- Aritmetik ortalama verilerdeki uç değerlerden etkilenmesi ise bu istatistiğin zayıf
yönünü oluşturur.
Gruplandırılmış ve Sınıflandırılmış Frekans verilerinde aritmetik ortalamanın
hesaplanması
x
 fx   fx
n
f
Örnek: Bir kuru üzüm üreticisi ürünlerini 0,5 kg. , 1 kg. , 2 kg., 5 kg. ve 10 kg. poşetlerde satışa
sunmaktadır. Bir hafta boyunca ürünlerin satış miktarları aşağıdaki tabloda verilmiştir. Buna
göre kurum üzüm için ortalama satış miktarını hesaplayınız.
Poşet (Kg.)(xi)
Satış Adedi (fi)
x
fx
f
i i
i

0,5 kg
50
1 kg.
23
2 kg.
12
5 kg.
9
10 kg.
6
0,5 * (50)  1* (23)  2 * (12)  5 * (9)  10 * (6)
 1,77 kg.
100
Prof. Dr. Levent ŞENYAY
IV - 4
İstatistik
Sınıflandırılmış frekans verilerinde aritmetik ortalama
x
La  Lü altlimit  üstlimit

2
2
(sınıf orta noktası)
Örnek :
Sınıflar
La Lü
2 – 6
7 – 11
12 – 16
17 – 21
22 – 26
Toplam
x =
 fx
f
x
frekans
8
17
25
12
10
f = 72
fx
4
9
14
19
24

=
A=9
d=x -A

32
153
350
228
240
fx = 1003
-5
0
5
10
15

A=14
fd=f(x-A)
-40
0
125
120
150
fd  355
i=5
d
fd 
-2
-1
0
1
2
-16
-17
0
12
20
'
fd =-1

1003
 13.93
72
Aritmetik ortalanın Sınıflandırılmış verilerle kısa metotla hesaplanışı:
 fd
f
x  A
A: varsayımlı ortalama (herhangi bir x)
d: varsayımlı ortalamalardan sapmalar
x  9
355
 13.93
72
 fd
d  xi  A
: düzeltme faktörü
f
Aritmetik ortalamanın Sınıf aralığı verileri ve kısa metotla hesaplanışı:
x  A
x  14 
 fd
f
'
.i
i=6-2+1=5
1
.5  13.93
72
d ' : sınıfların varsayımlı ortalamalarının içinde bulunduğu sınıftan yer farkı (sapma)
i: sınıf aralığı (sınıf hacmi) i  L2  L1  1
4.1.2. Ağırlıklı Aritmetik Ortalama
Gözlemler belli bir kritere göre ağırlıklandırılmış ise ağırlıklı aritmetik ortalama
kullanılır. Ağırlıklı aritmetik ortalama kullanılırken tüm gözlemlerin ağırlıkları eşit ise
aritmetik ortalama ile aynı sonucu verir. İndex sayıların hesaplanmasında, yüzdelerin
ortalamasında çarpımların ortalamasının alınmasında kullanılır.
Basit seriler için
Prof. Dr. Levent ŞENYAY
xw
 wx
w
veya
IV - 5
İstatistik
Frekans verileri için x w 
 wfx
 wf
f1 x1  f 2 x2  ...
f1  f 2  ...
ˆ xw
x w ............... 
f x  f 2 x2  ........
i i
Xw  1 1

 1 1
w1
f1  f 2  ......
 wi
x w  f i wi / wi 
Örnek: Bir öğrenci w kredili, f adet dersten x notu almıştır. Buna göre not
ortalamasını hesaplayınız.
W
4
4
3
f
3
2
2
x
100 A(4)
90 B(3)
100 A(4)
3
3
85 B(3)
xw 
4  3  4  4  2  3  ...  2  2  2 149

 2.77
4  3  4  2  ...  2  2
54
3
2
75 C(2)
3
2
50 D(1)
3
1
20 F(0)
2
2
60 C(2)
Örnek:
İstatistiki Bölge Birimleri Sınıflandırmasına göre Türkiye toplam 12 bölgeye
ayrılmaktadır. Aşağıda bu bölgelere ilişkin 2000 yılı nüfus ve kişi başına düşen GSYİH
(YTL) miktarları verilmektedir. Bu verilerden yola çıkarak Türkiye geneline ilişkin
ortalama kişi başına düşen GSYİH miktarını bulunuz.
Toplam nüfus
BÖLGE ADI
GSYİH (1000 YTL) (x)
(1 milyon) (w)
wx
1 Kuzeydoğu Anadolu
1.1
2.5
2.75
2 Ortadoğu Anadolu
1.3
3.7
4.81
3 Güneydoğu Anadolu
1.4
6.6
9.24
4 İstanbul
3.7
10.0
37
5 Batı Marmara
2.9
2.9
8.41
6 Ege
3.1
8.9
27.59
7 Doğu Marmara
3.9
5.7
22.23
8 Batı Anadolu
2.8
6.4
17.92
9 Akdeniz
2.5
8.7
21.75
10 Orta Anadolu
1.9
4.2
7.98
11 Batı Karadeniz
2.1
4.8
10.08
12 Doğu Karadeniz
1.7
3.1
5.27
TOPLAM
28.4
67.5 175.03
Aritmetik ortalama ile hesaplanırsa:
x
1.1  1.3  1.4  3.7  2.9  3.1  3.9  2.8  2.5  1.9  2.1  1.7 28.4

 2.367
12
12
Burada aritmetik ortalama kitlenin tüm veri gruplarının eşit olduğunu varsaydığı için
gerçek ortalama değerini vermez. ( 2.367 x 67.3 = 159,29)
Ağırlıklı aritmetik ortalama ile hesaplanırsa:
Prof. Dr. Levent ŞENYAY
IV - 6
İstatistik
xw 
(1.1 2.5)  (1.3  3.7)  ...  (1.7  3.1)
 2.59
2.5  3.7  ...  3.1
(2,59 x 67,3 = 175.03)
Örnek:
Bir köydeki 10 çiftçinin dönüme buğday verimleri ve sahip oldukları buğday
arazileri aşağıda verilmiştir.
Çiftçi No
1
2
3
4
5
6
7
8
9
10
Verim (kg/dön) 250 340 305 300 195 275 310 330 375 210
Arazi(dön)
15 25 12 30 35 5
20 17 10 23
Sadece verim dikkate alındığında aritmetik ortalama :
x
2890
 289kg / dön
10
Ağırlıklar (arazi) dikkate alındığında ise ağırlıklı aritmetik ortalama :
xw 
250.15  340.25  ...  375.10  210.23 53500

 278.6458kg / dön
15  25  ...  10  23
192
Görüldüğü gibi ağırlıklı ortalama, aritmetik ortalamadan daha küçüktür.
xw  x
Bunun anlamı; yüksek verim elde eden çiftçilerin arazileri nispeten daha küçüktür.
4.1.3. Kesilmiş Aritmetik Ortalama
Verilerin içerisinde en büyük ve en küçük değerlerin yaklaşık % 5’i verilerden
kopmuş olarak aşırı sapan değerler içeriyor ve bu değerler verilerin doğal yapısına çok
uygun olmadığı kanaati var ise, bu durumda verilerin en alt ve üst kısmından % 5 lik
kısmı atılarak geri kalan kısmının aritmetik ortalamasının alınması ile elde edilen
aritmetik ortalamadır. Örneğin, 100 kişilik bir sınıfta derslere devan etmemiş 5 yada 6
öğrenci var ve bu öğrenciler derslere sadece soruları öğrenmek için gelmişler ise, söz
konusu bu öğrencilerin sınav notları olan sıfır değerleri veri setinden çıkarılarak
hesaplanan ortalama sınıfın gerçek performansı olan not ortalamasını daha doğru
açıklar.
4.1.4. Geometrik Ortalama
Geometrik dizi şeklinde artış ya da azalış gösteren verileri en iyi temsil eden
merkezi eğilim ölçüsüdür.
eşittir.
Tanım: Örnek veri değerleri çarpımının, örnek hacmi derecesinden köküne
G  n x1 .x2 .x3 ......xn
Özellikleri:
1- xi  0 olmalıdır.
Prof. Dr. Levent ŞENYAY
IV - 7
İstatistik
2- Serideki değerlerin her birinin yerine geometrik ortalama konulduğunda
serinin çarpım sonucu değişmez.
2.4.8.16.32 = 32768 = 8.8.8.8.8
3- Geometrik ortalamanın orijinal gözlemlerinin logaritmik sapmaları eşittir.
Bu özellikten dolayı ortalama oranlara, değişme oranlarına, logaritmik
dağılmış şekiller uygulanır. Örneğin; fiyat indekslerinde geometrik ortalama
anlamlı sonuçlar verir.
4- Aritmetik ortalama gerçekte nispi olan değerler yerine mutlak değerlenmiş
gibi bir işleme bağlı tutularak çok artan nispi değerleri olduğundan fazla
gösterir. Bu yüzden yukarı eğilimlidir.
5- Logaritmik bir dağılımda geometrik ortalamanın tercih nedeni böyle bir
dağılımda mutlak sapmaların değil ancak merkezi eğilim etrafında nispi
sapmaların simetrik olma eğilimidir.
6- G < x
7891011-
x
x1 x2
* * .................... n  1
G G
G
G birimleri değerleri arasındaki orana göre değer alır.
Uç değerlerden x kadar etkilenmez.
x1 .x2 ...........xn  G n
G’nin altındaki ve üstündeki orijinal gözlemlerin logaritmik sapmaları
eşittir. Diğer bir deyişle, G değeri gözlemlerin G’den nispi sapmalarını
dengeler. Bu özellik nedeniyle G, özellikle ortalama oranlara, değişme
oranlarına ve logaritmik dağılan serilere daha uygundur. Örneğin, fiyat
endeksi.

xi G
G
xi
 G   Gxi
xi G
Geometrik ortalamanın en yararlı olarak kullanıldığı alanlardan biri de ortalama
değişiklik oranıdır.
Logaritmaları alınmış değişkenlerin tekrar orijinal şekle dönüştürülmüş
ortalamasına geometrik ortalama denir.
Basit seride geometrik ortalama hesabı :
G  x1 .x2 .x3 ......xn  ( x1 .x2 ....xn )
n
1/ n
 n

   xi 
 i 1 
1
n
Geometrik ortalama çözümü için aşağıdaki logaritma işlemi yapılır
G  n x1 .x2 .x3 ......xn
log G 
n
1
log x1  log x2  ..... log xn   1  log xi 
n
n  i 1

Prof. Dr. Levent ŞENYAY
IV - 8
İstatistik
1 n
 log xi
n i !
G  anti log
G  n x1 .x2 ......xn
Örnek : x : 3, 9, 27 sayılarının geometrik ortalaması
G  3 3.9.27  9
Örnek : x : 3, 5, 7, 810, 13, 16 sayılarının geometrik ortalaması
G  7 3.5.7..810.13.16  7 1,747,200
log G 
1
1
log 1,747,200  6,2423  0,8918
7
7
Frekans serilerinde geometrik serinin hesaplanması:
x1
x2
f1
f2
…
….
xn
fn
f N

G  f x1f1 .x2f2 ........xnfn  x1f1 x2f2 ...xnfn

1
f
G  N x1 x1.....x1 x2 x2 .....x2 ............ xn xn .....xn
f1tane
f1 f 2
f 2 tane
f n tane
fn
 x1 x2 .... xn  x1f1 x2f2 ...xnfn
N
N
N   fi
i 1
1
 f1 log x1  f 2 log x2  ......  f n log xn   1
f
f
1 n
G  anti log
 f i log xi
f i 1
log G 
n
f
i 1
i
log xi
Geometrik ortalamanın tercih nedeni; geometrik ortalamada merkezi eğilim (mutlak
sapma değil) etrafındaki nispi sapmaların simetrik olma eğilimi/özelliğidir.
Prof. Dr. Levent ŞENYAY
IV - 9
İstatistik
Dolar endeksi
Dolar endeksinin hesaplanmasında Japon Yeni, Euro, Kanada Doları, İngiliz Poundu,
İsveç Kronu ve İsviçre Frangı olmak üzere 6 etkili para birimi kullanılmaktadır. Bu
para birimleri Dolar endeksi hesaplaması için aşağıdaki şekilde ağırlıklandırılmıştır;
Parite
Ağırlık %
Euro (EUR) / USD
USD / Japon Yeni (JPY)
İngiliz Poundu (GBP) / USD
USD / Kanada Doları (CAD)
USD / İsveç Kronu (SEK)
USD / İsviçre Frangı (CHF)
%57,6
%13,6
%11,9
%9,1
%4,2
%3,6
Dolar Endeksi = 50.14348112 × EURUSD -0.576 × USDJPY 0.136 × GBPUSD -0.119 ×
USDCAD 0.091 × USDSEK 0.042 × USDCHF 0.036
Yukarıdaki formülde doların altı para birimi karşısındaki değerinin geometrik
ortalaması alınmaktadır. Hesaplamanın yapıldığı günkü parite seviyesinin dolar
endeksi içindeki ağırlığı kadar üssü alınmaktadır, doların baz para birimi olduğu
durumlarda üssü pozitiftir, tersi durumda ise üssü negatif alınmaktadır. 50.1434
rakamı ise sabit çarpandır. Bu sabit sayı dolar endeksinin hesaplandığı ilk gün
endeksi 100 seviyesine eşitleyen çarpandır.
Dolar endeksi 120 seviyesinde ise bu doların endeksin hesaplandığı ilk günden itibaren
altı para biriminden oluşan döviz sepeti karşısında %20 değer kazandığını gösterir.
Endeks 90 ise bu da doların %10 değer kaybettiğini gösterir.
50.14348112 × EURUSD -0.576 × USDJPY 0.136 × GBPUSD -0.119 × USDCAD 0.091 × USDSEK 0.042 × USDCHF
0.036
31.01.2017 tarihindeki parideler
50,143481 eur/dolar 0,576 usd/jpy 0,136 gbp/usd 0,119 usd/cad 0,091 usd/sek 0,042 usd/chf
0,036
1,0796
112,31
1,2564
1,303
8,7485
0,9875
31.01.2017 tarihindeki dolar endeksi
99,526845
Bileşik Faiz
P0=başlangıç miktarı
r= faiz oranı
n=yıl (faiz dönemi)
Pn=n yıl sonraki meblağ
1 r 
n
n
Pn
n
 1  r 
P0
Pn
P0
log(1  r ) 
rn
Pn  P0 1  r 
log Pn  log Po
n
Pn
1
Po
Prof. Dr. Levent ŞENYAY
IV -10
İstatistik
e sayısı ile bileşik faiz ilişkisi
17. yüzyılda sayıların çarpımlarını elde etmek içintoplama olarak ifade edilebilmesini
sağlayan logaritma fikri üzerinde çok çalışma yapılmıştır. Bunlardan Jacob Bernoulli
1683 yılında bileşik faiz özelliklerini incelerken logaritma fikri ile e sayısı üzerine
çalışmalar yapmıştır. Bu çalışma sonucu olarak aşağıdaki sonuçlar görülebilir
1 liranın bir yıl sonundaki bileşik faizi için farkli faiz dönemleri kullanılarak e sayısının
elde edildiği görülür.
Faiz dönemi
dönem faizi
1.d. sonu 2.d.sonu … yıl sonu
Yıl
%100
2
2
1/2 yıl
%50=%100/2
1,5
2,25
2,25
¼ yıl
%25=%100/4
1,25
2,44141
1/12 yıl (aylik)
%100/12
2,61304
1/52 yıl (haftalık)
% 100/52
2,71457
1/365 yıl (günlük)
%100/365
2,71457
1/365*24 (saatlik)
%100/(365*24)
2,71813
1/365*24*60 (dakikalık) %100/(365*24*60)
2,71828
1/365*24*60*60 (saniyelik) %100/(365*24*60*60)
2,71828
e sayısı ile ilgili bazı özellikler :
1) seri açılım özelliğini
e = 1 + 1/1 + 1/(2x1) + 1/(3x2x1) + 1/(4x3x2x1) + …
n
= 1 + 1/1! + 1/2! + 1/3! + 1/4! + … =∑ 1/i!
i=0
2) Euler özelliği eiπ + 1 = 0 dır.
3) Lim n→∞ (1 - 1/n)n = e-1 dir.
e sayısı ekonomik büyüme, popülasyon büyümesi, nüfus büyümesi, bir ortamdaki
baktesi miktarı değişimi, radyoaktif madde miktarındaki değişim, elektrik akımı gibi
tabatta bir çok büyüklüğün değişimi gibi konularda kullanılan bir sabittir.
k üstel değişim miktarı ve a popülasyon başlangıç miktarı olmak üzere
dy/dt = ky denkleminin çözümü
y= akt şeklindedir. Burada k sabitinin + veya – oluşuna bağlı olarak üstel artma veya
azalma olarak değişim elde edilir.
Örnek: 3 yılda 1000$, 5000$ a artmıştır. Yıllık ortalama artış yüzdesi nedir?
%500
gibi gözükse de bu ortalama % artışı doğru değildir. Burada r ortalama artış
3
yüzdesini göstermektedir.
Başlangıç 1000
1 yıl sonra 1000+1000r1000(1+r)
2 yıl sonra 1000(1+r)+ 1000(1+r)r=1000(1+r)2
3 yıl sonra 1000(1+r)2+1000(1+r)2r=1000(1+r)3=5000
1  r 
3
5
r  3 5 1
Prof. Dr. Levent ŞENYAY
Pn  P0 1  r 
IV -11
n
İstatistik
Örnek:
mal
1955
100
100
1945
50
200
A malı
B malı
x
baz yıl 1945=100
1945
100
100
100
1955
200
50
125
A fiyatı %100 artmış
B fiyatı %100 düşmüş
A ve B malın arit. ort. yorumu
Yanlış olur.
A malı fiyatı %100 artmış , B malı fiyatı %50 düşmüş . G  200 * 50  100
Yorum : A ve B mallarını eşit oranda tüketen bir tüketicinin harcamasında 1945 ile
1955 yılları karşılaştırılırsa, bu mal grubuna ait harcamasında bir değişme olmamıştır
ÖRNEK: Bir doğru üzerinde birbirine bitişik iki doğru parçasının uzunlukları a ve b
olsun. Bu iki doğru parçası çap olmak üzere bir yarım çember çizelim. Çemberin r
yarıçapının a ve b nin aritmetik ortalaması olduğunu ve dik “h” uzunluğunun bunların
geometrik ortalaması olduğunu gösteriniz.
h
x
y
a
b
2r  a  b
ab
2
2
a  h2  x2
r
b h  y
2
2
2
 aritmetik ortalama
 1. pisagor
 2. pisagor
x 2  y 2  ( a  b) 2
 3. pisagor

a 2  b 2  2h 2  a 2  b 2  2ab

2h 2  2ab

h  2 ab  ab
 geometrik ortalama
4.1.5. Harmonik Ortalama
Tanım: Gözlemlerin terslerinin aritmetik ortalamasının tersidir.
elemanları birbirine eşit olmadıkça
Serinin tüm
x G H
bağıntısı mevcuttur.
Eğer x1  x2  .......xn ise bu bağıntı
x G H
Prof. Dr. Levent ŞENYAY
olur.
IV -12
İstatistik
Harmonik ortalama küçük değerlerden çok, büyük değerlerden az etkilenir. Harmonik
ortalama aşağı eğimlidir.
H.O’da xi  0 (i=1,2,…., n için) olmalıdır.
n
1
H
1
1
1

 ......
x1 x 2
xn
n

n
veya
n
1

i 1 xi
1

H
1
x
i 1
i
n
H.O belli koşullar altında ve belli fiyat tipleri altında zaman serilerini ortalamak için
kullanılır.
Uygulamada sabit ve değişken birimler vardır. Zaman sabit üretim değişken
olduğunda, eşit zaman periyodlarındaki üretim ortalaması için kullanılır.
Örneğin; 1 birimlik mal A kişisi tarafından 30 dk’da ve yine 1 birimlik mal B kişisi
tarafından 20 dk’da üretiliyorsa mal miktarı sabit, zaman değişkendir. Ortalaması
alınan değişkendir yani zamandır.
H
.
2
1
1

20 30
 24 dk’da 1kg mal (ort.) üretilmektedir
Uçakla 400 km, trenle 60 km(570km)
H .O 
2
1
1

400 60

2
4800

 104km / h
46
46
2400
Üretim birimi sabit, maliyet değişken olduğunda birim başına ortalama maliyet için
HO kullanılır. Örneğin bir kişi 1. marketten 3 kilo meyveye 10 lira, diğer marketten
aldığı 4 kilo meyveye 10 lira öder ve 3. markette 5 kilo meyveye 10 lira öderse,
meyvelerin ortalama fiyatı HO dır.
HO 
3
 2.5lira
10 10 10
 
3 4
5
Bu örnek ağırlıklı aritmetik ortalama ile de hesaplandığında aynı doğru sonucu verir.
Harmonik Ortalama uygulama yerleri
Zaman birimi başına hız
Para birimi başına satın alınan birim sayısı
h
1
n
1
1

n i 1 xi

n
1
x
2,4,9
i
Prof. Dr. Levent ŞENYAY
IV -13
h
3
 3.48
1 1 1
 
2 5 9
İstatistik
Örnek: A ve B gibi iki şehir arasında 100km lik bir yol vardır. Bir otomobilli yolun
ilk yarısını 30 km/saat hızla gidiyor. Diğer yarısını 40 km/saat hızla gidiyor. Hız
ortalaması nedir?
v = ortalama hız ;
t = geçen zaman ;
d = alınan yol
d
d=v*t
d/2
d
 v1.t1  v2 .t2
2
A
t1: Yolun ilk yarısında geçen zaman
B
M
t2: Yolun ikinci yarısında geçen zaman
Buradan
t1 
d
d
ve t2 
2v1
2v2
t  t1  t2 
d  1 1  vt  1 1 
.        yazılır.
2  v1 v2  2  v1 v2 
Böylece hız ortalaması
v
d
vt
2
2



 34.28 
1 
t vt  1 1   1 1   1
        
2  v1 v2   v1 v2   30 40 
n
1
x
i
= Harmonik
ortalama
4.1.6. Kuadratik Ortalama
Tanım: Gözlemlerin karelerinin aritmetik ortalamasının köküdür. Standart
sapmanın hesaplanmasında kullanılır. Ortalama değerlerinin ortalamasında kullanılmaz.
K  x  G  H bağıntısı vardır.
K
x
2
n
ab 
a2  b2
n
4.1.7. Medyan ( x)
Büyüklük sırası ile dizilmiş bir dizinin en ortadaki elemanının değeridir.
n 1
inci eleman değeri
2
n
n
Örnek hacmi çift ise
ve  1 inci elemanların aritmetik ortalamasıdır.
2
2
Örnek hacmi tek ise
Prof. Dr. Levent ŞENYAY
IV -14
İstatistik
Medyanın özellikleri :

1)
xi  med  min . Bu medyanın en önemli özelliğidir.
2) Birim sayısındaki değişmelerden etkilenir, uç değerlerden etkilenmez.
3) Medyanın standart hatası, aritmetik ortalamanınkinden daha büyüktür.
Not : Verilerin sürekli veya kesikli olmasına dayalı olarak medyan ve benzer şekilde
kartillerin de hesaplanmasında bulunacak noktanın belirlenmesi için öncelikli tercih
matematiksel noktadan ziyade anlamlı olan noktanın belirlenebilmesidir. Bu amaçla
doğru yorumlanabilecek yer seçimi daima daha doğru olacaktır.
Uygulama yerleri: gelir dağılımı, ücret dağılımı gibi değerce tam ortada yer alan
değerleri bilinmesinde pratik yarar olan durumlarda tercih edilir.
Basit serilerde medyan hesabı
Örnek:
n tek ise
16 20 21
 medyan 20
n çift ise
15 19 23 25

19  23
 21  medyan
2
Medyan; rütbeler, ücretler, biçiminde belirlenmiş gözlemlerin açıklanmasında anlam
taşır.
Sigorta hadleri genellikle medyanlardır. Ulaşım sorununda merkezi yer olarak
medyanlar seçilir.
3) Medyan verilerin tümünü kullanmayan ve tümünden etkilenmeyen bir istatistik.
Özellikle uç değerlerden etkilenmez, daha çok ortanca değerlerden etkilenir. Tüm
verilerin bir fonksiyonu olmaması açısından zayıf bir istatistik olmasını sağlar, diğer
taraftan uç değerlerden etkilenmemesi ise bazı açılardan güçlü bir özelliktir.
Örnek: Bir hastanenin genel cerrahi bölümünde çalışan 16 doktorun bir aylık süre içerisinde
yapmış olduğu ameliyat sayıları aşağıda verilmiştir. Buna göre ameliyat sayıları için medyan (Q 2 )
değerini hesaplayınız.
8, 11, 12, 14, 15, 16, 16, 17, 18, 19, 20, 20, 23, 25, 28, 29 n = 16
Medyan : 8. gözlem değeri ile 9. gözlem değerinin aritmetik
ortalamasıdır.
n n 
   1
2  2  17  18
Medyan =

 17,5
2
2
Gruplandırılmış Frekans verileri ile medyan hesaplanması:
Örnek: Matematik I dersini alan öğrenciler arasından seçilen 60 öğrencinin dersi tekrar
sayılarının dağılımını ifade eden tablo aşağıda verilmiştir. Matematik I dersi için tekrar sayısının
medyan değerini hesaplayınız.
Tekrar Sayısı(xi)
1
2
3
4
5
Öğrenci Sayısı (fi)
29
12
8
7
4
Prof. Dr. Levent ŞENYAY
İstatistik I
15
V-
Kümülatif Frekans değerleri hesaplanarak aşağıdaki tablo oluşturulur
Tekrar Sayısı(xi)
1
2
3
4
5
Öğrenci Sayısı (fi)
29
12
8
7
4
Σ fi
29
41
49
56
60
n/2 = 30 nci elemana karşılık gelen gözlem değeri olan “ 2 “ medyan değeridir.
1-Sınıflandırılmış frekans verileri ile aritmetik (İnterpolasyon) metotla medyan
hesaplanması:
Medyan değerini içinde bulunduran sınıfa ‘medyan sınıfı’ denir. Medyanın gerçek
değerini bulmak için, medyan sınıfında alt sınıf limitlerinden medyan noktasına kadar
dağılmış frekansların, medyan sınıfındaki tüm frekanslara oranı tayin edilir.
Medyan  L 
f /2  f i
i f
.i  L 
(  f i )
fmed
f med 2
f  n=frekansların toplamı
L=medyan sınıfının alt limiti (f / 2' yi geçen ilk sınıfın alt limiti)
f med = medyan sınıfı frekansı
f i  medyandan önceki frekansların kümülatif toplamı
i= sınıf aralığı
İnterpolasyon metodu verilerin sürekli ve seri elemanlarının sınıf aralıklarında eşit
dağıldığı varsayımına dayandırılır. Veya sınıf aralığı olarak medyan sınıfı aralığı
kullanılır.
Örnek:
Sınıflar
3-5
6-8
9-11
12-14
15-17
18-20
21-23
24-26
Fr. f
10
15
35
50
40
30
28
22
f

f
230
220
205
170
120
80
50
22
10
25
60
110
150
180
208
230

Medyan sınıfı
 f  230
f
 fi )
medyan  L  2
i
f medyan
230/2 - 110
Medyan : 15 +
.3
40
(
Prof. Dr. Levent ŞENYAY
İstatistik I
= 15.375
16
V-
Sınıf aralığının belirlenmesi
Tüm sınıflarda sınıf aralıkları eşit olabilir veya olmayabilir. Ancak sınılarda kullanılan
birimlerin ölçüm hassasiyetlerine (virgülden sonraki sayı miktarı) göre sınıf aralığı da
aşağıdaki örneklerde olduğu gibi faklılıklar gösterir.
a. Sınıflar
1 - 5
6 - 10
11 - 15
16 - 20
i =Lü-La+en küçük ölçüm aralığı
i = 5-1+1 (+1 hassasiyet birimi)
b. sınıflar
1.0 – 5.9
6.0 – 10,9
11.0 – 15.9
16.0 – 20.0
c. sınıflar
1.00 – 5.99
6.00 – 10.99
11.00 – 15.99
16.00 – 20.00
i= 5.9-1.0+0.1 (+0.1 hassasiyet birim)
i=5,99-1.00+0.01 (+0.01 hassasiyet birimi)
d. sınıflar
1 – 5 den az (=4)
5 – 10 dan az (=9)
10 – 15 den az (14)
i=4-1+1 (+1 hassasiyet birimi)
e. Sınıflar
1.0 – 5.0 dan az (=4.9) i=4.9-1.0+0.1 (+0.1 hassasiyet birimi)
5.0 – 10.0 dan az (=9.9)
2-Frekans verileri kullanılarak Grafik (geometrik) metotla medyanın
bulunması:
f
i
230
208
180
150
f
2
 115
110
60
25
10
3
6
9
12
15
18
21
24
27
alt limitler
15
Grafik 1 : …den daha az eğrisi
Prof. Dr. Levent ŞENYAY
İstatistik I
17
V-
  fi
225
220
205
170
f
2
 115
120
80
60
22
10
5
8
11
14
17
Grafik 2 : …den daha çok eğrisi
f
i
ve 
f
20
23
26
üst limitler
i
Medyan
sınıf limitleri
Grafik 3: den daha az ve den daha çok eğrilerinin birlikte çizildiği grafik
Prof. Dr. Levent ŞENYAY
İstatistik I
18
V-
4.1.8. Kartiller
Çeyrek (Quarter)
Veri setini yüzdelik olarak dört eşit parçaya ayıran nokta sırasıyla Q1 , Q2 , Q3 olarak
gösterilir.
%25
%25
üst-orta
çeyrek
alt-orta
çeyrek
%25
en alt
çeyrek
Q1
Q2
%25
en üst
çeyrek
Q3
Basit serilerde 1. Kartilin hesaplanması
2. kartilin (medyan) pozisyonu çift ise (n+1)/4 üncü elamandır, medyan pozisyonu tek ise
veya tamsayı değil ise (n/4=a.xx) üncü elemanın tamsayı kısmı (a) alınır ve bir sonraki
elman (a+1) ile aritmetik ortalaması 1. Kartirldir.
Örnek: Bir dershanede görev yapan 11 Matematik öğretmeninin haftalık ders saatleri aşağıda
verilmiştir. Buna göre ders saati için birinci kartil (Q 1 ) değerini hesaplayınız.
12, 15, 15, 18, 21, 21, 24, 27, 27, 30, 33 n = 11
Medyan : 6. gözlem değeridir. (Q2 =21)
Birinci Kartil: (n+1) / 4 = 12 / 4 = 3. gözlem olan Q 1=15 dir
Basit serilerde 3. Kartilin hesaplanması
2. kartil (medyan) pozisyonu çift ise 3(n+1)/4 üncü elamandır, medyan pozisyonu tek ise
veya tamsayı değil ise (3n/4=a.xx) üncü elemanın tamsayı pozisyonu (a) ile bir sonraki
(a+1) elemanın aritmetik ortalamasıdır.
Örnek: Bir spor mağazasında çalışan 13 satış personelinin bir haftada yapmış olduğu satış
miktarları aşağıda verilmiştir. Buna göre ayakkabı satış miktarları için üçüncü kartil (Q3)
değerini hesaplayınız.
10, 13, 14, 15, 17, 20, 21, 23, 23, 26, 28, 29, 30 n = 13
Medyan : 7. gözlem(Q2 =21)
Üçüncü Kartil: 3(n+1)/4=10 ve (+1)11.inci gözlem ortalaması
Q 3=26,5 dir
Birinci Kartil: n/4=13/4 =3 üncü ve (+1) 4 üncü gözlem ortalaması Q 1=14.5 dur
Prof. Dr. Levent ŞENYAY
İstatistik I
19
V-
Gruplandırılmış frekans verilerinde Kartillerin hesaplanması
1.kartil
Örnek: Bir otomobil galerisinde bir ay boyunca günlük satış adetlerinin dağılımına ilişkin tablo
aşağıda verilmiştir. Günlük otomobil satış adetleri için birinci kartili hesaplayınız.
Otomobil Sayısı(xi)
Satış Adedi (fi)
0
4
1
9
2
7
3
6
4
4
Kümülatif Frekans değerleri hesaplanarak aşağıdaki tablo oluşturulur
Otomobil Sayısı(xi)
0
1
2
3
Satış Adedi (fi)
4
9
7
6
Σ fi
4
13
20
4
4
26
30
n/4 = 12,5 nci elemana karşılık gelen gözlem değeri olan “ 1 “ birinci kartil (Q 1 )değeridir.
3.Kartil
Örnek: Bir meşrubat üreticisi firma ürünlerini farklı miktarda şişelenmiş şekilde satışa
sunmaktadır. Satılan 100 şişe meşrubat için dağılım aşağıdaki tabloda verilmiştir.
Meşrubat miktarı (ml) (xi)
250
330
500
1000
Satış Adedi (fi)
12
33
17
28
Kümülatif Frekans değerleri hesaplanarak aşağıdaki tablo oluşturulur
Meşrubat miktarı (ml) (xi)
250
330
500
1000
Satış Adedi (fi)
12
33
17
28
Σ fi
12
45
62
90
1500
10
1500
10
100
3n/4 = 75 nci elemana karşılık gelen gözlem değeri olan “ 1000 “ birinci kartil (Q 3 )değeridir.
Sınıflandırılmış frekans verilerinde Kartillerin hesaplanması
Q1  L 
f
4   fi
f1
Q 2  Medyan  L 
Q3  L 
i
f
2   fi
f 2
i
3 f 4   f i
f 3
Prof. Dr. Levent ŞENYAY
İstatistik I
20
V-
Örnek: Bir mağazada bir günlük satış tutarları ve alışveriş yapan müşteri sayısı
aşağıdaki gibi sınıflanmıştır.
Müş.
f
x
Miktarı
0- 8
9-17
Q1 18-26
Sayısı
10
8
12
10
18
30
4
13
22
Q 2 27-35
Q 3 36-44
28
58
31
18
14
10
76
90
100
40
49
58
Satış
45-53
54-62

100
Q1  L 
f
4   fi
f1
i
L= kümilatif frekans ¼’ü geçen sınıfın alt limiti
f
i
 Q1 ' den bir önceki sınıfa kadar f n toplamı
f1 = Q1 sınıf frekansı
i= sınıf aralığı
Q1  18 
25  18
 9  23.25
12
Q 2  Medyan  L 
Q2  27 
Q3  L 
f
2   fi
f 2
i
50  30
 9  33.43
28
3 f 4   fi
f3
i
L=kümilatif frekansı ¾’ü geçen ilk sınıfın

alt limiti
f i  Q 3 ' den bir önceki sınıfa kadar fr. Toplamı
f 3 = Q 3 sınıfı frekansı
Q3  36 
75  58
 9  44.5
18
Prof. Dr. Levent ŞENYAY
İstatistik I
21
V-
4.1.9. Decile ve Percentile
Decile bir dağılımı 10 eşit parçaya böler ve 9 tane decil vardır, Percentile ise
bir dağılımı 100 eşit parçaya bölen 99 tanedir. Basit ve frekans serilerinde hesaplanışları
medyan veya kartil hesaplamalarına benzer şekildedir.
range
percentile
%30
%70
70. percentile
4.1.10. Mod
Dağılımın en çok tekrar eden değeridir. Mod’un özelliği seride en yüksek olasılıklı
bir eleman oluşudur. Halk dilinde ortalama olarak en çok kullanılan mod’dur. Birden
fazla değer aynı frekansa sahip olduğunda tek bir mod saptanması olanaksızdır.
Kesiksiz seride değerler birbirini sürekli biçimde izlediklerinden, veriler
gruplandırılmadıkça mod diye bir eleman olmayabilecektır. Kesikli veriler durumunda
bile birden fazla tekrarlanmayan değerlerle karşılaşılabilir, bu durumda da tabi mod
yoktur. (örneğin şehir nüfusları).
a. Basit serierde mod hesabı
xi  3,3,5,1
3  mod değeri
Mod tüm verilerin bir fonksiyonu olmayan bir istatistik, yani tüm verilerden
etkilenmez.
b. Gruplandırılmış frekans verilerinde Modun Hesaplanması:
Örnek: Kot pantolon satın bir mağazada bayan kot pantolonlarının bedenlerine göre satış
miktarları aşağıdaki tabloda verilmiştir. Buna göre satılan bayan kot pantolonların bedenlerine
göre mod değerini hesaplayınız.
Beden(xi)
28
30
32
34
36
38
40
42
Satış Adedi (fi)
12
15
18
24
29
32
26
20
En yüksek frekans değerine sahip olan ( 32 adet ) beden numarası 38 olduğundan dolayı bayan
kot pantolonlarının bedenlerine göre mod değeri “ 38” dir.
Prof. Dr. Levent ŞENYAY
İstatistik I
22
V-
c. Sınıflandırılmış frekans verilerinde Modun Hesaplanmasında
aritmetik (İnterpolasyon) metotu:
Mod = L 
1
.i
1   2
L=mod sınıfının alt limiti
İ= sınıf aralığı
1  modal sınıf frekansı ile premodal(möddan bir önceki) sınıf frekansı
arasındaki mutlak fark
 2  modal sınıf frekansı ile postmodal(moddan bir sonraki) sınıf frekansı
arasındaki mutlak fark
Sınıflandırılmış frekans verilerinde Grafik (Geometrik ) Metotla Mod
hesaplanışı
1  1  2  2
1
1

1   2 3
m ode
Li
1
2

L
Örnek:
sınıflar
3-5
6-8
9-11
12-14
15-17
18-20
21-23
24-26
Prof. Dr. Levent ŞENYAY
İstatistik I
1/3
2/3
frekanslar
10
15
35
50
40
30
28
22
premodal sınıf
mod sınıfı
postmodel sınıf
23
V-
1
1   2
Mod= 12 
 50  35
 3  13.8
 50  35   50  40 
i=10-5=5
Veya i=5-1+1=5
Fr.
50
40
35
9
12
MOD 15
alt limit
d. Denel (Ampirik) Metotla Mod hesaplanışı
Bu metod asimetrik dağılımlarda aritmetik ortalama ile mod arasındaki
uzaklığın, aritmetik ortalama ile medyan arasındaki arasındaki uzaklığın 3 katı olduğu
varsayımına dayanır. Fazla güvenilir bir sonucu her zaman vermeyebilir.
x  mod  3 * x  medyan varsayılan eşitlik
Tek modlu frekans eğrilerinde, moderate asimetri halinde aşağıdaki deneysel
ilişki vardır.
Simetrik dağılışlarda ise;
x  Mod
 x  Medyan
3
x  mod  medyan
dağılımında(+)asimetri varsa
dağılımında(-)asimetri varsa
bağıntıları oluşur.
Prof. Dr. Levent ŞENYAY
İstatistik I
x  medyan  mod
x  medyan  mod
24
V-
(+) Asimetri
mod med x
(-) Asimetri
med=15
x = 15.31
x  mod  3 * x  med 
x med mod
mod=13.8
ve görüldüğü gibi (+) asimetrik bir dağılımdır.
x  med  mod
Bu varsayım orta derecede asimetrik bir dağılımda söz konusudur çünkü; orta
derecede bir asimetrik dağılımda medyan, mod’a oranla ortalamadan üçte biri kadar
uzakta bulunup asimetrik dağılımda x , mod, ve medyanın birbirinden uzaklaşma
nedeni, mod dağılımının en yüksek ordinatıdır, medyan ise dağılımı iki eşit parçaya
ayıracağından uzun olan tarafa gider, ortalama ise uç (extramum) değerlerden çok
etkilendiği için küçük değerlerin yönüne doğru medyandan daha uzaklaşır. Elementer
mod hesaplama metodlarının ayrı sonuç vermesi
beklendiğinden, seriyi açıklama konusunda seçilecek mod değerleri hakkında
araştırmacı kendi yargılamasını kullanmalıdır.
Merkezi Eğilim Ölçüleri ( Yer Ölçüleri) içerisinde, hesaplamalarında verilerin
tamamının kullanıldığı veya verilerin tamamının fonksiyonu olan ortalamalar
Aritmetik Ortalama
Ağırlıklı aritmetik ortalama
Geometrik Ortalama
Harmonik Ortalama
Kuadratik Ortalama
Verilerin tamamının hesaplamaya dahil olmadığı veya verilerin tamamının
fonksiyonu olmayan ortalamalar ise
Kesilmiş aritmetik ortalama
Medyan
Mod
Kartil – Çeyrek (1/4)
Sentil (1/10) dir.
Prof. Dr. Levent ŞENYAY
İstatistik I
25
V-
4.2. Değişkenlik Ölçüleri
Tanımlayıcı istatistiklerden merkezi eğilim ölçüleri verilerin önemli bir çok
özelliğini açıklamasına rağmen, veri grubunu diğerlerinden tam olarak ayıracak şekilde
tam olarak açıklayamaz. Bu eksiklik verilerin öncelikle değişkenlik farklılığından gelir
ve son olarak da asimetri yapılarının farklılıklarından meydana gelir. Diğer bir deyişle,
aynı merkezi eğilim değerlerine sahip olan farklı veriler olabilir ve bu farklılık ya
değişkenlik değerlerinden veya asimetri değerlerinden ya da hem değişkenlik hem de
asimetri değerlerinin farklılığından kaynaklanabilir.
70
80
130 140
105
Yukarıdaki iki dağılım ayrı ranglı (ve yayılımlı) fakat aynı ortalamalı iki dağılımdır.
80-130 limitleri arasındaki dağılım homogen (türdeş)
70-140 limitleri arasındaki dağılım hetorogen (ayrı tür) dağılımlardır.
RANG: Üst limit - Alt limit +1 (+1; kesikli verilerin ölçümünde kullanılan en küçük
hassasiyet birimi; 10, 1, 0,1, 0,01, … vb)
Yukarıdaki dağılımların rangları = 130-80+1=51 diğeri ise 140-70+1=71’dir.
Varyasyon, yaygınlık miktarını ; asimetri ise simetrinin bozulma miktarını belirler.
Değişkenlik (yaygınlık) derecesini gösteren tanımlayıcı istatistikler
Bu grupta yer alan değişkenlik istatistikleri, tek bir değere dayalı istatistiklerdir. Diğer
bir değişkenlik istatistikleri grubu ise bu tek değere dayalı değişkenlik istatistiklerinin
bir birlerine değişik şekillerde oranları olarak ifade edilen ve yorumlanan değişkenlik
istatistikleridir.
1-) Toplam rang
2-) Kartiller arası rang
3-) Yarı kartiller arası rang
4-)Standart sapma 
5-)Ortalama sapma(A.D)
Prof. Dr. Levent ŞENYAY
İstatistik I
26
V-
Nispi varyasyon (oranlanan değişkenlik) ölçüleri
1-) Varyasyon katsayısı
2-) Ortalama sapma katsayısı
3-) Kartil sapma katsayısı
Asimetri miktarı ise
x  mod  ’dan bulunur.
Dağılımlar Arasında Diklik ya da Basıklık Ölçüsü
lepta kurtik(fazla dik)
m ezo kurtik (orta diklik)
plati kurtik (yatik tepeli)
Kurtosisler
Kartiller Arası Rang = Q 3  Q1  44,5  23,25  21,25
Yarı Kartiller Arası Rang= Q.D 
Q 3  Q1 21,25

 10,63
2
2
Q .D (yarı kartiller arası rang) çok küçük ise merkezi elemanların ufak varyansa sahip
olduğu anlaşılır, ya da çok yüksek derecede tek düzen olduğu anlaşılır.
Q 2  QD ancak dağılımın %50’e yakın bir rangı kapsar.
33,43  . 10,63= 22,8-44,6 dağılımın %50’si.
4.2.1. Varyans Ve Standart Sapma:
Aritmetik ortalamadan sapmaların karelerinin aritmetik ortalamasının kare köküne
standart sapma adı verilir.Standart sapmanın karesine varyans denir. Bir anlanda
sapma karelerinin ortalamasıdır.
S =Örnek standart sapması
 2 = Populasyon standart sapması
S 2 =Örnek varyansı
 2  populasyon varyansi
Prof. Dr. Levent ŞENYAY
İstatistik I
27
V-
Basit serilerde standart sapmanın hesaplanışı

 x  x 
x
2

N
2
N
x


 N 


x
2
N
2
 x2
Açıklama :
 (x  x)
2
 x 2
2

2
  x  2 x  x  nx   x
2
( x ) 2
n
 x  x 

i
n
 x x
2
2
2

 x
2

( x) 2
n
2
 2 xx  x 2 
n
x

2
n
 x 
x

 n 


2

x
x
2
x
 
x  n

 n 
n


2
( x) 2
n
2
n
 2x
 x  nx
n
2
Populasyon standart sapması
 x   
2

N
Örnek standart sapması
S
x
2
 x

n 1
Prof. Dr. Levent ŞENYAY
İstatistik I
2
n
28
2
V-
n
2

x
n
2
 2x  x 2
Frekans verilerinde Standart Sapmanın hesaplanması:
 f x  x 
 f 1
S
 fx
2

2
 2 x  fx   fx 2
 f 1
  fx 
 fx
 fx  2 f  fx   f  f 

 
 f 1
( fx )
( fx )

 fx  2
f
f
 f 1
( fx )
 fx 
f
 f 1
2
2

2
2
2

2
2

veya
 fd
S  i.
2

( fd ) 2
f
 f 1
şeklinde daha küçük sayısal değerler ile hesaplanabilir, burada
i = sınıf aralığı ve
d= (varsayımlı) ortalamadan pozisyon farkını göstermektedir.
Örnek:
Sınıflar
1-5
6-10
11-15
16-20
21-25
26-30
31-35
36-40
Frekans
10
15
35
50
40
30
28
22
230
x
3
8
13
18
23
28
33
38
30
120
455
900
920
840
924
836
5025
(5025) 2
230 = 88.732 = 9.42
229
130105 
S=
Prof. Dr. Levent ŞENYAY
İstatistik I
f x2
fx
29
V-
90
960
5915
16200
21160
23520
30492
31768
130105
%68.27
%95.45
%99.73
-3
-2
-


2
3
x    gözlemlerin %68’ini
x  2  gözlemlerin %95’ini
x  3  gözlemlerin %99’unu kapsar.
Z-skoru
Verilen bir gözlem değerinin ortalamanın kaç standart sapma uzağında olduğunu ölçer.
Z= (x-µ)/ 
Örnek: 13.5
7.2
9.7
11.3
8.0
9.5
7.1
7.5
5.6
7.4
8.2
9.0
7.2
10.1
10.5
6.5
9.9
5.9
8.0
7.8
8.4
8.2
6.6
8.5
7.9
8.1
13.2
11.1
11.7
6.5
6.9
9.2
8.8
7.1
6.9
7.5 10.5
6.9 9.6
5.2 10.6
7.7 9.4
6.5 6.8
13.5
7.7
8.2
6.0
9.5
= (8.49 – 1.98, 8.49 + 1.98) = (6.51, 10.47)
50 ölçümün 34’unün ve ya %68’inin ortalamanın 1standart sapması içerisindedir
= (8.49 – 3.96 , 8.49 + 3.96 ) = (4.53, 12.45)
50 ölçümün 47’sini ya da %94’unun ortalama etrafında 3 standart sapma aralığıdır ki bu
= (8.49 – 5.94 , 8.49 + 5.94 ) = (2.55, 14.43)
Burada tüm ölçümleri içerir.
Prof. Dr. Levent ŞENYAY
İstatistik I
30
V-
Örnek:
x
S
A ve B malı
4.03
4.03
0.405
0.959
A
B
x=4.03
A malı daha homojendir. Bu nedenle Amalının kalitesi B malının kalitesinden
yüksektir.
TCHEBYSHEFF TEOREMİ
Eğer populasyonu dağılışı tek tepeli olan yani bir normal dağılışa
benzemiyor veya tek tepeli ncak sağa veya sola çok çarpık durumda ise
amprik kural beklendiği gibi gerçekleşmez. Bu gibi durumlarda
popülasyondaki ölçüm değerlerinin belirlenen bir yüzde ile içerilen bir
aralığını bulmak için Chebyshev teoremi kullanılabilir
Teorem : Ortalaması  ve standart sapması  olan herhangi bir
dağılımda, populasyon üyeliğinin en az %(1-1/k2) kadarı (k>1 iken)
ortalamadan en çok 1 standart sapma uzaklıktadır ya da herhangi bir
populasyondan rastgele yapılan gözlemlerin (x) ölçümlerinin en az
100(1 – 1
aralığında yer alır.
k2
)% si   k
1  1 a 
2
Buna göre popülasyon ölçümlerinin en az %55,6’sı ortalamadan 1,5
“
“
“
“
“
“
“ %75’i
“ %84’ü
“ %88,9’u
uzaklıktadır.
Prof. Dr. Levent ŞENYAY
İstatistik I
31
V-
“
“
“
2
2,5
3
Bu (µ-k < x < µ+) >= %(1-1/k2) dir.
Bir örnekle ifade edersek
100(1 – 1
alır.
22
)% = 100(1 – 1 )% = %75 i ,   2 aralığında yer
4
4.2.2. Ortalama Mutlak Sapma –OMS (Average Devıatıon - AD):
Ortalama sapma da denir.
O.M.S.=
 xx
n

 x  med
n
veya
O.M.S.>0
Frekans dağılımından hesaplanması
O.M.S.=
 f xx
f

veya
 f x  med
f
Ondalık kesirler var ise büyük örneklerde kullanılır. Normal dağılımda x  A.D. rangı
seri elemanlarının %57,5’ini kapsar. A.D. küçük ise ve dağılımın çok sıkışık ya da tek
düzen olduğu anlaşılır.
 f x  x  1231,92  12,32 veya
100
f
 f x  med  1244,88  12,45
O.M.S.=
100
f
O.M.S.=
x O.M .S.  %57,5 idi.
32,62  12,32  20,30  44,98 veya
33,43  12,45  20,98  45,88
personelin yıllık ücretlerinin ortalama mutlak sapması
  33500$
$
xi
xi  
34500
30800
32900
36000
34100
33800
32500
1000
-2800
-600
2500
600
300
-1000
0
Prof. Dr. Levent ŞENYAY
İstatistik I
xi  
1000
2800
600
2500
600
300
1000
O.M.S=8800/7=1287$
32
V-
Bu ölçü yaygınlık belirtir ve standart sapmaya göre 2 üstünlüğü vardır.
1) yorumlanan (kavram/mutlak) daha kolay
2) σ , σ 2 uç değerlerden çok etkilenir.
4.2.3. Nispi Varyasyon Ölçüleri
1-Varyasyon Katsayısı: V 
V
S
x
sonuç yüzdesi azaldıkça tek düzenlik artar.
S
*100  % ( ) şeklinde bulunan sonuçlarda; aynı konuda yapılmış başka
x
araştırma sonuçlarını karşılaştırmaya yarar. %’ler azaldıkça araştırmanın hassasiyeti
artar. Aksi durumda azalır, yani üstün körü bir çalışma denebilir.
V 
S 15.45
=
 0.47
x 32.62
x
 fx  3262  32.62
 f 100
2- Ortalama Sapma Katsayısı:
Voms 
OMS 12.32

 0,38
x
32.62
3-Kartil Sapma Katsayısı:
Vq 
Q 3  Q1
Q 3  Q1
Dağılımın uçları açık olduğu zaman ya da uç değerler bulunduğunda ve dağılım çabuk
bir yorumu istendiğinde dağılma ölçüsünün ileri bir hesaplama ya da başka bir
maksatla kullanılmasında gerek olmadığında kullanılır.
Vq 
44.5  23.25 21.25

 0,31
44.5  23.25 67.75
4.3. Asimetri Ölçüleri
İki dağılımın x1  x2 ve S1  S 2 olduğu haldeki asimetrileri farklı olabilir.
İstatistik teorisi genellikle normal dağılış varsayımına dayandırıldığından asimetri önem
kazanmıştır.
4.3.1.Pearson Asimetri Ölçüsü
x  mod x  x  3x  med  3 x  med 


S
S
S
16
32,62  32,54
Mod  27 
* 9  32,54

 0,005
16  10
15,45
S kp 
S kp
Prof. Dr. Levent ŞENYAY
İstatistik I
33
V-
4.3.2. Kartillerden Asimetri Hesaplanması
Q 3  Q 2  Q 2  Q1 (+) asimetri
Q 3  Q 2  Q 2  Q1
(-) asimetri
Q 3  Q 2  Q 2  Q1 (0) asimetri yok
4.3.3. Bowley Asimetri Ölçüsü
S kb 
Q3  med   med  Q1 
S kb

Q3  Q1  2Q 2
Q3  Q1
Q3  Q1
67,75  233,43

 0,04
21,25
(+) as imetri
mod  med  x
(-) as imetri
x  med  mod
Prof. Dr. Levent ŞENYAY
İstatistik I
34
V-
4.4. Tanımlayıcı istatistiklere ait grafikler
4.4.1 Kutu Diyagramı (Box & Whisker Gösterimi)
Kutu gösterimlerinde en uç iki veri ile birlikte üç kartili de gösterebiliriz. Bu
gösterimlerde kutu yatay veya dikey olarak gösterilebilir ve sol çizgi 25 oranında alt
kartili ve sağ çizgi 75 oranındaki üst kartil içerir Kutu diyagramın her iki ucundaki
değerler en uç noktalardır. Örnek hacminin en az 50 veya 100 olduğu büyük veri
setlerinde, whiskerler en uç değerler yerine yüzde 10 veya 90 veya 5 veya 95 oranlarına
ulaşır. Box and whisker gösterimi ile minimum, ilk kartil, üçüncü kartil, medyan,
maximum değerler ve çarpıklık yada simetri görülebilir.
Final Sınavı
Sonuçları
2.yıl 3.yıl 4.yıl
47 56 43
52 59 48
52 59 50
57 61
55
63 67 61
64 69 67
69 73 72
71
76 78
72 76 80
72 80 80
78 83 83
81
83 85
81 84 89
86 90 91
91 94 97
%25
%25
%25
%25
2.yıl
57
71
81
Q1
Q2
Q3
3.yıl
61
76
83
4.yıl
55
78
85
Box Plot
100,0
80,0
Amount
Q3
Q2
60,0
Q1
40,0
C1
C2
C3
Variables
Verilerin analizinde karşılaşılan durumlardan en önemlisi farklı populasyonlardan elde
edilen iki veya daha fazla örneğin karşılaştırılması problemidir. Kutu diyagramları bu
sonuna çözüm üretir.
Prof. Dr. Levent ŞENYAY
İstatistik I
35
V-
Örnek:
A
B
17,6 18,3 10,8 19,2 18 39,4 21,4 19,9 23,7 22,7 23,2 19,6
12,4 28,1 11,5 7,8 16,7 16,8 25,6 23,7 26,9 11,2 21,5 18,9
Box Plot
40,0
Amount
28,3
16,7
5,0
A
B
Variables
4.4.2. Quantile-quantile (q-q plot)
Q-Q grafiği çizilirken izlenen adımlar;
1)
2)
3)
4)
5)
Öncelikle veriler küçükten büyüğe doğru sıralanır.
Verilerin ortalaması ve standart sapması hesaplanır.
Sıralanmış verilere sıra numarası (1,2,3,…,n) verilir.
Sıra numaraları toplam veri sayısına bölünerek (i/n) değerleri elde edilir.
Ortalama ve standart sapma değerleri kullanılarak ham veriler için z
değerleri elde edilir.
6) Z değerleri ile (i/n) değerleri aynı grafikte çizdirilir.
30
B
20
10
0
0
10
20
30
40
A
Prof. Dr. Levent ŞENYAY
İstatistik I
36
V-
Örnek:


İstendiğinde percentile ve kantilleri de i  0,5
12
, i=1,2,....,12
bu gösterimde
kullanılabilinir.
Eğimi bir olan orjinden geçen çizgi karşılaştırmaya yardımcı olur.
Eğer tüm noktalar bu 45 derecelik çizgi üzerinde iseler o zaman iki örnek arasında
tümüyle hiçbir fark yoktur; özellikle merkezleri ve genişlikleri aynıdır. Eğer tüm
noktalar bu çizginin altında ise eski örnekteki kantiller yeniye oranla daha büyüktür.
Başka bir değişle , eğer bütün noktalar bu çizginin üstünde ise yeni örnek eskisine
oranla daha büyüktür. Bu box and whisker diyagramından çıkardığımız aynı sonuçtur.
Quantile-quantile q-q plotunda iki dağılımın yayılımı hakkında da bilgi edinebiliriz.
Eğer plot edilen noktalar 1 den büyük bir eğim ile artıyorsa bu yatay eksende plot
edilen örneğin dikey eksende plot edilen örneğe nazaran daha az yayıldığını gösterir.
Bölüme ait örnekler
Örnek :
Dağılımlar
x
medyan
S
A
100
90
10
B
90
80
10
Her iki dağılımın
a) Standart sapması aynı olduğu için varyasyonları aynıdır.
b) Asimetriler
3x  med 
S
3100  90

3
10
S kb 
A’nın S kb
B’nin
Örnek:
Arit.Ort. Ömrü
Medyan Ömrü
A malı
4000
3500
B malı
3500
4000
x  mod  3x  med 
A için mod  3medyan  2x =3(3500)-2(4000)=2500
B için
mod  3medyan  2 x =3(4000)-2(3500)=5000
A’nın kalitesi B’den daha düşük
Prof. Dr. Levent ŞENYAY
İstatistik I
37
V-
S kb 
390  80
3
10
mod  med  x
Mod< 3500< 4000
x  med  mod
3500<4000<mod
Prof. Dr. Levent ŞENYAY
İstatistik I
38
V-
4.4. Bölüm Özeti (Verilerin Özetlenmesi)
Verileri özetlemek aşağıdaki işlemlerin tamamını içerir
Frekans tablosu
Grafikler
Histogram, (dağılımın şekli)
Sütun, alan grafikler
Kutu grafikler
Özet istatistikler (merkezi eğilim ve yayılma)
Ortalama, medyan, mod
Aralık, standart sapma, varyans, yüzdelik
Dağılımın şekli
Simetrik dağılım: bir orta değer etrafında eşit olarak dağılır.
–
Histogram grafiğinde çan eğrisinin iki tarafı da simetriktir.
Sağa eğimli (pozitif eğimli):
–
histogram grafiğinde çan eğrisinin kuyruğu sağa doğrudur.
Sola eğimli (negatif eğimli):
–
histogram grafiğinde çan eğrisinin kuyruğu sola doğrudur.
Merkezi eğilim ölçüleri
Ortalama, Ağırlıklı ortalama
–
Cebirseldir.
–
Uc ve eğimli değerlerden etkilenir
Geometrik ortalama
–
Geri dönüştürülmeden önce art .ort aynı özelliktedir
–
Sağa eğimli veriler için uygundur
Ortanca (medyan)
–
Uç değerlerden etkilenmez
–
Cebirsel değildir.
–
Örneklem dağılımından etkilenir
Aritmetik ortalama
Aralık (interval) ve oran (ratio) verilerinde hesaplanabilir.
Prof. Dr. Levent ŞENYAY
İstatistik I
39
V-
Medyan
Kategorik (ordinal), aralık (interval) ve oran (ratio) verilerinde hesaplanabilir.
Mod
–
Kategorik (nominal, ordinal), Aralık (İnterval) ve Oran (ratio) verileri
için hesaplanabilir
–
Örneklem dağılımı bilinmez
Yaygınlık ve sapma ölçüleri
Aralık
–
Uc değerlerden etkilenir
–
Örneklem sayısı arttıkça artma eğilimi gösterebilir
Yüzdelik
–
Uc değerlerden ve örneklemden etkilenmez
–
Küçük örnekler için hesaplanamayabilir.
–
Eğimli veriler için uygundur
Standart sapma ve varyans
–
Uc değerlerden etkilenir
–
Eğimli veriler için uygun değildir
–
H er gözlemi ele alır
Prof. Dr. Levent ŞENYAY
İstatistik I
40
V-
Download