Are You suprised ?

advertisement
4
TANIMLAYICI
İSTATİSTİKLER
4.1. Merkezi Eğilim Ölçüleri
4.1.1. Aritmetik Ortalama
4.1.2. Ağırlıklı Aritmetik Ortalama
4.1.3. Geometrik Ortalama
4.1.4. Harmonik Ortalama
4.1.5 Kuadratik Ortalama
4.1.6. Medyan
4.1.7. Kartiller
4.1.8. Decile ve Percentile
4.1.9. Mod
4.2. Değişkenlik Ölçüleri
4.2.1. Varyans Ve Standart Sapma:
4.2.2. Ortalama Mutlak Sapma –OMS
4.2.3. Nispi Varyasyon Ölçüleri
4.3. Asimetri Ölçüleri
4.3.1.Pearson Asimetri Ölçüsü
4.3.2. Kartillerden Asimetri Hesaplanması
4.3.3. Bowley Asimetri Ölçüsü
4.4. Momentler
2
4.1. Merkezi Eğilim Ölçüleri
Tanımlayıcı örnek istatistikleri, örnek verilerini kullanarak, bunlardan elde
edilen dağılışları sayısal olarak özetleyen değerlerdir. Bir veri grubunu tanımlamak
diğer tüm veri gruplarından ayırt edilebilecek en az sayıda örnek istatistiği ile
yapılmalıdır. Bu istatistiklerin en genel olarak elde edilmesini sağlayan değerler
momentlerdir. Tanımlayıcı istatistikler üç ana grupta toplanır,
1. Merkezi eğilim ölçüleri (yer ölçüleri)
2. Değişkenlik ölçüleri
3. Asimetri ölçüleri
Bunlardan merkezi eğilim ölçüleri, bir veri grubuna ilişkin değişkenin tüm
farklı değerlerinin etrafında toplandığı merkezi değerlerdir. Veri setlerinin merkezi
değerlerini belirlemeyi sağlar. Çok çeşitli olan ortalamalardan en önemlileri:
12345678910-
Aritmetik ortalama (mean)
Ağırlıklı aritmetik ortalama
Kesilmiş aritmetik ortalama (trancated mean)
Geometrik ortalama
Harmonik ortalama
Kuadratik ortalama.
Medyan
Kartil (çeyrek)
Sentil
Mod
Ortalamalar (averages) başlıca iki amaca hizmet ederler:
1) Herhangi bir örnekten elde edilen kantitatif (sayısal) veri grubunun kısa
açıklaması;
2) İndirek (dolaylı) olarak ve belli bir doğruluk derecesinde populasyonu
açıklamasıdır.
Merkezi Eğilim Ölçüleri ( Yer Ölçüleri) içerisinde, hesaplamalarında verilerin
tamamının kullanıldığı veya verilerin tamamının fonksiyonu olan ortalamalar
Aritmetik Ortalama
Ağırlıklı aritmetik ortalama
Geometrik Ortalama
Harmonik Ortalama
Kuadratik Ortalama
Verilerin tamamının hesaplamaya dahil olmadığı veya verilerin tamamının
fonksiyonu olmayan ortalamalar ise
Kesilmiş aritmetik ortalama
Medyan
Mod
Kartil – Çeyrek (1/4)
Sentil (1/10) dir.
3
Örnek ortalamaları, populasyon ortalamalarının yakın tahminleyicileri
(taktircileri) olduğundan genelleştirmeye müsaittirler ve böylece örnek limitleri
dışında açıklamaların yapılmasına yarar. Kısa veya ekonomik şekilde açıklamayı ve
daha önemlisi bilimsel araştırmayı olanaklı kılar.
4.1.1. Aritmetik Ortalama
Örnek verileri toplamının örnek hacmine bölümüdür.
N = Populasyon hacmi
n = Örnek hacmi
N
populasyon aritmetik ortalaması μ =
∑x
i =1
i
N
n
örnek aritmetik ortalaması
x=
∑x
i =1
i
n
Gruplandırılmış ve gruplandırılmamış(sınıflanmış/sınıflanmamış) verilerin aritmetik
ortalaması ayrı ayrı şekillerde hesaplandığı gibi gruplandırılmış verilerin aritmetik
ortalamasının hesaplanmasında da aynı sonuca varan 3 ayrı yöntem vardır. Bunlar;
1- Uzun metod
2- Orijinal birimlerle kısa metod
3- Sınıf aralığı birimleriyle kısa metoddur.
Gruplandırılmamış verilerin aritmetik ortalaması:
x=
∑x = x
1
n
+ x 2 + ... + x n
⇒ μ ’nün tahminleyicisidir.
n
Aritmetik ortalamanın özellikleri:
1- Örnek elemanları x ortalama etrafında toplanma eğilimdedir yani örneği en iyi
temsil eden tek bir elemandır ve simetri oluşturan değerdir.
2- Aritmetik ortalamadan sapmaların toplamı sıfırdır.
∑ (x − x ) = 0
∑x
x=
n
nx = ∑ x
∑ x − nx = 0
4
x
∑ x − n ∑n = 0
∑x−∑x = 0
Sapma: Herhangi bir elemanın değerinden aritmetik ortalamanın veya bir sabitin
çıkartılmasıdır.
⎛
∑ x ⎞⎟
d i = xi − x ve ⎜⎜ x =
n ⎟⎠
⎝
n
n
n
n
∑ d = ∑ ( x − x ) = ∑ x − ∑ x = (x + x
i =1
i
i
i =1
i =1
i
1
i =1
= ∑ xi − nx = ∑ xi − n
∑x
i
n
=0
z 2 = x2 + y 2
……..
…….
…….
……….
……….
………
z=x+y
d = x−a
x =a+d
z n = xn + y n
+ ... + xn ) − ( x + x + ... + x )
n
d i = xi − a
d1 = x1 − a
z1 = x1 + y1
2
d n = xn − a
Σz=Σ(x+y)
Σz/n=Σx/n+Σy/n
3- Örnek elemanlarının aritmetik ortalamadan sapmaları kareleri toplamı
minimumdur.
n
∑ (x
i =1
− x ) = min
2
i
Aritmetik ortalamanın merkezi eğilim ölçüsü kabul edilmesinin nedeni budur.
∑ x = nx
n
4- Örnek değerlerinde meydana gelen değişim çok küçük de olsa aritmetik ortalama bu
değişimden etkilenir.
5- Verilerin tümünün bir fonksiyonudur.
6- Örnek gözlemlerin tümü a gibi bir sabit ile çarpılırsa bu yeni veri setinin aritmetik
ortalaması da eski veri setinin aritmetik ortalamasının a ile çarpımı kadar değişir.
7- Örnek gözlemlerin tümü a gibi bir sabit ile toplanırsa bu yeni veri setinin aritmetik
ortalaması da eski veri setinin aritmetik ortalamasının a ile toplamı kadar değişir.
8- Aritmetik ortalama tüm verileri hesaplama fonksiyonu içinde kullanması nedeni ile
güçlü bir istatistiktir.
5
9- Aritmetik ortalama verilerdeki uç değerlerden etkilenmesi ise bu istatistiğin zayıf
yönünü oluşturur.
Frekans verilerinde aritmetik ortalamanın hesaplanış şekli
1-Uzun Metod:
x=
x=
∑ fx = ∑ fx
n
∑f
La + Lü altlimit + üstlimit
=
2
2
(sınıf orta noktası)
i: Sınıf Aralığı
Örnek :
Sınıflar
La Lü
2 – 6
7 – 11
12 – 16
17 – 21
22 – 26
Toplam
x =
∑ fx
∑f
x
frekans
8
17
25
12
10
f = 72
4
9
14
19
24
∑
=
fx
∑
32
153
350
228
240
fx = 1003
A=9
d=x -A
-5
0
5
10
15
∑
A=14
fd=f(x-A)
-40
0
125
120
150
fd = 355
i=5
d′
fd ′
-2
-1
0
1
2
-16
-17
0
12
20
'
fd =-1
∑
1003
= 13.93
72
2- Orijinal birimlerle kısa metot:
x = A+
∑ fd
∑f
A: varsayımlı ortalama (herhangi bir x)
d: varsayımlı ortalamalardan sapmalar
d = xi − A
355
x =9+
= 13.93
72
∑ fd
Düzeltme faktörüdür, varsayımlı ortalamaya eklendiği zaman aritmetik
∑f
ortalama bulunur.
3-Sınıf aralığı birimleri ile kısa metod:
∑ fd
x = A+
∑f
x = 14 +
'
.i
i=6-2+1=5
−1
.5 = 13.93
72
d ' : sınıfların varsayımlı ortalamalarının içinde bulunduğu sınıftan yer farkı (sapma)
i: sınıf aralığı (sınıf hacmi) (i = L2 − L1 + 1)
6
4.1.2. Ağırlıklı Aritmetik Ortalama
Gözlemler belli bir kritere göre ağırlıklandırılmış ise ağırlıklı aritmetik ortalama
kullanılır. Ağırlıklı aritmetik ortalama kullanılırken tüm gözlemlerin ağırlıkları eşit ise
aritmetik ortalama ile aynı sonucu verir. İndex sayıların hesaplanmasında, yüzdelerin
ortalamasında çarpımların ortalamasının alınmasında kullanılır.
Basit seriler için
xw
Frekans verileri için
∑ wx
veya
∑w
∑ wfx
x =
∑ wf
w
f1 x1 + f 2 x 2 + ...
f1 + f 2 + ...
ˆ xw
x w ............... ∑
f x + f 2 x 2 + ........
i i
=
= 1 1
Xw = 1 1
w1
f 1 + f 2 + ......
∑ wi
x w = Σf i wi / Σwi =
Örnek: Bir öğrenci w kredili, f adet dersten x notu almıştır. Buna göre not
ortalamasını hesaplayınız.
W
f
x
4
3
100 A(4)
4
2
90 B(3)
3
2
100 A(4)
4 × 3 × 4 + 4 × 2 × 3 + ... + 2 × 2 × 2 149
3
3
85 B(3)
=
= 2.77
xw =
4 × 3 + 4 × 2 + ... + 2 × 2
54
3
2
75 C(2)
3
2
50 D(1)
3
1
20 F(0)
2
2
60 C(2)
Örnek:
İstatistiki Bölge Birimleri Sınıflandırmasına göre Türkiye toplam 12 bölgeye
ayrılmaktadır. Aşağıda bu bölgelere ilişkin 2000 yılı nüfus ve kişi başına düşen GSYİH
(YTL) miktarları verilmektedir. Bu verilerden yola çıkarak Türkiye geneline ilişkin
ortalama kişi başına düşen GSYİH miktarını bulunuz.
Toplam nüfus
BÖLGE ADI
GSYİH (1000 YTL) (x)
(1 milyon) (w)
wx
1 Kuzeydoğu Anadolu
1.1
2.5
2.75
2 Ortadoğu Anadolu
1.3
3.7
4.81
3 Güneydoğu Anadolu
1.4
6.6
9.24
4 İstanbul
3.7
10.0
37
5 Batı Marmara
2.9
2.9
8.41
6 Ege
3.1
8.9
27.59
7 Doğu Marmara
3.9
5.7
22.23
8 Batı Anadolu
2.8
6.4
17.92
9 Akdeniz
2.5
8.7
21.75
10 Orta Anadolu
1.9
4.2
7.98
11 Batı Karadeniz
2.1
4.8
10.08
12 Doğu Karadeniz
1.7
3.1
5.27
TOPLAM
28.4
67.5 175.03
7
Aritmetik ortalama ile hesaplanırsa:
x=
1.1 + 1.3 + 1.4 + 3.7 + 2.9 + 3.1 + 3.9 + 2.8 + 2.5 + 1.9 + 2.1 + 1.7 28.4
=
= 2.367
12
12
Sakınca nedir?
Ağırlıklı aritmetik ortalama ile hesaplanırsa:
xw =
(1.1× 2.5) + (1.3 × 3.7) + ... + (1.7 × 3.1)
= 2.59
2.5 + 3.7 + ... + 3.1
Kesilmiş Aritmetik Ortalama
Verilerin içerisinde en büyük ve en küçük değerlerin yaklaşık % 5’i verilerden
kopmuş olarak aşırı sapan değerler içeriyor ve bu değerler verilerin doğal yapısına çok
uygun olmadığı kanaati var ise, bu durumda verilerin en alt ve üst kısmından % 5 lik
kısmı atılarak geri kalan kısmının aritmetik ortalamasının alınması ile elde edilen
aritmetik ortalamadır. Örneğin, 100 kişilik bir sınıfta derslere devan etmemiş 5 yada 6
öğrenci var ve bu öğrenciler derslere sadece soruları öğrenmek için gelmişler ise, söz
konusu bu öğrencilerin sınav notları olan sıfır değerleri veri setinden çıkarılarak
hesaplanan ortalama sınıfın gerçek performansı olan not ortalamasını daha doğru
açıklar.
4.1.3. Geometrik Ortalama
Geometrik dizi şeklinde artış ya da azalış gösteren verileri en iyi temsil eden
merkezi eğilim ölçüsüdür.
Tanım: Örnek veri değerleri çarpımının, örnek hacmi derecesinden köküne
eşittir.
G = n x1 .x 2 .x3 ......x n
Özellikleri:
1- xi > 0 olmalıdır.
2- Serideki değerlerin her birinin yerine geometrik ortalama konulduğunda
serinin çarpım sonucu değişmez.
2.4.8.16.32 = 32768 = 8.8.8.8.8
3- Geometrik ortalamanın orijinal gözlemlerinin logaritmik sapmaları eşittir.
Bu özellikten dolayı ortalama oranlara, değişme oranlarına, logaritmik
dağılmış şekiller uygulanır. Örneğin; fiyat indekslerinde geometrik ortalama
anlamlı sonuçlar verir.
4- Aritmetik ortalama gerçekte nispi olan değerler yerine mutlak değerlenmiş
gibi bir işleme bağlı tutularak çok artan nispi değerleri olduğundan fazla
gösterir. Bu yüzden yukarı eğilimlidir.
5- Logaritmik bir dağılımda geometrik ortalamanın tercih nedeni böyle bir
dağılımda mutlak sapmaların değil ancak merkezi eğilim etrafında nispi
sapmaların simetrik olma eğilimidir.
8
6- G < x
x
x1 x 2
* * .................... n = 1
G G
G
7891011-
G birimleri değerleri arasındaki orana göre değer alır.
Uç değerlerden x kadar etkilenmez.
x1 .x 2 ...........x n = G n
G’nin altındaki ve üstündeki orijinal gözlemlerin logaritmik sapmaları
eşittir. Diğer bir deyişle, G değeri gözlemlerin G’den nispi sapmalarını
dengeler. Bu özellik nedeniyle G, özellikle ortalama oranlara, değişme
oranlarına ve logaritmik dağılan serilere daha uygundur. Örneğin, fiyat
endeksi.
∏
xi < G
G
xi
= G = ∏ Gxi
xi > G
Geometrik ortalamanın en yararlı olarak kullanıldığı alanlardan biri de ortalama
değişiklik oranıdır.
Logaritmaları alınmış değişkenlerin tekrar orijinal şekle dönüştürülmüş
ortalamasına geometrik ortalama denir.
Basit seride geometrik ortalama hesabı :
G = n x1 .x 2 .x3 ......x n
⎛ n
⎞
G = ⎜⎜ ∏ xi ⎟⎟
⎝ i =1 ⎠
1
n
= ( x1 .x 2 .x3 ........x n )
1
n
G = n x1 .x 2 .x3 ......x n
n
1
[log x1 + log x2 + ..... log xn ] = 1 ⎡⎢∑ log xi ⎤⎥
n
n ⎣ i =1
⎦
n
1
G = anti log ∑ log xi
n i =!
log G =
g = n x1 .x 2 ......x n
g = 3 3.9.27 = 9
g = 7 3.5.7..810.13.16 = 7 1,747,200
log g =
1
1
log 1,747,200 = 6,2423 = 0,8918
7
7
9
Frekans serilerinde geometrik serinin hesaplanması:
f1
f2
x1
x2
…
….
xn
fn
∑f
=N
(
G = Σf x1f1 .x2f2 ........xnfn = x1f1 x2f2 ...xnfn
)∑
1
f
G = N x1 x1.....x1 x2 x2 .....x2 ............ xn xn .....xn
f1tane
f 2 tane
f n tane
fn
f1 f 2
= x1 x2 .... xn = x1f1 x2f2 ...xnfn
N
N
N = ∑ fi
i =1
1
[ f1 log x1 + f 2 log x2 + ...... + f n log xn ] = 1
Σf
Σf
n
1
G = anti log
∑ f i log xi
Σf i =1
log G =
n
∑f
i =1
i
log xi
Geometrik ortalamanın tercih nedeni; geometrik ortalamada merkezi eğilim (mutlak
sapma değil) etrafındaki nispi sapmaların simetrik olma eğilimi/özelliğidir.
Bileşik Faiz Formülü
Pn = P0 (1 + r )
(1 + r ) = n
r=n
Pn
P0
=
Pn
P0
Pn
−1
Po
log g =
=
(1 + r )n
n
log(1 + r ) =
log Pn − log Po
n
(
1
log x1f1 ............
N
1
( f1 log x1 + f 2 log x2
N
P0=başlangıç miktarı
r= faiz oranı
n=yıl (faiz dönemi)
Pn=n yıl sonraki meblağ
=
∑f
i
log xi
N
Pn = P0 (1+ r)
n
Pn
n
= (1 + r )
P0
10
1+ r =
n
Pn
P0
Örnek: 3 yılda 1000$, 5000$ a artmıştır. Yıllık ortalama artış yüzdesi nedir?
%500
gibi gözükse de bu ortalama % artışı doğru değildir. “r ortalama artış
3
yüzdesini göstermektedir
Başlangıç 1000
1 yıl sonra 1000+1000r1000(1+r
2 yıl sonra 1000(1+r)+ 1000(1+r)r=1000(1+r)2
3 yıl sonra 1000(1+r)2+1000(1+r)2r=1000(1+r)3=5000
(1 + r )
3
Pn = P0 (1 + r )
r = 3 5 −1
=5
n
Örnek:
A malı
B malı
baz yıl 1945=100
1945
1955
200
100
100
50
125
100
Fmal
1955
100
100
1945
50
200
x
A %100 artmış , B %50 düşmüş
fiyatlar %100 artmış
yanlış
ort.
G = 200 * 50 = 100
4.1.4. Harmonik Ortalama
Tanım: Gözlemlerin terslerinin aritmetik ortalamasının tersidir.
elemanları birbirine eşit olmadıkça
Serinin tüm
x >G>H
bağıntısı mevcuttur.
Eğer
x1 = x 2 = .......x n ise x = G = H olur.
Harmonik ortalama küçük değerlerden çok, büyük değerlerden az etkilenir. Harmonik
ortalama aşağı eğimlidir.
H.O’da xi > 0 olmalıdır.
1
n
H=
1
1
1
1
+
+ ......
x1 x 2
xn
n
=
n
1
∑
i =1 xi
n
veya
1
=
H
∑x
i =1
n
i
11
H.O belli koşullar altında ve belli fiyat tipleri altında zaman serilerini ortalamak için
kullanılır.
Uygulamada sabit ve değişken birimler vardır. Zaman sabit üretim değişken
olduğunda, eşit zaman periyodlarındaki üretim ortalaması için kullanılır.
Örneğin; 1 birimlik mal A kişisi tarafından 30 dk’da ve yine 1 birimlik mal B kişisi
tarafından 20 dk’da üretiliyorsa mal miktarı sabit, zaman değişkendir. Ortalaması
alınan değişkendir yani zamandır.
H=
2
= 24 dk’da 1kg mal (ort.) üretilmektedir
1
1
+
20 30
.
Uçakla 400 km, trenle 60 km(570km)
H .O =
2
1
1
+
400 60
=
2
4800
=
≅ 104km / h
46
46
2400
Üretim birimi sabit, maliyet değişken olduğunda birim başına ortalama maliyet için
HO kullanılır. Örneğin bir kişi 1. marketten 3 kilo meyveye 10 lira, diğer marketten
aldığı 4 kilo meyveye 10 lira öder ve 3. markette 5 kilo meyveye 10 lira öderse,
meyvelerin ortalama fiyatı HO dır.
HO =
3
= 2.5lira
10 10 10
+ +
3 4
5
Bu örnek ağırlıklı aritmetik ortalama ile de hesaplandığında aynı doğru sonucu verir.
Harmonik Ortalama uygulama yerleri
Zaman birimi başına hız
Para birimi başına satın alınan birim sayısı
h=
1
1
1
∑
n i =1 xi
n
=
n
1
∑x
i
2,4,9
h=
3
= 3.48
1 1 1
+ +
2 5 9
Örnek: A ve B gibi iki şehir arasında 100km lik bir yol vardır. Bir otomobilli yolun
ilk yarısını 30 km/saat hızla gidiyor. Diğer yarısını 40 km/saat hızla gidiyor. Hız
ortalaması nedir?
v = ortalama hız ; t = geçen zaman ; d
= alınan yol
d=v*t
d
= v1.t1 = v2 .t2
2
t1: Yolun ilk yarısında geçen zaman
t2: Yolun ikinci yarısında geçen zaman
12
Buradan
d
d/2
A
t1 =
B
M
d
d
ve t2 =
2v1
2v2
t = t1 + t2 =
d ⎛ 1 1 ⎞ vt ⎛ 1 1 ⎞
. ⎜ + ⎟ = ⎜ + ⎟ yazılır.
2 ⎝ v1 v2 ⎠ 2 ⎝ v1 v2 ⎠
Böylece hız ortalaması
v=
d
vt
2
2
=
=
=
= 34.28 =
1 ⎞
t vt ⎛ 1 1 ⎞ ⎛ 1 1 ⎞ ⎛ 1
⎜ + ⎟ ⎜ + ⎟ ⎜ + ⎟
2 ⎝ v1 v2 ⎠ ⎝ v1 v2 ⎠ ⎝ 30 40 ⎠
n
1
∑x
i
= Harmonik
ortalama
4.1.5 Kuadratik Ortalama
Tanım: Gözlemlerin karelerinin aritmetik ortalamasının köküdür. Standart
sapmanın hesaplanmasında kullanılır. Ortalama değerlerinin ortalamasında kullanılmaz.
K > x > G > H bağıntısı vardır.
K=
∑x
2
n
ab ≤
a2 + b2
n
4.1.6. Medyan ( x)
Büyüklük sırası ile dizilmiş bir dizinin en ortadaki elemanının değeridir.
n +1
inci eleman değeri
2
n
n
Örnek hacmi çift ise
ve + 1 inci elemanların aritmetik ortalamasıdır.
2
2
Örnek hacmi tek ise
Medyanın en önemli özelliği: Elemanların medyandan mutlak sapmaları toplamı
minimumdur.
∑x
i
− med = min .
13
Medyan’ın Diğer Özellikleri
1) Birim sayısındaki değişmelerden etkilenir, uç değerlerden etkilenmez.
2) Medyanın standart hatası, aritmetik ortalamanınkinden daha büyüktür.
Uygulama yerleri: gelir dağılımı, ücret dağılımı gibi değerce tam ortada yer alan
değerleri bilinmesinde pratik yarar olan durumlarda tercih edilir.
Basit serilerde medyan hesabı
Örnek:
n tek ise
16 20 21
medyan 20
n çift ise
15 19 23 25
⇔
19 + 23
= 21 → medyan
2
Medyan; rütbeler, ücretler, biçiminde belirlenmiş gözlemlerin açıklanmasında anlam
taşır.
Sigorta hadleri genellikle medyanlardır. Ulaşım sorununda merkezi yer olarak
medyanlar seçilir.
3) Medyan verilerin tümünü kullanmayan ve tümünden etkilenmeyen bir istatistik.
Özellikle uç değerlerden etkilenmez, daha çok ortanca değerlerden etkilenir. Tüm
verilerin bir fonksiyonu olmaması açısından zayıf bir istatistik olmasını sağlar, diğer
taraftan uç değerlerden etkilenmemesi ise bazı açılardan güçlü bir özelliktir.
Frekans (Sınıflandırılmış) verilerde medyan hesaplanması:
1-İnterpolasyon (aritmetik) metot:
Medyan değerini içinde bulunduran sınıfa ‘medyan sınıfı’ denir. Medyanın gerçek
değerini bulmak için, medyan sınıfında alt sınıf limitlerinden medyan noktasına kadar
dağılmış frekansların, medyan sınıfındaki tüm frekanslara oranı tayin edilir.
Medyan = L +
Σf / 2 − Σf i
i Σf
.i = L +
( − Σf i )
fmed
f med 2
Σf = n=frekansların toplamı
L=medyan sınıfının alt limiti (Σf / 2' yi geçen ilk sınıfın alt limiti)
f med = medyan sınıfı frekansı
Σf i = medyandan önceki frekansların kümülatif toplamı
i= sınıf aralığı
İnterpolasyon metodu verilerin sürekli ve seri elemanlarının sınıf aralıklarında eşit
dağıldığı varsayımına dayandırılır. Veya sınıf aralığı olarak medyan sınıfı aralığı
kullanılır.
Prof. Dr. Levent ŞENYAY
İstatistik I
13
V-
14
Örnek:
∑f
Sınıflar
Fr. f
Σf
3-5
6-8
9-11
12-14
15-17
18-20
21-23
24-26
10
15
35
50
40
30
28
22
10
25
60
110
150
180
208
230
Σf
230
220
205
170
120
80
50
22
↓
↑
= 230
Medyan sınıfı
Σf
( − Σf i )
medyan = L + 2
i
f medyan
230/2 - 110
.3
Medyan : 15 +
40
= 15.375
Sınıf aralığının belirlenmesi
Tüm sınıflarda sınıf aralıkları eşit olabilir veya olmayabilir.
a. Sınıflar
1 - 5
6 - 10
11 - 15
16 - 20
b. sınıflar
1.0 – 5.9
6.0 – 10,9
11.0 – 15.9
16.0 – 20.0
c. sınıflar
1.00 – 5.99
6.00 – 10.99
11.00 – 15.99
16.00 – 20.00
i =Lü-La+en küçük ölçüm aralığı
i = 5-1+1 (+1 hassasiyet birimi)
i= 5.9-1.0+0.1 (+0.1 hassasiyet birim)
i=5,99-1.00+0.01 (+0.01 hassasiyet birimi)
d. sınıflar
1 – 5 den az (=4)
5 – 10 dan az (=9)
10 – 15 den az (14)
i=4-1+1 (+1 hassasiyet birimi)
e. Sınıflar
1.0 – 5.0 dan az (=4.9)
5.0 – 10.0 dan az (=9.9)
Prof. Dr. Levent ŞENYAY
İstatistik I
i=4.9-1.0+0.1 (+0.1 hassasiyet birimi)
14
V-
15
2-Grafik (geometrik) metotla medyanın bulunması:
∑f
i
230
208
180
150
∑f
2
= 115
110
60
25
10
3
6
9
12
15
18
21
24
27
alt limitler
∝ 15
Grafik 1 : …den daha az eğrisi
Prof. Dr. Levent ŞENYAY
İstatistik I
15
V-
16
↑ ∑ fi
225
220
205
170
∑f
2
= 115
120
80
60
22
10
5
8
11
14
17
20
23
26
üst limitler
∝ 15
Grafik 2 : …den daha çok eğrisi
∑f
i
ve ↑
∑f
i
Medyan
sınıf limitleri
Grafik 3: den daha az ve den daha çok eğrilerinin birlikte çizildiği grafik
Prof. Dr. Levent ŞENYAY
İstatistik I
16
V-
17
4.1.7. Kartiller
(Q ) = kuarter=çeyrek
Veri setini yüzdelik olarak dört eşit parçaya ayıran nokta sırasıyla Q1 , Q2 , Q3 olarak
gösterilir.
% 25
% 25
e n a lt
ç e y re k
Q1
Q1 = L +
∑f
4 − ∑ fi
fθ1
Q 2 = Medyan = L +
Q3 = L +
% 25
ü s t- o r ta
ç e y re k
a lt- o r ta
ç e y re k
Q2
% 25
en üst
ç e y re k
Q3
i
∑f
2 − ∑ fi
f θ2
×i
3∑ f 4 − ∑ f i
fθ 3
Örnek: Bir mağazada bir günlük satış tutarları ve alışveriş yapan müşteri sayısı
aşağıdaki gibi sınıflanmıştır.
Müş.
∑f
x
Miktarı
0- 8
9-17
Q1 18-26
Sayısı
10
8
12
10
18
30
4
13
22
Q 2 27-35
Q 3 36-44
28
58
31
18
14
10
76
90
100
40
49
58
Satış
∑
45-53
54-62
100
Q1 = L +
∑f
4 − ∑ fi
fθ1
i
L= kümilatif frekans ¼’ü geçen sınıfın alt limiti
∑f
i
= Q1 ' den bir önceki sınıfa kadar f n toplamı
fθ1 = Q1 sınıf frekansı
Prof. Dr. Levent ŞENYAY
İstatistik I
17
V-
18
i= sınıf aralığı
Q1 = 18 +
25 − 18
× 9 = 23.25
12
Q 2 = Medyan = L +
Q 2 = 27 +
Q3 = L +
∑f
2 − ∑ fi
f θ2
×i
50 − 30
× 9 = 33.43
28
3∑ f 4 − ∑ f i
fθ3
×i
L=kümilatif frekansı ¾’ü geçen ilk sınıfın
∑
alt limiti
f i = Q 3 ' den bir önceki sınıfa kadar fr. Toplamı
f θ 3 = Q 3 sınıfı frekansı
Q3 = 36 +
75 − 58
× 9 = 44.5
18
4.1.8. Decile ve Percentile
Decile bir dağılımı 10 eşit parçaya böler ve 9 tane decil vardır, Percentile ise
bir dağılımı 100 eşit parçaya bölen 99 tanedir. Basit ve frekans serilerinde hesaplanışları
medyan veya kartil hesaplamalarına benzer şekildedir.
range
percentile
%30
%70
70. percentile
4.1.9. Mod
Dağılımın en çok tekrar eden değeridir. Mod’un özelliği seride en yüksek olasılıklı
bir eleman oluşudur. Halk dilinde ortalama olarak en çok kullanılan mod’dur. Birden
fazla değer aynı frekansa sahip olduğunda tek bir mod saptanması olanaksızdır.
Kesiksiz seride değerler birbirini sürekli biçimde izlediklerinden, veriler
gruplandırılmadıkça mod diye bir eleman olmayabilecektır. Kesikli veriler durumunda
Prof. Dr. Levent ŞENYAY
İstatistik I
18
V-
19
bile birden fazla tekrarlanmayan değerlerle karşılaşılabilir, bu durumda da tabi mod
yoktur. (örneğin şehir nüfusları).
a. Basit serierde mod hesabı
xi = 3,3,5,1
3 ⇒ mod değeri
Mod tüm verilerin bir fonksiyonu olmayan bir istatistik, yani tüm verilerden
etkilenmez.
b. Frekans (Sınıflandırılmış) Verilerde Mod’un Hesaplanması:
1-)İnterpolasyon (aritmetik ) metot:
Mod = L +
Δ1
.i
Δ1 + Δ 2
L=mod sınıfının alt limiti
İ= sınıf aralığı
Δ 1 = modal sınıf frekansı ile premodal(möddan bir önceki) sınıf frekansı
arasındaki mutlak fark
Δ 2 = modal sınıf frekansı ile postmodal(moddan bir sonraki) sınıf frekansı
arasındaki mutlak fark
Prof. Dr. Levent ŞENYAY
İstatistik I
19
V-
20
Δ1 = 1 Δ 2 = 2
Δ1
1
=
Δ1 + Δ 2 3
L+i
mode
Δ1
Δ1 + Δ 2
Δ1
Δ2
∗
L
1/3
2/3
Örnek:
sınıflar
frekanslar
3-5
6-8
9-11
12-14
15-17
18-20
21-23
24-26
Mod= 12 +
10
15
35
50
40
30
28
22
premodal sınıf
mod sınıfı
postmodel sınıf
( 50 − 35)
× 3 = 13.8
( 50 − 35) + ( 50 − 40 )
Veya i=5-1+1=5
Prof. Dr. Levent ŞENYAY
İstatistik I
20
V-
i=10-5=5
21
2-)Grafik(Geometrik ) Metodu
Fr.
50
40
35
9
12
MOD 15
alt limit
3-)Denel (Ampirik) Metot
Bu metod asimetrik dağılımlarda aritmetik ortalama ile mod arasındaki
uzaklığın, aritmetik ortalama ile medyan arasındaki arasındaki uzaklığın 3 katı olduğu
varsayımına dayanır. Fazla güvenilir bir sonucu her zaman vermeyebilir.
x − mod = 3 * ( x − medyan ) varsayılan eşitlik
Tek modlu frekans eğrilerinde, moderate asimetri halinde aşağıdaki deneysel
ilişki vardır.
x − Mod
= x − Medyan
3
Simetrik dağılışlarda ise;
x = mod = medyan
x > medyan > mod
dağılımında(+)asimetri varsa
dağılımında(-)asimetri varsa
x < medyan < mod
Prof. Dr. Levent ŞENYAY
İstatistik I
21
V-
22
(+) Asimetri
mod med x
(-) Asimetri
x med mod
med=15
x = 15.31
x − mod = 3 * ( x − med )
mod=13.8
ve görüldüğü gibi (+) asimetrik bir dağılımdır.
x > med > mod
Bu varsayım orta derecede asimetrik bir dağılımda söz konusudur çünkü; orta
derecede bir asimetrik dağılımda medyan, mod’a oranla ortalamadan üçte biri kadar
uzakta bulunup asimetrik dağılımda x , mod, ve medyanın birbirinden uzaklaşma
nedeni, mod dağılımının en yüksek ordinatıdır, medyan ise dağılımı iki eşit parçaya
ayıracağından uzun olan tarafa gider, ortalama ise uç (extramum) değerlerden çok
etkilendiği için küçük değerlerin yönüne doğru medyandan daha uzaklaşır. Elementer
mod hesaplama metodlarının ayrı sonuç vermesi
beklendiğinden, seriyi açıklama konusunda seçilecek mod değerleri hakkında
araştırmacı kendi yargılamasını kullanmalıdır.
Prof. Dr. Levent ŞENYAY
İstatistik I
22
V-
23
ÖRNEK: Bir doğru üzerinde birbirine bitişik iki doğru parçasının uzunlukları a ve b
olsun. Bu iki doğru parçası çap olmak üzere bir yarım çember çizelim. Çemberin r
yarıçapının a ve b nin aritmetik ortalaması olduğunu ve dik “h” uzunluğunun bunların
geometrik ortalaması olduğunu gösteriniz.
x
h
y
a
b
2r = a + b
a+b
r=
2
2
a + h2 = x2
⇒ aritmetik ortalama
b2 + h2 = y 2
→ 2. pisagor
→ 1. pisagor
x 2 + y 2 = ( a + b) 2
→ 3. pisagor
⇒
a 2 + b 2 + 2h 2 = a 2 + b 2 + 2ab
⇒
2h 2 = 2ab
⇒
h = 2 ab = ab
⇒ geometrik ortalama
Örnek:
Bir köydeki 10 çiftçinin dönüme buğday verimleri ve sahip oldukları buğday
arazileri aşağıda verilmiştir.
Çiftçi No
1
2
3
4
5
6
7
8
9
10
Verim (kg/dön) 250 340 305 300 195 275 310 330 375 210
Arazi(dön)
15 25 12 30 35 5
20 17 10 23
Sadece verim dikkate alındığında aritmetik ortalama :
x=
2890
= 289kg / dön
10
Ağırlıklar (arazi) dikkate alındığında ise ağırlıklı aritmetik ortalama :
xw =
250.15 + 340.25 + ... + 375.10 + 210.23 53500
=
= 278.6458kg / dön
15 + 25 + ... + 10 + 23
192
Prof. Dr. Levent ŞENYAY
İstatistik I
23
V-
24
Görüldüğü gibi ağırlıklı ortalama, aritmetik ortalamadan daha küçüktür.
xw < x
Bunun anlamı; yüksek verim elde eden çiftçilerin arazileri nispeten daha küçüktür.
4.2. Değişkenlik Ölçüleri
Tanımlayıcı istatistiklerden merkezi eğilim ölçüleri verilerin önemli bir çok
özelliğini açıklamasına rağmen, veri grubunu diğerlerinden tam olarak ayıracak şekilde
tam olarak açıklayamaz. Bu eksiklik verilerin öncelikle değişkenlik farklılığından gelir
ve son olarak da asimetri yapılarının farklılıklarından meydana gelir. Diğer bir deyişle,
aynı merkezi eğilim değerlerine sahip olan farklı veriler olabilir ve bu farklılık ya
değişkenlik değerlerinden veya asimetri değerlerinden ya da hem değişkenlik hem de
asimetri değerlerinin farklılığından kaynaklanabilir.
70
80
130 140
105
Yukarıdaki iki dağılım ayrı ranglı (ve yayılımlı) fakat aynı ortalamalı iki dağılımdır.
80-130 limitleri arasındaki dağılım homogen (türdeş)
70-140 limitleri arasındaki dağılım hetorogen (ayrı tür) dağılımlardır.
RANG: Üst limit - Alt limit +1 (+1 hassasiyet birimi)
Yukarıdaki dağılımların rangları = 130-80+1=51 diğeri ise 140-70+1=71’dir.
Varyasyon, yaygınlık miktarını ; asimetri ise simetrinin bozulma miktarını belirler.
Değişkenlik (yaygınlık) derecesini gösteren tanımlayıcı istatistikler
Bu grupta yer alan değişkenlik istatistikleri, tek bir değere dayalı istatistiklerdir. Diğer
bir değişkenlik istatistikleri grubu ise bu tek değere dayalı değişkenlik istatistiklerinin
bir birlerine değişik şekillerde oranları olarak ifade edilen ve yorumlanan değişkenlik
istatistikleridir.
1-) Toplam rang
Prof. Dr. Levent ŞENYAY
İstatistik I
24
V-
25
2-) Kartiller arası rang
3-) Yarı kartiller arası rang
4-)Standart sapma σ
5-)Ortalama sapma(A.D)
Nispi varyasyon (oranlanan değişkenlik) ölçüleri
1-) Varyasyon katsayısı
2-) Ortalama sapma katsayısı
3-) Kartil sapma katsayısı
Asimetri miktarı ise
(x − mod ) ’dan bulunur.
Dağılımlar Arasında Diklik ya da Basıklık Ölçüsü
lepta kurtik(fazla dik)
mezo kurtik (orta diklik)
plati kurtik (yatik tepeli)
Kurtosisler
Kartiller Arası Rang = Q 3 − Q1 = 44,5 − 23,25 = 21,25
Yarı Kartiller Arası Rang= Q.D =
Q 3 − Q1 21,25
=
= 10,63
2
2
Q .D (yarı kartiller arası rang) çok küçük ise merkezi elemanların ufak varyansa sahip
olduğu anlaşılır, ya da çok yüksek derecede tek düzen olduğu anlaşılır.
Q 2 ∓ QD ancak dağılımın %50’e yakın bir rangı kapsar.
33,43 ∓ . 10,63= 22,8-44,6 dağılımın %50’si.
4.2.1. Varyans Ve Standart Sapma:
Aritmetik ortalamadan sapmaların karelerinin aritmetik ortalamasının kare köküne
standart sapma adı verilir.Standart sapmanın karesine varyans denir. Bir anlanda
sapma karelerinin ortalamasıdır.
Prof. Dr. Levent ŞENYAY
İstatistik I
25
V-
26
S =Örnek standart sapması
σ 2 = Populasyon standart sapması
S 2 =Örnek varyansı
σ 2 = populasyon varyansi
Basit serilerde standart sapmanın hesaplanışı
∑(x − x )
σ=
∑x
2
=
N
2
N
⎛∑x⎞
−⎜
=
⎜ N ⎟⎟
⎝
⎠
2
∑x
N
2
− x2
Açıklama :
∑ (x − x)
2
= ∑x −2
2
σ2 =
∑x
−2
⎛∑x⎞
⎟ =
x + n⎜
∑
⎜ n ⎟
n
⎝
⎠
= ∑ x 2 − 2 x ∑ x + nx 2 = ∑ x 2
(∑ x ) 2
n
∑( x − x )
i
n
= x2 − x 2 =
+
∑( x
2
=
(∑ x ) 2
n
2
− 2 xx + x 2 )
n
∑x
2
n
= ∑x −
⎛∑x⎞
−⎜
⎜ n ⎟⎟
⎝
⎠
2
=
∑x
(∑ x ) 2
n
2
n
2
− 2x
∑ x + nx
n
n
2
=
2
Populasyon standart sapması
σ=
∑ (x − μ )
2
N
Örnek standart sapması
S=
∑x
2
(∑ x)
−
n −1
2
n
Frekans verilerinde Standart Sapmanın hesaplanması:
Prof. Dr. Levent ŞENYAY
İstatistik I
26
V-
∑x
n
2
− 2x + x 2
27
∑ f (x − x )
∑ f −1
S=
∑ fx
2
=
2
− 2 x ∑ fx + ∑ fx 2
∑ f −1
⎛ ∑ fx ⎞
∑ fx
∑ fx − 2 f ∑ fx + ∑ f ⎜⎜ f ⎟⎟
∑
⎝∑ ⎠
∑ f −1
(∑ fx)
(∑ fx)
+
∑ fx − 2
∑f
∑f
∑ f −1
(∑ fx)
∑ fx −
∑f
∑ f −1
2
2
=
2
2
2
=
2
2
=
veya
S = i.
∑ fd
2
−
(∑ fd ) 2
∑f
∑ f −1
şeklinde daha küçük sayısal değerler ile hesaplanabilir, burada
i = sınıf aralığı ve
d= (varsayımlı) ortalamadan pozisyon farkını göstermektedir.
Örnek:
Sınıflar
1-5
6-10
11-15
16-20
21-25
26-30
31-35
36-40
Prof. Dr. Levent ŞENYAY
İstatistik I
Frekans
10
15
35
50
40
30
28
22
230
x
3
8
13
18
23
28
33
38
27
f x2
fx
30
120
455
900
920
840
924
836
5025
V-
90
960
5915
16200
21160
23520
30492
31768
130105
28
S=
(5025) 2
130105 −
230 = 88.732 = 9.42
229
%68.27
%95.45
%99.73
-3σ
-2σ -σ
x ∓ σ = gözlemlerin %68’ini
x ∓ 2σ = gözlemlerin %95’ini
x ∓ 3σ = gözlemlerin %99’unu kapsar.
μ
σ
2σ
3σ
Örnek:
x
S
A ve B malı
4.03
4.03
0.405
0.959
A
B
x=4.03
A malı daha homojendir. Bu nedenle Amalının kalitesi B malının kalitesinden
yüksektir.
4.2.2. Ortalama Mutlak Sapma –OMS (Average Devıatıon - AD):
Ortalama sapma da denir.
O.M.S.=
∑ x−x
n
Prof. Dr. Levent ŞENYAY
İstatistik I
=
veya
∑ x − med
n
28
O.M.S.>0
V-
29
Frekans dağılımından hesaplanması
O.M.S.=
∑ f x−x
∑f
=
veya
∑ f x − med
∑f
Ondalık kesirler var ise büyük örneklerde kullanılır. Normal dağılımda x ∓ A.D. rangı
seri elemanlarının %57,5’ini kapsar. A.D. küçük ise ve dağılımın çok sıkışık ya da tek
düzen olduğu anlaşılır.
∑ f x − x = 1231,92 = 12,32 veya
100
∑f
∑ f x − med = 1244,88 = 12,45
O.M.S.=
100
∑f
O.M.S.=
x ∓ O.M .S . = %57,5 idi.
32,62 ∓ 12,32 = 20,30 − 44,98 veya
33,43 ∓ 12,45 = 20,98 − 45,88
personelin yıllık ücretlerinin ortalama mutlak sapması
μ = 33500$
$
xi
xi − μ
34500
30800
32900
36000
34100
33800
32500
1000
-2800
-600
2500
600
300
-1000
0
xi − μ
1000
2800
600
2500
600
300
1000
O.M.S=8800/7=1287$
Bu ölçü yaygınlık belirtir ve standart sapmaya göre 2 üstünlüğü vardır.
1) yorumlanan (kavram/mutlak) daha kolay
2) σ , σ 2 uç değerlerden çok etkilenir.
Prof. Dr. Levent ŞENYAY
İstatistik I
29
V-
30
4.2.3. Nispi Varyasyon Ölçüleri
1-Varyasyon Katsayısı: V =
V =
S
x
sonuç yüzdesi azaldıkça tek düzenlik artar.
S
* 100 = % ( ) şeklinde bulunan sonuçlarda; aynı konuda yapılmış başka
x
araştırma sonuçlarını karşılaştırmaya yarar. %’ler azaldıkça araştırmanın hassasiyeti
artar. Aksi durumda azalır, yani üstün körü bir çalışma denebilir.
V =
S 15.45
=
= 0.47
x 32.62
x=
∑ fx = 3262 = 32.62
∑ f 100
2- Ortalama Sapma Katsayısı:
Voms =
OMS 12.32
=
= 0,38
x
32.62
3-Kartil Sapma Katsayısı:
Vq =
Q 3 − Q1
Q 3 + Q1
Dağılımın uçları açık olduğu zaman ya da uç değerler bulunduğunda ve dağılım çabuk
bir yorumu istendiğinde dağılma ölçüsünün ileri bir hesaplama ya da başka bir
maksatla kullanılmasında gerek olmadığında kullanılır.
Vq =
44.5 − 23.25 21.25
=
= 0,31
44.5 + 23.25 67.75
4.3. Asimetri Ölçüleri
İki dağılımın x1 = x 2 ve S1 = S 2 olduğu haldeki asimetrileri farklı olabilir.
İstatistik teorisi genellikle normal dağılış varsayımına dayandırıldığından asimetri önem
kazanmıştır.
4.3.1.Pearson Asimetri Ölçüsü
S kp =
S kp =
x − mod x − [x − 3( x − med )] 3( x − med )
=
=
S
S
S
32,62 − 32,54
= 0,005
15,45
Prof. Dr. Levent ŞENYAY
İstatistik I
Mod = 27 +
30
V-
16
* 9 = 32,54
16 + 10
31
4.3.2. Kartillerden Asimetri Hesaplanması
Q 3 − Q 2 > Q 2 − Q1 (+) asimetri
Q 3 − Q 2 < Q 2 − Q1 (-) asimetri
Q 3 − Q 2 = Q 2 − Q1 (0) asimetri yok
4.3.3. Bowley Asimetri Ölçüsü
S kb =
(Q3 − med ) − (med − Q1 )
S kb
=
Q3 + Q1 − 2Q 2
Q3 − Q1
Q3 − Q1
67,75 − 2(33,43)
=
= 0,04
21,25
(+) asimetri
mod < med < x
(-) asimetri
x < med < mod
Box –and-Whisker Gösterimleri
Box and whisker gösterimlerinde en uç iki veri ile birlikte üç kartili de gösterebiliriz.
Bu gösterimlerde kutu yatay veya dikey olarak gösterilebilir ve sol çizgi 25 oranında alt
kartili ve sağ çizgi 75 oranındaki üst kartil içerir Whisker’in her iki ucundaki değerler
Prof. Dr. Levent ŞENYAY
İstatistik I
31
V-
32
en uç noktalardır. Örnek hacminin en az 50 veya 100 olduğu büyük veri setlerinde,
whiskerler en uç değerler yerine yüzde 10 veya 90 veya 5 veya 95 oranlarına ulaşır. Box
and whisker gösterimi ile minimum, ilk kartil, üçüncü kartil, medyan, maximum
değerler ve çarpıklık yada simetri görülebilir.
Final Sınavı
Sonuçları
2.yıl 3.yıl 4.yıl
47 56 43
52 59 48
52 59 50
57 61
55
63 67 61
64 69 67
69 73 72
71
76 78
72 76 80
72 80 80
78 83 83
81
83 85
81 84 89
86 90 91
91 94 97
%25
%25
%25
%25
2.yıl
57
71
81
Q1
Q2
Q3
3.yıl
61
76
83
4.yıl
55
78
85
Box Plot
100,0
80,0
Amount
Q3
Q2
60,0
Q1
40,0
C1
C2
C3
Variables
Örneklerin Karşılaştırılması
Verilerin analizinde karşılan durumlardan en önemlisi farklı populasyonlardan elde
edilen iki veya daha fazla örneğin karşılaştırılması problemidir.
Prof. Dr. Levent ŞENYAY
İstatistik I
32
V-
33
Örnek:
A
B
17,6 18,3 10,8 19,2 18 39,4 21,4 19,9 23,7 22,7 23,2 19,6
12,4 28,1 11,5 7,8 16,7 16,8 25,6 23,7 26,9 11,2 21,5 18,9
Box Plot
40,0
Amount
28,3
16,7
5,0
A
B
Variables
Quantile-quantile (q-q plot)
30
B
20
10
0
0
10
20
30
A
Prof. Dr. Levent ŞENYAY
İstatistik I
33
V-
40
34
Örnek:
İstendiğinde percentile ve kantilleri de
(i − 0,5)
12
, i=1,2,....,12
bu gösterimde
kullanılabilinir.
Eğimi bir olan orjinden geçen çizgi karşılaştırmaya yardımcı olur.
Eğer tüm noktalar bu 45 derecelik çizgi üzerinde iseler o zaman iki örnek arasında
tümüyle hiçbir fark yoktur; özellikle merkezleri ve genişlikleri aynıdır. Eğer tüm
noktalar bu çizginin altında ise eski örnekteki kantiller yeniye oranla daha büyüktür.
Başka bir değişle , eğer bütün noktalar bu çizginin üstünde ise yeni örnek eskisine
oranla daha büyüktür. Bu box and whisker diyagramından çıkardığımız aynı sonuçtur.
Quantile-quantile q-q plotunda iki dağılımın yayılımı hakkında da bilgi edinebiliriz.
Eğer plot edilen noktalar 1 den büyük bir eğim ile artıyorsa bu yatay eksende plot
edilen örneğin dikey eksende plot edilen örneğe nazaran daha az yayıldığını gösterir.
Örnek:
Dağılımlar
x
medyan
S
A
100
90
10
B
90
80
10
Her iki dağılımın
a) Standart sapması aynı olduğu için varyasyonları aynıdır.
b) Asimetriler
3(x − med )
S
S kb =
A’nın S kb =
3(100 − 90)
=3
10
B’nin
Örnek:
Arit.Ort. Ömrü
Medyan Ömrü
A malı
4000
3500
B malı
3500
4000
x − mod = 3(x − med )
A için mod = 3medyan − 2 x =3(3500)-2(4000)=2500
B için
mod = 3medyan − 2 x =3(4000)-2(3500)=5000
A’nın kalitesi B’den daha düşük
Prof. Dr. Levent ŞENYAY
İstatistik I
34
V-
S kb =
3(90 − 80)
=3
10
35
mod < med < x
Mod< 3500< 4000
x < med < mod
3500<4000<mod
Prof. Dr. Levent ŞENYAY
İstatistik I
35
V-
36
4.4. Momentler
Bir dağılımın momenti ilgili tesadüfi değişkenin çeşitli kuvvetlerinin beklenen
değeridir.
1.
Momentler üç grupta incelenebilir:
Orijine gore momentler.
2.
Aritmetik ortalamaya gore momentler
3.
Herhengi bir a noktasına gore momentler
Orijine göre momentler:
Bunlara sıfıra veya başlangıç noktasına gore momentler de denir. Sürekli veya kesikli
bir tesadüfi değişkenin sıfır ile farkının kuvvetlerinin beklenen değerine o tesadüfi
degişkenin orijine göre momentleri denir.
Orijine göre r’ inci moment mr veya μ 'r ile gösterilir. “r” momentin derecesi olup r=
[ ]
0,1,2… degerlerini alabilir. Orijine göre r’ inci moment μ r' = E x r
dir. x r
fonksiyonunun beklenen değerine x tesadüfi değişkeninin sıfıra göre r’ inci dereceden
momenti denir.
Basit seride r. Moment r=0,1,2………
x1r + x 2r + ........ + x nr
=
E(x ) = x =
n
r
r
r
i
n
∑ (x
=
i
− 0)
n
2
2 3 + 33 + 5 3 + 9 3
= 222.25
4
Frekans serisinde r. moment
E(x ) = x
r
r
∑ fx
=
∑f
r
∑ f (x − 0)
=
∑f
r
( )
x kesikli tesadüfi değişken ise E x r = μ r' =
( )
x sürekli tesadüfi değişken ise E x r = μ r' =
n
∑ x f (x )
r
i =1
+∞
∫x
= f ( x )dx
r
−∞
μ r′ = E (x r ) = E [( x − μ ) + μ ]r
⎡ r ⎛r⎞
⎤ r ⎛r⎞
i
= E ⎢∑ ⎜⎜ ⎟⎟( x − μ ) μ r −i ⎥ = ∑ ⎜⎜ ⎟⎟ μ i μ r −i
⎣ i =0 ⎝ i ⎠
⎦ i =0 ⎝ i ⎠
i
Prof. Dr. Levent ŞENYAY
İstatistik I
36
2
2 2 + 32 + 5 2 + 9 2
x =
= 29.75
4
x = 4.75
Örnek: x: 2,3,5,9
x3 =
∑x
V-
37
⎛1⎞
i =0 ⎝ i ⎠
1
μ1′ = ∑ ⎜⎜ ⎟⎟ μ i μ 1−i
⎛1⎞
⎛1 ⎞
= ⎜⎜ ⎟⎟ μ 0 μ ′ + ⎜⎜ ⎟⎟ μ1 μ 0
⎝1⎠
⎝0⎠
=μ
(μ1 = 0)
2
⎛ 2⎞
′
μ 2 = ∑ ⎜⎜ ⎟⎟ μ i μ 2−i
i =0 ⎝ i ⎠
⎛ 2⎞
⎛ 2⎞
⎛ 2⎞
= ⎜⎜ ⎟⎟ μ 0 μ 2 + ⎜⎜ ⎟⎟ μ1 μ ′ + ⎜⎜ ⎟⎟ μ 2 μ 0
⎝ 2⎠
⎝1 ⎠
⎝0⎠
μ0 = 1
μ1 = 0
ve
= μ 2 + μ2
E (x 2 ) = [E ( x )] + var( x)
2
( )
var( x) = [E ( x )] − E x 2
2
Orijine göre bazı momentlerin hesaplanması:
Orijine göre sıfırıncı moment 1 ‘dir.r= 0 için
x kesikli ise μ 0' =
x sürekli ise μ =
'
0
∑ x f (x ) = ∑ x f (x ) = ∑ f (x ) = 1
0
r
+∞
+∞
+∞
∫ x f (x )dx = ∫ x f (x )dx = ∫ f (x )dx = 1
0
r
−∞
−∞
−∞
Orijine göre birinci moment aritmetik ortalamadır. r= 1 için
x kesikli ise; μ1' =
x sürekli ise; μ =
'
1
∑x
r
fx = ∑ xf ( x ) = E ( x )
+∞
+∞
∫ x f (x )dx = ∫ xf (x )dx = E (x )
r
−∞
−∞
Aritmetik ortalama bir tesadüfi değişkenin sıfıra göre birinci momentidir.
Orijine göre ikinci moment r= 2 için;
x kesikli ise μ 2' =
Prof. Dr. Levent ŞENYAY
İstatistik I
∑ x f (x ) = ∑ x f (x ) = E (x )
2
r
37
2
V-
38
+∞
r
∫ x f (x )dx =
x sürekli ise; μ 2' =
−∞
+∞
∫ x f (x )dx = E (x )
2
2
−∞
Orijine gore üçüncü moment r= 3 için
x kesikli ise μ 3' =
∑ x f (x ) = ∑ x f (x ) = E (x )
3
r
x sürekli ise ; μ 3' =
+∞
r
∫ x f (x )dx =
−∞
3
+∞
∫ x f (x )dx = E (x )
3
3
−∞
Sıfıra gore r’ inci moment
xkesikli ise ; μ r' =
x sürekli ise; μ =
'
r
∑ x f (x ) = E (x )
r
r
+∞
∫x
r
f (x)=E(x)
−∞
Herhangibir a noktasına göre momentler:
Bir x tesadüfi degişkeninin herhangibir a noktasına gore momenti o tesadüfi
değişkeninin a ile farkının kuvvetlerinin beklenen degeridir. μ r ile gösterilir.
Herhangi bir a noktasına göre moment
Basit seride r. moment,
E (x − a ) = μ r
r
∑ (x − a )
=
r
n
Frekans serisinde r. moment,
r
E (x − a )
= μr
∑ f (x − a )
=
∑f
r
Kesikli değişken x değişkeninin r. momenti
E (x − a ) = μ r = ∑ (x − a ) f (x )
r
r
Sürekli değişken x değişkenin r. momenti
E ( x − a ) = μ r = ∫ ( x − a ) f ( x )dx
r
r
Teorem: E ( x − μ ) ≤ E ( x − a )
2
2
μ r = E [x − a ]r
x kesikli ise; μ r [x − a ] f ( x )
r
μr =
+∞
∫ [x − a ] f (x )dx
r
−∞
Prof. Dr. Levent ŞENYAY
İstatistik I
38
V-
39
Buna merkezi momentlerde denir istatistikte frekans dağılımlarının şeklinin
belirlenmesinde kullanılırlar.
Aritmetik ortalamaya göre momentler:
μr
veya m r şeklinde gösterilir. Bunlara kısaca ortalamaya gore
momentlerde denir. Bir x tesadüfi değişkeninin aritmetik ortalamadan sapmasının
kuvvetlerinin beklenen değeri olup;
μ r = E [x − μ ]r şeklinde gösterilir.
r
x kesikli ise; μ r = ∑ ( x − μ ) f (x )
x sürekli ise; μ r =
+∞
∫ (x − μ ) f (x )dx
r
−∞
Aritmetik ortalamaya göre bazı momentlere örnekler:
2. Aritmetik Ortalamaya göre moment
Basit seride r. moment r =0,1,2........
E (x − μ ) = μ r
r
∑ (x
=
i
− x)
r
n
Örnek:
x: 1, 3, 5, 15
x =μ=6
(1 − 6) + (3 − 6) + (5 − 6) + (15 − 6) = 0
μ1 =
=
μ2
∑ (x − x )
4
2
=
n
∑ (x − x )
=
n
2
∑x − x
n
2
2
2
2
(
1 − 6 ) + (3 − 6 ) + (5 − 6 ) + (15 − 6 )
=
4
Frekans serisinde r. moment
E (x − μ ) = μ r
r
∑ f (x − x )
=
∑f
r
i
Kesikli değişken x değişkeninin r. momenti
E (x − μ ) = μ r = ∑ (x − μ ) f (x )
r
r
Sürekli değişken x değişkeninin r. momenti
Prof. Dr. Levent ŞENYAY
İstatistik I
39
V-
= 29
40
E ( x − μ ) = μ r = ∫ ( x − μ ) f (x ) dx
r
r
Aritmetik ortalamaya gore sıfırıncı moment 1’ dir.
∑ (x − μ ) f (x ) = ∑ f (x ) = 1
x kesikli ise; μ 0 =
x sürekli ise; μ 0
0
+∞
+∞
−∞
−∞
0
∫ (x − μ ) f (x )dx = ∫ f (x )dx = 1
Aritmetik ortalamaya gore ve orijine gore x tesadüfi değişkeninin birinci
dereceden momenti 1’ e eşittir.
Aritmetik ortalamaya birinci dereceden moment sıfırdır.
(x − μ ) f (x ) = xf (x ) − μ f (x )
x kesikli ise; μ1 =
∑
∑
∑
= E (x ) − μ = μ − μ = 0
+∞
+∞
+∞
∫ (x − μ ) f (x )dx = −∫∞x f (x )dx − μ −∫∞ f (x )dx
−∞
= E (x ) − μ = μ − μ = 0
x sürekli ise; μ1 =
Birimlerin aritmetik ortalamadan farklarının toplamı sıfırdır. Aritmetik
ortalamaya gore ikinci dereceden moment varyanstır.
∑ (x − μ ) f (x )
= ∑ x f ( x ) − 2 μ ∑ xf (x ) + μ ∑ f ( x )
x kesikli ise μ 2 =
2
2
2
___ μ __
( ) − 2μ + μ
= E (x ) − μ = E (x ) − (E ( x ))
=E x
2
2
2
+∞
2
2
2
2
= V (x )
∫ (x − μ ) f (x )dx
x sürekli ise μ 2 =
2
−∞
+∞
+∞
+∞
−∞
2
−∞
2
2
∫ x p(x )dx − 2μ ∫ x f (x )dx + μ
=
−∞
( )
= E (x ) − μ
∫ f (x )dx
= E x 2 − 2μ 2 + μ
2
2
( )
= E x 2 − (E ( x )) = V (x )
2
x tesadüfi değişkeninin aritmetik ortalamaya gore ikinci dereceden momenti
varyanstır.x tesadüfi değişkeninin orijine gore ikinci dereceden momenti ile birinci
dereceden momentinin karesi arasındaki fark da varyansı verir.
( )
: μ 2 = μ 2' − μ ''2
2
= V (x )
μ 3 = ∑ (x − μ )3 f(x) çarpıklık ölçüsüdür.
μ 4 = ∑ (x − μ )4 f(x) basıklık ölçüsünde kullanılır.
(a + b )n = ∑ ⎛⎜⎜ ⎞⎟⎟a n− x b x
x
n
n
x =0
⎝ ⎠
Prof. Dr. Levent ŞENYAY
İstatistik I
40
V-
41
⎡ n ⎛n⎞
r
i
r −i ⎤
E ( x − μ ) = E ⎢∑ ⎜⎜ ⎟⎟(− μ1′ ) ( x ) ⎥
⎣ i =0 ⎝ i ⎠
⎦
μ = μ1′
( )
E x i = μ i′
( )
E x r −i = μ r′ −i
n
⎛n⎞
r
i
E ( x − μ ) = ∑ ⎜⎜ ⎟⎟(− μ1′ ) (μ r′ −i )
i =0 ⎝ i ⎠
⎛n⎞
i =0 ⎝ i ⎠
n
μ r = ∑ ⎜⎜ ⎟⎟(− μ1′ )i (μ r′−i )
⎛ 2⎞
i =0 ⎝ i ⎠
⎛ 2⎞
⎛ 2⎞
⎛ 2⎞
0
1
2
= ⎜⎜ ⎟⎟(− μ1′ ) (μ 2′ ) + ⎜⎜ ⎟⎟(− μ1′ ) (μ1′ ) + ⎜⎜ ⎟⎟(− μ1′ ) (μ 0′ )
⎝ 2⎠
⎝1 ⎠
⎝0⎠
2
μ 2 = ∑ ⎜⎜ ⎟⎟(− μ1′ )i (μ 2′ −i )
= μ 2′ − 2(μ1′ ) + (μ1′ )
2
= μ 2′ − (μ1′ )
2
2
( )
= E x 2 − [E ( x )] = Var(x)
2
TEOREM:Aritmetik ortalamaya gore ikinci dereceden moment daima herhangi bir a
noktasına gore ikinci dereceden momentten küçük ve ya eşittir.Buna varyansın
minimum olma özelliği denir.
[
E [( x − μ )] ≤ E (x − a )
2
[
]
2
]
E ( x − a ) sini ele alalım.
2
1
μ4 =
4
2
( x − ) 4 (1 − x 3 )dx
∫
30
5
2
μ4 = μ41 − 4 μ11 μ31 + 6μ11 μ21 − 3μ 1 =
veya
1
2 1
2 2
2
− 4( )( ) + 6( ) 2 ( ) − 3( ) = 0,0077
10
5 7
5 9
5
Momentlere Dayanan Asimetri Ölçüleri
Bir frekans dağılımının gösterdiği simetriden ayrılış derecesine asimetriklik veya
çarpıklık denir. Normal bir bölünüm eğrisi çan şeklindedir ve ortalama etrafında
simetriktir. Çarpık bölünümlerde ise eğrinin çan şekli bozulup mod’a göre sağa veya
sola uzanmalar görülür.
Prof. Dr. Levent ŞENYAY
İstatistik I
41
V-
42
Bir dağılımın çarpıklığını gösteren ölçütler geliştirilmiştir. Bunlar
değişkenlerin ölçme birimlerinden bağımsız olup , simetrik olan durumlarda sıfıra
eşittir.
Momentlere dayanan çarpıklık ölçülerinden frekans dağılımları bilinmeden
olasılık fonksiyonları verilmişken, dağılımların çarpıklık derecesi öğrenilmiş
olunur.Momentlere dayanan Asimetri(çarpıklık) Ölçüleri
1-) μ3 =aritmetik ortalamaya göre üçüncü dereceden moment bir çarpıklık ölçüsüdür
μ3 = 0
μ3 > 0
μ3 < 0
simetrik durumlarda
eğri sağa çarpık ise
eğri sola çarpık ise
Ancak çarpıklık ölçüsü olarak μ3 ün kullanılması bazı sakıncalar doğurabilir.
μ3 =0 iken de bazen eğri simetrik olmayabilir. Bu da eğrinin şekli hakkında yanıltıcı
bilgiler verebilir. Bunun nedeni fazla uç değerlerin aritmetik ortalamayı suni olarak
yükseltip düşürmesidir.
μ3 >0 iken çoğu değer aritmetik ortalamanın altındadır. Ancak dağılımda
bulunan büyük uç değerler aritmetik ortalamayı büyütür ancak mod’u etkileyemez. Bu
durumda aritmetik ortalama ile mod arasındaki fark pozitif olarak büyür.
μ3 <0 iken birimlerin çoğu aritmetik ortalamanın üzerindedir. Ancak bazı
küçük uç değerler aritmetik ortalamayı küçültürler ancak mod’u etkileyemezler. Bu
durumda aritmetik ortalama ile mod arasındaki fark negatif olarak büyür ( μ -mod)
μ de meydana gelen bu değişme hesabında kullanıldığı için μ3 ü de etkileyip
yanıltıcı sonuçlar verebilir.
2-) β1 ve Y1 ÖLÇÜTLERİ:
katsayısı bir dağılımın çarpıklığını
Karl Pearson tarafından geliştirilen β1
anlamak için kullanılır. Tek modlu dağılımlar için geçerlidir.
μ32
β1 = 3
μ2
β1 =0 ise dağılım simetriktir yani normal dağılımdır. Asimetrik bir dağılımda ise
β1 daima pozitiftir. Bu da asimetrinin yönünü tayin etmeye imkan vermez. İster
pozitif isterse negatif asimetri olsun μ3 daima pozitif ve payda da yer alan varyansda
negatif olamayacağından dolayı β1 daima pozitiftir ve çarpıklığın yönü hakkında bir
bilgi vermez.
Bunun için R.A.Fisher tarafından ileri sürülen ve β1 in kareköküne eşit olan
Y1 ölçütü kullanılır
Y1 = β1 =
Prof. Dr. Levent ŞENYAY
İstatistik I
μ32
μ3
μ3 μ3
3 =
3 =
3 =
μ2
μ2 2 6
42
V-
43
normal bir dağılımda Y1 =0 olur
Y1 >0 eğri sağa çarpık ise
Y1 <0 eğri sola çarpık ise
β1 = 0
β1 > 0
Y1 = 0
Y1 > 0
β1 > 0
Y1 < 0
3-) Çarpıklık için diğer bir formül ise;
Sk =
β 1 ( β 2 + 3)
2[5 β 2 − 6 β 1 − 9]
S k =0 ise dağılım simetriktir μ 3 =0 olduğunda β 1 ve dolayısıyla S k da sıfır
olacaktır
-Momentlere dayanan basıklık ölçüleri-
Bir dağılımda tepe noktasının yani mod’un yeri de çok önemlidir. Bir frekans
dağılımı eğrisinin tepe noktası eğrisinin yani mod’un aynı aritmetik ortalama ve
standart sapmaya sahip normal bir bölünümün tepe noktasına yani mod’una göre daha
aşağıda veya yukarıda bulunmasına basıklık farkı denir.Eğer bir eğrinin tepe noktası
normal bir dağılımın tepe noktasından daha yüksek ise normale göre sivri bir eğri ,
daha alçak ise normale göre basık bir eğri denir. Sivri bir eğride aritmetik ortalama
etrafında yoğunlaşma daha fazla olur. Basıklık farkını ölçen ölçülere basıklıkölçüleri
denir.
-Basıklık ölçüleri1-)Pearson basıklık katsayısı:Karl pearson basıklık ölçüsü β 2 olup buna pearson
basıklık katsayısı da denir
β2 =
μ4 μ4
=
μ 22 6 4
β 2 = 3 normal bir eğri
1 ≤ β 2 <3 dağılım normale göre basık
β 2 >3 dağılım normale göre sivri
2-)Fischer basıklık katsayısı:R.A. Fisher’e göre basıklık ölçüsü Y2 olup buna
Fischer basıklık katsayısıda denir.
Prof. Dr. Levent ŞENYAY
İstatistik I
43
V-
44
Y2 = β 2 − 3 =
μ4
μ
− 3 = 44 − 3
2
6
μ2
Y2 = 0
Y2 >0
Y2 <0
Prof. Dr. Levent ŞENYAY
İstatistik I
44
normal bir eğri
ise dağılım sivridir
ise dağılım basıktır
V-
Download