Değişkenlik (Yayılım) Ölçüleri

advertisement
DEĞİŞKENLİK ÖLÇÜLERİ
Değişkenlik (Yayılım) Ölçüleri
• İki farklı anakütleyi birbirinden ayırmak için her
zaman yalnızca yer ölçüleri yeterli olmayabilir.
• Dağılımları birbirinden ayırt etmede kullanılan ve
genellikle aritmetik ortalama etrafındaki değişimi
dikkate
alarak
hesaplanan
istatistiklere
değişkenlik(yayılım) ölçüleri adı verilir.
2
400
Frekans
Frekans
Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek
doğrultusunda oluşturulan histogramlardır. Her iki örnek
ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin aynı
anakütleden alındığı söylenebilir mi?
300
1200
1000
800
200
600
400
100
200
0
0
12
10
95
81
67
33
3,
33
9,
3
,3
3
,3
33
3,
33
9,
3
,3
3
,3
3
,3
3
,3
12
10
95
81
67
X
X
3
• İki örneğin aynı anakütleden geldiği söylenemez.
• Bunun
nedeni
alınan
örnek
sonucunda
oluşturulan histogramda dağılımların ortalama
etrafında farklı olmasından kaynaklanmaktadır.
• Dağılımları birbirinden ayırt etmede kullanılan
yayılım ölçüleri aritmetik ortalama etrafındaki
değişimleri dikkate alan tanımlayıcı istatistiklerdir.
• Bir veri setinde aritmetik ortalamalardan her
bir gözlemin farkı alınıp bu değerlerin tümü
toplandığında sonucun 0 olduğu görülür.
4
• Örnek: 4,8,9,13,16 şeklinde verilen bir basit seri için;
n
x=
∑x
i =1
n
i
=
4 + 8 + 9 + 13 + 16
= 10
5
∑ ( x − x ) = (4 − 10 ) + (8 − 10 ) + (9 − 10
n
i
i =1
)
= (13 − 10 ) + (16 − 10 ) = 0
• Bu
örnekten görüleceği üzere gözlemlerin
aritmetik ortalamadan uzaklığı alıp toplandığında
0 elde edildiğinden dolayı bu problem mutlaka
değer kullanarak veya karesel uzaklık alınarak
ortadan kaldırılır.
5
1) Ortalama Mutlak Sapma(OMS)
• Veri setindeki her bir gözlem değerinin aritmetik
ortalamadan farklarının mutlak değerlerinin toplamının
örnek hacmine bölünmesiyle elde edilir.
• Gözlem değerlerinin aritmetik ortalamadan faklarının
toplamı 0 olacağından bu problemi ortadan kaldırmak için
n
mutlak değer ifadesi kullanılır.
x −x
Basit seriler İçin:
OMS =
∑
i
i =1
n
k
Gruplanmış seriler İçin:
OMS =
∑f
i =1
xi − x
i
k
∑f
k i =1
Sınıflanmış Seriler İçin :
OMS =
∑f
i =1
i
i
mi − x
k
∑f
i =1
6
i
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için ortalama mutlak sapma değerini
hesaplayınız.
30,41,53,61,68,79,82,88,90,98
n
x=
∑x
i =1
i
n
30 + 41 + .... + 98
= 69
10
=
∑ x −x
n
OMS =
i =1
i
=
n
145
=
= 14,5
10
30 − 69 + 41 − 69 + ... + 98 − 69
10
7
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir
restoranın kullandığı et miktarının dağılımı verilmiştir.
Günlük kullanılan et miktarının ortalama mutlak sapmasını
hesaplayınız.
Ifi( mi − xv )I
Sınıflar
fi
mi
I2(33-46,6)I
30-36’dan az
2
33
I6(39-46,6)I
36-42’den az
6
39
I10(45-46,6)I
42-48’den az
10
45
I7(51-46,6)I
48-54’dan az
7
51
I4(57-46,6)I
54-60’den az
4
57
I1(63-46,6)I
60-66’den az
1
63
Toplam
30
163,2
k
k
x=
∑m f
i
i =1
k
∑f
i =1
i
i
= 46,6 kg. OMS =
∑f
i =1
i
mi − x
k
∑f
i =1
=
163,2
= 5,44 kg.
30
i
8
2) Varyans
Ortalama mutlak sapmada kullanılan mutlak değerli
ifadeler ile işlem yapmanın zor hatta bazı durumlarda
imkansız olması sebebiyle yeni değişkenlik ölçüsüne
ihtiyaç bulunmaktadır.
•
• Mutlak değer ifadesindeki zorluk aritmetik ortalamadan
farkların karelerinin alınmasıyla ortadan kalkmaktadır.
• Veri setindeki her bir gözlem değerinin aritmetik
ortalamadan farklarının karelerinin toplamının örnek
hacminin bir eksiğine bölünmesinden elde edilen
değişkenlik ölçüsüne örnek varyansı adı verilir.
9
Basit seriler İçin:
Populasyon Varyansı:
μ : Populasyon Ortalaması
∑ (x − μ )
2
σ =
2
i
N
N : Populasyon Hacmi
∑ (x − x )
n
Örnek Varyansı :
s =
2
2
i
i =1
n −1
k
Gruplanmış Seriler İçin:
s2 =
∑ f (x − x)
i =1
∑f
s2 =
i =1
2
i
k
k
Sınıflanmış Seriler İçin :
i
i
−1
∑ f (m − x )
i =1
i
k
∑f
i =1
2
i
i
−1
10
∑ (x − x )
n
2
i
i =1
ifadesi istatistikte bir çok formülde kullanılır ve
kareler toplamı olarak adlandırılır.
• Matematiksel olarak hesaplama kolaylığı sağlaması
açısından formüllerde kareler toplamının açılımı olan
aşağıdaki eşitlik kullanılabilir.
(
∑x )
−
2
n
∑ (x − x ) = ∑ x
n
i =1
2
i
n
2
i
i =1
i
i =1
n
11
(∑ x )
−
2
n
n
Basit Seriler İçin:
∑x
s =
2
2
i =1
i
i =1
n −1
n
(
∑fx)
−
2
k
k
∑fx
i
i=
Gruplanmış Seriler İçin:
s =
2
i
k
i =1
i
∑ f −1
k
i =1
k
∑
i=
Sınıflanmış Seriler İçin :
i=
∑f
i
2
s =
i
i
⎛ k
⎞
⎜ ∑ f i mi ⎟
⎠
f m2 − ⎝ i=
i
i
2
k
∑f
2
i =1
k
∑f
i =1
i
i
−1
12
3) Standart Sapma
• Varyans hesaplanırken kullanılan verilerin kareleri
alındığından
verilerin
ölçü
biriminin
karesi
varyansında ölçü birimi mevcut ölçü birimini karesi
olur.
• Örnek: kg2, cm2 gibi.
• Bu nitelendirme veriler açısından bir anlam
taşımayacağından
varyans
yerine
ortalama
etrafındaki değişimin bir ölçüsü olarak onun pozitif
karekökü olan standart sapma kullanılır.
13
• Bir dizi ölçümün gösterdiği değişimin en
güvenilir ölçüsüdür.
• Dağılım fazlaysa standart sapma büyük,
dağılım dar alanda ise küçüktür.
14
Basit seriler İçin:
∑ (x − μ )
2
Populasyon Standart Sapması:
σ=
i
N
μ : Populasyon Standart Sapması N : Populasyon Hacmi
∑ (x − x )
n
s=
Örnek Standart Sapması :
2
i
i =1
n −1
k
s=
Gruplanmış Seriler İçin:
∑ f (x − x)
i
i =1
k
∑f
i =1
i
−1
k
Sınıflanmış Seriler İçin :
s=
∑ f (m − x )
i
i =1
2
i
2
i
k
∑f
i =1
i
−1
15
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için varyans ve standart sapmayı
hesaplayınız.
n
x=
30,41,53,61,68,79,82,88,90,98
∑ (x − x )
n
s =
2
i =1
2
i
2
i =1
n
i
=
30 + 41 + .... + 98
= 69
10
(30 − 69) + (41 − 69) + ... + (98 − 69)
=
2
2
n −1
4538
=
≈ 504,22
9
s ≈ 504,22
∑x
→
2
9
s = s = 504,22 ≈ 22,45
2
İstatistik I vizesinden alınan notların ortalama etrafında
yaklaşık olarak 22 puan değiştiği görülmektedir.
16
Aynı soru kareler ortalamasının açılımı kullanılarak
çözüldüğünde aynı sonuçları verecektir.
30,41,53,61,68,79,82,88,90,98
2
x
x
30
41
53
61
68
79
82
88
90
900
1681
2809
3721
4624
6241
6724
7744
8100
(∑ x )
−
2
n
n
s =
2
∑x
i =1
2
i
n −1
n
(690)
52148 −
2
i =1
=
10
9
s ≈ 504,22
2
s = s = 504,22 ≈ 22,45
2
∑ x = 690 ∑ x = 52148
n
i =1
n
i
2
i =1
i
17
Örnek: Yandaki tabloda bir Samsung bayisindeki LCD
televizyonların ekran boyutlarına göre satış miktarları verilmiştir.
Frekans dağılımının varyans ve standart sapmasını hesaplayınız.
Grup Frekans xifi
51
66
72
82
94
(∑ f x )
−
∑fx
i=
s =
i
2
i
i
i=
∑f
i =1
∑ f −1
k
i
i
(1605)
131607 −
2
i
k
2
i =1
1
51
2601
3
198 13068
4
288 20736
5
410 33620
7
658 61852
∑fi =20 1605 131607
2
k
k
x i2 f i
=
20
19
≈ 147,67
s = s = 147,67 ≈ 12,15
2
18
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir
restoranın kullandığı et miktarının dağılımı verilmiştir.
Günlük kullanılan et miktarının varyansını ve standart
sapmasını hesaplayınız.
v
fi( mi − x )2
Sınıflar
fi
mi
30-36’dan az
36-42’den az
42-48’den az
48-54’dan az
54-60’den az
60-66’den az
Toplam
2
6
10
7
4
1
30
∑ f (m − x )
k
s =
2
i =1
i
i
∑ f −1
k
i =1
i
2(33-46,6)2
6(39-46,6)2
10(45-46,6)2
7(51-46,6)2
4(57-46,6)2
1(63-46,6)2
1579,2
33
39
45
51
57
63
2
=
k
x=
∑m f
i
i=1
i
k
∑f
i=1
= 46,6kg.
i
1579,2
≈ 54,46
30 − 1
s = s = 54,46 ≈ 7,38 kg.
2
19
4) Range (Değişim Aralığı)
Veri setindeki yayılımı ifade etmede kullanılan en basit
istatistik değişim aralığıdır. Genel olarak basit seriler
için kullanılır.
•
• En büyük gözlem değeri ile en küçük gözlem değeri
arasındaki fark değişim aralığını verir.
• Veri setindeki tek bir gözlemin aşırı derecede küçük
veya büyük olmasından etkilendiği için bir başak
ifadeyle örnekte yer alan sadece iki veri kullanılarak
hesaplanmasından dolayı tüm veri setinin değişkenliğini
açıklamak için yetersiz kalmaktadır.
20
Değişken
Range
21
• R = Xmax – Xmin
X: SÜREKLİ ŞANS DEĞİŞKENİ
• R = Xmax – Xmin +1
X: KESİKLİ ŞANS DEĞİŞKENİ
Örnek: Bir fabrikada çalışan 5 endüstri
mühendisinin bildiği yabancı dil sayıları aşağıda
verilmiştir. Buna göre bu mühendislerin bildiği
yabancı dil sayısı için değişim aralığını
hesaplayınız.
2,0,1,2,0
Xİ = 0,0,1,2,2.
n=5
i: 1,2,3,4,5.
• R = Xmax – Xmin +1 = 2 – 0 + 1 = 3
22
5) Değişkenlik(Varyasyon) Katsayısı
• İki veya daha fazla populasyon üzerinde
aynı şans değişkenleri için yapılan
araştırmalarda
değişkenliklerin
karşılaştırılması için kullanılan bir ölçüdür.
• Standart sapmayı ortalamanın bir
yüzdesi olarak ifade eden ve iki veya
daha fazla populasyondaki varyasyonu
(değişkenliği) karşılaştırmada kullanılan
ölçüye varyasyon(değişkenlik) katsayısı
denir.
Varyasyon
Katsayısı:
C =
V
s
*100
X
• Örnek: İstanbul’da ve Ankara’da yaşayan
ailelerin aylık gelirlerinin değişkenliklerinin
karşılaştırılması
23
Örnek: Kuruyemiş satan bir dükkanda bir haftalık sürede
satılan leblebi, fıstık ve bademlerin ortalamaları ve standart
sapmaları aşağıda verilmiştir. Buna göre kuruyemişleri
değişkenlikleri açısından karşılaştırınız
ve kuruyemişin
değişkenliğinin daha fazla olduğunu belirtiniz.
x
Leblebi 30 kg.
s
C
Vleblebi
=
5 kg.
Fıstık
40 kg.
4 kg.
Badem
10 kg.
3 kg.
C
V fııstı
C
VBADEM
5
s
*100 = *100 = 16,67 = %16,67
X
30
4
s
*100 = *100 = 10 = %10
X
40
s
3
= *100 = *100 = 30 = %30
X
10
=
Üç kuruyemişin değişkenlikleri karşılaştırıldığında en küçük
standart sapma değeri bademde olmasına rağmen en büyük
varyasyon katsayısına sahip olduğundan en fazla değişkenliğin
bademde olduğu görülür. Aritmetik ortalamalar içerisinde standart
24
sapma yüzdelerine bakıldığında en büyük yüzde bademdedir.
Çarpıklık (Asimetri) Ölçüleri
• Populasyonları birbirinden ayırmak için her zaman yalnızca
yer ve yayılım ölçüleri yeterli olmayabilir. Aşağıda iki farklı
populasyondan
alınmış
örnekler
için
oluşturulan
histogramlar verilmiştir.
0
μA
0
μΒ
A
B
25
• Şekilden görüleceği üzere A ve B örneklerinin
aynı ortalamaya ve yaklaşık olarak aynı
değişkenliğe sahip olmalarına rağmen bu iki
örneğin açıkça aynı populasyondan gelmediği
söylenir.
• Asimetri (çarpıklık) ifadesi simetrik olmayan
anlamını taşımaktadır.
•Şekillere bakıldığında frekansların A’da daha çok
sol tarafta (küçük xi değerlerinde), B’de ise daha
çok sağ tarafta (büyük xi değerlerinde), toplandığı
görülmektedir.
26
Asimetri Ölçüleri
PEARSON ÇARPIKLIK ÖLÇÜSÜ
Skp =
Skp =
x − mod
s
veya
SkP < 0 →Negatif çarpık(Sola)
SkP > 0 → Pozitif Çarpık(Sağa)
3( X − med)
s
SkP = 0
ise dağılış simetrik
BOWLEY ÇARPIKLIK ÖLÇÜSÜ
Skb =
(Q3 − Q2 ) − (Q2 − Q1 )
Q3 − Q1
Simetrik Dağılım
A.O = Med = Mod
İki modlu simetrik dağılım
Skb < 0 → Negatif çarpık(Sola)
Skb > 0 → Pozitif Çarpık(Sağa)
Skb = 0
ise dağılış simetrik
27
Sağa çarpık dağılım Sola çarpık dağılım
A.O > Med > Mod
A.O < Med < Mod
Modu olmayan dağılım Tekdüzen dağılım
28
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın
kullandığı et miktarının dağılımından elde edilen bazı tanımlayıcı
istatistikler verilmiştir. Buna göre pearson ve bowley asimetri
ölçülerini hesaplayıp yorumlayınız.
Aritmetik Ort.
Mod
Medyan
Q1
Q2
s2
46,6
45,4
46,2
41,5
51,9
54,46
Sk p =
3( X − med ) 3(46,6 − 46,2)
=
≈ 0,16 > 0
s
54,46
Sk p =
x − mod 46,6 − 45,4
=
≈ 0,16 > 0
s
54,46
Skb =
Sağa Çarpık ,
Pozitif Asimetri
Sağa Çarpık,
Pozitif Asimetri
(Q3 − Q2 ) − (Q2 − Q1 ) (51,9 − 46,2) − (46,2 − 41,5)
=
51,9 − 41,5
Q3 − Q1
=
1
≈ 0,10 > 0
10,4
Sağa Çarpık ,
Pozitif Asimetri
29
Basıklık Ölçüsü
Aşağıdaki A ve B dağılımlarının ortalamaları, değişkenlik
ölçülerinin aynı olmasından dolayı ve hatta ikisinin de
simetrik olmalarından dolayı bu iki dağılışı ayırt etmek için
Basıklık Ölçüsü kullanılır.
A
B
A
=
30
B
Herhangi bir olasılık fonksiyonunun şekli ile ilgili
parametrelerden bir tanesi de
basıklık ölçüsüdür.
Basıklık Ölçüsü ortalamaya göre dördüncü momentten
gidilerek hesaplanır ve α4 olarak gösterilir.
μ
α 4 = 44
σ
n
Basit Seri İçin
μ4 =
∑ (x − μ )
i =1
4
i
n
α4 = 3 ise Seri Normal
α4 < 3 ise Seri Basık
α4 < 3 ise Seri Sivri Ya da Yüksek
31
Ödev
• Yanda verilmiş olan
sınıflandırılmış serinin
eğikliğini Pearson ve
Bowley eğiklik
ölçülerine göre elde
ediniz.
Sınıflar
Frekanslar
0-2 den az
5
2-4 den az
9
4-6 dan az
6
6-8 den az
7
8-10 dan az
3
Cevap:
Pearson’a göre eğiklik: 0.584
Bowley’e göre eğiklik: 0.14
32
Download