Bölüm 3

advertisement
21.10.2012
Tanımlayıcı İstatistikler
• Bir veri setini tanımak veya birden fazla veri setini
karşılaştırmak için kullanılan ve ayrıca örnek
verilerinden hareket ile frekans dağılışlarını sayısal
olarak özetleyen değerlere tanımlayıcı istatistikler
denir.
Bölüm 3
• Analizlerde kullanılan veri tiplerine (basit,
gruplanmış, sınıflanmış) göre
hesaplamalarda
kullanılacak formüller değişmektedir.
Tanımlayıcı İstatistikler
1
Tanımlayıcı İstatistikler
Yer Ölçüleri
1)Aritmetik ort.
2)Geometrik ort.
3)Harmonik ort.
4)Mod
5)Medyan
6)Kartiller
2
Yer Ölçüleri
Değişkenlik Ölçüleri Çarpıklık Ölçüleri Basıklık
1) Range
1)Pearson Asimetri Ölçüleri
(Değişim Aralığı) Ölçüsü
2) Ort. Mutlak sapma 2)Bowley Asimetri
Ölçüsü
3) Varyans
4) Standart Sapma
5) Değişkenlik(Varyasyon)
Katsayısı
3
• Yer ölçüsünü belirlemek amacıyla veri
analizini yapacak kişi, öncelikle veri seti
için hangi ölçüyü kullanması gerektiğine
karar vermelidir.
4
1
21.10.2012
Tanım
1) Aritmetik Ortalama
• Üzerinde inceleme yapılan veri setindeki elemanların
toplanıp incelenen eleman sayısına bölünmesiyle elde
edilen yer ölçüsüne aritmetik ortalama denir.
 Merkezi Eğilim Ölçüsü
Veri setinin orta noktası veya merkezinin
değeridir.
• Örnek:
– Sınav notlarının ortalaması,
– Yaz aylarında m2’ye düşen ortalama yağış miktarı
5
6

Örnek Ortalaması ve
Anakütle Ortalaması
x , x-bar şeklinde telaffuz edilir ve örneklemin ortala
masıdır.
x
x =
n
Bir Denge Noktası Olarak
Ortalama
• 1, 14, 19, 31, 50 sayılarının ortalaması =23 tür.
Şekil sayıları bir çizgi üzerinde yerleştirilmiş eşit
küçük ağırlıklar şeklinde gösterir.1,14,19,31,50
• Aritmetik ortalama denge noktasıdır.
µ, “mü” şeklinde telaffuz edilir ve anakütle
ortalamasıdır
µ =
x
N
1
7
14
19
31
50
8
2
21.10.2012
Eğer çizgiyi üzerinde ağırlıklar olan bir tahta
olarak düşünürsek, tahtayı dengede tutmak için
’nün
bulunduğu
yerden
denge
noktası
koymalıyız. Bu aritmetik denge noktasının özelliği;
her bir sayı için xi- ‘yü hesaplarsak pozitif ve
negatif sayılar dengede kalır çünkü toplamları 0
olur.
Herhangi bir veri seti için,
(x
i
Basit Veriler için Aritmetik Ortalama Örneği
Örnek: İzmir ilinde ilköğretim ikinci sınıfta okuyan
öğrenciler üzerinde yapılan bir araştırmada rasgele
8 öğrenci seçilmiş ve ailenizde kaç çocuk vardır
sorusuna aşağıdaki gibi cevap vermişlerdir. Ailelerin
çocuk
sayılarının
ortalamasını
hesaplayınız.
 )  0
1,3,2,1,4,5,6,2
olur.
x 
n=8
i
i = 1,2,…,8
n
x

x 
i
uzaklığı
Gruplanmış Veriler İçin
Aritmetik Ortalama
k
x
x f
i
i 1
i
k
f
i 1
i
x
i
 xi
9
i 1
n
5
k
i
f : frekans
k: grup sayısı
i = 1,2,3,……….,k
11 2  2  3  4  5  6
3
8
Örnek:
Bir
otomobil Araba
bayisinde 80 gün boyunca (xi)
yapılan inceleme sonucunda
0
satılan arabaların adetlerine
1
göre dağılımı yandaki tabloda
2
verilmiştir. Buna göre bir gün
3
içinde satılan ortalama araba
sayısını hesaplayınız.
4
 f n
i 1

Gün (fi)
xi.fi
5
12
35
14
8
6
∑fi=80
0
12
70
42
32
30
k
x
 xi fi
i 1
k
 fi

0  12  70  42  32  30 186

 2,33
80
80
i 1
3
21.10.2012
Sınıflanmış Veriler İçin Aritmetik
Ortalama
m f
k
x
f : frekans
k : sınıf sayısı
i
i 1
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma
yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek
kaydedilmiştir.Öğrencilerin boylarının aritmetik ortalamasını
hesaplayınız.
i
k
f
i 1
i
 f n
k
i = 1,2,3,……….,k
i 1
m : sınıf orta noktası
i
• Sınıflanmış verilerde her bir sınıf içindeki değerlerin neler
olduğu bilinmediğinden dolayı ve yalnızca her bir sınıfın
frekans değerleri bilindiğinden dolayı sınıfı temsil etmek
üzere sınıf orta noktaları hesaplamada kullanılır.
• Kullanılan formül gruplanmış veriler için kullanılan
13
formüle benzerdir.
Ağırlıklı Ortalama
x
i 1
k
 fi

fi
5
7
14
9
8
4
3
50
mi
153,5
160,5
167,5
174,5
181,5
188,5
195,5
m if i
767,5
1123,5
2345
1570,5
1452
754
586,5
8599
153,5(5)  160,5(7)  ...  195,5(3) 8599

 171,98 cm.
50
50
i 1
Örnek: Aşağıdaki tabloda şipariş büyüklüklerine göre elde edilen kar
miktarları ve sipariş sayıları verilmiştir. Buna göre bir siparişden elde
edilecek ortalama kar miktarı kaç $’dır?
Veri setindeki gözlemlerin belirli bir kritere göre
ağırlıklandırılması durumunda veri setinin ortalamasının
hesaplanması için kullanılan ortalamadır.
xw 
k
 mi fi
Sınıflar
150-157’den az
157-164’den az
164-171’den az
171-178’den az
178-185’den az
185-192’den az
192-199’dan az
Toplam
 wi xi
 wi
Sipariş
büyüklüğü
Sipariş başına Sipariş
kar xi
sayısı wi
xiwi
Küçük
Orta
Büyük
$1
$3
$6
$120
$180
$120
Σ xiwi=$420
xw 
15
120
60
20
Σwi=200
 wi xi  420  $2,1
 wi 200
16
4
21.10.2012
Geometrik Ortalama’nın
Kullanım Alanları
2) Geometrik Ortalama
• Bir veri setinde bulunan n adet elemanın çarpımının
• Ortalama oranları,
n nci dereceden kökünün alınmasıyla elde edilen yer
ölçüsüdür.
• Değişim Oranları,
G  n x1  x2  ....  xn
• Logaritmik dağılış gösteren veri setleri,
• Geometrik ortalamanın formülüne bakıldığında
hesaplama zorluğu olduğundan dolayı logaritma
ifadesi kullanılır. Genellikle basit veriler için kullanışlı
olup negatif sayılar için kullanışlı değildir.
n
Log G 
 log x
i
i 1
n
1 n
G  anti log  log xi
n i 1
için kullanışlıdır.
Örnek: fiyat indeksleri, faiz formülleri.
17
Örnek: Abac şirketinin yıldan-yıla olan fuel deki
tüketim harcamalarının değişimi yüzde -5, 10, 20, 40,
ve 60. büyüme faktörlerinin geometrik ortalamasını
kullanarak harcamalardaki ortalama yıllık yüzde
değişim belirlenir. Büyüme faktörleri için yüzde
değişim dönüştürme ile elde edilenler;
0.95 1.10 1.20 1.40 1.60
G  n x1  x2  ....  xn  5 (0,95)(1,10)(1, 20)(1, 40)(1, 60)
 5 2.80896  1, 229
n
 log xi
0, 022276  0, 041393  0, 079181  0,146128  0, 204120

n
5
0, 448546
Log G 
 0, 08971
5
Log G 
i 1
G = anti log 0,27045 = 100,08971 ≈ 1,229
5
21.10.2012
3) Harmonik Ortalama
Harmonik Ortalama’nın Kullanım Alanları
• Bir veri setinde bulunan n adet elemanın çarpma
Zaman verileri için kullanışlıdır.
Örnek: Zaman birimi başına hız, para birimi başına
satın alınan birim sayısı.
Belirli koşullar ve fiyat tipleri için zaman verilerinin
ortalamalarının hesaplanmasında kullanılan bir yer
ölçüsüdür.
Zamana bağlı hız, fiyat verimlilik gibi oransal olarak
ifade edilebilen verilerin ortalamasın alınmasında da
kullanılabilir.
işlemine göre terslerinin ortalamasının tersinin
alınmasıyla elde edilen yer ölçüsüdür. Genellikle basit
veriler için kullanışlıdır.
1
n
H

1
1  1 1
 1 1
  .... 
   ....  
x
x
x
xn 
1
2
n
 x1 x2


n




n
1

H
1
x
i 1
NOT: ARİTMETİK ORT. > GEOMETRİK ORT. > HARMONİK ORT.
i
21
n
Örnek: Bir tekstil fabrikasında çalışan dört kişinin bir
pantolonu ütüleme süreleri aşağıda verilmiştir. Buna göre
bu fabrikada bir pantolon ortalama kaç dakikada ütülenir?
İşçi 1: 10 dk.
İşçi 2: 6 dk.
n
1

H
H
1
x
i 1
n
i
İşçi 3: 4 dk.
İşçi 4 : 5 dk.
4) Mod
• Bir veri setinde en çok gözlenen ( en çok tekrar eden )
değere veya frekansı en fazla olan şans değişkeni
değerine mod adı verilir.
• Veri setinin modu olmayacağı gibi birden fazla da
modu olabilir.
1 1 1 1
  
43
 4 5 6 10 
4
240
240
 5,58 dk .
43
22
• Mod genellikle kesikli şans değişkenli için oluşturulan
gruplanmış verilerde aritmetik ortalama yerine
kullanılabilir.
23
24
6
21.10.2012
Örnekler
Mod
• Mod, büyük veri setlerinde verinin daha çok nerede
toplandığını bulmak için kullanılır. Örneğin erkek
kıyafetleri satan bir perakendeci, potansiyel
müşterilerini belirlemek için gömlek kol uzunluğu ve
gömlek yaka ölçüsüyle ilgilenebilir.
• Nicel veri seti çok büyük olmadığı zaman mod
anlamlı olmayabilir.
• Niteliksel veriler için kullanılabilecek tek merkezi
eğilim ölçüsüdür.
1) 5,40 1,10 0,42 0,73 0,48 1,10
2) 27 27 27 55 55 55 88 88 99
Modu 1,10
1 den fazla moda
sahip , 27 ve 55
3) 1 2 3 6 7 8 9 10
Modu yok
25
Gruplanmış Veriler İçin Mod
26
Sınıflanmış Veriler İçin Mod
Basit verilerde bulunduğu gibi hesaplanır.
Örnek: Bir otomobil bayisinde
80 gün boyunca yapılan
inceleme sonucunda satılan
arabaların adetlerine göre
dağılımı
yandaki
tabloda
verilmiştir. Buna göre araba
satışları için mod değeri nedir?
Araba(xi)
0
1
2
3
4
5
Satış adedi (fi)
5
12
35
14
8
6
En yüksek frekansa sahip olan gözlem değeri 2
olduğundan dolayı araba satışları için mod değeri 2’dir.
27
• Sınıflanmış verilerde mod değeri hesaplanırken ilk olarak
mod sınıfı belirlenir.
• Mod sınıfı frekansı en yüksek olan sınıftır.
• Mod sınıfı belirlendikten sonra bu sınıf içerisinde yer alan
modun tam değeri sınıf frekansı ve kendine komşu olan
sınıf frekansları dikkate alınarak hesaplanır.
28
7
21.10.2012
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma
Mod
LMod
=
yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek
kaydedilmiştir.Öğrencilerin boylarının mod değerini hesaplayınız.
1
Lmod 
.i
1   2
= Mod Sınıfı Aralığının Alt Sınırı
1
= Mod Sınıfı Frekansı - Kendinden Bir Önceki
Sınıf Frekansı
 2 = Mod Sınıfı Frekansı – Kendinden Bir Sonraki
Sınıf Frekansı
i
= Mod Sınıfının Sınıf Aralığı
Mod sınıfı
Sınıflar
150-157’den az
157-164’den az
164-171’den az
171-178’den az
178-185’den az
185-192’den az
192-199’dan az
Toplam
fi
5
7
14
9
8
4
3
50
29
Frekansı en yüksek olan sınıf mod sınıfı olarak
belirlenir.
Mod sınıfı belirlendikten sonra formülde ilgili
değerler yerine koyularak mod değeri hesaplanır.
1
Mod  Lmod 
i
1   2
(14  7)
 164 
 7  168,08 cm.
(14  7)  (14  9)
5) Medyan
• Bir veri setini büyükten küçüğe veya küçükten büyüğe
sıraladığımızda tam orta noktadan veri setini iki eşit
parçaya ayıran değere medyan adı verilir.
• Veri setinde aşırı uçlu elemanlar olduğunda aritmetik
ortalamaya göre daha güvenilirdir.
• Medyan, veri setindeki tüm elemanlardan etkilenmez.
32
8
21.10.2012
Basit Veriler İçin Medyan
• Veri Setinin Hacmi Tek Sayı İse;
n 1
2
5.40
1.10
0.42
0.73
0.48
1.10
0.42
0.48
0.73
1.10
1.10
5.40
Medyan bu iki noktanın arasına düşmektedir
nci gözlem değeri medyandır.
0.73 + 1.10
MEDYAN 0.915
2
• Veri Setinin Hacmi Çift Sayı İse;
n
2
ve
n
1
2
nci gözlem değerinin aritmetik
5.40
1.10
0.42
0.73
0.48
1.10
0.66
0.42
0.48
0.66
0.73
1.10
1.10
5.40
Tam ortadaki değer medyandır.
ortalaması medyandır.
MEDYAN 0.73
33
Gruplanmış Veriler İçin Medyan
Gruplanmış verilerde medyan değeri hesaplanırken
veri setinin tam orta noktasının hangi gruba ait
olduğunu belirlemek için birikimli frekans sütunu
oluşturulur.
•
Örnek: Bir otomobil bayisinde 80 gün boyunca
yapılan inceleme sonucunda
satılan arabaların
adetlerine göre dağılımı aşağıdaki tabloda verilmiştir.
Buna göre araba satışları için medyan değeri nedir?
Araba
0
1
2
3
4
5
• Sıra numarası belirlendikten sonra o sıra numarasına
ait grup medyan değeri olarak ifade edilir.
35
34
Satış adedi
5
12
35
14
8
6
Birikimli Frekans ( ∑f )
5
17
52
66
74
80
n/2 ve (n/2)+1 nci gözlem değerlerine karşılık gelen değerler
(40 ve 41 nci sıra ) 2 olduğundan dolayı medyan değeri 2’dir.
9
21.10.2012
•Frekans dağılımı aşağıdaki gibi olsaydı (n+1)/2 nci
elemana (40 ncı elemana) karşılık gelen değer
8 olacağından dolayı veri setinin medyanı 3 olarak
hesaplanacaktı.
Satış adedi
5
12
22
32
14
4
Araba
0
1
2
3
4
5
Sınıflanmış Veriler İçin Medyan
• Sınıflanmış verilerde medyan değeri hesaplanırken ilk
olarak medyan sınıfı belirlenir.
Birikimli Frekans ( ∑f )
5
17
39
61
75
79
• Medyan sınıfı birikimli frekanslar dikkate alındığında
toplam frekansın yarısını içinde bulunduran sınıftır.
• Medyan sınıfı belirlendikten sonra medyan sınıfından bir
önceki sınıfın birikimli frekansı ve medyan sınıfı frekansı
dikkate alınarak hesaplanır.
38
 f
Medyan  L
med
 2
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma
 f
i
f
yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek
kaydedilmiştir.Öğrencilerin
boylarının
medyan
değerini
hesaplayınız.
l
.i
med
Lmed : Medyan sınıfının alt sınırı
fl
:
Medyan sınıfından bir önceki sınıfın birikimli
frekansı
fmed :
Medyan sınıfının frekansı
Medyan sınıfı
Sınıflar
150-157’den az
157-164’den az
164-171’den az
171-178’den az
178-185’den az
185-192’den az
192-199’dan az
Toplam
fi
5
7
14
9
8
4
3
50
∑fi
5
12
26
35
43
47
50
39
10
21.10.2012
Toplam 50 adet gözlem olduğundan dolayı, birikimli
frekans sütununda
50/2 =25 nci gözlemin
bulunduğu sınıf medyan sınıfı olarak belirlenir.
Merkezi
Ölçüm
Tanım
Ortalama

x
Nasıl
Kullanılıyor
x
n
En Bilinen
‘ortalama’
Varlığı
Her zaman
vardır.
Her
değer
Dikkate
Alınırmı?
Uç
Değerlerden
Etkilenirmi?
Evet
Evet
Medyan
Medyan  Lmed 
 164 
Orta değer
 fi  fl
2
f med
Mod
En sık tekrar eden
veri değeri
.i
25 12
.7 170,5 cm
14
Sıklıkla
Kullanılır
Her zaman
vardır.
Hayır
Hayır
Ara sıra
kullanılır
Olmayabilir
ya da
birden fazla
olabilir.
Hayır
Hayır
Avantajları ve
Dezavantajları
Birçok
istatistiksel
metodla iyi
çalışır.
Birkaç uç değer
varsa genellikle
iyi bir tercihtir
Nominal
düzeyde veriler
için uygundur
Veriler mod etrafında simetrik oldukları zaman, mod, medyan ve artimetik ortalama
birbirlerine eşit olur.
Eğer örneklem aynı anakütleden çekilmişse, aritmetik ortalama diğer ölçülere göre
daha güvenilirdir
42
6) Kartiller
Basit Veriler İçin Kartiller
•Bir veri setini büyükten küçüğe
veya
küçükten
büyüğe
sıraladığımızda dört eşit parçaya
ayıran üç değere kartiller adı
verilir.
•İlk % 25’lik kısmı içinde
bulunduran 1. Kartil (Q1), %
50’lik kısmı içinde bulunduran
2. Kartil (Q2), % 75’lik kısmı
içinde bulunduran 3. Kartil (Q2),
olarak adlandırılır.
•%50’lik
kısmı
içinde
bulunduran 2. Kartil (Q2) aynı
zamanda
veri
setinin
medyanıdır.
• 1.Kartil Q1
n 1
4
%25
nci gözlem değeri,
%25
• 3.Kartil Q3
3( n 1)
4
nci gözlem değeri,
%25
%25
Q1
Q2
Q3
43
44
11
21.10.2012
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için Q1 ve Q3 değerlerini hesaplayınız.
Veri seti aşağıdaki gibi verilseydi,
30,42,56,61,68,79,82,88,98
30,42,56,61,68,79,82,88,90,98
(n+1)/4 ‘ncü verinin sıra numarası (10+1)/4 = 2,75’dir.
Q1= 42 + 0,75 .(56 - 42) = 52,5 ,
3(n+1)/4 ‘ncü verinin sıra numarası 3(9+1)/4 = 7,5’dir.
Q3= 82 + 0, 5.(88 - 82) = 85 ,
3(n+1)/4 ‘ncü verinin sıra numarası 3(10+1)/4 =
8,25’dir.
Q3= 88 + 0,25.(90 - 88) = 88,5 ‘dir.
(n+1)/4 ‘ncü verinin sıra numarası (9+1)/4 = 2,5’dir.
Q1= 42 + 0, 5 .(56 - 42) = 49 ,
olarak hesaplanacaktı.
45
Gruplanmış Veriler İçin Kartiller
• Gruplanmış verilerde kartiller hesaplanırken veri
setinin ilk çeyrek ve son çeyrek kısmını tam olarak
ifade etmek amacıyla birikimli frekans sütünü
oluşturulur.
Örnek: Bir otomobil bayisinde 80 gün boyunca yapılan
inceleme sonucunda satılan arabaların adetlerine göre
dağılımı yandaki tabloda verilmiştir. Buna göre araba
satışları için birinci ve üçüncü kartil değerleri nedir?
Araba
0
1
2
3
4
5
• Gruplanmış verilerde örnek hacminin tek veya çift
olduğuna bakılmaksızın
n/4 ncü eleman 1.Kartil (Q1),
3n/4 ncü eleman ise 3.Kartil (Q3),
olarak ifade edilir.
47
Satış adedi
5
12
35
14
8
6
Birikimli Frekans ( ∑f )
5
17
52
66
74
80
• n/4 ncü ( 20 nci ) sıra numarasına karşılık gelen gözlem 2
olduğundan; 1.kartil 2, 3n/4 ncü ( 20 nci ) sıra numarasına
karşılık gelen gözlem 3 olduğundan; 3.kartil 3’dür.
12
21.10.2012
f
Sınıflanmış Veriler İçin Kartiller
• Sınıflanmış verilerde kartiller hesaplanırken ilk olarak
birikimli frekans sütunu oluşturularak kartil sınıfları
belirlenir.
• Kartil sınıfları belirlenirken gruplanmış verilerde olduğu
gibi n/4 ve (3n)/4 ncü sıralardaki elemanların hangi sınıflara
ait iseler o sınıflar kartil sınıfları olur.
• Kartil sınıfları belirlendikten sonra bu sınıflardan bir
önceki sınıfın birikimli frekansı ve mevcut sınıf frekansı
dikkate alınarak kartil değerleri hesaplanır.
49
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma
yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek
kaydedilmiştir.Öğrencilerin boylarının birinci ve üçüncü kartillerini
hesaplayınız.
Sınıflar
fi
∑fi
150-157’den az
5
5
157-164’den az
7
12
164-171’den az
14
26
Q1 sınıfı
171-178’den az
9
35
178-185’den az
8
43
Q3 sınıfı
185-192’den az
4
47
192-199’dan az
3
50
Toplam
50
Q1  LQ1 
 164 
 fi  fl
4
fQ1
.i
12,5  12
.7  164,25cm
14
3 fi
 fl
Q3  LQ3  4
.i
fQ3
 178 
37,5  35
.7  180,19 cm
51
8
1. Kartil
Q1  LQ1 
4
i
 fl
f Q1
.i
f
2. Kartil
3. Kartil
Q2  Medyan  LQ2  2
i
 fl
f Q2
3 fi
 fl
Q3  LQ3  4
.i
fQ3
.i
50
Yayılma (Değişkenlik) Ölçüleri
•Bir veri setini tanımak yada iki farklı veri setini
birbirinden ayırt etmek için her zaman yalnızca yer
ölçüleri yeterli olmayabilir.
• Dağılımları birbirinden ayırt etmede kullanılan ve
genellikle aritmetik ortalama etrafındaki değişimi
dikkate alarak hesaplanan istatistiklere yayılma
(değişkenlik) ölçüleri adı verilir.
52
13
21.10.2012
Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek
doğrultusunda oluşturulan histogramlardır. Her iki örnek ortalaması
yaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütleden
alındığı söylenebilir mi?
1200
Frekans
Frekans
400
300
• Dağılımları birbirinden ayırt etmede kullanılan yayılım
ölçüleri aritmetik ortalama etrafındaki değişimleri
dikkate alan tanımlayıcı istatistiklerdir.
1000
• Bir veri setinde aritmetik ortalamalardan her bir
gözlemin farkı alınıp bu değerlerin tümü
toplandığında sonucun 0 olduğu görülür.
800
200
600
400
100
200
33
3,
33
9,
3
,3
3
,3
3
,3
3
3
X
12
10
95
81
0
67
3
3,
12
X
3
9,
10
3
,3
95
3
,3
81
3
,3
67
0
53
• Örnek: 4,8,9,13,16 şeklinde verilen bir basit veri için;
n
x
x
i 1
n
i

4  8  9  13  16
 10
5
  x  x   4  10   8  10   9  10 
n
i 1
i
 13  10   16  10   0
• Bu örnekten görüleceği üzere gözlemlerin aritmetik
ortalamadan uzaklığı alıp toplandığında 0 elde
edildiğinden dolayı bu problem mutlaka değer
kullanarak veya karesel uzaklık alınarak ortadan
kaldırılır.
55
54
7) Range (Değişim Aralığı)
• Veri setindeki yayılımı ifade etmede kullanılan en basit
ölçü, değişim aralığıdır. Genel olarak az sayıda veri için
kullanılır.
• En büyük gözlem değeri ile en küçük gözlem değeri
arasındaki fark değişim aralığını verir.
• Veri setindeki tek bir gözlemin aşırı derecede küçük
veya büyük olmasından etkilendiği için bir başka
ifadeyle örnekte yer alan sadece iki veri kullanılarak
hesaplanmasından dolayı tüm veri setinin değişkenliğini
açıklamak için yetersiz kalmaktadır.
56
14
21.10.2012
Değişim Aralığı
Kartiller Arası Fark
Örnek:
Aralık, veri seti içindeki en büyük değerle en küçük değer arasındaki
uzaklığı ölçerek verinin yayılımını ortaya koyar. Örneğin aşağıdaki
şekilde gösterildiği üzere A hisse senedi belirli bir yılda 36$ ila 32$
arasında çeşitlilik gösterirken, B hisse senedi 10$ ila 58$ arasında
gösterdi. Hisse senedinin fiyatındaki aralık A için 36$-32$ = 4$ dır;
B için 58$-10$=48$.Aralıkları kıyasladığımızda B hisse senedinin
fiyat aralığının A ya göre daha çok değişkenlik gösterdiğini
söyleyebiliriz.
• Diğer değişkenlik 3. ve 1. kartiller arasındaki farka
dikkat çeker. Çeyrek aralık olarak adlandırılan bu
fark, Q3-Q1, bize veri setinin yarısını içeren genişliği
verir.
B hissesinin aralığı
A hissesinin aralığı
10
20
30
32
36
40
50
58
60
Ücret ($)
57
8) Ortalama Mutlak
Sapma(OMS)
• Veri setindeki her bir gözlem değerinin aritmetik ortalamadan
farklarının mutlak değerlerinin toplamının örnek hacmine
bölünmesiyle elde edilir.
• Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0
olacağından bu problemi ortadan kaldırmak
için mutlak değer
n
ifadesi kullanılır.
xi  x

Basit veriler için:
OMS  i 1
n
k
Gruplanmış veriler için:
OMS 

i 1
f i xi  x
i 1
k
Sınıflanmış veriler için :
OMS 
f
i 1
i
mi  x
f
i 1
30,41,53,61,68,79,82,88,90,98
n
x
x
i 1
i
n
30  41  ....  98
 69
10

 x x
n
i
59
k
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için ortalama mutlak sapma değerini
hesaplayınız.
OMS 
k
f
58

n
145

 14,5
10
i 1
i
30  69  41  69  ...  98  69
10
60
i
15
21.10.2012
Sınıflanmış Veriler İçin Ortalama
Mutlak Sapma Örneği
Sınıflar
150-157’den az
157-164’den az
164-171’den az
171-178’den az
178-185’den az
185-192’den az
192-199’dan az
Toplam
fi
5
7
14
9
8
4
3
50
mi
153,5
160,5
167,5
174,5
181,5
188,5
195,5
Yayılma Ölçülerinin Gerekliliği
Ölçümler
Ortalama
Ifi(mi- x )I
92,4
80,36
62,72
22,68
76,17
66,08
70,56
470,96
Örnek 1
1,2,3,4,5
x
Örnek 2
2,3,3,3,4
1  2  3  4  5 15

5
5
x
3
x dan
Uzaklıklar
2  3  3  3  4 15

5
5
3
1-3, 2-3, 3-3, 4-3, 5-3 2-3, 3-3, 3-3, 3-3, 4-3
veya
veya
-2, -1, 0, 1, 2
-1, 0, 0, 0, 1
İki veri seti için uzaklıklar
k
k
x
 mi f i
i 1
k
 fi
i 1
 171,98 kg .
OMS 
 fi mi  x
i 1
k
 fi

470,96
 9.42
50
61
a) Örnek 1
b) Örnek 2
62
i 1
9) Varyans
Basit veriler İçin:
Ortalama mutlak sapmada kullanılan mutlak değerli
ifadeler ile işlem yapmanın zor hatta bazı durumlarda
imkansız olması sebebiyle yeni değişkenlik ölçüsüne
ihtiyaç bulunmaktadır.
•
Anakütle Varyansı:
2
N
 x  x 
n
Örnek Varyansı :
s 
2
2
i
i 1
n 1
k
Gruplanmış veriler için:
63
i
 : Anakütle Ortalaması N : Anakütle Hacmi
• Mutlak değer ifadesindeki zorluk aritmetik ortalamadan
farkların karelerinin alınmasıyla ortadan kalkmaktadır.
• Veri setindeki her bir gözlem değerinin aritmetik
ortalamadan farklarının karelerinin toplamının örnek
hacminin bir eksiğine bölünmesinden elde edilen
yayılım ölçüsüne örnek varyansı adı verilir.
 x   
2
 
s2 
 f (x  x)
i 1
Sınıflanmış veriler için :
s 
i 1
2
i
k
f
k
2
i
i
1
 f (m  x )
i 1
i
k
f
i 1
2
i
i
1
64
16
21.10.2012
n
x
2
2
ifadesi istatistikte bir çok formülde kullanılır ve
kareler toplamı olarak adlandırılır.
n 1
fx
i
i
s 
 x  x    x
n
2
i
i 1
2
i
i 1
i 1
n
Satış adedi
xi.fi
5
0
0
12
12
12
2
35
70
140
3
14
42
126
4
8
32
128
5
6
30
150
toplam
80
186
572
s2 
 k

  fi xi 
k
2
 fi xi   i k 
i
 fi
i 1
k
 fi  1
i 1
i
i
s 
i
2
k
f
i 1
2
k
f
i 1
i
i
1
66
Sınıflanmış Veriler İçin Ortalama
Varyans Örneği
Sınıflar
150-157’den az
157-164’den az
164-171’den az
171-178’den az
178-185’den az
185-192’den az
192-199’dan az
Toplam
x2i.fi
1
i
 k

  f i mi 
i
2


fm 
65
0
k
f
i
k

Sınıflanmış Veriler İçin :
i
 f 1
k
Örnek: Bir otomobil bayisinde 80 gün boyunca yapılan inceleme
sonucunda satılan arabaların adetlerine göre dağılımı yandaki
tabloda verilmiştir. Buna göre araba satışları için varyans değeri
nedir?
Araba
2
i
i
i 1
i
i
 f x 

i 1
2
n
2
2
• Matematiksel olarak hesaplama kolaylığı sağlaması
açısından formüllerde kareler toplamının açılımı olan
aşağıdaki eşitlik kullanılabilir.
 x 

n
k
k
Gruplanmış Veriler İçin:
n
2
i 1
2
i
i 1
s 
Basit Veriler İçin:
i
i 1
 x 

n
 x  x 
n
2
fi
5
7
14
9
8
4
3
50
mi
153,5
160,5
167,5
174,5
181,5
188,5
195,5
fi(mi- x )2
1707,552
922,5328
280,9856
57,1536
725,0432
1091,642
1659,571
6444,48
k
k
186 
556 
80  1,56

79
2
x
 mi f i
i 1
k
 fi
i 1
 171,98
s2 
 fi (mi  x )2
i 1
k
 fi  1

6444,48
 131,52
50  1
68
i 1
17
21.10.2012
10) Standart Sapma
Basit Veriler İçin:

2
n
2
i
i 1
n 1
k
s
Gruplanmış Veriler İçin:
 f (x  x)
i
i 1
k
i 1
Sınıflanmış Veriler İçin :
s
 f (m  x )
i
i 1
s 
2
i 1
i
30  69  41  69  ...  98  69

n 1
9
4538

 504,22
9
2
2
i
s  504,22
2
30  41  ....  98
x

 69
n
10
2
→
s  s  504,22  22,45
2
k
f
i
1
70
2
x
x
30
41
53
61
68
79
82
88
90
900
1681
2809
3721
4624
6241
6724
7744
8100
 x 

2
n
n
s 
2
x
i 1
2
i
n 1
n
690
2
i 1

52148 
10
9
s  504,22
2
s  s  504,22  22,45
2
 x  690  x  52148
n
İstatistik I vizesinden alınan notların ortalama etrafında yaklaşık
olarak 22 puan değiştiği görülmektedir.
2
i
30,41,53,61,68,79,82,88,90,98
x
30,41,53,61,68,79,82,88,90,98
1
Aynı soru kareler ortalamasının açılımı kullanılarak
çözüldüğünde aynı sonuçları verecektir.
n
i 1
i
k
i 1
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için varyans ve standart sapmayı hesaplayınız.
2
i
f
69
2
N
 x  x 
s
Örnek Standart Sapması :
• Bu nitelendirme veriler açısından bir anlam
taşımayacağından
varyans
yerine
ortalama
etrafındaki değişimin bir ölçüsü olarak onun pozitif
karekökü olan standart sapma kullanılır.
n
i
: Populasyon Standart Sapması N : Populasyon Hacmi
• Örnek: kg2, cm2 gibi.
 x  x 
 x   

Populasyon Standart Sapması:
• Varyans hesaplanırken kullanılan verilerin kareleri
alındığından
verilerin
ölçü
biriminin
karesi
varyansında ölçü birimi mevcut ölçü birimini karesi
olur.
i 1
71
n
i
i 1
2
i
72
18
21.10.2012
CHEBYSHEV TEOREMİ
• Örnek: X değişkeni bir sınıftaki İstatistik I dersinin
başarı notlarını göstermek üzere, örnek ortalamasının
60 varyansının 100 olduğu bilindiğine göre, verilerin
¾ ‘ü hagi aralıkta değişir?
Herhangi bir veri setinde, verilerin ortalamanın K standart
sapma uzağında bulunması oranı 1-1/K2 dır. Burada K, birden büyük
pozitif sayıdır.
1 3

k2 4
 x  2s 
1
K=2 ve K=3 için;
•Verilerin en az 3/4’ ü (%75) ortalamanın 2 standart sapma uzagında
bulunur.
•Verilerin en az 8/9’ u (%89) ortalamanın 3 standart sapma uzağında
bulunur.
k 2
 60  2.10 
 40,80 
73
Standart Sapmanın Yorumlanması
- Chebyshev teoreminden, frekans dağılımının şekline
bakılmaksızın, ölçümlerin herhangi bir örneğine uygulanan
kural:
a- Ölçümlerden hiçbirinin x s yada ( x s, x s) aralığına
düşmemesi mümkündür.





b- Ölçümlerin en az ¾’ü ( x  2s , x  2s) aralığına düşer.ortalamanın


c- Ölçümlerin en az 8/9’u ( x  3s , x  3s) aralığına düşer.d- Genellikle, ölçümlerin en az (1-1/k2)’ı ( x  ks , x  ks) aralığına
düşer. (k>1)

74
- Simekrik dağılışlarda standart sapmanın yorumu:
a- Ölçümlerin yaklaşık %68’i
x  s yada ( x  s, x  s) aralığına düşer.- ortalamanın 1
standart sapması için
b- Ölçümlerin yaklaşık %95’i ( x  2s , x  2s) aralığına
düşer.- ortalamanın 2 standart sapması için
c- Temelde, tüm ölçümler ( x  3s , x  3s) aralığına düşer.
-ortalamanın 3 standart sapması için








75
76
19
21.10.2012
Ampirik Kural
Ampirik Kural
77
78
Ampirik Kural
• Örnek veri seti:
• 50 şirketin AR-GE için harcanan gelirlerinin
yüzdeleri burada tekrar verilmiştir:
79
13.5
9.5
8.2
6.5
8.4
8.1
6.9
7.5
10.5
13.5
7.2
7.1
9.0
9.9
8.2
13.2
9.2
6.9
9.6
7.7
9.7
7.5
7.2
5.9
6.6
11.1
8.8
5.2
10.6
8.2
11.3
5.6
10.1
8.0
8.5
11.7
7.1
7.7
9.4
6.0
8.0
7.4
10.5
7.8
7.9
6.5
6.9
6.5
6.8
9.5
80
20
21.10.2012
Örnek: Aralıkları içinde kalan bu ölçümlerin
kesrini(fraction) hesaplayınız
Çözüm: İlk aralık
• = (8.49 – 1.98, 8.49 + 1.98) = (6.51, 10.47)
50 ölçümün 34’ünün ve ya %68’inin ortalamanın 1
standart sapması içerisinde olduğunu ortaya koyar.
Aralık,
= (8.49 – 3.96 , 8.49 + 3.96 ) = (4.53, 12.45)
50 ölçümün 47’sini ya da %94’ünü içerir.
ortalama etrafında 3 standart sapma aralığı,
= (8.49 – 5.94 , 8.49 + 5.94 ) = (2.55, 14.43)
tüm ölçümleri içerir.
81
11) z Skoru
Verilen bir gözlem değerinin ortalamanın kaç standart
sapma uzağında olduğunu ölçer.
Örneklem
z = x s- x
Anakütle
z= x-µ

2 ondalık basamağa yuvarlanır.
82
z- skorunun Yorumlanması
Bir veri ortalamadan küçük olursa z-skoru değeri
negatif olur.
Olağan Veriler
: z skoru –2 ve 2 s.s arasında
Olağandışı Veriler: z skoru < -2 veya z skoru > 2 s.s
83
84
21
21.10.2012

• Örnek: 200 çelik işçisinin yıllık gelirleri incelenmiş
ve ortalaması = 24.000$ ve standart sapması s=
2.000$ olarak bulunmuştur. Yıllık geliri 22.000$ olan
Joe Smith’in z-skoru kaçtır?
18.000$
30.000$
22.000$ 24.000$
Joe
Smith’in
geliri
z= x s x =
22.000$  24.000$
2.000$
=-1.0 bulunur. Burada ki -1.0 ın
anlamı Joe Smith’in yıllık geliri ortalamanın 1 standart
sapma altındadır.
z-skorunun sayısal değeri göreli durumlar için ölçümü
yansıtmaktadır. Bir x değeri için bulunan en büyük
pozitif z-skoru değeri, bu x değerinin diğer bütün
ölçümlerden daha büyük olduğunu gösterir ve mutlak
değerce en büyük negatif z-skoru değeri de bu ölçümün
diğer tüm ölçümlerden daha küçük olduğunu gösterir.
Eğer z skoru 0 veya 0’a yakın ise ölçüm ortalamaya eşit
veya ortalamaya çok yakındır.
85
12) Değişkenlik(Varyasyon)
Katsayısı
• İki veya daha fazla populasyon üzerinde aynı
şans değişkenleri için yapılan araştırmalarda
değişkenliklerin karşılaştırılması için kullanılan
bir ölçüdür.
• Standart sapmayı ortalamanın bir yüzdesi
olarak ifade eden ve iki veya daha fazla
populasyondaki varyasyonu (değişkenliği)
karşılaştırmada
kullanılan
ölçüye
varyasyon(değişkenlik) katsayısı denir.
Örnek: A,B ve C hisse senetlerinin kapanış fiyatlarına ilişkin yapılan bir
araştırmada, hisse senetlerinin kapanış fiyatlarının ortalamaları ve standart
sapmaları hesaplanmış ve aşağıdaki tabloda verilmiştir. Buna göre hisse senetlerini
kapanış fiyatlarının değişkenlikleri açısından karşılaştırınız ve hangi hisse
senedinin fiyatındaki değişkenlik daha fazladır ifade ediniz.
Varyasyon
Katsayısı:
C 
V
86
x
s
8
2
B
5
1
C
15
3
A
s
*100
X
• Örnek: İstanbul’da ve Ankara’da yaşayan
ailelerin aylık gelirlerinin değişkenliklerinin
karşılaştırılması
87
sA
2
*100  *100  25  %25
XA
8
s
1
 B *100  *100  20  %20
XB
5
CVA 
CVB
CVC 
sC
3
*100  *100  20  %20
XC
15
Üç
hisse
senedinin
kapanış
fiyatlarının
değişkenlikleri
karşılaştırıldığında en büyük standart sapma değeri C hisse senedinde
olmasına rağmen en büyük varyasyon katsayısına sahip olduğundan en
fazla değişkenliğin A hisse senedinde olduğu görülür.
88
22
21.10.2012
Çarpıklık
Tanımlamalar
 Simetrik Veriler
Eğer veri simetrik ise verinin histogramının sağ tarafı
ve sol tarafı eşit büyüklüktedir

Çarpık Veriler
Eğer veri çarpık ise (simetrik değilse), verinin
histogramın bir kısmı diğer kısmın büyüktür veya
küçüktür.
89
90
13) Asimetri Ölçüleri
Çarpıklık (Asimetri) Ölçüleri
PEARSON ÇARPIKLIK ÖLÇÜSÜ
• Anakütleleri
birbirinden ayırmak için her zaman
yalnızca yer ve yayılım ölçüleri yeterli olmayabilir.
Aşağıda iki farklı anakütleden alınmış örnekler için
oluşturulan histogramlar verilmiştir.
Sk p 
x  mod
s
veya
3( X  med )
Sk p 
s
SkP < 0 →Negatif çarpık(Sola)
SkP > 0 → Pozitif Çarpık(Sağa)
SkP = 0
ise dağılış simetrik
BOWLEY ÇARPIKLIK ÖLÇÜSÜ
Skb 
91
(Q3  Q2 )  (Q2  Q1 )
Q3  Q1
Skb < 0 → Negatif çarpık(Sola)
Skb > 0 → Pozitif Çarpık(Sağa)
Skb = 0
ise dağılış simetrik
92
23
21.10.2012
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığı
et miktarının dağılımından elde edilen bazı tanımlayıcı istatistikler
verilmiştir. Buna göre pearson ve bowley asimetri ölçülerini hesaplayıp
yorumlayınız.
A r it m e t ik Or t .
46,6
Mod
45,4
Medyan
46,2
Q1
41,5
Sk p 
3( X  med ) 3(46,6  46,2)

 0,16  0
s
54,46
Sk p 
x  mod 46,6  45,4

 0,16  0
s
54,46
Skb 
51,9
Simetrik Dağılım
s2
Q2
A.O = Med = Mod
54,46
1
 0,10  0
10,4
A.O > Med > Mod
A.O < Med < Mod
Sağa Çarpık ,
Pozitif Asimetri
Sağa Çarpık,
Pozitif Asimetri
İki modlu simetrik dağılım
(Q3  Q2 )  (Q2  Q1 ) (51,9  46,2)  (46,2  41,5)

Q3  Q1
51,9  41,5

Sağa çarpık dağılım Sola çarpık dağılım
Sağa Çarpık ,
Pozitif Asimetri
Modu olmayan dağılım Tekdüzen dağılım
93
14) Sapan Gözlemler
94
15) 5 Sayı Özeti
Sapan gözlem, diğer bütün gözlemlerden uzakta
bulunan gözlemdir.
 5 sayı özeti, bir veri setinde minimum değer,
1.Kartil,
2.Kartil(medyan),
3.Kartil’i
ve
maksimum değeri içerir.
 Sapan gözlem ortalama üzerinde önemli bir etkiye
sahip olabilir.
 Kutu grafiği(veya kutu ve bıyık grafiği) bir veri
 Sapan gözlem standart sapma üzerinde önemli bir
etkiye sahip olabilir.
seti için, sınırları maksimum ve minimum değer
olmak üzere, içinde 1.Kartil, 2.Kartil(medyan) ve
3.Kartil’i bulunduran kutu şeklindeki grafiktir.
 Sapan gözlem dağılımın gerçek histogramının ölçeği
üzerinde önemli bir etkiye sahip olabilir.
95
96
24
21.10.2012
Kutu grafiği hazırlama
Kutu Grafiği
• Q1:Kutunun sol kenarı
• Q3:Kutunu sağ kenarı
• Q2:Kutunun ortasındaki çizgi
• Sapan hariç min.: Sol bıyık
• Sapan hariç max.: Sağ bıyık
• Sapan değer kontrolu
Q1 – 1.5(Q3 – Q1)
Q3 + 1.5(Q3 – Q1) bu değerleri aşan veriler
* ile gösterilir.
97
• Örnek:
Yazlık ürünler satan bir mağazada
haftalık satılan t-shirt sayıları
yandaki tabloda verilmiştir.
Verilen tablodan beş sayı özetini
bulunuz ve kutu grafiğini çiziniz.
27
17
22
20
30
22
18
21
32
19
20
18
29
17
28
25
20
31
22
23
21
28
22
24
18
18
32
25
18
44
17
98
• Çözüm:
Öncelikle veriler yandaki gibi
sıralanırsa;
Q1=(31+1)/4=8.sıraya karşılık
gelen veri olur.
Q1=18
Q3=3(31+1)/4=24. sıraya karşılık
gelen veri olur.
Q3=28
Minimum değer=17,
Maksimum değer=44 ve
Medyan(Q2)=22 olur.
Sapan değerleri kontrol etmek için;
Q1-1,5(Q3-Q1)=18-1,5(28-18)=3
Q3+1,5(Q3-Q1)=28+1,5(28-18)=43
bulunur. Bu durumda elimizdeki
44 değeri sapan değerdir ve * ile
gösterilir..
17
20
25
17
20
25
17
21
27
18
21
28
18
22
28
18
22
29
18
22
30
18
22
31
19
23
32
20
24
32
44
25
21.10.2012
Kutu Grafiği
45
* 44 sapan değer
40
35
30
25
Medyan(Q2)=22
20
Figure
2-16
Kutu Grafiği
102
16) Basıklık Ölçüsü
Aşağıdaki A ve B dağılımlarının ortalamaları, değişkenlik
ölçülerinin aynı olmasından dolayı ve hatta ikisinin de
simetrik olmalarından dolayı bu iki dağılışı ayırt etmek için
Basıklık Ölçüsü kullanılır.
A
B
Figure 2-17
103
A = B
104
26
21.10.2012
Herhangi bir olasılık fonksiyonunun şekli ile ilgili
parametrelerden bir tanesi de
basıklık ölçüsüdür.
Basıklık Ölçüsü ortalamaya göre dördüncü momentten
gidilerek hesaplanır ve 4 olarak gösterilir.
4 
4
4
n
Basit Seri İçin
4 
 x   
i 1
4
i
n
4 = 3 ise Seri Normal
4 < 3 ise Seri Basık
4 < 3 ise Seri Sivri Ya da Yüksek
105
27
Download