Kitle ve Örneklem Kitle

advertisement
MÜH 100
İSTATİSTİK
Yrd. Doç. Dr. Veysel Gazi
TOBB Ekonomi ve Teknoloji Üniversitesi
Elektrik-Elektronik Mühendisliği Bölümü
AMAÇ
• Kitle ve örneklem arasındaki farkı öğrenmek
• Betimsel istatistiği kullanmayı öğrenmek (veri
sıralaması, merkezsel eğilim ölçüleri, dağılım
ölçüleri, vs.)
• Histogram çizme ve okumayı öğrenmek
• Normal dağılımı ve standart normal dağılımı
tanımlamak
• Olasılık hesabı için Z-tabloları kullanmak
İstatistik
• İstatistik olasılık kuramının yöntemlerine bağlı bir
daldır
- betimsel (descriptive) istatistik: veri toplamak,
düzenlemek, özetlemek, sunmak ve incelemek
- tümevarımsal istatistik (statistical inference):
- verilere dayanarak sonuçlar çıkarmak
- sonuçlara dayanarak kararlar almak
• mühendisler tarafından çok kullanılır (mesela
kalite kontrol için)
Kitle ve Örneklem
• Kitle (Population) – üzerinde çalışılan tüm
gruba yada istatistiksel sonuçların genişletileceği
gruba kitle denir
– örnek: bütün sınıf, tüm ülke insanları, tüm kanser
hastaları
• Örneklem (Sample) – kitlenin bir alt kümesidir
– örnek: bir takım, rasgele seçilen bazı insanlar
• Bütün kitle hakkında sonuçlara varabilmek için
genelde örneklem kullanılır.
Neden örneklem kullanılır?
• Kitle çok büyük olabilir
– dünyadaki tüm insanlar, uzaydaki tüm yıldızlar.
• Kitleye ulaşmak imkansız olabilir
•
•
•
– tarih öncesi insanları
Kitleyi incelemek tehlikeli olabilir
– araba enkazları/kazaları, patlamalar
Kitleyi ölçmek zor olabilir
– atomların alt parçacıkları
Ölçüm örneği kullanılmaz hale getiriyor olabilir
– vidanın dayanma gücü
Örnek:
• Sağındaki ve solundaki kişilerin yaşlarının
ve kendi yaşının ortalamasını alarak sınıf
yaş ortalamasını tahmin et.
• Aldığın 3 kişilik örneklem hangi şartlarda
sınıfı temsil etmez?
Merkezsel Eğilim Ölçüleri
• Bir kitleyi (yada bir örneklemi) tek bir sayı ile
tanımlamak/betimlemek istersek ne kullanırız?
– Ortalama (Mean) – aritmetik ortalama
– Mod (Mode) – en çok tekrarlanan (en sık
görülen) değer.
– Ortanca/Medyan (Median) – veri
kümesinin “orta” değeri.
Ortalama nedir?
• Ortalama verilerin toplamının veri
sayısına bölümüdür.
Kitle Ortalaması
N
x

N
 1
i 1
i
• μ = kitle ortalaması
• xi = veriler
• N = kitledeki tüm gözlemlerin sayısı
Örneklem Ortalaması
n
x  1  xi
n i 1
• x= örneklem ortalaması
• xi = veriler
• n = örneklemdeki gözlemlerin sayısı
Ağırlıklı Ortalama
Ağırlıkları w1,w2, …,wk, olan x1,x2, …, xk,
verilerinin ağırlıklı ortalaması:
•
1 k
A.O.   wi xi ve burada
n i 1
k
n   wi
i 1
Örnek
Ders
Kredi Not
Ağ. Not
Fiz 101
4
AA (4.0)
16.0
Kim 101
4
BB (3.0)
12.0
Müh 100
2
BA (3.5)
7.0
Mat 101
4
CB (2.5)
10.0
Türk 101 2
CC (2.0)
4.0
İng 101
DD (1.0) 2.0
2
MAK 101 3
Toplam
21
DC (1.5)
4.5
55.5
Yandaki tabloda
verilen ders ve
notlar için ağırlıklı
ortalama:
•
55.5
A.O. 
 2.64
21
Mod Nedir?
• mod – kesikli verilerde (yada kesikli
aralıklara gruplanmış verilerde) en fazla
görülen değer.
35
Örnek: MÜH100
dersini alan
öğrencilerin
çoğu EEM
bölümünden.
30
25
20
Seri 1
15
10
5
0
EE
MAK
BİL
Ortanca nedir?
• Ortanca (medyan) – veriler sıralanmış olmalı
– tek sayıda gözlem var ise ortanca orta
değerdir
– çift sayıda gözlem var ise ortanca iki orta
değerin ortalamasıdır
• Verilerde sapan değerler var ise ortanca
verileri ortalamadan daha iyi betimler.
– Örnek: Şu an bu odadaki kişilerin yaş
ortalaması.
Dağılım Ölçüleri
• Verilerin merkeze göre dağılımı tanımlayan
ölçüler
– değişim aralığı
– ortalama mutlak sapma
– standart sapma
– varyans
Değişim Aralığı Nedir?
• Değişim Aralığı (Range) – en büyük ve
en küçük değerler arasındaki fark.
– Örnek: A üniversitesinin B bölümünün tavan
puanı 361 ve taban puanı 349 ise.
• En düşük (Minimum) = 349 puan
• En yüksek (Maksimum) = 361 puan
• Değişim aralığı = 361-349 = 12 puan
Ortalama Mutlak Sapma
• Herhangi bir verinin ortalamadan sapması
di  xi  
yada
di  xi  x
• Tüm sapmaların toplamı sıfırdır
• Ortalama Mutlak Sapma (OMS)
1 N
OMS   | xi   | yada
N i 1
1 n
OMS   | xi  x |
n i 1
Standart Sapma
• Kitle için
 
1
N
N
2
(
x


)
 i
Varyans = 2
i 1
• Örneklem için
n
1
2
s
(
x

x
)

i
(n  1) i 1
Sapma
Varyans = s2
Standart Sapma
• Verilerin dağılımı hakkında önemli
bilgi vermektedir.
• Matematiksel analiz için OMS’den
daha uygun.
 ve s Farkı
• s (örneklem varyansı) ‘nın (kitle
varyansının) bir tahminidir.
• s’nin hesaplanmasında n-1 kullanılır
ve bu daha iyi sonuç verir.
• Eğer n büyük ise n ve n-1 kullanımı
arasındaki fark önemsizdir.
Önemli bir özellik
• Standart sapmayı Gauss 1700’lerde
yıldızların ölçülen konumlarındaki gözlenen
hataları açıklamak için icat etmiş.
• Bugün ise kalite kontrolden finansal
risklerin ölçülmesi/hesaplanması’na kadar
birçok yerde kullanılıyor.
Verilerin Düzenlenmesi
• Bir gözlemde yada deneyde elde edilen verilere ham veri
•
•
•
•
•
(raw data) denir.
Veriler genelde incelemeden önce büyükten küçüğe
(yada tersi) sıralanır (sort edilir).
Sıralanmış veriler sınıflandırılır.
Sınıflar tüm verileri kapsayacak ve her veri sadece bir
sınıfa dahil olacak şekilde tanımlanır.
Her sınıftaki eleman sayısına sınıf frekansı denir.
Veriler histogram kullanarak grafiksel olarak
gösterilebilir.
Örnek
• Müh 100 dersinin notları aşağıdaki gibi olsun
50
54
54
60
55
73
74
54
62
64
63
47
57
62
54
58
62
50
62
59
47
74
51
55
49
67
60
48
46
71
57
59
52
65
49
46
69
53
66
75
70
51
50
57
60
47
51
53
58
57
56
69
53
59
47
46
63
48
48
61
68
56
58
64
60
37
49
66
62
51
59
50
53
69
74
48
50
64
64
60
53
65
65
Örnek
• Notlar büyükten küçüğe sıralanır.
–
–
–
–
–
En yüksek not (maksimum) = 75
En düşük not (minimum) = 37
Not değişim aralığı = 75 – 37 = 38
Ortalama = 58’dir.
Ortanca 83 veri olduğundan 42’ci değerdir ve 57’dir.
• Sıralanmış notlar 9 sınıfa ayrılır
– Sınıflar 35-39, 40-44,45-49,…,75-79’dır
– En fazla not 50-54 sınıfındadır – bu sınıf mod sınıfıdır.
D
(4
44
)
0-
40
)
(<
(4
549
D
C
)
(5
054
C
C
)
(5
5C
B 59)
(6
0BB 64
(6 )
5BA 69
)
(7
07
AA 4)
(>
74
)
D
FD
FF
Örnek
• Her sınıfın frekansına göre histogram çizersek.
20
18
16
14
12
10
8
6
4
2
0
Seri 1
Veri Dağılımları
• Verinin “şekli” frekans histogramı ile anlaşılır.
• Frekans histogramlarında genelde oransal
•
•
frekans (OF = sınıf frekansı/toplam frekans)
kullanılır.
Çoğunlukla veriler “çan-eğrisi” şeklinde bir
dağılım gösterirler ve bu tür dağılıma “normal”
dağılım (distribution) denir.
Gauss yıldızların konum hatalarının “normal”
dağılım gösterdiğini gözledi.
Normal Dağılım
• Normal dağılım bazen “Gauss” dağılımı
olarak da adlandırılır.
1
OF 
e
 2

1
 x   2 /  2
2
ortalama
OF
Oransal (Relative)
Frekans
x
Standart Normal Dağılım
z  x    / 
Alan = 1.00
için
0.5
1
OF 
e
2
1 2
 z
2
0.4
0.3
0.2
0.1
0.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
Bilinmesi Gereken Bazı Şeyler
• z=-1 ve z=1 (x=- ve x= arasındaki alan
0.6827’dır.
• z=-2 ve z=2 (x=-2 ve x=2 arasındaki alan
0.9545’dır.
• z=-3 ve z=3 (x=-3 ve x=3 arasındaki alan
0.9973’dır.
• z=-4 ve z=4 (x=-4 ve x=4 arasındaki alan
pratik olarak 1.0’dır.
Bilinmesi Gereken Bazı Şeyler
• Normal eğrisinde orta değer alanı %50’lik
iki eşit bölgeye ayırır.
• Normal dağılım eğrisi toplam 1.00 alana
sahiptir.
• “z-Tabloları” standart normal dağılım
eğrisinin altındaki alanı gösterir ve zeksenindeki herhangi iki nokta arasındaki
alanı hesaplamak için kullanılabilir.
Z-Tabloları Kullanarak Olasılık
Hesabı
• Örnek: Kitabınızdaki Ek-C’deki Z-tablosunu
kullanarak z= -1.0 ve z= 2.05 arasındaki alanı
bulunuz.
–
–
–
–
Tablodan: z = 1.0 için alan = 0.3413
Simetriden dolayı z = -1.0, için de alan = 0.3413
Tablodan: z= 2.05 için, alan = 0.4798
Toplam alan = 0.3413 + 0.4798 = 0.8211
– “Kuyrukların” alanı = 1.0 - 0.8211 = 0.1789
Özet
• Merkezsel Ölçüler
– ortalama
– mod
– ortanca
• Dağılım Ölçüleri
– değişim aralığı
– varyans
– standart sapma
• Normal Dağılımı
[email protected]
Download