MÜH 100 İSTATİSTİK Yrd. Doç. Dr. Veysel Gazi TOBB Ekonomi ve Teknoloji Üniversitesi Elektrik-Elektronik Mühendisliği Bölümü AMAÇ • Kitle ve örneklem arasındaki farkı öğrenmek • Betimsel istatistiği kullanmayı öğrenmek (veri sıralaması, merkezsel eğilim ölçüleri, dağılım ölçüleri, vs.) • Histogram çizme ve okumayı öğrenmek • Normal dağılımı ve standart normal dağılımı tanımlamak • Olasılık hesabı için Z-tabloları kullanmak İstatistik • İstatistik olasılık kuramının yöntemlerine bağlı bir daldır - betimsel (descriptive) istatistik: veri toplamak, düzenlemek, özetlemek, sunmak ve incelemek - tümevarımsal istatistik (statistical inference): - verilere dayanarak sonuçlar çıkarmak - sonuçlara dayanarak kararlar almak • mühendisler tarafından çok kullanılır (mesela kalite kontrol için) Kitle ve Örneklem • Kitle (Population) – üzerinde çalışılan tüm gruba yada istatistiksel sonuçların genişletileceği gruba kitle denir – örnek: bütün sınıf, tüm ülke insanları, tüm kanser hastaları • Örneklem (Sample) – kitlenin bir alt kümesidir – örnek: bir takım, rasgele seçilen bazı insanlar • Bütün kitle hakkında sonuçlara varabilmek için genelde örneklem kullanılır. Neden örneklem kullanılır? • Kitle çok büyük olabilir – dünyadaki tüm insanlar, uzaydaki tüm yıldızlar. • Kitleye ulaşmak imkansız olabilir • • • – tarih öncesi insanları Kitleyi incelemek tehlikeli olabilir – araba enkazları/kazaları, patlamalar Kitleyi ölçmek zor olabilir – atomların alt parçacıkları Ölçüm örneği kullanılmaz hale getiriyor olabilir – vidanın dayanma gücü Örnek: • Sağındaki ve solundaki kişilerin yaşlarının ve kendi yaşının ortalamasını alarak sınıf yaş ortalamasını tahmin et. • Aldığın 3 kişilik örneklem hangi şartlarda sınıfı temsil etmez? Merkezsel Eğilim Ölçüleri • Bir kitleyi (yada bir örneklemi) tek bir sayı ile tanımlamak/betimlemek istersek ne kullanırız? – Ortalama (Mean) – aritmetik ortalama – Mod (Mode) – en çok tekrarlanan (en sık görülen) değer. – Ortanca/Medyan (Median) – veri kümesinin “orta” değeri. Ortalama nedir? • Ortalama verilerin toplamının veri sayısına bölümüdür. Kitle Ortalaması N x N 1 i 1 i • μ = kitle ortalaması • xi = veriler • N = kitledeki tüm gözlemlerin sayısı Örneklem Ortalaması n x 1 xi n i 1 • x= örneklem ortalaması • xi = veriler • n = örneklemdeki gözlemlerin sayısı Ağırlıklı Ortalama Ağırlıkları w1,w2, …,wk, olan x1,x2, …, xk, verilerinin ağırlıklı ortalaması: • 1 k A.O. wi xi ve burada n i 1 k n wi i 1 Örnek Ders Kredi Not Ağ. Not Fiz 101 4 AA (4.0) 16.0 Kim 101 4 BB (3.0) 12.0 Müh 100 2 BA (3.5) 7.0 Mat 101 4 CB (2.5) 10.0 Türk 101 2 CC (2.0) 4.0 İng 101 DD (1.0) 2.0 2 MAK 101 3 Toplam 21 DC (1.5) 4.5 55.5 Yandaki tabloda verilen ders ve notlar için ağırlıklı ortalama: • 55.5 A.O. 2.64 21 Mod Nedir? • mod – kesikli verilerde (yada kesikli aralıklara gruplanmış verilerde) en fazla görülen değer. 35 Örnek: MÜH100 dersini alan öğrencilerin çoğu EEM bölümünden. 30 25 20 Seri 1 15 10 5 0 EE MAK BİL Ortanca nedir? • Ortanca (medyan) – veriler sıralanmış olmalı – tek sayıda gözlem var ise ortanca orta değerdir – çift sayıda gözlem var ise ortanca iki orta değerin ortalamasıdır • Verilerde sapan değerler var ise ortanca verileri ortalamadan daha iyi betimler. – Örnek: Şu an bu odadaki kişilerin yaş ortalaması. Dağılım Ölçüleri • Verilerin merkeze göre dağılımı tanımlayan ölçüler – değişim aralığı – ortalama mutlak sapma – standart sapma – varyans Değişim Aralığı Nedir? • Değişim Aralığı (Range) – en büyük ve en küçük değerler arasındaki fark. – Örnek: A üniversitesinin B bölümünün tavan puanı 361 ve taban puanı 349 ise. • En düşük (Minimum) = 349 puan • En yüksek (Maksimum) = 361 puan • Değişim aralığı = 361-349 = 12 puan Ortalama Mutlak Sapma • Herhangi bir verinin ortalamadan sapması di xi yada di xi x • Tüm sapmaların toplamı sıfırdır • Ortalama Mutlak Sapma (OMS) 1 N OMS | xi | yada N i 1 1 n OMS | xi x | n i 1 Standart Sapma • Kitle için 1 N N 2 ( x ) i Varyans = 2 i 1 • Örneklem için n 1 2 s ( x x ) i (n 1) i 1 Sapma Varyans = s2 Standart Sapma • Verilerin dağılımı hakkında önemli bilgi vermektedir. • Matematiksel analiz için OMS’den daha uygun. ve s Farkı • s (örneklem varyansı) ‘nın (kitle varyansının) bir tahminidir. • s’nin hesaplanmasında n-1 kullanılır ve bu daha iyi sonuç verir. • Eğer n büyük ise n ve n-1 kullanımı arasındaki fark önemsizdir. Önemli bir özellik • Standart sapmayı Gauss 1700’lerde yıldızların ölçülen konumlarındaki gözlenen hataları açıklamak için icat etmiş. • Bugün ise kalite kontrolden finansal risklerin ölçülmesi/hesaplanması’na kadar birçok yerde kullanılıyor. Verilerin Düzenlenmesi • Bir gözlemde yada deneyde elde edilen verilere ham veri • • • • • (raw data) denir. Veriler genelde incelemeden önce büyükten küçüğe (yada tersi) sıralanır (sort edilir). Sıralanmış veriler sınıflandırılır. Sınıflar tüm verileri kapsayacak ve her veri sadece bir sınıfa dahil olacak şekilde tanımlanır. Her sınıftaki eleman sayısına sınıf frekansı denir. Veriler histogram kullanarak grafiksel olarak gösterilebilir. Örnek • Müh 100 dersinin notları aşağıdaki gibi olsun 50 54 54 60 55 73 74 54 62 64 63 47 57 62 54 58 62 50 62 59 47 74 51 55 49 67 60 48 46 71 57 59 52 65 49 46 69 53 66 75 70 51 50 57 60 47 51 53 58 57 56 69 53 59 47 46 63 48 48 61 68 56 58 64 60 37 49 66 62 51 59 50 53 69 74 48 50 64 64 60 53 65 65 Örnek • Notlar büyükten küçüğe sıralanır. – – – – – En yüksek not (maksimum) = 75 En düşük not (minimum) = 37 Not değişim aralığı = 75 – 37 = 38 Ortalama = 58’dir. Ortanca 83 veri olduğundan 42’ci değerdir ve 57’dir. • Sıralanmış notlar 9 sınıfa ayrılır – Sınıflar 35-39, 40-44,45-49,…,75-79’dır – En fazla not 50-54 sınıfındadır – bu sınıf mod sınıfıdır. D (4 44 ) 0- 40 ) (< (4 549 D C ) (5 054 C C ) (5 5C B 59) (6 0BB 64 (6 ) 5BA 69 ) (7 07 AA 4) (> 74 ) D FD FF Örnek • Her sınıfın frekansına göre histogram çizersek. 20 18 16 14 12 10 8 6 4 2 0 Seri 1 Veri Dağılımları • Verinin “şekli” frekans histogramı ile anlaşılır. • Frekans histogramlarında genelde oransal • • frekans (OF = sınıf frekansı/toplam frekans) kullanılır. Çoğunlukla veriler “çan-eğrisi” şeklinde bir dağılım gösterirler ve bu tür dağılıma “normal” dağılım (distribution) denir. Gauss yıldızların konum hatalarının “normal” dağılım gösterdiğini gözledi. Normal Dağılım • Normal dağılım bazen “Gauss” dağılımı olarak da adlandırılır. 1 OF e 2 1 x 2 / 2 2 ortalama OF Oransal (Relative) Frekans x Standart Normal Dağılım z x / Alan = 1.00 için 0.5 1 OF e 2 1 2 z 2 0.4 0.3 0.2 0.1 0.0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 Bilinmesi Gereken Bazı Şeyler • z=-1 ve z=1 (x=- ve x= arasındaki alan 0.6827’dır. • z=-2 ve z=2 (x=-2 ve x=2 arasındaki alan 0.9545’dır. • z=-3 ve z=3 (x=-3 ve x=3 arasındaki alan 0.9973’dır. • z=-4 ve z=4 (x=-4 ve x=4 arasındaki alan pratik olarak 1.0’dır. Bilinmesi Gereken Bazı Şeyler • Normal eğrisinde orta değer alanı %50’lik iki eşit bölgeye ayırır. • Normal dağılım eğrisi toplam 1.00 alana sahiptir. • “z-Tabloları” standart normal dağılım eğrisinin altındaki alanı gösterir ve zeksenindeki herhangi iki nokta arasındaki alanı hesaplamak için kullanılabilir. Z-Tabloları Kullanarak Olasılık Hesabı • Örnek: Kitabınızdaki Ek-C’deki Z-tablosunu kullanarak z= -1.0 ve z= 2.05 arasındaki alanı bulunuz. – – – – Tablodan: z = 1.0 için alan = 0.3413 Simetriden dolayı z = -1.0, için de alan = 0.3413 Tablodan: z= 2.05 için, alan = 0.4798 Toplam alan = 0.3413 + 0.4798 = 0.8211 – “Kuyrukların” alanı = 1.0 - 0.8211 = 0.1789 Özet • Merkezsel Ölçüler – ortalama – mod – ortanca • Dağılım Ölçüleri – değişim aralığı – varyans – standart sapma • Normal Dağılımı [email protected]