n İSTATİSTİK İstatistik, belirli amaçlar için veri toplama, toplanan verileri tasnif etme, çözümleme ve yorumlama bilimidir Yrd. Doç. Dr. Hamit AYDIN İstatistik Nedir? Latince de durum anlamına gelen “status” kökünden türetildiğine inanılmaktadır. iki anlamda kullanılmaktadır: a) veri, sayı ile ifade edilen kolektif ve yaklaşık bilgiler. Eğitim istatistikleri, tarım istatistikleri, dış ticaret istatistikleri gibi. b) bilim dalı. Birkaç tanımı: Çağdaş anlamda istatistik kısaca “daha etkin karar verebilmek için sayısal verilerin toplanması, düzenlenmesi, sunumu, incelenmesi ve yorumlanmasıdır.” Yığın olaylarını inceleyen ve bunlara ilişkin genel bağıntıları belirtmeye çalışan bir bilimdir. Çok sayıda dış etkene bağlı nesne, varlık ya da olayların sayısal dökümü yapılabilen özelliklerini, incelemeye yarayan bir teknik ya da yöntem kümesidir. Yığın olayların belli amaçlarla gözlemlenmesi sonucu elde edilen verilerin sayısal biçimde işlenmesini sağlayarak, söz konusu olayların oluşturduğu yığınların bilimsel bir şekilde incelenmesinde kullanılan teknik ve yöntemler bilimidir. İstatistiksel Araştırmanın Amacı Rastlantıyı göz önünde tutarak n n n olayları belirleyen genel yasaları, genel eğilimi ortaya çıkarmak, ana nedenleri aramak, olaylar arasındaki ilişkileri ve bağlantıları bulmak, böylece türlü yönetim, bilim ve teknik dallarında yapılacak n n n n kestirimlere, öngörülere, alınacak kararlara ve girişilecek eylemlere yardımcı olmaktır. n İstatistik, çevremizde olup bitenleri sayılarla ifade etmede yardımcı olur. TEMEL KAVRAMLAR İstatistiğin Önemi Günümüzde Hükümetler politikalarını formüle etmek ve aldıkları kararları desteklemek, Politikacılar halkı ikna etmek için istatistikleri temel almaktadır. Tıbbı araştırmalarda hastaların teşhisinde ve yeni ilaçların yan etkilerinin ortaya konulmasında istatistiksel teknikler kullanılmaktadır. Ekonomi, işletme ve kamu yönetiminde Sosyal bilimlerin bütün dallarında istatistiksel yöntemler hemen hemen tek pratik çalışma aracı durumundadır. Popülasyon (Kitle): Belirli bir özelliği gösteren birimlerin tamamının oluşturduğu topluluk. ör. Ülke nüfusu Tamsayım: kitleyi oluşturan birimlerin tamamının gözlem altına alınması. ör. Nüfus sayımı Örnek: Belirli bir özelliği gösteren ve kitleyi temsil edebilen bir miktar birimin oluşturduğu topluluk Parametre Kitleden (popülasyondan) elde edilen bilgileri kullanarak hesaplanan değerler Ör. Ortalama ( µ ), Standart sapma (σ ) Popülasyon Parametre Kitle ve örnekten hesaplanan değerler ve simgesi İstatistik Parametre X µ Standart sapma S σ Varyans S2 σ2 Birey (Gözlem)sayısı n N Korelasyon r ρ Aritmetik ortalama İstatistik Örnekten elde edilen bilgileri kullanarak hesaplanan değerler Ör. Ortalama ( X ), Standart sapma (S) Örnekleme Örnek seçmek için uygulanan yöntemler Örnekleme yöntemleri Tesadüfi örnekleme n Sistematik örnekleme n Kolay örnekleme n Tabakalı (gruplandırılmış) örnekleme n Kümeli örnekleme n Örnek İstatistik ÖLÇME VE ÖLÇEKLER Ölçme: Objelere ve ya bireylere, belirli bir özelliğe sahip oluş derecelerini belirtmek için, belirli kurallara uyarak sembolik değerler verme işlemidir. n Nominal (Sınıflama): Rakamlar sadece verileri farklı gruplara ayırmada kullanılır. Veriye verilen sayı o grubun adıdır. n Ordinal (Sıralama): Ölçme sonucunda verilen sayısal değerler büyükten küçüğe sıralanabilir. Bir özelliğe sahip oluş derecesidir. ör. not A, B, C; yarışma 1., 2., 3.; birinci tercih, ikinci tercih vb. Eşit Aralıklı: Sıfır ile ifade edilen bir başlangıç noktası olan, sıfırın yokluğu göstermediği kabul edilen ölçektir. ör. termometre ölçeği gibi. Oranlı: Gerçek sıfır değerine sahip ve sıfır yokluğu ifade ettiği; birbirinin katı olarak ifade edilebilen ölçek türüdür. ör. Metre, kg. gibi. Ör. futbol takımındaki rakamlar, plaka işaretleri, cinsiyet gibi. n n İstatistiğin Kötü Kullanımı Değişken 1. Gözlemden gözleme değişik değerler alabilen objelere, özelliklere ya da durumlara "Değişken" denir. n Nitel (Kalitatif) Değişken: gözlemden gözleme kalite ve çeşit yönünden farklılık gösteren değişkenler. n Nicel (Kantitatif) Değişken: Birimlerin ölçüm ve tartım sonucu değerleri saptanan sayısal özelliklerini belirten değişkenlerdir. Bu değişkenler değerleri, mekanik ve elektronik araçlara sayısal olarak aralıklı ölçekli yada orantılı ölçekli verileridir Ör. Cinsiyet, medeni durum, göz rengi, din, milliyet vb. Ör. Yaş, ağırlık, zekâ seviyesi, hava sıcaklığı, hız, nüfus vb. n Süreksiz Değişken: Bu değişkenler tür yönünden değişiklik gösterir. Dolayısıyla bir obje ya da birey bir özelliğe sahiptir ya da değildir. (Belirgin data noktaları arasında mesafe oluşu).Cinsiyet, medeni durum gibi. Nitel değişkenlerin hemen hepsi süreksiz değişkendir. n Sürekli Değişken: İki ayrı ölçüm arası kuramsal olarak sonsuz parçaya bölünebilir. Yaş, uzunluk ve ağırlık gibi. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. Kötü örnek (Örneklemenin gereği gibi yapılmaması) Az veri Yanlış yönlendiren grafik Çarpıtılmış yüzdeler Yönlendirilmiş soru Ismarlama soru Olumsuz cevap (Ret-Ayrıcalık) Korelasyon ve nedensellik arası ilişki Kişisel çıkar Kesin rakamlar (beyanlar) Kısmi (taraflı) bilgi Bilinçli Saptırma Yanlış yönlendiren grafik Sigarayı Bırakmak Ölümcül Kalp ve Akciğer Hastalıkları Riskini Azaltır n n n Üç tür yalan vardır: Yalan, Kuyruklu Yalan, İstatistik Benjamin Disraeli "Then there was the man who drowned crossing a stream with an average depth of six inches (15 cm)." W. I. E. Gates Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital. Aaron Levenstein Verilerin Düzenlenmesi Eğer veriler uygun şekilde toplanmamışlarsa, o verilerin tamamı faydasızdır veriler istatistikle de kurtarılamazlar. n n İstatistiki seriler: istatistiksel analiz için derlenen bilgilerin belirli bir özelliğe ve belirli bir kurala göre düzenlenmesi ve sunulması. Grafikler: toplanan verilerin daha anlaşılır olması için verilerin geometrik şekillerle gösterimi ve sunumu. İstatistiki seriler n Verilerin Düzenlenmesi ve Sunulması n n Kesit (mekan) serileri: Gözlem sonuçlarının coğrafi temele göre incelenmesi. Ör. Ülkelere göre üretim Zaman serileri: gözlem sonuçlarının zamana bağlı olarak incelenmesi. Ör. yıllara göre satış miktarı, yağış, ölüm Dağılım serileri: gözlem sonuçlarının aldığı değerlerin dağılımına göre sunulması. n n n Basit seri: gözlem sonuçlarının belirli bir esasa göre sıralanması Frekans serisi: gözlem sonuçlarının tasnif edilmiş halde sunulması. Bileşik seriler: gözlem sonuçlarının iki değişkene göre tasnif edilerek sunulması Dağılım serileri Veri Sınav notu 40 75 10 25 35 15 40 25 10 35 60 25 40 55 Basit Seri Sınav notu 10 Sınıflanmış Frekans Serileri Frekans Serisi Sınav notu Frekans 10 2 10 15 25 25 25 35 35 40 40 40 55 60 75 15 25 35 40 55 60 75 1 3 2 4 1 1 1 115 94 110 103 101 99 103 111 105 Dağılım genişliği ( R ) bulunur R= Xmax-Xmin n n n Sınıf sayısı (k) belirlenir (5-20 arası bir değer) k=1+3.3log(n) Sınıf aralığı ( c ) belirlenir c=R/k Her sınıfın frekansı bulunarak seri düzenlenir. 93 107 99 102 98 96 113 110 108 102 114 97 93 91 95 97 113 98 90 100 103 114 99 114 108 103 100 98 101 104 110 114 113 109 108 106 115 103 111 109 112 104 104 102 107 106 119 105 96 94 96 101 101 106 107 105 113 112 99 Dağılım genişliği: R= Xmax-Xmin = 115-90=25 Sınıf sayısı (5-20 arası bir değer): k=1+3.3log(n) = 1+3.3log(75) =7.19≈7 Sınıf aralığı: c=R/k = 25/7= 3,57 ≈3 veya ≈4 Sınıflanmış Frekans Serileri Sınıflanmış Frekans Serileri n 92 104 114 106 100 102 100 n Sınıf aralığı 3 için Sınıflar n 90-92 n 93-95 n 96-98 n 99-101 n 102-104 n 105-107 n 108-110 n 111-113 n 114-116 q Her sınıfın frekansı bulunarak sınıflandırılmış frekans serisi oluşturulur Sınıflar Çetele Frekans 90-92 /// 3 93-95 ///// 5 96-98 ///// /// 8 99-101 ///// ///// // 12 102-104 ///// ///// //// 14 105-107 ///// ///// / 11 108-110 ///// //// 9 111-113 ///// /// 8 114-116 ///// 5 Toplam Frekans 75 Sınıflanmış Frekans Serileri Dağılım genişliği: R= Xmax-Xmin = 491-0=491 Sınıf sayısı (5-20 arası bir değer): k=1+3.3log(n) = 1+3.3log(40) =6.28≈6 Sınıf aralığı: c=R/k = 491/6= 81.83 ≈81 Kullanılan Sınıf aralığı 100 Sınıflanmış Frekans Serileri (Kesikli değişken) Sınıf alt sınırı Sınıf aralığı =100-0=100 =200-100=100 Sınıflanmış Frekans Serileri (Sürekli değişken) Sınıf aralığı =100-0=100 =200-100=100 100 100 100 100 100 Sınıflanmış Frekans Serileri Sınıf üst sınırı Sınıflanmış Frekans Serileri Sınıflanmış Frekans Serileri Oransal frekans Sınıf Sınırları (kesim noktaları) Oransal Frekans = Sınıf Frekansı - 0.5 Toplam Frekans 99.5 = 12/40=0.3 →%30 199.5 299.5 399.5 499.5 Sınıflanmış Frekans Serileri Sınıf ara Değeri = Alt sınır + Üst sınır 2 = (100+199)/2=149.5 49.5 149.5 249.5 349.5 449.5 Toplam Frekans= 40 Birikimli Frekans Serileri Kümülatif (birikimli) Histogram Histogram: Dağılış Poligonu Çubuk ve Çizgi Grafik 8 7 6 5 4 3 Frekans Frekans Verilerin Sunulması Grafikler: Histogram 30 40 50 60 70 80 90 Puan 12 10 8 6 4 2 30 40 50 60 70 80 90 Puan Diğer grafikler Çubuk grafikler Diğer grafikler Pasta grafikler Gül diyagramları Diğer grafikler Sorular •Ne gibi çıkarımlar yapabiliyoruz? •“Tahmin” yapılabiliyor mu? •İlişkinin “boyutu” ve “yönü” ölçülebiliyor mu? XY-Kartezyen Kor. (Scatter ) Zaman serileri Merkezi Eğilim (Yığışım) Ölçüleri: Ortanca: Bir ölçek üzerinde orta noktanın yerini gösteren bu ölçü tüm değerleri ortadan ikiye bölen değerdir. Basit serilerde: n TANIMLAYICI İSTATİSTİK Gözlem sayısı tek ise Ortanca=(n+1)/2. gözlemdir Gözlem sayısı çift ise Ortanca=[(n/2)+(n/2+1)]/2. gözlemdir Ortanca Merkezi Eğilim (Yığışım) Ölçüleri: n Aritmetik ortalama: Deneklerin aldıkları değerlerin toplanıp denek sayısına bölünmesiyle elde edilen değerdir. 5.40 1.10 0.42 0.73 0.48 1.10 0.42 0.48 0.73 1.10 1.10 5.40 (gözlem sayısı çift olan serilerde tek bir orta nokta yoktur) 0.73 + 1.10 Örnek için Σx x = n Kitle için µ = Σx N Ortanca = 0.915 2 5.40 1.10 0.42 0.73 0.48 1.10 0.66 0.42 0.48 0.66 0.73 1.10 1.10 5.40 (gözlem sayısı tek olan serilerde serinin tam ortasındaki değer) Ortanca = 0.73 Merkezi Eğilim (Yığışım) Ölçüleri: n Mod: Ölçümlerde en fazla tekrar edilen değere mod denir. a. 5.40 1.10 0.42 0.73 0.48 1.10 ïMod 1.10 b. 27 27 27 55 55 55 88 88 99 ïMod - c. 1 2 3 6 7 8 9 10 ïMod yok 27 & 55 Sınıflanmış serilerde Aritmetik ortalama X yerine sınıf ara değerleri kullanılır Σ (f • x) x = Σf x = sınıf ara değeri f = frekans Σf=n Mod Ağırlıklı ortalama Bazı serilerde birimler arasında önem derecesi bakımından farklar olabilir. Eğer ortalamanın hesaplanmasında bu farklar hesaba katılmak isteniyorsa ağırlıklı ortalama kullanılır x = Σ (w • x) Σw Varyans: Değişim (dağılım) Ölçüleri Ranj: En büyük ölçümle en küçük ölçüm arasındaki farktır. Standart sapmanın karesi Ranj= Xmax-Xmin Notasyon Değişim (dağılım) Ölçüleri n Standart sapma: Ölçümlerin ortalamadan olan farklarının karelerinin ortalamasının kareköküdür. Örnek için Kitle için 2 Σ (x – x ) S= n-1 σ = Σ (x - µ) N 2 } n s2 σ Örnek varyansı 2 Kitle varyansı Değişim Katsayısı (CV) Dağılım ölçülerini kullanarak farklı serilerin kıyaslanmasında serilerin farklı birimlerle (cm, kg, vs.) ölçülmüş olması veya aynı Birimde ölçülmüş olmasına rağmen ortalamaları çok değişik serilerin kıyaslanmasında durumunda dağılım ölçülerinin Kullanımı uygun değildir. Bu durumda oransal bir ölçüm olan Değişim katsayısı kullanılır. CV = S X x 100 Eğiklik ve Basıklık Ölçüleri n n n Basıklık Frekans dağılımlarının özellikleri belirlenirken ortalamalar ve değişkenlik değerlerinin yanında dağılımın simetriklik (eğiklik) ve yükseklik (basıklık) durumuna ilişkin bilgilere de ihtiyaç vardır. Eğiklik (skewness): bir frekans dağılımının simetriden sapması olarak tanımlanır. Basıklık (kurtosis): bir dağılımının yükseklik derecesinin bir ölçüsüdür. Eğiklik Xi − X ∑ n Kurtosis = σ4 4 Kantiller X −X ∑ i n Skewness = σ3 3 n n Gözlem değerleri küçükten büyüğe doğru sıralanmış bir seriyi nispi frekansları h/r ve(r-h)/r olan iki kısmi seriye ayıran ortalamaya kantil denir. h: kantilin sırası, r: serideki eşit parça sayısı Q1 (%25 dilim), Q2 (%50 dilim), ve Q3 (%75 dilim), simgeleri ile gösterilir. h 1 inci birimin gösterdiği değer Qi = n + r 2 Kantiller Kutu grafik (Boxplot) Kutu grafik (Boxplot) Dağılım Şekline Göre Boxplot Kaba hesaplamalar Örnek n n n n n n n n n n n Bir işletmedeki yıllık izinler gün olarak aşağıdaki gibidir. 8, 8, 7, 7, 7, 6, 6, 5, 5, 4, 4, 3 Buna göre; a) Ortalama izin kaç gündür? b) Bu grubun ortancası kaçtır? c) Mod'u kaçtır? d) Ranj'ı kaçtır? e) Standart sapması kaçtır? Çözüm: X 8+8+7+7+7+6+6+5+5+4+4+3 70 a) X = ∑ i = = = 5.8 n 12 12 (Xi − X ) ( X i − X )2 8 8 7 7 7 6 6 5 5 4 4 3 1.2 1.2 1.2 0.2 0.2 -0.8 -0.8 -1.8 -1.8 -2.8 4.84 4.84 1.44 1.44 1.44 0.04 0.04 0.64 0.64 3.24 3.24 7.84 2.2 2.2 Hesaplamalarda verideki mevcut ondalık basamaktan bir fazlası alınır n Hesaplama ortasında değer yuvarlanmaz. Her zaman son değer yuvarlanır. Ranj n Kaba standart sapma hesabı s≈ 4 Minimum değer ≈ (ortalama) – 2 x (standard sapma) Maksimum ≈ (ortalama) + 2 x (Standard sapma) e) Standart sapma: Ölçülerin ortalamadan olan farkları bulunur. Farkların karesi alınır ve toplanır. Bulunan değerler formülde yerine konur. Xi Yuvarlama kuralı: Kaba Ranj hesabı b) Grubun ortancası 6'dır. c) Mod 7'dir. d) Ranj=8-3= 5 Örnek n n Toplam 29.68 ( X i − X )2 29.68 S= = = 1.64 n −1 11