İSTATİSTİK 2. BÖLÜM VERİLERİN TOPLANMASI, DÜZENLENMESİ VE SUNUMU Doç. Dr. Şakir GÖRMÜŞ 2013 İkinci Bölüm 2 Sakarya Üniversitesi VERİLERİN TOPLANMASI ve SUNUMU Öğrenme Hedefleri Bu bölümü çalıştıktan sonra; - İstatistiksel verileri toplar. İstatiksel olarak toplanan verileri tasnif edebilir. İstatiksel olarak tasnif edilen verileri grafik ve tablolar yardımıyla sunabilir. Temel Kavramlar Veri Basit Seri Tasnif Edilmiş Seri Gruplanmış (Sınıflanmış) Seri İçindekiler 1. VERİLERİN TOPLANMASI 1.1. Veri Toplama Yöntemleri (Veri Kaynakları) 2. VERİLERİN DÜZENLENMESİ (TASNİFİ) 2.1. Verilerin Basit Seri Şeklinde Düzenlenmesi 2.2. Verilerin Tasnif Edilmiş Seri Şeklinde Düzenlenmesi 2.3. Verilerin Gruplanmış (Sınıflanmış) Seri Şeklinde Düzenlenmesi 3. VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU 3.1.Tablo Sunumları 3.2. Grafiksel Sunumlar Temel İstatiksel Kavramlar 1. VERİLERİN TOPLANMASI İstatistik bilimi çeşitli konularda istatistiki araştırmalar yapabilmek için her bilim dalında olduğu gibi belirli bir disipline dayanan sistematik bir yöntemler zinciri izlemektedir. Bu sistematik yöntemlerin ilki verilerin toplanmasıdır. İstatistiki araştırmanın amacına göre bilimsel yöntemlerle toplanmış deneklerden toplanan veya gözlemlerle elde edilen ve kayıt altına alınan nitel ve nicel bilgilere Veri denir. Sayma veya ölçme işlemleri sonucunda ilk istatistiki verilerin elde edilmesine ve bu verilerin düzenlenmesi işlemine istatiksel verilerin toplanması denilir. Araştırmacının ilk işi araştırma konusu ile ilgili sayılacak veya ölçülecek verilerin ve bu verileri toplama yönteminin doğru olarak belirlemesidir. Birinci bölünde ifade edildiği gibi değişkenlerin değerleri (veriler) nitel-nicel, süreklisüreksiz ve bağımlı-bağımsız olarak sınıflandırılabilir. Zekâ, dikkat, eğitim durumu vb. gibi bazı nitel verileri derece ve seviyelerine göre değişik numaralar vermek suretiyle sayılarla ifade ederek nicel veriler hale getirmek mümkündür. Bu şekilde nitel veriler ölçülerek sayısal olarak ifade edilmiş hale sokulabilir. 1.1. Veri Toplama Yöntemleri (Veri Kaynakları) Araştırmacı yapmak istediği çalışmasının konusuna, veri toplamanın ekonomik ve zaman açısından maliyetine, verinin doğru ve çabuk toplanmasına ve verinin türüne göre çok çeşitli veri toplama yöntemleri kullanabilir. En çok kullanılan dört yöntem aşağıda açıklanmıştır. 1.1.1. Tutulan eski kayıtlar, yayınlanan raporlar ve yıllıklar gibi mevcut olan kaynaklardan derleyerek veri toplama. Doğru ve sistematik olarak tutulması durumunda bu mevcut kaynaklardan elde edilen veriler araştırmacıyı doğru sonuçlara götürür. 3 4 Sakarya Üniversitesi ÖRNEK: İllerin üniversite giriş sınavındaki başarısı ve bu başarı üzerinde illerdeki eğitim yatırımlarının, öğretmen/öğrenci oranının etkisini istatistiksel olarak araştırmak isteyen bir araştırmacı ÖSYM, TÜİK, DPT gibi devlet kurumlarının arşivlerinden, yayınladıkları yıllık raporlardan verileri toplamaları mümkündür. 1.1.2.Anket veya saha araştırması yaparak veri toplama. Araştırmaya konu olan gruplara anket soruları sorulur ve elde edilen yanıtlar verileri oluşturur. Verilerin güvenilir olabilmesi için anket sorularının iyi hazırlanmalı ve grup iyi seçilmelidir. Anket posta, e-mail, telefon gibi haberleşme araçları ile yapılabileceğinden maliyet ve zaman açısından avantajlı olmasına rağmen, saha araştırması bizzat deneklerle yüz yüze görüşülerek yapılacağından sorularının ne demek istediği deneklere daha iyi anlatılır ve böylece daha sağlıklı veriler toplanabilir. ÖRNEK: Sakarya Üniversitesi öğrencilerinin sorunlarını araştırmak isteyen bir araştırmacı, hazırladığı anket soruları yardımıyla veri toplayabilir. 1.1.3. Deney veya gözlem yaparak veri toplama. Özellikle sağlık, kimya, fizik vb. gibi alanlarda denekler üzerinde deney ve ya gözlem yaparak araştırılacak konu ile ilgili veri toplanabilir. ÖRNEK: Geliştirilen üç farklı saç çıkarma ilacından hangisinin daha iyi sonuç verdiğini görmek isteyen bir araştırmacı, üç farklı hasta grubunda bu ilaçları uygulayarak saç artış değerlerini saptar ve bunların istatistiksel olarak önemli olup olmadığı sonucuna varır. 1.1.4.Önceden çeşitli kurumlar tarafından ya da çeşitli araştırmalar için hazırlanmış veri bankalarından hazır verilerin kullanılması. ÖRNEK: IMF, TÜİK, TCMB, DPT, Dünya Bankası vb. gibi kurumların hazırlamış olduğu ekonomik veriler. Tutulan eski kayıtlar, yayınlanan raporlar ve yıllıklar, anket ve saha çalışmaları, deney ve gözlemlere Birincil Veri Kaynakları denir. Bu veriler araştırmacı tarafından toplanmış veya derlenmiştir. Temel İstatiksel Kavramlar Önceden çeşitli kurumlar tarafından ya da çeşitli araştırmalar için toplanmış ve hatta düzenlenmiş veri bankalarındaki verilere İkincil Veri Kaynakları denir. Bu veriler araştırmacı tarafından birincil veri kaynaklarından elde edilmiştir. TÜİK, TCMB, DPT vb. kurumların veya önceki çalışmalardaki verileri örnek olarak gösterilebilir. 2. VERİLERİN DÜZENLENMESİ (TASNİFİ) Farklı yöntemlerle toplanan veriler (değişkenler) çok sayıda gözlem içermektedir. Bu verilerden elde edilen bilgiler düzensiz ve dağınıktır. Bu nedenle ilgilenilen araştırma konusunun değişkenlerinin özellikleri hakkında bilgi edinmek amacıyla, düzensiz ve dağınık verilerin düzenlenerek özetlenmesi (tasnifi) istatiksel araştırmalarda atılacak ikinci adım olacaktır. Verilerin düzenlendiği çizelgelere sıklık çizelgeleri, gösterdikleri dağılıma ise sıklık dağılımı denir. Nitel ve nicel verilere göre bu çizelgeler farklılık gösterirler. Verilerde Sıklık Çizelgeleri ve Dağılımı: Araştırmada toplanan veriler genelde düzenlenmemiş ham verilerdir. Araştırılacak ana kütlenin veya örneklemin sahip olduğu özellikleri hakkında bir ön bilgi edinmek ve yapılacak istatiksel analizlerde kullanılmak açısından bu verilerin düzenlenmesi (sınıflanması) faydalı olacaktır. Bu nedenle toplanan verilere sıklık çizelgeleri ve dağılımı yöntemi uygulanır. Konunun daha iyi anlaşılabilmesi için aşağıdaki örnek yardımıyla toplanan nicel ham verilerin nasıl sınıflandırılacağı uygulamalı olarak gösterilecektir. 3 6 Sakarya Üniversitesi ÖRNEK: Maliye bölümü öğrencilerinin istatistik final sınavında aldığı notlar (veriler) Tablo 1’de verilmiştir. Tablodaki gözlem (veri) sayısı 20’dir. Tablo 1. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notları Numarası Not Numarası Not Numarası Not Numarası Not 1 50 6 40 11 60 16 50 2 70 7 80 12 70 17 90 3 100 8 70 13 80 18 80 4 60 9 90 14 60 19 60 5 80 10 70 15 70 20 70 2.1. Verilerin Basit Seri Şeklinde Düzenlenmesi Araştırmacı bu verileri (notları) küçükten büyüğe doğru sıralayarak basit seri şeklinde Tablo 2’deki gibi düzenleyebilir. Tablo 2. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notlarının Küçükten Büyüğe Doğru Basit Seri Olarak Sunumu Numarası Not Numarası Not Numarası Not Numarası Not 6 40 14 60 12 70 13 80 1 50 19 60 15 70 18 80 16 50 2 70 20 70 9 90 4 60 8 70 5 80 17 90 11 60 10 70 7 80 3 100 Tablo 2’de veriler basit seri şeklinde düzenlenmiştir. Tablo 2 yardımıyla bazı kavramları ve bu kavramlara karşılık gelen değerleri örnek üzerinde uygulamalı olarak hesaplayabiliriz. Dağılım Sınırları: Veri kümesinde (Dağılımda) verilerin aldığı en büyük ve en küçük gözlem değerleridir. Temel İstatiksel Kavramlar En büyük değer (Xmax=Maksimum): Veri kümesinin aldığı en büyük değerdir buna dağılımın üst sınırı da denir. Örneğimizde istatistik dersi final sınavından alınan en yüksek not olan 100 değeridir. En küçük değer (Xmin=Minimum): Veri kümesinin aldığı en küçük değerdir buna dağılımın alt sınırı da denir. Örneğimizde istatistik dersi final sınavından alınan en düşük not olan 40 değeridir. Dağılım Genişliği (Aralığı) : Dağılımın en büyük (üst sınır) değeri ile en küçük (alt sınır) değeri arasındaki farktır. Örneğimizde, Dağılım genişliği (DG) = En büyük değer - En küçük değer = 100 40 = 60 2.2.Verilerin Tasnif Edilmiş Seri Şeklinde Düzenlenmesi Frekans: Değişkene ait aynı değere sahip bir verinin kaç kez tekrarlandığını gösterir. Araştırmacı bir değişkene ait aynı değere sahip ya da tekrar eden verileri sınıflandırarak (tasnif ederek) verileri tasnif edilmiş seri şeklinde düzenleyebilir. Bu şekilde verilerin sıklık çizelgeleri (frekansları) elde edilmiş olur. Değişkene ait verinin frekansı (sıklığı) fi ile gösterilir. Örneğimizi tasnif edilmiş seri şeklinde Tablo 3’teki gibi düzenleyebiliriz. 3 8 Sakarya Üniversitesi Tablo 3. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notlarının Tasnif Edilmiş Seri Olarak Sunulması Öğrencilerin Notları Notların Sıklığı (Frekansı) = fi 40 50 60 70 80 90 100 1 2 4 6 4 2 1 Toplam 𝑛 ∑ 𝑓𝑖 = 20 𝑖=1 Tablo 3’den görüldüğü gibi en yüksek frekansa 70 değeri sahiptir. 20 kişilik sınıfta 6 öğrenci istatistik dersi final sınavından 70 almıştır. En düşük frekansa ise 40 ve 100 değerleri sahiptir. Sınıfta 1’er öğrenci istatistik dersi final sınavından 40 ve 100 almıştır. Sınıfın başarı durumunu görmemiz açısından tasnif edilmiş seriler daha faydalıdır. 2.3. Verilerin Gruplanmış (Sınıflanmış) Seri Şeklinde Düzenlenmesi Bir değişkene ait çok sayıda ve birbirinden farklı veri mevcut ise bu verileri tasnif edilmiş seri (küme) şeklinde düzenlemek zordur. Bu gibi durumlarda değişkenlerin birbirine yakın değere sahip verileri bir arada toplanarak gruplanmış seri olarak sunulabilir. Verilerin gruplanmış seri olarak düzenlenmesini ve onu ile ilgili bazı kavramları aşağıdaki örnek yardımıyla uygulamalı olarak açıklayabiliriz. ÖRNEK: Sakarya Üniversitesi İİBF fakültesinde 500 öğrenci istatistik dersini almaktadır. Bu öğrencilerin yılsonu not ortalaması 0 ile 100 değerleri arasında değişmektedir. Öğrencilerin yılsonu not ortalamasının çoğunlukla birbirinden farklı ama birbirine yakın olacağı düşünülürse gruplanmış seri şeklinde sunulması faydalı olacaktır. Tablo 4, Sakarya Üniversitesi İİBF fakültesinde istatistik dersini alan 500 öğrencinin yılsonu not ortalamalarının gruplanmış seri olarak sunumunu vermektedir. Temel İstatiksel Kavramlar Tablo 4. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu Notlarının Gruplanmış Seri Olarak Sunulması Başarı Derecesi Not Sınıfları (Gruplar) Sınıf Orta Değeri (mi) AA BA BB CB CC DC DD DF FF 90-100 85-89 80-84 75-79 70-74 60-69 50-59 40-49 0-39 95 87 82 77 72 64,5 54,5 44,5 19,5 Toplam Öğrenci Sayısı (Sınıf sıklığı ya da Frekansı) 50 60 40 50 100 50 60 40 50 𝑛 Kümülatif Sınıf Aralığı (s) Sıklık 50 101-90=11 110 90-85=5 150 85-80=5 200 80-75=5 300 75-70=5 350 70-60=10 410 60-50=10 450 50-40=10 500 40-0=40 ∑ 𝑓𝑖 = 500 𝑖=1 Tablo 4 yardımıyla, gruplanmış seriler ile ilgili bazı kavramları uygulamalı olarak açıklayabiliriz. Sınıf: Eşit ya da birbirine yakın değere sahip verilerin (gözlemlerin, deneklerin) bir arada gösterilerek oluşturulan her bir gruba sınıf denir. Sınıf sayısı, k ile ifade edilir. Tablo 4’teki örnekte görüldüğü gibi öğrencilerin notları 9 grupta toplanmıştır ve dolayısıyla sınıf sayısı 9’dur (k = 9). Sınıfın Alt Sınırı (AS): Bir sınıfta yer alan en küçük değerdir. Örneğimizde AA (birinci) grubun alt sınırı 90 ve BA (ikinci) grubun alt sınırı 85 vb. gibidir. Sınıfın Üst Sınırı (ÜS): Bir sınıfta yer alan en büyük değerdir. Örneğimizde AA (birinci) grubun üst sınırı 100 ve BA (ikinci) grubun üst sınırı 89 vb. gibidir. 3 10 Sakarya Üniversitesi Sınıf Aralığı: Ard arda gelen iki sınıfın üst sınır (en büyük değer) ile alt sınır (en küçük değer) arasındaki farktır. Sınıf aralığı, ss ile ifade edilir. Örneğimizde AA (birinci) grubun sınıf aralığı 11 ve BA (ikinci) grubun sınıf aralığı 5 vb. gibidir. Sınıf sayısının az olması verilerdeki bazı ayrıntıların ortadan kalkmasına yol açabileceği gibi sınıf sayısının çok olması da sıklık dağılımının ham veriler kadar karmaşık olmasına yol açar. Sınıf sayısı ve sınıf aralıklarının nasıl belirlenmesi konusunda genel bir görüş birliği yoktur. Araştırma konusuna ve gözlem sayısına göre farklılıklar gösterebilir. Sınıf sayısı ve aralıkları belirlenirken dikkat edilmesi gereken en önemli husus sınıfların birbirleriyle karşılaştırma yapmaya uygun olmasıdır. Sınıf sayısı arttıkça sınıf aralıklarının küçülecektir. Sınıf aralıkları araştırılan konuya göre örneğimizde olduğu gibi eşit olmayabilir. Sınıf aralıkları araştırmacı tarafından üç farklı yöntemle belirlenebilir. (Araştırmacı bu yöntemleri kullanmadan da önceki benzer araştırma ya da teorilere dayanarak sınıf arlığını belirleyebilir). Bu üç farklı yöntemi aşağıdaki örnek ile uygulamalı olarak açıklayabilir. ÖRNEK: 300 mağazanın bulunduğu Forum İstanbul AVM’de mağazalar yıllık satış hasılatlarına göre gruplandırılacaklardır. En yüksek hasılata 52.500.000 TL ile Real mağazası sahipken, en düşük hasılata 12.500.000 TL ile çocuk oyuncak mağazası sahiptir. Sınıf sayısının 20 olarak belirlendiği varsayımı altında sınıf aralıklarını hesaplayabiliriz. Birinci Yöntem: Sınıf sayınının belirlendiği varsayımı altında, gözlemlerin (Verilerin) maksimum ve minimum değerlerine bağlı olarak sınıf aralıkları belirlenebilir. 𝒔𝒔 = 𝐗 𝐦𝐚𝐱 − 𝐗 𝐦𝐢𝐧 𝟓𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 − 𝟏𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 = 𝐤 𝟐𝟎 = 𝟐. 𝟎𝟎𝟎. 𝟎𝟎𝟎 𝑻𝑳 Örneğimizde mağazalar hasılatlarına göre 2.000.000 TL aralıklarla (0- 2.000.000, 2.000.000 - 4.000.000 vb.) sınıflandırılabilir. Temel İstatiksel Kavramlar İkinci Yöntem (Sturges Yöntemi): Sturges çok sayıda gözlemin olduğu durumlarda sınıf sayısının aşağıda geliştirilen formülle bulunmasını önermiştir. 𝒌 = 𝟏 + 𝟑, 𝟑 𝐥𝐨𝐠 𝑵 = 𝟏 + 𝟑, 𝟑 (𝟐, 𝟒𝟕𝟕) = 𝟗, 𝟏𝟕 = 𝟗 Bulunan sınıf sayısı örneğimizde olduğu gibi tam sayı değilse, tam sayıya en yakın sayı (9) sınıf sayısı olarak alınır. Bulunan sınıf sayısı yukardaki formülde yerine konularak sınıf aralığı hesaplanır. 𝒔𝒔 = 𝐗 𝐦𝐚𝐱 − 𝐗 𝐦𝐢𝐧 𝟓𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 − 𝟏𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 = = 𝟒. 𝟒𝟒𝟒. 𝟒𝟒𝟒 𝑻𝑳 𝐤 𝟗 Örneğimizde Sturges yöntemiyle hesaplama yapıldığında mağazalar hasılatlarına göre 4.444.444 TL aralıklar la (0 - 4.444.444, 4.444.444 – 8.888.888 vb.) sınıflandırılabilir. Üçüncü Yöntem: Sturges yöntemi hesaplamasındaki zorluklardan dolayı pratikte yaygın olarak kullanılmamaktadır. Sturges yöntemine göre daha kolay hesaplanabilen ve gözlem sayının kare kökününe bağlı olan aşağıdaki formül sınıf aralıklarının hesaplanmasında daha sık kullanılmaktadır. 𝒔𝒔 = 𝑿 𝒎𝒂𝒙 − 𝑿 𝒎𝒊𝒏 √𝑵 = 𝒔𝒔 = 𝟓𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 − 𝟏𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 √𝟑𝟎𝟎 = 𝟐. 𝟑𝟏𝟐. 𝟕𝟐𝟖 𝐓𝐋 Örneğimizde sınıf sayısı (√𝟑𝟎𝟎 = 𝟏𝟕, 𝟑) tam sayı değildir, tam sayıya en yakın sayı (17) sınıf sayısı olarak alınır. Hesaplama sonucunda mağazalar hasılatlarına göre 2.312.728 TL aralıklar la (0 – 2.312.728, 2.312.728 – 4.625.456 vb.) sınıflandırılabilir. Sınıf Orta Değeri (mi): Bir sınıfın alt ve üst sınır değerlerinin ortalaması o sınıfın orta değerini verir. Her bir sınıf için sınıf orta değerlerini aşağıdaki formül yardımıyla bulunabilir. 𝒎𝒊 = Ü𝑺𝒊 − 𝑨𝑺𝒊 , 𝒊 = 𝟏, 𝟐, 𝟑 … … . , 𝒌. 𝟐 3 12 Sakarya Üniversitesi Örneğimizde AA (birinci) grubun sınıf orta değeri 95 ve BA (ikinci) grubun sınıf orta değeri 87 vb. gibidir. Sınıf Sıklığı (Sınıf Frekansı): Bir sınıfta yer alan gözlem ya da denek sayısıdır. Örneğimizde AA (birinci) grubun sınıf sıklığı 50 ve BA (ikinci) grubun sınıf sıklığı 60 vb. gibidir. Kümülatif Sıklık (Frekans): Sınıf sıklıklarının üst üste eklenmesi ile oluşan sıklıklara denir. 3. VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU İlk toplanan ham veriler anlamsız ve karmaşık rakam yığınlarından ibarettir. Bu verilerin ilk bakışta ne içerdiğinin anlaşılabilmesi ve kolayca algılanabilmesi için tablo ve grafiksel sunumlar kullanılabilir. 3.1.Tablo Sunumları Tablolar toplanan verilerin tasnif ve gruplama işleminden geçirildikten sonra anlamlı bir şekilde düzenlenerek sunulmasına yardımcı olurlar. Tablolar verileri anlamsız ve karmaşık bir rakamlar yığını olmaktan çıkarıp, ilk bakışta araştırılan konu hakkında genel istatistiki analizler yapılmasını olanak sağlar. Veriler özelliklerine göre çok farklı seçeneklerle tablo olarak sunulabilir. Bu tablolar en çok ve sık kullanılanlar örnekler yardımıyla uygulamalı olarak sunulacaktır. 3.1.1. Zaman Serilerinin Tablolar Halinde Sunumu Sayısal veriler yıl, ay, hafta vb. gibi zamana bağlı olarak sıralanmışsa zaman serisi oluşturulmuş olur. Zaman serileri araştırılan konunun özelliğine göre artan, azalan ya da dalgalı zaman serisi olabilir. Zaman serisindeki veriler zamanla sürekli artış gösteriyorsa böyle serilere artan zaman serileri denir. ÖRNEK: Yıllar itibarıyla İstanbul’daki araç sayısı, Türkiye’nin ihracatı vb. Temel İstatiksel Kavramlar Tablo 3.1.1. İstanbul’daki Araç Sayısı Yıllar 2000 2001 2002 2003 2004 2005 2006 2007 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır Araç Sayısı 200.000 230.000 270.000 330.000 380.000 450.000 490.000 550.000 Tablo 3.1.2. Türkiye’nin İhracatı (Milyar $) Yıllar İhracat Tutarı 2000 2001 2002 2003 2004 2005 2006 2007 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır 12 14 18 33 38 45 49 55 Zaman serisindeki veriler zamanla sürekli azalış gösteriyorsa böyle serilere azalan zaman serileri denir. ÖRNEK: Yıllar itibarıyla Türkiye’de okur-yazar olmayanların oranı, THY’nin yolcu başına maliyeti, Telefon, elektrik, gaz, su gibi hizmetlerin birim başına maliyetleri vb. 3 14 Sakarya Üniversitesi Tablo 3.1.3. Türkiye’de Okur-Yazar Olmayanlarının Nüfusa Oranı Yıllar 2000 2001 2002 2003 2004 2005 2006 2007 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır Okur-Yazar Olmayanlarının Nüfusa Oranı 9,5 9,4 8,9 8,2 7,4 6,5 5,4 4,5 Tablo 3.1.4. Sedaş’ın KW saat Başına Elektrik Üretim Maliyeti (TL) Yıllar İhracat Tutarı 2000 2001 2002 2003 2004 2005 2006 2007 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır 2,4 2,3 2,1 1,8 1,7 1,5 1,4 1,2 Zaman serisindeki veriler zamanla artış ve azalış gibi dalgalı bir seyir gösteriyorsa böyle serilere dalgalı zaman serileri denir. ÖRNEK: Firmaların üretim miktarı ve satışları, ürün fiyatları, işçi sayıları, tarımsal ürünler vb. birçok değişken ekonomik ve mevsimsel faktörlere bağlı olarak dalgalı bir seyir izler. Havaların olumsuz olduğu yıllarda tarım üretimi azalıp, tarımsal ürün fiyatları artarken havaların olumlu olduğu yıllarda tersi söz konusudur. Mevsimsel olarak kış aylarında gelen turist sayısı yaz aylarına göre azalmaktadır. Ekonomik kriz dönemlerinde firmalar işçi sayılarını ve üretimlerini azaltırken, ekonomik genişleme dönemlerinde tersi söz konusudur. Bu örnekler çoğaltılabilir. Temel İstatiksel Kavramlar Tablo 3.1.5. Türkiye’de Fındık Üretimi (Ton) Yıllar 2000 2001 2002 2003 2004 2005 2006 2007 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır Tablo 3.1.6. Türkiye’de İşsiz Sayısı Yıllar 2000 2001 2002 2003 2004 2005 2006 2007 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır Fındık Üretimi 200.000 230.000 150.000 250.000 280.000 200.000 320.000 250.000 İşsiz Sayısı 8.000.000 9.830.000 9.750.000 9.250.000 8.780.000 8.400.000 8.120.000 8.030.000 3.1.2. Mekân Serilerinin Tablolar Halinde Sunumu Veriler toplandıkları ülke, bölge, şehir, ilçe vb. gibi bir mekâna göre düzenlenip sıralanmışsa mekânsal seriler oluşturulmuş olur. ÖRNEK: Türkiye’nin illere göre araç sayısı, illere göre nüfusu, ülkelerin ihracatı, Türkiye’nin Avrupa Birliği ülkelerine ihracatı, Türkiye’ye ülkelere göre gelen turist sayısı vb. 3 16 Sakarya Üniversitesi Tablo 3.1.7. Türkiye Bölgelere Göre Kişi Başına Milli Gelir Dağılımı (2000 yılı, TL) Bölgeler Milli Gelir Marmara 24.000 Ege 18.000 İç Anadolu 1.2000 Akdeniz 9000 Batı Karadeniz 7000 Doğu Karadeniz 6000 Güney Doğu Anadolu 5500 Doğu Anadolu 4000 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır Tablo 3.1.8. Türkiye’ye 2006’da Gelen Turistlerin Ülkelere Göre Dağılımı Ülkeler Turist Sayısı Rusya 2.400.000 Almanya 2.100.000 İngiltere 1.200.000 ABD 900.000 Fransa 700.000 İran 400.000 Japonya 350.000 Çin 140.000 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır 3.1.3. Bölünme Serilerinin Tablolar Halinde Sunumu Cinsiyet, medeni durum, eğitim durumu, işletmede ki işçilerin çalışma yılı ve ya ücretleri, çeşitlerine göre araç sayıları, amaçlarına göre yurtdışına seyahat edenler vb. gibi veriler zamana ve mekâna bağlı olmadan sektör, amaç vb. gibi kategorilere ayrılarak seri oluştururlar bu tür serilere bölünme seri denir. Temel İstatiksel Kavramlar ÖRNEK: Tablo 3.1.9. Türkiye’de Sektörlere Göre İstihdam Durumu Sektörler İşçi Sayısı Sanayi 12.400.000 Tarım 12.100.000 Hizmet 8.200.000 Turizm 2.900.000 Teknoloji 700.000 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır Tablo 3.1.10. Türkiye’de Çeşitlerine Göre Araç Sayısı Araç Çeşitleri Araç Sayısı Oto 11.200.000 SUV 2.100.000 Ağır Vasıta 6.200.000 Traktör 2.900.000 Mini Van 500.000 Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır Tablo 3.1.11. Yaşlarına Göre Türkiye’nin Nüfus Dağılımı (2000) Yaş Sınıfları Nüfus Sayısı 0 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - üzeri Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır 5.400.000 7.100.000 11.200.000 15.900.000 12.800.000 8.400.000 5.350.000 840.000 3 18 Sakarya Üniversitesi 3.2. Grafiksel Sunumlar Grafikler toplanan verilerin tasnif ve gruplama işleminden geçirildikten sonra rakamlar yerine kolayca görsel olarak algılanabilecek şekiller yardımıyla sunulmasıdır. Grafikler yardımıyla toplanan ham veriler anlamsız ve karmaşık bir rakamlar yığını olmaktan çıkıp ilk bakışta araştırılan konu hakkında genel bir bilgiye sahip olmamıza ve verilerin görsel olarak kolayca algılanmasına yardımcı olurlar. Özellikle karşılaştırma yapılacak grafiklerin aynı ölçek ve birimde olmasına dikkat edilmelidir. Veriler özelliklerine göre çok farklı seçeneklerle grafiksel olarak sunulabilir. Bunlarda en çok ve sık kullanılanlar aşağıda örnekler yardımıyla uygulamalı olarak sunulacaktır. 3.2.1. Daire Grafikleri Yardımıyla Verilerin Sunumu Dairenin alanı yüz kabul edilerek bütün olayı (tüm verileri) temsil ederken, daire üzerinde ayrılan dilimler tasnif edilmiş ya da gruplanmış verinin (olayın kısımlarının) sıklığını oransal ya da yüzde olarak vermektedir. ÖRNEK: Genel seçimlerinde partilerin aldıkları oy oranları, kulüplerin transfer harcamaları, aile harcamalarının vb. Tablo ve Grafik 3.2.1. 2011 Genel Seçimlerinde Partilerin Oy Oranları Partiler Oy Oranları (%) AKP 50 CHP 26 MHP 13 Diğerleri 11 Temel İstatiksel Kavramlar 2011 Genel Seçiminde Partilerin Oy Dagılımı Diğer MHP 11% 13% AKP 50% CHP 26% Tablo ve Grafik 3.2.2. Bir Ailenin Harcamaları Aile Harcamaları Oranları (%) Kira 32 Gıda 25 Eğitim 13 Giyecek 12 Ulaşım 8 Tatil ve Eğlence 6 Diğerleri 4 Tatil ve Eğlence 6% Ulaşım 8% Giyecek 12% Eğitim 13% Harcama Oranları Kira 32% Gıda 25% Diğerleri 4% 3 Sakarya Üniversitesi 3.2.2. Sütun (Çubuk) Grafikleri Yardımıyla Verilerin Sunumu Daire grafiklerinde verilerin sıklıkları bir dairenin alanı paylaştırılarak gösterilirken, sütun grafiklerinde verilerin sıklıkları çizilen sütunların uzunluğu ile gösterilir. Sunulacak verilerin özelliğine göre tek taraflı, çift taraflı, gruplanmış veya bölünmüş sütun grafikleri kullanılabilir. Grafik 3.2.3. İMKB’de Halka Arz Edilen Şirket Sayısı (Tek Taraflı Grafik) Halka Arz Edilen Şirket Sayısı 40 35 30 25 20 15 10 5 0 35 35 25 25 14 29 27 29 20 16 19 12 10 1 4 11 11 3 2 2 19 90 19 91 19 92 19 93 19 94 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06 20 07 20 08 20 09 20 Halka Arz Edilen Şirket Sayısı Kaynak: TSPAKB’nin yıllık raporlarından derlenmiştir Grafik 3.2.4. İMKB’de Artan ve Azalan Hisse Senedi Sayısı (Gruplanmış Sütun Grafiği) 80 70 70 60 60 60 50 50 45 40 Artan 35 30 Azalan 30 20 20 20 10 10 0 Pazartesi Salı Çarşamba Perşembe Cuma 3 Temel İstatiksel Kavramlar Grafik 3.2.5. İMKB’de Artan ve Azalan Hisse Senedi Sayısı (Bölünmüş Sütun Grafiği) 90 80 10 70 60 20 45 50 50 40 60 70 30 20 60 35 30 10 20 0 Pazartesi Salı Çarşamba Artan Perşembe Cuma Azalan Grafik 3.2.6. İMKB’de Haftanın Günlerinde Artan ve Azalan Hisse Senedi Sayısı (İki Taraflı Sütun Grafiği) Artan ve Azalan Hisse Senetleri 80 60 60 50 40 20 0 -20 -40 -60 Pazartesi Salı Çarşamba Perşembe -5 Cuma -20 -40 3.2.3. Zaman Serisi Grafikleri Yardımıyla Verilerin Sunumu (Kartezyen Grafikler) Zaman serileri sütun grafikleri yardımıyla sunulabileceği gibi, koordinat sistemli (X;Y) Kartezyen Grafiklerinin kullanılması daha yaygındır. Kartezyen grafiklerde Y ekseni (Ordinat) bağımlı değişkeni ve X ekseni (Apsis) bağımsız değişkeni gösterir. Bağımlı değişkeni gösteren Y ekseni dikey ve bağımsız değişkeni gösteren X ekseni yatay 22 Sakarya Üniversitesi olarak gösterilir. Zaman serilerinde bağımsız değişken olan yıl, ay, hafta, gün vb. yatay eksende (X) ve zamana bağlı olarak değişme gösteren değişken ve değişkenin aldığı değerler dikey eksende (y) yer alır. Her bir zaman diliminde bağımsız değişkenin aldığı değerler koordinat sisteminde nokta olarak işaretlendikten sonra bu noktalar birleştirilir ve zaman serisinin grafiği elde edilmiş olur. ÖRNEK: İMKB’nin, Dövizin, Altın fiyatının, Faizin, İhracatın yılsonu değerleri, Türkiye’nin nüfusu, Şirketlerin üretim kapasiteleri, Üniversiteye giden öğrenci sayıları, Araç sayısı vb. Aşağıdaki tabloda alternatif yatırım araçları olan İMKB 100, Mevduat Faizi, Altın ve Doların 1986 yılı 100 baz (temel) alınarak zaman içindeki değerleri ve bu değerlerdeki değişmeler gösterilmektedir. Temel İstatiksel Kavramlar Tablo 3.2.3. Alternatif Yatırım Araçlarının Yıllık Reel Değerleri ve % Getirileri Yıllar İMKB 100 Mevduat Faizi Altın Dolar Değeri Getiri Değeri Getiri Değeri Getiri Değeri Getiri 1986 100 100 100 100 1987 282 182 105 5,9 130 30 96 -4 1988 88 -68 90 -14 99 -24 97 1 1989 319 261 102 12 76 -23 75 -22 1990 292 -8,6 101 -0,8 55 -28 59 -21 1991 229 -22 94 -6,6 53 -3 60 1,6 1992 126 -45 97 3,6 50 -6 61 1,7 1993 382 202 99 1,7 56 11 60 -1,6 1994 229 -40 79 -20 66 19 73 21 1995 190 -16 87 10 59 -11 64 -12 1996 258 36 94 7,7 56 -4 64 0 1997 459 78 92 -2,7 43 -24 61 -4,6 1998 203 -56 106 16 39 -9,4 55 -9,7 1999 706 247 123 16 39 0 56 1,8 2000 315 -55 129 5,5 34 -13 50 -10 2001 273 -13 112 -14 44 29 65 29 2002 158 -42 139 25 47 7,4 56 -13 2003 240 52 171 23 41 -12 41 -28 2004 295 23 198 16 38 -8,3 36 -12 2005 436 48 224 13 39 3 33 -6,8 2006 391 -10 246 9,8 47 21 32 -4,5 2007 513 31 273 11 47 -0,7 24 -24 2008 225 -56 293 7,1 58 24 29 19 2009 415 85 335 14 68 18 26 -8,3 Kaynak: Yazar tarafından hazırlanmıştır. Tablo 3.2.3’deki verilerden yola çıkarak zaman serilerinin grafiğini farklı türlerde oluşturabilir. ÖRNEK: Her bir grafikte tek bir değişken yer alabilir. Değişkenin zaman içindeki değişimi gözlenir. Grafikten de açıkça görüldüğü gibi İMKB 100 en büyük düşüşü 2000-2001 krizinin yaşandığı yıllarda kaydetmiştir. 3 24 Sakarya Üniversitesi Grafik 3.2.7. İMKB 100 Değeri İMKB 100 Değeri 800 700 600 500 400 300 200 100 0 706 513 459 319 292 282 100 88 436 382 229 229 126 190 258 315 203 273 240 391 295 158 ÖRNEK: Her bir grafikte birden fazla değişken yer alabilir. Değişkenlerin zaman içindeki değişimi gözlenir ve birbiriyle mukayeseleri yapılabilir. Grafikten de açıkça görüldüğü gibi İMKB 100 diğer yatırım araçlarına göre dalgalı bir seyir izlemesine rağmen uzun vadede yatırımcı için en iyi en yatırım aracı olmuştur. Mevduat faizleri uzun vadede ikinci en iyi yatırım aracı olarak gözükmektedir ve artan bir eğilim (artan zaman serisi) izlemektedir. Yatırımcısına hayal kırıklığı yaşatan Dolar ve altın azalan bir eğilim (azalan zaman serisi) izlemektedir. 415 225 3 Temel İstatiksel Kavramlar Grafik 3.2.8. Alternatif Yatırım Araçlarının Yıllık Reel Değerleri İMKB 100 Faiz Altın Dolar 3.2.4. Histogram Yardımıyla Verilerin Sunumu (Gruplanmış Verilerin Grafikleri) Histogram verilerin sıklık dağılımının (frekansının) sütun grafikleri ile gösterilmesidir. Sütunların tabanları sınıf aralığına, yükseklikleri ise sınıf sıklıklarına (sınıf frekansına) eşittir. Sınıf aralıklarının birbirine eşit olması sınıfların mukayesesi açısından kolaylık sağlar. ÖRNEK: Gruplanmış verilerin tümü histogram yardımıyla gösterilebilir. Aşağıdaki örnekte öğrencilerin istatistik ders notları gruplanmış olarak gösterilmiştir. 2,009 2,008 2,007 2,006 2,005 2,004 2,003 2,002 2,001 2,000 1,999 1,998 1,997 1,996 1,995 1,994 1,993 1,992 1,991 1,990 1,989 1,988 1,987 1,986 800 700 600 500 400 300 200 100 0 Sakarya Üniversitesi Tablo 3.2.3. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu Notlarının Gruplanmış Seri Olarak Sunulması Başarı Derecesi Not Sınıfları (Gruplar) AA BA BB CB CC DC DD FF 90-100 den az 80-90 den az 70-80 den az 60-70 den az 50-60 den az 40-50 den az 30-40 den az 20-30 den az Öğrenci Sayısı (Sınıf sıklığı ya da Frekansı) 30 55 80 100 90 60 50 35 Sınıf Aralığı (s) 90-100=10 80-90=10 70-80=10 60-70=10 50-60=10 40-50=10 30-40=10 20-30=10 𝑛 ∑ 𝑓𝑖 = 500 Toplam 𝑖=0 Yukarıdaki gruplanmış serinin grafiği (historamı) şekilsel olarak aşağıdaki gibi gösterilebilir. Grafik 3.2.9. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu Notlarının Gruplanmış Seri Grafiği (Histogram) Olarak Sunulması Öğrencilerin İstatistik Dersi Not Dağılımları 120 100 100 Sınıf Sıklıkları 26 90 80 80 40 60 55 60 50 35 30 20 0 90-100 80-90 70-80 60-70 50-60 Gruplar 40-50 30-40 20-30 3 Temel İstatiksel Kavramlar Histogramın amacı gruplanmış verilerin sıklık dağılımının görsel bir resmini sağlamak içindir. Dikdörtgenlerin yükseklikleri arasındaki göreceli farklılıklar, farklı sınıflar arasındaki gözlem sayılarındaki (sınıf frekanslarındaki) göreceli farklılıkları gösterir. Tablodaki veriler yardımıyla oluşturulan yukarıdaki histogram gösterdiği gibi 100 öğrenci (en yüksek sınıf frekansı) 60-70 aralığında not alırken, 30 öğrenci (en düşük sınıf frekansı) 90-100 aralığında not almıştır. 3.2.5. Frekans Poligonu Yardımıyla Verilerin Sunumu Histogramlardaki sütunların (sınıf aralıklarının) orta noktalarının (orta noktalar sırasıyla 95, 85, 75 vb.) bulunarak birleştirilmesi ile elde edilen grafiğe frekans poligonu denir. Yukarıdaki örneğimizin frekans poligonu aşağıdaki şekilde olacaktır. Grafik 3.2.10. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu Notlarının Frekans Poligonu Olarak Sunulması İstatistik Ders Notlarının Frekans Poligonu 120 Frekanslar 100 100 80 80 60 40 20 90 60 55 50 35 30 0 90-100 80-90 70-80 60-70 50-60 Gruplar 40-50 30-40 20-30 28 Sakarya Üniversitesi 3.2.6. Frekans Eğrileri Yardımıyla Verilerin Sunumu Gözlem sayısı artar ya da sınıf aralıkları küçültülürse, grup sayısı artacağından sütunların orta noktaları birbirine yaklaşacaktır. Bu durumlarda frekans poligonu kesikli çizgi olmaktan çıkıp basit serilerdeki gibi sürekli bir çizgi şeklini alır ki buna frekans eğrisi denir. Frekans eğrileri aldıkları şekillere göre Simetrik-Asimetrik (sağa veya sola olabilir) ve Sivri-Basık gibi farklı adlar alırlar. Frekans eğrilerinin aldıkları bu farklı şekiller ve aldıkları adlara örnekler aşağıda gösterilmektedir. Grafik 3.2.11. Simetrik Frekans Eğrisi Grafik 3.2.12. Asimetrik ( negatif yöne eğilimli ya da sola çarpık) Frekans Eğrisi Temel İstatiksel Kavramlar Grafik 3.2.13. Asimetrik ( pozitif yöne eğilimli ya da sağa çarpık) Frekans Eğrisi Grafik 3.2.14. Basık, Sivri ve Normal Frekans Eğrisi 3 30 Sakarya Üniversitesi Değerlendirme Soruları 1- Normal dağılışa neden Çan Eğrisi denilmektedir? a) Sağa çarpık olduğu için b) Sola çarpık olduğu için c) Düzgün ve simetrik olduğu için d) Açık U şeklinde olduğu için e) Hiçbiri 2-Aşağıdakilerden hangisi hem zaman hem de mekan serilerine örnektir? a) b) c) d) Yıllar itibarıyla Türkiye’nin ihracatı Türkiye’deki illerin 2000 yılındaki nüfusları Yıllar itibarıyla illerin araç sayısı Yıllar itibarıyla Türkiye’nin Azerbeycan’dan doğalgaz ithalatı 3- Karmaşık serileri hangi koşullar altında gruplanmış serilere dönüştürmek uygundur? a) b) c) d) Gözlem sayısı çok fazla ve gözlem değerleri birbirine yakınsa Gözlem sayısı çok fazla ve gözlem değerleri birbirine eşitse Gözlem sayısı çok az ve gözlem değerleri birbirine yakınsa Gözlem sayısı çok az ve gözlem değerleri birbirine yakınsa KAYNAKLAR: 1. Yılmaz Özkan, Uygulamalı İstatistik 1, Sakarya Kitapevi, 2008. 2. Özer Serper, Uygulamalı İstatistik 1, Filiz Kitapevi, 1996. 3. Meriç Öztürkcan, İstatistik Ders notları, YTÜ. 4. Andım Oben Balce ve Serdar Demir, İstatistik Ders Notları, Pamukkale Üniversitesi, 2007. 5. Ayşe Canan Yazıcı, Biyoistatistik Ders Notları, Başkent Üniversitesi. 6. Zehra Muluk ve Yavuz Eren Ataman, Biyoistatistik ve Araştırma Teknikleri Ders Notları, Başkent Üniversitesi. Temel İstatiksel Kavramlar 3