Temel Kavramlar - SABİS

advertisement
İSTATİSTİK
2. BÖLÜM
VERİLERİN TOPLANMASI,
DÜZENLENMESİ VE SUNUMU
Doç. Dr. Şakir GÖRMÜŞ
2013
İkinci Bölüm
2
Sakarya Üniversitesi
VERİLERİN TOPLANMASI
ve SUNUMU
Öğrenme Hedefleri
Bu bölümü çalıştıktan sonra;
-
İstatistiksel verileri toplar.
İstatiksel olarak toplanan verileri tasnif edebilir.
İstatiksel olarak tasnif edilen verileri grafik ve tablolar yardımıyla sunabilir.
Temel Kavramlar





Veri
Basit Seri
Tasnif Edilmiş Seri
Gruplanmış (Sınıflanmış) Seri
İçindekiler
1. VERİLERİN TOPLANMASI
1.1. Veri Toplama Yöntemleri (Veri Kaynakları)
2. VERİLERİN DÜZENLENMESİ (TASNİFİ)
2.1. Verilerin Basit Seri Şeklinde Düzenlenmesi
2.2. Verilerin Tasnif Edilmiş Seri Şeklinde Düzenlenmesi
2.3. Verilerin Gruplanmış (Sınıflanmış) Seri Şeklinde Düzenlenmesi
3. VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU
3.1.Tablo Sunumları
3.2. Grafiksel Sunumlar
Temel İstatiksel Kavramlar
1. VERİLERİN TOPLANMASI
İstatistik bilimi çeşitli konularda istatistiki araştırmalar yapabilmek için her bilim
dalında olduğu gibi belirli bir disipline dayanan sistematik bir yöntemler zinciri
izlemektedir. Bu sistematik yöntemlerin ilki verilerin toplanmasıdır.
İstatistiki araştırmanın amacına göre bilimsel yöntemlerle toplanmış deneklerden
toplanan veya gözlemlerle elde edilen ve kayıt altına alınan nitel ve nicel bilgilere Veri
denir. Sayma veya ölçme işlemleri sonucunda ilk istatistiki verilerin elde edilmesine ve
bu
verilerin
düzenlenmesi
işlemine
istatiksel
verilerin
toplanması
denilir.
Araştırmacının ilk işi araştırma konusu ile ilgili sayılacak veya ölçülecek verilerin ve bu
verileri toplama yönteminin doğru olarak belirlemesidir.
Birinci bölünde ifade edildiği gibi değişkenlerin değerleri (veriler) nitel-nicel, süreklisüreksiz ve bağımlı-bağımsız olarak sınıflandırılabilir.
 Zekâ, dikkat, eğitim durumu vb. gibi bazı nitel verileri derece ve seviyelerine
göre değişik numaralar vermek suretiyle sayılarla ifade ederek nicel veriler hale
getirmek mümkündür. Bu şekilde nitel veriler ölçülerek sayısal olarak ifade
edilmiş hale sokulabilir.
1.1. Veri Toplama Yöntemleri (Veri Kaynakları)
Araştırmacı yapmak istediği çalışmasının konusuna, veri toplamanın ekonomik ve
zaman açısından maliyetine, verinin doğru ve çabuk toplanmasına ve verinin türüne
göre çok çeşitli veri toplama yöntemleri kullanabilir.
En çok kullanılan dört yöntem aşağıda açıklanmıştır.
1.1.1. Tutulan eski kayıtlar, yayınlanan raporlar ve yıllıklar gibi mevcut olan
kaynaklardan derleyerek veri toplama. Doğru ve sistematik olarak tutulması durumunda
bu mevcut kaynaklardan elde edilen veriler araştırmacıyı doğru sonuçlara götürür.
3
4
Sakarya Üniversitesi
ÖRNEK: İllerin üniversite giriş sınavındaki başarısı ve bu başarı üzerinde illerdeki
eğitim yatırımlarının, öğretmen/öğrenci oranının etkisini istatistiksel olarak araştırmak
isteyen bir araştırmacı ÖSYM, TÜİK, DPT gibi devlet kurumlarının arşivlerinden,
yayınladıkları yıllık raporlardan verileri toplamaları mümkündür.
1.1.2.Anket veya saha araştırması yaparak veri toplama. Araştırmaya konu olan
gruplara anket soruları sorulur ve elde edilen yanıtlar verileri oluşturur. Verilerin
güvenilir olabilmesi için anket sorularının iyi hazırlanmalı ve grup iyi seçilmelidir.
Anket posta, e-mail, telefon gibi haberleşme araçları ile yapılabileceğinden maliyet ve
zaman açısından avantajlı olmasına rağmen, saha araştırması bizzat deneklerle yüz yüze
görüşülerek yapılacağından sorularının ne demek istediği deneklere daha iyi anlatılır ve
böylece daha sağlıklı veriler toplanabilir.
ÖRNEK: Sakarya Üniversitesi öğrencilerinin sorunlarını araştırmak isteyen bir
araştırmacı, hazırladığı anket soruları yardımıyla veri toplayabilir.
1.1.3. Deney veya gözlem yaparak veri toplama. Özellikle sağlık, kimya, fizik vb. gibi
alanlarda denekler üzerinde deney ve ya gözlem yaparak araştırılacak konu ile ilgili veri
toplanabilir.
ÖRNEK: Geliştirilen üç farklı saç çıkarma ilacından hangisinin daha iyi sonuç
verdiğini görmek isteyen bir araştırmacı, üç farklı hasta grubunda bu ilaçları
uygulayarak saç artış değerlerini saptar ve bunların istatistiksel olarak önemli olup
olmadığı sonucuna varır.
1.1.4.Önceden çeşitli kurumlar tarafından ya da çeşitli araştırmalar için
hazırlanmış veri bankalarından hazır verilerin kullanılması.
ÖRNEK: IMF, TÜİK, TCMB, DPT, Dünya Bankası vb. gibi kurumların hazırlamış
olduğu ekonomik veriler.
 Tutulan eski kayıtlar, yayınlanan raporlar ve yıllıklar, anket ve saha
çalışmaları, deney ve gözlemlere Birincil Veri Kaynakları denir. Bu veriler
araştırmacı tarafından toplanmış veya derlenmiştir.
Temel İstatiksel Kavramlar
 Önceden çeşitli kurumlar tarafından ya da çeşitli araştırmalar için toplanmış
ve hatta düzenlenmiş veri bankalarındaki verilere İkincil Veri Kaynakları
denir. Bu veriler araştırmacı tarafından birincil veri kaynaklarından elde
edilmiştir. TÜİK, TCMB, DPT vb. kurumların veya önceki çalışmalardaki
verileri örnek olarak gösterilebilir.
2. VERİLERİN DÜZENLENMESİ (TASNİFİ)
Farklı yöntemlerle toplanan veriler (değişkenler) çok sayıda gözlem içermektedir. Bu
verilerden elde edilen bilgiler düzensiz ve dağınıktır. Bu nedenle ilgilenilen araştırma
konusunun değişkenlerinin özellikleri hakkında bilgi edinmek amacıyla, düzensiz ve
dağınık verilerin düzenlenerek özetlenmesi (tasnifi) istatiksel araştırmalarda atılacak
ikinci adım olacaktır.
Verilerin düzenlendiği çizelgelere sıklık çizelgeleri, gösterdikleri dağılıma ise sıklık
dağılımı denir. Nitel ve nicel verilere göre bu çizelgeler farklılık gösterirler.
 Verilerde Sıklık Çizelgeleri ve Dağılımı: Araştırmada toplanan
veriler genelde düzenlenmemiş ham verilerdir. Araştırılacak ana
kütlenin veya örneklemin sahip olduğu özellikleri hakkında bir ön
bilgi edinmek ve yapılacak istatiksel analizlerde kullanılmak
açısından bu verilerin düzenlenmesi (sınıflanması) faydalı olacaktır.
Bu nedenle toplanan verilere sıklık çizelgeleri ve dağılımı yöntemi
uygulanır. Konunun daha iyi anlaşılabilmesi için aşağıdaki örnek
yardımıyla toplanan nicel ham verilerin nasıl sınıflandırılacağı
uygulamalı olarak gösterilecektir.
3
6
Sakarya Üniversitesi
ÖRNEK: Maliye bölümü öğrencilerinin istatistik final sınavında aldığı notlar (veriler)
Tablo 1’de verilmiştir. Tablodaki gözlem (veri) sayısı 20’dir.
Tablo 1. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notları
Numarası
Not
Numarası
Not
Numarası
Not
Numarası
Not
1
50
6
40
11
60
16
50
2
70
7
80
12
70
17
90
3
100
8
70
13
80
18
80
4
60
9
90
14
60
19
60
5
80
10
70
15
70
20
70
2.1. Verilerin Basit Seri Şeklinde Düzenlenmesi
Araştırmacı bu verileri (notları) küçükten büyüğe doğru sıralayarak basit seri şeklinde
Tablo 2’deki gibi düzenleyebilir.
Tablo 2. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notlarının
Küçükten Büyüğe Doğru Basit Seri Olarak Sunumu
Numarası
Not
Numarası
Not
Numarası
Not
Numarası
Not
6
40
14
60
12
70
13
80
1
50
19
60
15
70
18
80
16
50
2
70
20
70
9
90
4
60
8
70
5
80
17
90
11
60
10
70
7
80
3
100
Tablo 2’de veriler basit seri şeklinde düzenlenmiştir. Tablo 2 yardımıyla bazı
kavramları ve bu kavramlara karşılık gelen değerleri örnek üzerinde uygulamalı olarak
hesaplayabiliriz.
Dağılım Sınırları: Veri kümesinde (Dağılımda) verilerin aldığı en büyük ve en küçük
gözlem değerleridir.
Temel İstatiksel Kavramlar
 En büyük değer (Xmax=Maksimum): Veri kümesinin aldığı en
büyük değerdir buna dağılımın üst sınırı da denir.
Örneğimizde istatistik dersi final sınavından alınan en yüksek not
olan 100 değeridir.
 En küçük değer (Xmin=Minimum): Veri kümesinin aldığı en küçük
değerdir buna dağılımın alt sınırı da denir.
Örneğimizde istatistik dersi final sınavından alınan en düşük not
olan 40 değeridir.
Dağılım Genişliği (Aralığı) : Dağılımın en büyük (üst sınır) değeri ile en küçük (alt
sınır) değeri arasındaki farktır. Örneğimizde,
 Dağılım genişliği (DG) = En büyük değer - En küçük değer = 100 40 = 60
2.2.Verilerin Tasnif Edilmiş Seri Şeklinde Düzenlenmesi
Frekans: Değişkene ait aynı değere sahip bir verinin kaç kez tekrarlandığını gösterir.
Araştırmacı bir değişkene ait aynı değere sahip ya da tekrar eden verileri sınıflandırarak
(tasnif ederek) verileri tasnif edilmiş seri şeklinde düzenleyebilir. Bu şekilde verilerin
sıklık çizelgeleri (frekansları) elde edilmiş olur. Değişkene ait verinin frekansı (sıklığı)
fi ile gösterilir. Örneğimizi tasnif edilmiş seri şeklinde Tablo 3’teki gibi
düzenleyebiliriz.
3
8
Sakarya Üniversitesi
Tablo 3. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notlarının Tasnif
Edilmiş Seri Olarak Sunulması
Öğrencilerin Notları
Notların Sıklığı (Frekansı) = fi
40
50
60
70
80
90
100
1
2
4
6
4
2
1
Toplam
𝑛
∑ 𝑓𝑖 = 20
𝑖=1
Tablo 3’den görüldüğü gibi en yüksek frekansa 70 değeri sahiptir. 20 kişilik sınıfta 6
öğrenci istatistik dersi final sınavından 70 almıştır. En düşük frekansa ise 40 ve 100
değerleri sahiptir. Sınıfta 1’er öğrenci istatistik dersi final sınavından 40 ve 100 almıştır.
Sınıfın başarı durumunu görmemiz açısından tasnif edilmiş seriler daha faydalıdır.
2.3. Verilerin Gruplanmış (Sınıflanmış) Seri Şeklinde Düzenlenmesi
Bir değişkene ait çok sayıda ve birbirinden farklı veri mevcut ise bu verileri tasnif
edilmiş seri (küme) şeklinde düzenlemek zordur. Bu gibi durumlarda değişkenlerin
birbirine yakın değere sahip verileri bir arada toplanarak gruplanmış seri olarak
sunulabilir. Verilerin gruplanmış seri olarak düzenlenmesini ve onu ile ilgili bazı
kavramları aşağıdaki örnek yardımıyla uygulamalı olarak açıklayabiliriz.
ÖRNEK: Sakarya Üniversitesi İİBF fakültesinde 500 öğrenci istatistik dersini
almaktadır. Bu öğrencilerin yılsonu not ortalaması 0 ile 100 değerleri arasında
değişmektedir. Öğrencilerin yılsonu not ortalamasının çoğunlukla birbirinden farklı ama
birbirine yakın olacağı düşünülürse gruplanmış seri şeklinde sunulması faydalı
olacaktır. Tablo 4, Sakarya Üniversitesi İİBF fakültesinde istatistik dersini alan 500
öğrencinin yılsonu not ortalamalarının gruplanmış seri olarak sunumunu vermektedir.
Temel İstatiksel Kavramlar
Tablo 4. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu Notlarının
Gruplanmış Seri Olarak Sunulması
Başarı
Derecesi
Not Sınıfları
(Gruplar)
Sınıf Orta
Değeri (mi)
AA
BA
BB
CB
CC
DC
DD
DF
FF
90-100
85-89
80-84
75-79
70-74
60-69
50-59
40-49
0-39
95
87
82
77
72
64,5
54,5
44,5
19,5
Toplam
Öğrenci Sayısı
(Sınıf sıklığı ya da
Frekansı)
50
60
40
50
100
50
60
40
50
𝑛
Kümülatif Sınıf Aralığı (s)
Sıklık
50
101-90=11
110
90-85=5
150
85-80=5
200
80-75=5
300
75-70=5
350
70-60=10
410
60-50=10
450
50-40=10
500
40-0=40
∑ 𝑓𝑖 = 500
𝑖=1
Tablo 4 yardımıyla, gruplanmış seriler ile ilgili bazı kavramları uygulamalı olarak
açıklayabiliriz.
Sınıf: Eşit ya da birbirine yakın değere sahip verilerin (gözlemlerin, deneklerin) bir
arada gösterilerek oluşturulan her bir gruba sınıf denir. Sınıf sayısı, k ile ifade edilir.
Tablo 4’teki örnekte görüldüğü gibi öğrencilerin notları 9 grupta toplanmıştır ve
dolayısıyla sınıf sayısı 9’dur (k = 9).
Sınıfın Alt Sınırı (AS): Bir sınıfta yer alan en küçük değerdir. Örneğimizde AA
(birinci) grubun alt sınırı 90 ve BA (ikinci) grubun alt sınırı 85 vb. gibidir.
Sınıfın Üst Sınırı (ÜS): Bir sınıfta yer alan en büyük değerdir. Örneğimizde AA
(birinci) grubun üst sınırı 100 ve BA (ikinci) grubun üst sınırı 89 vb. gibidir.
3
10
Sakarya Üniversitesi
Sınıf Aralığı: Ard arda gelen iki sınıfın üst sınır (en büyük değer) ile alt sınır (en küçük
değer) arasındaki farktır. Sınıf aralığı, ss ile ifade edilir. Örneğimizde AA (birinci)
grubun sınıf aralığı 11 ve BA (ikinci) grubun sınıf aralığı 5 vb. gibidir.
Sınıf sayısının az olması verilerdeki bazı ayrıntıların ortadan kalkmasına yol açabileceği
gibi sınıf sayısının çok olması da sıklık dağılımının ham veriler kadar karmaşık
olmasına yol açar. Sınıf sayısı ve sınıf aralıklarının nasıl belirlenmesi konusunda genel
bir görüş birliği yoktur. Araştırma konusuna ve gözlem sayısına göre farklılıklar
gösterebilir. Sınıf sayısı ve aralıkları belirlenirken dikkat edilmesi gereken en önemli
husus sınıfların birbirleriyle karşılaştırma yapmaya uygun olmasıdır. Sınıf sayısı
arttıkça sınıf aralıklarının küçülecektir. Sınıf aralıkları araştırılan konuya göre
örneğimizde olduğu gibi eşit olmayabilir.
 Sınıf aralıkları araştırmacı tarafından üç farklı yöntemle belirlenebilir.
(Araştırmacı bu yöntemleri kullanmadan da önceki benzer araştırma ya da
teorilere dayanarak sınıf arlığını belirleyebilir). Bu üç farklı yöntemi aşağıdaki
örnek ile uygulamalı olarak açıklayabilir.
ÖRNEK: 300 mağazanın bulunduğu Forum İstanbul AVM’de mağazalar yıllık
satış hasılatlarına göre gruplandırılacaklardır. En yüksek hasılata 52.500.000 TL
ile Real mağazası sahipken, en düşük hasılata 12.500.000 TL ile çocuk oyuncak
mağazası sahiptir. Sınıf sayısının 20 olarak belirlendiği varsayımı altında sınıf
aralıklarını hesaplayabiliriz.
Birinci Yöntem: Sınıf sayınının belirlendiği varsayımı altında, gözlemlerin (Verilerin)
maksimum ve minimum değerlerine bağlı olarak sınıf aralıkları belirlenebilir.
𝒔𝒔 =
𝐗 𝐦𝐚𝐱 − 𝐗 𝐦𝐢𝐧
𝟓𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 − 𝟏𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎
=
𝐤
𝟐𝟎
= 𝟐. 𝟎𝟎𝟎. 𝟎𝟎𝟎 𝑻𝑳
Örneğimizde mağazalar hasılatlarına göre 2.000.000 TL aralıklarla (0- 2.000.000,
2.000.000 - 4.000.000 vb.) sınıflandırılabilir.
Temel İstatiksel Kavramlar
İkinci Yöntem (Sturges Yöntemi): Sturges çok sayıda gözlemin olduğu durumlarda
sınıf sayısının aşağıda geliştirilen formülle bulunmasını önermiştir.
𝒌 = 𝟏 + 𝟑, 𝟑 𝐥𝐨𝐠 𝑵 = 𝟏 + 𝟑, 𝟑 (𝟐, 𝟒𝟕𝟕) = 𝟗, 𝟏𝟕 = 𝟗
Bulunan sınıf sayısı örneğimizde olduğu gibi tam sayı değilse, tam sayıya en yakın sayı
(9) sınıf sayısı olarak alınır. Bulunan sınıf sayısı yukardaki formülde yerine konularak
sınıf aralığı hesaplanır.
𝒔𝒔 =
𝐗 𝐦𝐚𝐱 − 𝐗 𝐦𝐢𝐧
𝟓𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 − 𝟏𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎
=
= 𝟒. 𝟒𝟒𝟒. 𝟒𝟒𝟒 𝑻𝑳
𝐤
𝟗
Örneğimizde Sturges yöntemiyle hesaplama yapıldığında mağazalar hasılatlarına göre
4.444.444 TL aralıklar la (0 - 4.444.444, 4.444.444 – 8.888.888 vb.) sınıflandırılabilir.
Üçüncü Yöntem: Sturges yöntemi hesaplamasındaki zorluklardan dolayı pratikte
yaygın olarak kullanılmamaktadır. Sturges yöntemine göre daha kolay hesaplanabilen
ve gözlem sayının kare kökününe bağlı olan aşağıdaki formül sınıf aralıklarının
hesaplanmasında daha sık kullanılmaktadır.
𝒔𝒔 =
𝑿 𝒎𝒂𝒙 − 𝑿 𝒎𝒊𝒏
√𝑵
= 𝒔𝒔 =
𝟓𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎 − 𝟏𝟐. 𝟓𝟎𝟎. 𝟎𝟎𝟎
√𝟑𝟎𝟎
= 𝟐. 𝟑𝟏𝟐. 𝟕𝟐𝟖 𝐓𝐋
Örneğimizde sınıf sayısı (√𝟑𝟎𝟎 = 𝟏𝟕, 𝟑) tam sayı değildir, tam sayıya en yakın sayı
(17) sınıf sayısı olarak alınır. Hesaplama sonucunda mağazalar hasılatlarına göre
2.312.728 TL aralıklar la (0 – 2.312.728, 2.312.728 – 4.625.456 vb.) sınıflandırılabilir.
Sınıf Orta Değeri (mi): Bir sınıfın alt ve üst sınır değerlerinin ortalaması o sınıfın orta
değerini verir. Her bir sınıf için sınıf orta değerlerini aşağıdaki formül yardımıyla
bulunabilir.
𝒎𝒊 =
Ü𝑺𝒊 − 𝑨𝑺𝒊
, 𝒊 = 𝟏, 𝟐, 𝟑 … … . , 𝒌.
𝟐
3
12
Sakarya Üniversitesi
Örneğimizde AA (birinci) grubun sınıf orta değeri 95 ve BA (ikinci) grubun sınıf orta
değeri 87 vb. gibidir.
Sınıf Sıklığı (Sınıf Frekansı): Bir sınıfta yer alan gözlem ya da denek sayısıdır.
Örneğimizde AA (birinci) grubun sınıf sıklığı 50 ve BA (ikinci) grubun sınıf sıklığı 60
vb. gibidir.
Kümülatif Sıklık (Frekans): Sınıf sıklıklarının üst üste eklenmesi ile oluşan sıklıklara
denir.
3. VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU
İlk toplanan ham veriler anlamsız ve karmaşık rakam yığınlarından ibarettir. Bu
verilerin ilk bakışta ne içerdiğinin anlaşılabilmesi ve kolayca algılanabilmesi için tablo
ve grafiksel sunumlar kullanılabilir.
3.1.Tablo Sunumları
Tablolar toplanan verilerin tasnif ve gruplama işleminden geçirildikten sonra anlamlı bir
şekilde düzenlenerek sunulmasına yardımcı olurlar. Tablolar verileri anlamsız ve
karmaşık bir rakamlar yığını olmaktan çıkarıp, ilk bakışta araştırılan konu hakkında
genel istatistiki analizler yapılmasını olanak sağlar. Veriler özelliklerine göre çok farklı
seçeneklerle tablo olarak sunulabilir. Bu tablolar en çok ve sık kullanılanlar örnekler
yardımıyla uygulamalı olarak sunulacaktır.
3.1.1. Zaman Serilerinin Tablolar Halinde Sunumu
Sayısal veriler yıl, ay, hafta vb. gibi zamana bağlı olarak sıralanmışsa zaman serisi
oluşturulmuş olur. Zaman serileri araştırılan konunun özelliğine göre artan, azalan ya da
dalgalı zaman serisi olabilir.
 Zaman serisindeki veriler zamanla sürekli artış gösteriyorsa böyle serilere artan
zaman serileri denir.
ÖRNEK: Yıllar itibarıyla İstanbul’daki araç sayısı, Türkiye’nin ihracatı vb.
Temel İstatiksel Kavramlar
Tablo 3.1.1. İstanbul’daki Araç Sayısı
Yıllar
2000
2001
2002
2003
2004
2005
2006
2007
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
Araç
Sayısı
200.000
230.000
270.000
330.000
380.000
450.000
490.000
550.000
Tablo 3.1.2. Türkiye’nin İhracatı (Milyar $)
Yıllar
İhracat
Tutarı
2000
2001
2002
2003
2004
2005
2006
2007
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
12
14
18
33
38
45
49
55
 Zaman serisindeki veriler zamanla sürekli azalış gösteriyorsa böyle serilere
azalan zaman serileri denir.
ÖRNEK: Yıllar itibarıyla Türkiye’de okur-yazar olmayanların oranı, THY’nin yolcu
başına maliyeti, Telefon, elektrik, gaz, su gibi hizmetlerin birim başına maliyetleri vb.
3
14
Sakarya Üniversitesi
Tablo 3.1.3. Türkiye’de Okur-Yazar Olmayanlarının Nüfusa Oranı
Yıllar
2000
2001
2002
2003
2004
2005
2006
2007
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
Okur-Yazar
Olmayanlarının
Nüfusa Oranı
9,5
9,4
8,9
8,2
7,4
6,5
5,4
4,5
Tablo 3.1.4. Sedaş’ın KW saat Başına Elektrik Üretim Maliyeti (TL)
Yıllar
İhracat
Tutarı
2000
2001
2002
2003
2004
2005
2006
2007
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
2,4
2,3
2,1
1,8
1,7
1,5
1,4
1,2
 Zaman serisindeki veriler zamanla artış ve azalış gibi dalgalı bir seyir
gösteriyorsa böyle serilere dalgalı zaman serileri denir.
ÖRNEK: Firmaların üretim miktarı ve satışları, ürün fiyatları, işçi sayıları, tarımsal
ürünler vb. birçok değişken ekonomik ve mevsimsel faktörlere bağlı olarak dalgalı bir
seyir izler. Havaların olumsuz olduğu yıllarda tarım üretimi azalıp, tarımsal ürün
fiyatları artarken havaların olumlu olduğu yıllarda tersi söz konusudur. Mevsimsel
olarak kış aylarında gelen turist sayısı yaz aylarına göre azalmaktadır. Ekonomik kriz
dönemlerinde firmalar işçi sayılarını ve üretimlerini azaltırken, ekonomik genişleme
dönemlerinde tersi söz konusudur. Bu örnekler çoğaltılabilir.
Temel İstatiksel Kavramlar
Tablo 3.1.5. Türkiye’de Fındık Üretimi (Ton)
Yıllar
2000
2001
2002
2003
2004
2005
2006
2007
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
Tablo 3.1.6. Türkiye’de İşsiz Sayısı
Yıllar
2000
2001
2002
2003
2004
2005
2006
2007
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
Fındık
Üretimi
200.000
230.000
150.000
250.000
280.000
200.000
320.000
250.000
İşsiz Sayısı
8.000.000
9.830.000
9.750.000
9.250.000
8.780.000
8.400.000
8.120.000
8.030.000
3.1.2. Mekân Serilerinin Tablolar Halinde Sunumu
Veriler toplandıkları ülke, bölge, şehir, ilçe vb. gibi bir mekâna göre düzenlenip
sıralanmışsa mekânsal seriler oluşturulmuş olur.
ÖRNEK: Türkiye’nin illere göre araç sayısı, illere göre nüfusu, ülkelerin ihracatı,
Türkiye’nin Avrupa Birliği ülkelerine ihracatı, Türkiye’ye ülkelere göre gelen turist
sayısı vb.
3
16
Sakarya Üniversitesi
Tablo 3.1.7. Türkiye Bölgelere Göre Kişi Başına Milli Gelir Dağılımı
(2000 yılı, TL)
Bölgeler
Milli
Gelir
Marmara
24.000
Ege
18.000
İç Anadolu
1.2000
Akdeniz
9000
Batı Karadeniz
7000
Doğu Karadeniz
6000
Güney Doğu Anadolu
5500
Doğu Anadolu
4000
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
Tablo 3.1.8. Türkiye’ye 2006’da Gelen Turistlerin Ülkelere Göre Dağılımı
Ülkeler
Turist
Sayısı
Rusya
2.400.000
Almanya
2.100.000
İngiltere
1.200.000
ABD
900.000
Fransa
700.000
İran
400.000
Japonya
350.000
Çin
140.000
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
3.1.3. Bölünme Serilerinin Tablolar Halinde Sunumu
Cinsiyet, medeni durum, eğitim durumu, işletmede ki işçilerin çalışma yılı ve ya
ücretleri, çeşitlerine göre araç sayıları, amaçlarına göre yurtdışına seyahat edenler vb.
gibi veriler zamana ve mekâna bağlı olmadan sektör, amaç vb. gibi kategorilere
ayrılarak seri oluştururlar bu tür serilere bölünme seri denir.
Temel İstatiksel Kavramlar
ÖRNEK:
Tablo 3.1.9. Türkiye’de Sektörlere Göre İstihdam Durumu
Sektörler
İşçi
Sayısı
Sanayi
12.400.000
Tarım
12.100.000
Hizmet
8.200.000
Turizm
2.900.000
Teknoloji
700.000
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
Tablo 3.1.10. Türkiye’de Çeşitlerine Göre Araç Sayısı
Araç Çeşitleri
Araç
Sayısı
Oto
11.200.000
SUV
2.100.000
Ağır Vasıta
6.200.000
Traktör
2.900.000
Mini Van
500.000
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
Tablo 3.1.11. Yaşlarına Göre Türkiye’nin Nüfus Dağılımı (2000)
Yaş Sınıfları
Nüfus
Sayısı
0 - 10
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
60 - 70
70 - üzeri
Kaynak: Kurgusal veri, yalnızca örnek amaçlıdır
5.400.000
7.100.000
11.200.000
15.900.000
12.800.000
8.400.000
5.350.000
840.000
3
18
Sakarya Üniversitesi
3.2. Grafiksel Sunumlar
Grafikler toplanan verilerin tasnif ve gruplama işleminden geçirildikten sonra rakamlar
yerine kolayca görsel olarak algılanabilecek şekiller yardımıyla sunulmasıdır. Grafikler
yardımıyla toplanan ham veriler anlamsız ve karmaşık bir rakamlar yığını olmaktan
çıkıp ilk bakışta araştırılan konu hakkında genel bir bilgiye sahip olmamıza ve verilerin
görsel olarak kolayca algılanmasına yardımcı olurlar. Özellikle karşılaştırma yapılacak
grafiklerin aynı ölçek ve birimde olmasına dikkat edilmelidir.
Veriler özelliklerine göre çok farklı seçeneklerle grafiksel olarak sunulabilir. Bunlarda
en çok ve sık kullanılanlar aşağıda örnekler yardımıyla uygulamalı olarak sunulacaktır.
3.2.1. Daire Grafikleri Yardımıyla Verilerin Sunumu
Dairenin alanı yüz kabul edilerek bütün olayı (tüm verileri) temsil ederken, daire
üzerinde ayrılan dilimler tasnif edilmiş ya da gruplanmış verinin (olayın kısımlarının)
sıklığını oransal ya da yüzde olarak vermektedir.
ÖRNEK: Genel seçimlerinde partilerin aldıkları oy oranları, kulüplerin transfer
harcamaları, aile harcamalarının vb.
Tablo ve Grafik 3.2.1. 2011 Genel Seçimlerinde Partilerin Oy Oranları
Partiler
Oy Oranları (%)
AKP
50
CHP
26
MHP
13
Diğerleri
11
Temel İstatiksel Kavramlar
2011 Genel Seçiminde Partilerin Oy Dagılımı
Diğer
MHP 11%
13%
AKP
50%
CHP
26%
Tablo ve Grafik 3.2.2. Bir Ailenin Harcamaları
Aile Harcamaları
Oranları (%)
Kira
32
Gıda
25
Eğitim
13
Giyecek
12
Ulaşım
8
Tatil ve Eğlence
6
Diğerleri
4
Tatil ve Eğlence
6% Ulaşım
8%
Giyecek
12%
Eğitim
13%
Harcama Oranları
Kira
32%
Gıda
25%
Diğerleri
4%
3
Sakarya Üniversitesi
3.2.2. Sütun (Çubuk) Grafikleri Yardımıyla Verilerin Sunumu
Daire grafiklerinde verilerin sıklıkları bir dairenin alanı paylaştırılarak gösterilirken,
sütun grafiklerinde verilerin sıklıkları çizilen sütunların uzunluğu ile gösterilir.
Sunulacak verilerin özelliğine göre tek taraflı, çift taraflı, gruplanmış veya bölünmüş
sütun grafikleri kullanılabilir.
Grafik 3.2.3. İMKB’de Halka Arz Edilen Şirket Sayısı (Tek Taraflı Grafik)
Halka Arz Edilen Şirket Sayısı
40
35
30
25
20
15
10
5
0
35
35
25
25
14
29
27
29
20
16
19
12
10
1
4
11
11
3
2
2
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
20
08
20
09
20
Halka Arz Edilen Şirket Sayısı
Kaynak: TSPAKB’nin yıllık raporlarından derlenmiştir
Grafik 3.2.4. İMKB’de Artan ve Azalan Hisse Senedi Sayısı (Gruplanmış Sütun
Grafiği)
80
70
70
60
60
60
50
50
45
40
Artan
35
30
Azalan
30
20
20
20
10
10
0
Pazartesi
Salı
Çarşamba
Perşembe
Cuma
3
Temel İstatiksel Kavramlar
Grafik 3.2.5. İMKB’de Artan ve Azalan Hisse Senedi Sayısı (Bölünmüş Sütun
Grafiği)
90
80
10
70
60
20
45
50
50
40
60
70
30
20
60
35
30
10
20
0
Pazartesi
Salı
Çarşamba
Artan
Perşembe
Cuma
Azalan
Grafik 3.2.6. İMKB’de Haftanın Günlerinde Artan ve Azalan Hisse Senedi Sayısı
(İki Taraflı Sütun Grafiği)
Artan ve Azalan Hisse Senetleri
80
60
60
50
40
20
0
-20
-40
-60
Pazartesi
Salı
Çarşamba
Perşembe
-5
Cuma
-20
-40
3.2.3. Zaman Serisi Grafikleri Yardımıyla Verilerin Sunumu (Kartezyen
Grafikler)
Zaman serileri sütun grafikleri yardımıyla sunulabileceği gibi, koordinat sistemli (X;Y)
Kartezyen Grafiklerinin kullanılması daha yaygındır. Kartezyen grafiklerde Y ekseni
(Ordinat) bağımlı değişkeni ve X ekseni (Apsis) bağımsız değişkeni gösterir. Bağımlı
değişkeni gösteren Y ekseni dikey ve bağımsız değişkeni gösteren X ekseni yatay
22
Sakarya Üniversitesi
olarak gösterilir. Zaman serilerinde bağımsız değişken olan yıl, ay, hafta, gün vb. yatay
eksende (X) ve zamana bağlı olarak değişme gösteren değişken ve değişkenin aldığı
değerler dikey eksende (y) yer alır. Her bir zaman diliminde bağımsız değişkenin aldığı
değerler koordinat sisteminde nokta olarak işaretlendikten sonra bu noktalar birleştirilir
ve zaman serisinin grafiği elde edilmiş olur.
ÖRNEK: İMKB’nin, Dövizin, Altın fiyatının, Faizin, İhracatın yılsonu değerleri,
Türkiye’nin nüfusu, Şirketlerin üretim kapasiteleri, Üniversiteye giden öğrenci sayıları,
Araç sayısı vb.
Aşağıdaki tabloda alternatif yatırım araçları olan İMKB 100, Mevduat Faizi, Altın ve
Doların 1986 yılı 100 baz (temel) alınarak zaman içindeki değerleri ve bu değerlerdeki
değişmeler gösterilmektedir.
Temel İstatiksel Kavramlar
Tablo 3.2.3. Alternatif Yatırım Araçlarının Yıllık Reel Değerleri ve % Getirileri
Yıllar
İMKB 100
Mevduat Faizi
Altın
Dolar
Değeri
Getiri Değeri Getiri Değeri Getiri Değeri Getiri
1986
100
100
100
100
1987
282
182
105
5,9
130
30
96
-4
1988
88
-68
90
-14
99
-24
97
1
1989
319
261
102
12
76
-23
75
-22
1990
292
-8,6
101
-0,8
55
-28
59
-21
1991
229
-22
94
-6,6
53
-3
60
1,6
1992
126
-45
97
3,6
50
-6
61
1,7
1993
382
202
99
1,7
56
11
60
-1,6
1994
229
-40
79
-20
66
19
73
21
1995
190
-16
87
10
59
-11
64
-12
1996
258
36
94
7,7
56
-4
64
0
1997
459
78
92
-2,7
43
-24
61
-4,6
1998
203
-56
106
16
39
-9,4
55
-9,7
1999
706
247
123
16
39
0
56
1,8
2000
315
-55
129
5,5
34
-13
50
-10
2001
273
-13
112
-14
44
29
65
29
2002
158
-42
139
25
47
7,4
56
-13
2003
240
52
171
23
41
-12
41
-28
2004
295
23
198
16
38
-8,3
36
-12
2005
436
48
224
13
39
3
33
-6,8
2006
391
-10
246
9,8
47
21
32
-4,5
2007
513
31
273
11
47
-0,7
24
-24
2008
225
-56
293
7,1
58
24
29
19
2009
415
85
335
14
68
18
26
-8,3
Kaynak: Yazar tarafından hazırlanmıştır.
Tablo 3.2.3’deki verilerden yola çıkarak zaman serilerinin grafiğini farklı türlerde
oluşturabilir.
ÖRNEK: Her bir grafikte tek bir değişken yer alabilir. Değişkenin zaman içindeki
değişimi gözlenir. Grafikten de açıkça görüldüğü gibi İMKB 100 en büyük düşüşü
2000-2001 krizinin yaşandığı yıllarda kaydetmiştir.
3
24
Sakarya Üniversitesi
Grafik 3.2.7. İMKB 100 Değeri
İMKB 100 Değeri
800
700
600
500
400
300
200
100
0
706
513
459
319 292
282
100
88
436
382
229
229
126
190
258
315
203
273
240
391
295
158
ÖRNEK: Her bir grafikte birden fazla değişken yer alabilir. Değişkenlerin zaman
içindeki değişimi gözlenir ve birbiriyle mukayeseleri yapılabilir. Grafikten de açıkça
görüldüğü gibi İMKB 100 diğer yatırım araçlarına göre dalgalı bir seyir izlemesine
rağmen uzun vadede yatırımcı için en iyi en yatırım aracı olmuştur. Mevduat faizleri
uzun vadede ikinci en iyi yatırım aracı olarak gözükmektedir ve artan bir eğilim (artan
zaman serisi) izlemektedir. Yatırımcısına hayal kırıklığı yaşatan Dolar ve altın azalan
bir eğilim (azalan zaman serisi) izlemektedir.
415
225
3
Temel İstatiksel Kavramlar
Grafik 3.2.8. Alternatif Yatırım Araçlarının Yıllık Reel Değerleri
İMKB 100
Faiz
Altın
Dolar
3.2.4. Histogram Yardımıyla Verilerin Sunumu (Gruplanmış Verilerin Grafikleri)
Histogram verilerin sıklık dağılımının (frekansının) sütun grafikleri ile gösterilmesidir.
Sütunların tabanları sınıf aralığına, yükseklikleri ise sınıf sıklıklarına (sınıf frekansına)
eşittir. Sınıf aralıklarının birbirine eşit olması sınıfların mukayesesi açısından kolaylık
sağlar.
ÖRNEK: Gruplanmış verilerin tümü histogram yardımıyla gösterilebilir. Aşağıdaki
örnekte öğrencilerin istatistik ders notları gruplanmış olarak gösterilmiştir.
2,009
2,008
2,007
2,006
2,005
2,004
2,003
2,002
2,001
2,000
1,999
1,998
1,997
1,996
1,995
1,994
1,993
1,992
1,991
1,990
1,989
1,988
1,987
1,986
800
700
600
500
400
300
200
100
0
Sakarya Üniversitesi
Tablo 3.2.3. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu Notlarının
Gruplanmış Seri Olarak Sunulması
Başarı
Derecesi
Not Sınıfları
(Gruplar)
AA
BA
BB
CB
CC
DC
DD
FF
90-100 den az
80-90 den az
70-80 den az
60-70 den az
50-60 den az
40-50 den az
30-40 den az
20-30 den az
Öğrenci Sayısı (Sınıf
sıklığı ya da
Frekansı)
30
55
80
100
90
60
50
35
Sınıf Aralığı (s)
90-100=10
80-90=10
70-80=10
60-70=10
50-60=10
40-50=10
30-40=10
20-30=10
𝑛
∑ 𝑓𝑖 = 500
Toplam
𝑖=0
Yukarıdaki gruplanmış serinin grafiği (historamı) şekilsel olarak aşağıdaki gibi
gösterilebilir.
Grafik 3.2.9. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu
Notlarının Gruplanmış Seri Grafiği (Histogram) Olarak Sunulması
Öğrencilerin İstatistik Dersi Not Dağılımları
120
100
100
Sınıf Sıklıkları
26
90
80
80
40
60
55
60
50
35
30
20
0
90-100
80-90
70-80
60-70
50-60
Gruplar
40-50
30-40
20-30
3
Temel İstatiksel Kavramlar
Histogramın amacı gruplanmış verilerin sıklık dağılımının görsel bir resmini sağlamak
içindir. Dikdörtgenlerin yükseklikleri arasındaki göreceli farklılıklar, farklı sınıflar
arasındaki gözlem sayılarındaki (sınıf frekanslarındaki) göreceli farklılıkları gösterir.
Tablodaki veriler yardımıyla oluşturulan yukarıdaki histogram gösterdiği gibi 100
öğrenci (en yüksek sınıf frekansı) 60-70 aralığında not alırken, 30 öğrenci (en düşük
sınıf frekansı) 90-100 aralığında not almıştır.
3.2.5. Frekans Poligonu Yardımıyla Verilerin Sunumu
Histogramlardaki sütunların (sınıf aralıklarının) orta noktalarının (orta noktalar sırasıyla
95, 85, 75 vb.) bulunarak birleştirilmesi ile elde edilen grafiğe frekans poligonu denir.
Yukarıdaki örneğimizin frekans poligonu aşağıdaki şekilde olacaktır.
Grafik 3.2.10. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu
Notlarının Frekans Poligonu Olarak Sunulması
İstatistik Ders Notlarının Frekans Poligonu
120
Frekanslar
100
100
80
80
60
40
20
90
60
55
50
35
30
0
90-100
80-90
70-80
60-70
50-60
Gruplar
40-50
30-40
20-30
28
Sakarya Üniversitesi
3.2.6. Frekans Eğrileri Yardımıyla Verilerin Sunumu
Gözlem sayısı artar ya da sınıf aralıkları küçültülürse, grup sayısı artacağından
sütunların orta noktaları birbirine yaklaşacaktır. Bu durumlarda frekans poligonu
kesikli çizgi olmaktan çıkıp basit serilerdeki gibi sürekli bir çizgi şeklini alır ki buna
frekans eğrisi denir. Frekans eğrileri aldıkları şekillere göre Simetrik-Asimetrik (sağa
veya sola olabilir) ve Sivri-Basık gibi farklı adlar alırlar. Frekans eğrilerinin aldıkları bu
farklı şekiller ve aldıkları adlara örnekler aşağıda gösterilmektedir.
Grafik 3.2.11. Simetrik Frekans Eğrisi
Grafik 3.2.12. Asimetrik ( negatif yöne eğilimli ya da sola çarpık) Frekans Eğrisi
Temel İstatiksel Kavramlar
Grafik 3.2.13. Asimetrik ( pozitif yöne eğilimli ya da sağa çarpık) Frekans Eğrisi
Grafik 3.2.14. Basık, Sivri ve Normal Frekans Eğrisi
3
30
Sakarya Üniversitesi
Değerlendirme Soruları
1- Normal dağılışa neden Çan Eğrisi denilmektedir?
a) Sağa çarpık olduğu için
b) Sola çarpık olduğu için
c) Düzgün ve simetrik olduğu için
d) Açık U şeklinde olduğu için
e) Hiçbiri
2-Aşağıdakilerden hangisi hem zaman hem de mekan serilerine örnektir?
a)
b)
c)
d)
Yıllar itibarıyla Türkiye’nin ihracatı
Türkiye’deki illerin 2000 yılındaki nüfusları
Yıllar itibarıyla illerin araç sayısı
Yıllar itibarıyla Türkiye’nin Azerbeycan’dan doğalgaz ithalatı
3- Karmaşık serileri hangi koşullar altında gruplanmış serilere dönüştürmek
uygundur?
a)
b)
c)
d)
Gözlem sayısı çok fazla ve gözlem değerleri birbirine yakınsa
Gözlem sayısı çok fazla ve gözlem değerleri birbirine eşitse
Gözlem sayısı çok az ve gözlem değerleri birbirine yakınsa
Gözlem sayısı çok az ve gözlem değerleri birbirine yakınsa
KAYNAKLAR:
1. Yılmaz Özkan, Uygulamalı İstatistik 1, Sakarya Kitapevi, 2008.
2. Özer Serper, Uygulamalı İstatistik 1, Filiz Kitapevi, 1996.
3. Meriç Öztürkcan, İstatistik Ders notları, YTÜ.
4. Andım Oben Balce ve Serdar Demir, İstatistik Ders Notları, Pamukkale
Üniversitesi, 2007.
5. Ayşe Canan Yazıcı, Biyoistatistik Ders Notları, Başkent Üniversitesi.
6. Zehra Muluk ve Yavuz Eren Ataman, Biyoistatistik ve Araştırma Teknikleri
Ders Notları, Başkent Üniversitesi.
Temel İstatiksel Kavramlar
3
Download