bilişim teknolojileri için işletme istatistiği - SABİS

advertisement
SAKARYAÜNİVERSİTESİ
BİLİŞİMTEKNOLOJİLERİ
İÇİNİŞLETME
İSTATİSTİĞİ
Hafta14
Yrd. Doç. Dr. Halil İbrahim CEBECİ Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi’ne aittir. "Uzaktan Öğretim" tekniğine uygun olarak
hazırlanan bu ders içeriğinin bütün hakları saklıdır. İlgili kuruluştan izin almadan ders içeriğinin tümü ya da bölümleri
mekanik, elektronik, fotokopi, manyetik kayıt veya başka şekillerde çoğaltılamaz, basılamaz ve dağıtılamaz.
Her hakkı saklıdır © 2013 Sakarya Üniversitesi
0
GENEL TEKRAR BÖLÜMÜN AMACI Bu bölümün amacı bu ders içerisinde öğrenilen tekniklerin genel bir gözden geçirilmesi ve nerede hangi tür testlerin kullanılabilirliğinin öğrencilere benimsetilmesidir. İstatistik en temel tanımla verinin bilgiye dönüştürülmesi sürecidir. Bu süreç verinin toplanması, organize edilmesi, tanımlanması, analiz edilmesi ve analiz sonuçlarının yorumlanması alt süreçlerini kapsamaktadır. Bu açıdan bakıldığında karar alma süreçlerinin temelinde istatistik biliminin yattığını söylemek, karar modellerinin oluşturulmasında bu bilimin etkin bir rol üstlendiğini söylemek doğru olacaktır. İstatistik temelde iki amaçla kullanılır. Birincisi, yığın halinde verilerin özetlenmesi, tanımlanması ve sunulmasını sağlayan tanımlayıcı (açıklayıcı veya betimleyici) istatistik yöntemlerdir. Çoğu zaman araştırmacı için bu yöntemler yeterli olmaktadır. İstatistik biliminde verilerin özetlenmesi önem arz etmektedir. Bu özetleme işlemleri ise ihtiyaca binaen şekillenmektedir. Grafik ve tablo tekniklerin seçimine de yine veri türünün belirlenmesi ile başlamak gerekmektedir. Eğer veri kategorik ise, en çok kullanılan teknik frekans tablolarıdır. Bu tablolarda frekanslar değerler halinde sunulabildiği gibi yüzdesel (göreceli) frekanslar olarak da verilebilirler. Kategorik verilerde kullanılacak grafik yöntemler ise sadece çubuk ve pasta grafikleri ile sınırlıdır. 1
Frekans Dağılımları
Tablo Teknikleri
Göreceli Frekans Dağılımları
Çapraz Tablolar
Kategorik (Kalitatif)
Pasta Grafikleri
Grafik Teknikler
Veri
Sütun Grafikleri
Tablo Teknikleri
Frekans Dağılımları
Göreceli Frekans Dağılımları
Histogram
Nümerik (Kantitatif)
Ogive
Grafik Teknikleri
Stemplot
Kutu Grafiği
Serpilme Diyagramı
Nümerik verilerde ise veriler histogram, stemplot ve ogive gibi özel diyagramlar yardımıyla sunulabilir. Histogramlar göreli en önemli grafik tekniktir. Çünkü bu grafikte olasılık değerleri gözlemlenebildiği gibi ayrıca verinin dağılımı ile ilgili bilgi görsel olarak sunulabilir. Verinin çarpıklık ve basıklık durumları da histogram sayesinde rahatlıkla gözlemlenebilir. Stemplot diyagramları histograma benzer. Farkı verinin görselleştirme yönünün yatay olması ve sınıf aralıklarının belirlenmesinde göreceli durumun ortadan kaldırılmasıdır. Ogive eğrisi ise histogramın kümülatif değerlerinin çizgisel gösterimidir. Ogive çizmek için kümülatif frekanslar hesaplanmalıdır. Görsel öğeler çok önemli sunum avantajları sunmalarına rağmen, çoğu zaman tek başlarına yetersizdirler. Bu bağlamda sayısal tanımlayıcı yöntemlerin kullanımı ayrıca önemlidir. 2
Sayısal Teknikler
Merkezi Eğilim Ölçütleri
Değişkenlik Ölçütleri
Göreceli Durum Ölçütleri
Doğrusal İlişki Ölçütleri
Ortalama
Değişim Aralığı
Yüzdebirlik
Korelasyon
Medyan (Ortanca)
Varyans
Çeyreklik
Kovaryans
Mod
Standart Sapma
5 Sayı Yöntemi
En Küçük Kareler Yöntemi
Geometrik Ortalama
Değişkenlik Katsayısı
z‐Skoru
Merkezi eğilim ölçütleri diğer bir deyişle konum ölçütleri örneklemin ana kütle içerisindeki konumunu aritmetik ortalama, medyan ve mod gibi istatistiklerle sunmaktadır. Sıklıkla tercih edilen bu yöntemler veri setinin büyüklüğü, aykırı değerlerin varlığı gibi özel durumlardan etkilenirler. Merkezi eğilim ölçüleri dağılım hakkında bilgi vermez. Bir veri setinin ortalamasının ne olduğu kadar, verilerin bu ortalama etrafında nasıl değişkenlik gösterdiğinin de bilinmesi önemlidir. Bu amaçla dağılımı ve değişkenliği betimleyen değişim aralığı, varyans, standart sapma ve değişkenlik katsayısı değerleri hesaplanmalıdır. Değişim aralığı sadece en küçük ve büyük değerle ilgili olduğundan, bu değerler arasındaki dağılım hakkında tam olarak bilgi sunmaz. Değişkenliği betimleyen varyans genellikle ikiden fazla değişkenin karşılaştırılmasında, Standart sapma ise varyansın normalize edilmiş hali olduğundan her türlü durumda kullanılabilir. İki veri setinin standart sapmasının aynı veya yakın olması, değişkenliği tek başına gösteremez. Bu gibi durumlarda standart sapmanın ortalamaya oranı olan değişkenlik katsayısı hesaplanmalıdır. Örneklem içerisindeki değerlerin göreceli konumlarıda bize farklı bir bakış açısı kazandırır. Herhangi bir grafik çizmeksizin 5 nokta yöntemi ile hem veri dağılımı, hem de ortalama ve değişim aralığı gibi değerler birlikte incelenebilir. Eğer göreceli konumu görselleştirmek istiyorsa o zaman kutu grafiğini tercih etmemiz gerekmektedir. Z skorları ise standart sapma yardımıyla değişken değerlerinin standartlaştırılmasıdır ve ortalamadan kaç standart sapma kadar sapıldığını gösterir. İstatistik biliminin ikinci kullanım amacı da bir değişkenin olası bütün sonuçlarını barındıran ana kütle parametrelerini tahmin etmek için örneklemden faydalanılan çıkarımsal istatistiklerdir. Bu istatistikleri anlayabilmek adına olasılık biliminin de iyice anlaşılması önemlidir. İstatistiksel çıkarsama konusunun temelini olasılık kavramı oluşturur. Çünkü olasılık örneklem ile ana kütle arasındaki bağlantıyı kurar. 3
1. Satış fiyatının artırıldığında, talep edilen miktarın artması ihtimali nedir? 2. Yeni kurulan montaj hattının üretimin verimliliğine etkisi nedir? 3. Hâlihazırda sürdürülen projenin zamanında bitme ihtimali nedir? 4. Yeni yapılan yatırım aracından fayda sağlama ihtimalimiz nedir? Yukarıdaki temel işletmecilik sorularının cevabını ancak ve ancak olasılık yaklaşımları ile verebiliriz. Eğer olasılıları biliyorsak, o olayın ortaya çıkma ihtimali ile ilgili yorum yapabiliriz. Sonuç üreten proseslere rassal deney, deneylerin olası sonuçlarına olay ve bir deneyin olası sonuçlarının tamamını kapsayan kümeye ise örnek uzayı denir. Örnek uzayında her bir değer eşsiz olmalı ve bir deneye ait bütün olaylar listelenmelidir. Örnek uzay içerisindeki olayların toplam olasılığı 1 e eşittir. Bu tanımdan yola çıkarak hiçbir olasılık sıfırdan küçük ve birden büyük olamaz. İki olayın birlikte olması olasılığına ( A ve B) birleşik olasılık, İki olaydan en az birinin olmasının olasılığına da (A veya B) birleşim veya olasılıkların toplanması denir. Tek bir olayın olması olasılıklarının toplamına da Marjinal olasılık denir. İki farklı olay bağımsız değilse (kesişimleri mevcut ise), bir olayın bilinmesi durumunda diğer olayın olma olasılığının hesaplanması önemli bir yaklaşımdır ve şartlı olasılık olarak adlandırılır. Şartlı olasılığın tersen bakışı olarak da adlandırılabilecek bayes teoreminde ise örnek uzay birden fazla alt bölüme ayrılmıştır. Bu alt bölümlerde bir olayın olma olasılıkları farklılık gösteriyorsa, o olayın olasılığının bilindiği durumda hangi bölümden geldiği sorusu bayes teoremi ile cevaplanabilir. Olasılık biliminin en önemli kısımlarından biriside olasılık dağılımlarıdır. Bu dağılımları bilmek, bize dağılıma uygun veri setleri hakkında geleceğe yönelik tahmin yapma olanağı sağlar. Keslikli Olasılık Dağılımları
Sürekli Olasılık Dağılımları
Binom Dağılım
Düzgün Dağılım
Poison Dağılımı
Üstel Dağılım
Hipergeometrik Dağılım
Normal Dağılım
4
Bir rassal değişken sayılabilir olup olmamasına bağlı olarak kesikli ve sürekli olarak adlandırılırlar. Kesikli rassal değişkenler binom, poisson ve hipergeometrik dağılımlardan birine çoğunlukla uyarlar. Sürekli rassal değişkenlerin büyük çoğunluğu normal dağılıma uymakla beraber düzgün dağılıma ve üstel dağılıma uyan durumlarda mevcuttur. Kesikli olasılık dağılımlardan en önemlilerinden, binom dağılımda rassal deneyin iki olası sonucu vardır ve her iki sonucun olasılıkları bilinir ve değişiklik göstermezler. Poisson dağılımında ise belli bir zaman veya bölge aralığında bir olayın başarılı denemelerinin olasılıkları incelenir. Binom dağılımda beklenen değer örnek sayısı ile başarı olasılığının çarpımı ile bulunurken, poisson dağılımında belli zaman aralığındaki ortalama değerine eşittir. Eğer belli bir aralıkta olayların olasılıkları sürekli eşit ise o zaman düzgün dağılım yardımıyla belli aralıktaki olasılıklar sadece diktörtgen alanı hesaplama ile kolayca belirlenebilir. Gelişler arası sürenin genelde üstel dağıldığı farzedilir. Bu özelliği ile üstel dağılımı özellikle simülasyon uygulamalarında çok büyük önem arz etmektedir. Teoride sürekli rassal değişkenlerin tamamına yakını normal dağılmaktadır. Bu bağlamda normal dağılımın öğrenilmesi istatistik biliminin iyi kavranabilmesi adına önem arz etmektedir. Normal dağılımlar iki parametreli (ortalama ve standart sapma) olasılık dağılımlarıdır. Kümülatif yoğunluk olasılıklarının daha kolay bulunabilmesi adına normal rassal değişkenler, standart rassal değişkenlere döndürülerek hesapmalama yapılabilir. Standart rassal değişkene ait olasılık değerleri ise istatistik tablolarında okunabilir. Veri analizi süreci temelde iki farklı açıdan incelenebilir. Karşılaştırmalı veri analizi, (hipotez testleri olarak da adlandırılırlar) istatistiksel analiz sürecinin en önemli alanıdır. İstatistiksel hipotezler ana kütle parametreleri hakkında örneklem yardımıyla yapılan önermelerdir. Bu önermelerin belli bir hata payı ile doğrulanması süreçleri ise istatistiksel hipotez testleri olarak adlandırılır. Hipotez testleri veri analizi sürecini ilk ve en önemli aşamasını oluşturur. Analiz süreçlerindeki en önemli nokta hangi analiz türünün veriye uygun olduğudur. Bir verinin analizine başlamadan aşağıdaki 4 karakteristik incelenmelidir. –
Veri Türü (Kategorik, Nümerik) –
Verilerin İlişkili Olması Durumu (Eşleştirilmiş, eşleştirilmemiş veri) –
Örneklem (grup) Sayısı (Tek, Çift, ikiden fazla) –
Verilerin Dağılımı (Parametrik – Parametrik olmayan) Eğer normal dağılıma uyan tek bir örneklem olan verimizin ana kütle parametresi ile karşılaştırılması gerekiyorsa o zaman tek örneklem t testi kullanılmalıdır. Bu testle örneklem ve ana kütle ortalamalarının ne kadar benzeştiği test edilir. 5
Veriler normal dağılmıyorsa, tek örneklem testi olarak Wilcoxon İşaretli Sıralar testi kullanılabilir. Bu testte ana kütle medyanı ile örneklem medyanı karşılaştırılır. Çift örneklem testlerinin en önemlileri, Bağımsız Örneklem T testi, Mann Whitney U testi, Eşleştirilmiş Örneklem t testi ve Wilcoxon Eşleştirilmiş Çiftler testi şeklindedir. Eğer veriler bağımsız ise yani iki farklı grubun aynı zamandaki durumlarını betimliyorsa, o zaman, normal dağılma varsayımına uyan veri setleri için bağımsız örneklem t testini, normal dağılıma uymayan veri setleri için Mann Whitney U testini, iki grubun ortalamalarını farklılıklarını araştırmak için kullanılır. Veriler eşleştirilmiş ise, yani bir grubun iki farklı zaman aralığındaki değerleri mevcutsa, istatistiksel olarak bu iki durumun farklı olup olmadığı araştırılırken, parametrik testlerde eşleştirilmiş örneklem t testi ve parametrik olmayan testlerden Wilcoxon Eşleştirilmiş Çiftler testi kullanılır. İkiden fazla örneklem olduğunda parametrik testlerden ANOVA, Çift Etken ANOVA ve MANOVA testleri tercih edilebilir. (Verilerin bağımsız oldukları varsayımı ile) 6
ANOVA testlerinde eğer örnek satırları açısından farklılık araştırılması söz konusu değilse, yani rastgele seçilen örnekler arasındaki farklılıklar inceleniyorsa, bu durumda tek etken (sadece sütunlar) ANOVA gerçekleştirilir. Eğer satırlar açısından farklılık araştırılmak isteniyor ise, fakat satırlar tekrarlı değilse ANOVA: Yinelemesiz Çift Etken analizi gerçekleştirilmelidir. Eğer satırlarda gruplanmış ise (veriler tekrar ediyorsa) yinelemeli test tercih edilmelidir. Yinelemeli testte satır ve sütunların etkileşimi de ayrıca farklılık düzeyinde incelenir. Parametrik olmayan veri seti durumunda ANOVA yerine Kruskal Wallis Testi tercih edilmelidir. Karşılaştırmalı istatistiksel analiz gruplar arası farklıklara odaklanır. Grupların birbiri ile ilişkili olup olmadıkları da ayrıca önemlidir. İlişkisel veri analizi süreci olarak adlandırılan bu süreç tanımlayıcı ve çıkarımsal olarak iki alt başlıkta incelenmektedir. 7
Eğer birden fazla değişkenin ilişkisini görmek amaç ise, derecesi fazla önemli değil ise, kontenjans tablosu uygun bir araç olacaktır. Eğer ilişkinin yönü de önemli ise serpilme diyagramından faydalanılabilir. Eğer birlikte değişim esas ise kovaryans analizi veya bu analizin normalleştirilmiş hali olan Korelasyon analizi kullanılabilir. Eğer ikiden fazla değişken arasındaki ilişkinin tek bir tabloda görünmesi isteniyorsa kovaryans veya korelasyon matrisleri kullanılabilir. Eğer ilişkisi incelenen değişkenlerin, birisinin değişimi diğerine bağlı ise o zaman tek değişkenli durumlarda doğrusal regresyon, ikiden fazla bağımsız değişken durumunda çoklu regresyon denklemleri kurulabilir. Fakat bu denklemlerin kullanılabilirliği, determinasyon katsayısına, model geçerliliği testi (F testi) değerine ve katsayı geçerliliği testleri (t testleri) değerlerine bağlıdır. Veri analizi süreci sadece nicel verilerle gerçekleştirilmez. Kategorik olarak adlandırılan veri türü ile de analiz yapmak mümkündür. Ki‐Kare testleri nitel verilerin analizinde kullanılan bir yöntemdir. Üç farklı durumda tercih edilirler. 8
Verilerin incelen değişken açısından farklılıklarının olup, olmadığının incelendiği “Bağımsızlık Testleri”, incelenen iki farklı örneğin aynı ana kütleden gelip gelmediklerinin incelendiği “Homojenlik Testleri” ve bir veri setinin belli bir dağılıma uygunluğunun incelendiği “Uygunluk Testleri” nitel verilerin analizinde önemlidir. İstatistik bilimi ile bilişim teknolojileri arasında iki yönlü bir ilişki mevcuttur. İstatistiğin her türlü sektördeki kullanımında önemli maliyet ve zaman kazanımları sunması açısından bilişim teknolojileri hayati önem taşımaktadır. Ayrıca elle çözümü çok da mümkün olmayan kompleks analizler, geliştirilen bilgisayar temelli algoritmalar ile (yapay zeka vb.) yapılabilmektedir. Diğer taraftan bakıldığında teknolojinin gelişim sürecindeki temel etkenin insanların ihtiyaçları olması ve çoğu zaman bu ihtiyaçların istatistiksel yöntemler ile analiz edilmesi durumu da BT‐İstatistik ilişkisinin önemli bir boyutudur. SON NOT  İstatistik bilimi veriyi konuşturma sanatıdır. Ancak ve ancak araştırmacının kabiliyetleri ile sınırlıdır.  Doğru analiz yapmak yeterli değildir. Doğru şekilde de yorumlanmalıdır.  İstatistik bilimi istenilen bir kararı desteklemek adına manipüle edilmeye müsait bir bilim dalı olarak görülmemelidir. Unutulmamalıdır ki istatistik analizlerin sonuçlarını okumak belli bir tecrübeye sahip kişiler için zor değildir. Kendinizi zor durumlara sokmaktan kaçının.  Her analiz süreci, hipotez belirleme, uygun analiz türünün seçilmesi, analizin gerçekleştirilmesi ve yorumlanması süreçlerini içerir. Bütün alt süreçler eşit derecede önemlidir. Doğru bir analiz için her adım özenle planlanmalıdır. 9
Download