DÖNEM I BİYOİSTATİSTİK, HALK SAĞLIĞI VE RUH SAĞLIĞI DERS KURULU Ders Kurulu Başkanı : Yrd.Doç.Dr. İsmail YILDIZ ARAŞTIRMADA PLANLAMA VE ÇÖZÜMLEME (03-09 Ocak 2014 Y.ÇELİK) Araştırma Süreci (The research process): 1)Araştırma Önerisi (Research idea): Araştırmanın en önemli, en çok ilginç kabul edilen aşaması araştırma önerisinin sunulduğu adımdır. Bu bölümde araştırma önerisinin neden ilginç olduğu, farklı yanlarını, katkısı açık bir öneri ile dile getirilmelidir. 2)Kaynak Tarama (Literature review): Konuyla ilgili tüm kaynakların taranması sürecidir. Kaynak tararken özellikle araştırmaları sistematik olarak derleyen “derleme” türü çalışmalardan yararlanmak gerekir. Daha önce yayınlanmış bir araştırmanın tekrar yapılması doğru değildir. Harcanacak zaman ve emeğin başka bir araştırma için ayrılması daha mantıklıdır. 3) Araştırma Probleminin Kuramsal Formülasyonu (Theoretical formulation of the research problem and hypothesis) Araştırma problemi için söylenecek en iyi söz “İyi tanımlanan bir problemin yarısı çözülmüş sayılır” deyişidir. Araştırma problemi ve ilgili hipotezlerin formülasyonu en önemli bir aşamadır. Araştırmanın belirginleşmesini ve araştırmadan beklentileri açığa çıkarır. 4)Araştırma Dizaynı ve Planlanması (Design and plan the study) Araştırma için en uygun araştırma dizaynının ne olduğu, araştırma yöntemi seçiminin hangisi olacağı, araştırmaya dahil edilecek bireylerin kimler olacağı, kullanılacak örnekleme yöntemleri ve verilerin analizi için kullanılacak istatistiksel testlerin neler olacağı belirtilmelidir. 5)Araştırma Önerisinin Yazılması (Writing the research proposal) Araştırıcı araştırma önerisini bilimsel ve etik kurallara uygun bir şekilde yazmalıdır. 1 6)Uygun Fonların İncelenmesi (Examine the appropriate funding) Araştırma hangi alanda yapıldıysa o alana uygun bir fon bulmak gerekir. Fonlar devlet kuruluşları veya özel fonlar olabilir. Bu konuda en iyi fon arama yeri internet olanaklarıdır. 7)Etik Onay Alma (Obtain etical approval) Yapılan çalışmada etik onay almak gerekliyse bunu atlamak veya ihmal etmek büyük sorunlara neden olur. Bu durum araştırıcıyı hukuki sorunlar yaşamasına da neden olur. Hangi çalışmaların etik onay alması gerektiğini detaylı öğrenmek için etik komitenin yayınlamakta olduğu yönetmeliği incelikleri ile okumak gerekir. 8)Veri Toplama ve Analize Hazırlama (Collect the data and collate to analyse) Verileri toplarken yansızlığa dikkat etmek gerekir. Yanlı elde edilen verilerin yanlı sonuçlar vermesi beklenir. Bu durum araştırmanın yansızlığına aykırı bir durumdur. İstatistik bilim dalında bias (yanlılık), çok fazla ele alınan bir konudur. Tüm istatistikler, formülasyonlar ve yöntemlerin yansız olması için uğraş verilir. 9) Verlerin Analizi ve Yorumu (Analyse the data and interpret findings) Verilerin analizi çok önemli bir aşama olduğu bilinen bir durumdur. Veri analizi başlı başına iyi bir istatistik bilgisi gerektirir. Seçilen istatistik test, sonuçları önemli ölçüde olumlu veya olumsuz bir şekilde etkiler. 10)Sonuçların uygulamalar için anlamlaştırılması (Research findings and practice implications) Araştırmadan elde edilen sonuçların uygulanabilirliği çok önemlidir. Araştırmaların günlük yaşantımızda sorunları çözmeye yönelik olduğu unutulmamalıdır. 11) Raporun Hazırlanması (Report on the study) Araştırma raporu, tüm uzun çalışmaların sonunda ürünün bir raporla ortaya konulmasıdır. 2 1)Araştırmada örnek hacmi ve gücü göz önünde tutmak Araştırıcıların istatistik uzmanına en çok sordukları sorulardan biri; Araştırmamın örnek hacmi ne olmalıdır? şeklindeki sorudur. Biyoistatistik uzmanı yukarda ifade edilen zorluğu çözmede ve yol göstermede önemli bir görev üstlenebilir. Araştırmada genellenebilir sonuçlar elde etmek için örnek hacmi konusunda önemli denilecek ölçütlerin belirlenmesi gerekir. 2) Anketler Biyoistatistik uzmanı genellikle anket düzenlemede daha çok deneyimlidir. Ankette kullanılacak ölçekler, soru sayısı, şık sayısı, soru şekillerinin düzenlenmesi araştırmada genellenebilir sonuçlara ulaşmak için önemli konulardır. 3) Örneğin ve kontrol grubunun seçilmesi Üzerinde araştırma yapılacak örneğin doğru seçilmiş olması gerekir. Seçilen konu ve hipotezlere uygun örnek seçilmedikçe doğru sonuçlar elde edilemez. 4)Araştırmanın Düzeni Araştırma düzeni hazırlamak verilerin değerlendirilmesinde kullanılacak olan analiz kadar önemlidir ve istatistik uzmanı bu konuda önemli sayılacak şekilde fikir verebilir. 5) Laboratuar deneyleri Tıbbi araştırıcılar genellikle hastadaki biyolojik varyasyonu ve etkilerini araştırırlar. Ancak gözden kaçırılmaması gereken konu, bu varyasyonun laboratuar ile olan ilişkisidir. 6) Verilerin görüntülenmesi İyi seçilmiş grafik veya şekillerin araştırma sonuçlarını çok açık bir şekilde sunulmasına yardımcı olur. İstatistik uzmanı verilerin görüntülenmesinde kullanılacak yöntemlerde yardımcı olabilir. 7) Tanımlayıcı istatistikler ve istatistiksel analizlerin seçimi Araştırmada kullanılan tanımlayıcı istatistikler ve istatistiksel analizler verilere ve seçilen araştırma düzenine uygun olmalıdır. Bazı durumlarda ortanca (medyan) değer, aritmetik ortalama değerinden daha iyi bir ölçüm değeri olur. 3 Araştırmada kullanılan tanımlayıcı istatistikler ve istatistiksel analizler verilerin dağılışına araştırmadaki hipotezlere uygun bir şekilde kullanılmalıdır. Araştırıcılar en çok bu konularda yanlışlık yapmaktadırlar. Bu nedenle, uygun tanımlayıcı istatistiklerin kullanılması ve analizlerin seçimi istatistik uzmanı yardımıyla gerçekleştirilmesi faydalı olur. TANIMLAYICI İSTATİSTİKLER (27.01.2014 Pazartesi Y. ÇELİK) Tanımlayıcı istatistiklere giriş Tablo ve diyagramların verileri anlamlı bir şekilde özetledikleri bir önceki bölümde gösterilmişti. Ancak veriler hakkında yorum yapmak veya iki farklı veri setini birbiriyle karşılaştırmak için bazı tanımlayıcı istatistiklere gereksinim olur. Tanımlayıcı istatistikleri sağlıkla ilgili yayınlarda veya günlük yaşantımızda sıkça kullanmaktayız. Örneğin bir kadın doğum kliniğinde haftalık ortalama yapılan ameliyat sayısını dile getirmek için, birçok haftada gözlenen ameliyet sayılarının ortalama değerinin verilmesi ile olasıdır. Verilen bu ortalama tanımlayıcı bir istatistiği açıklar. Bu bölümde verilecek olan tanımlayıcı istatistikler, kantitatif değişkenler için kullanılan ortalamalar ve yaygınlık ölçüleri olarak tanınan ölçülerdir. Kalitatif değişkenleri tanımlayan en iyi ölçüler oranlardır. Oranlar Oran, genel olarak herhangi iki sayının bölümü ile elde edilen sonucu açıklar. "Orantı" ve "oran" olarak iki şekilde ele alınabilir. Orantı, bir bölümü tam ile karşılaştıran bir oran olarak tanımlanabilir. Oranın sıkça kullanılan şekli "yüzde" dir. Bu oran, orantının 100 ile çarpılması sonucu elde edilen sayısal değerdir. Oranlar, özellikle frekans tablosu şeklinde sınıflandırılmış değişkende veriler için tanımlayıcı istatistik olarak kullanılmaktadır. Örneğin cinsiyeti ifade eden bir değişkeni ele 4 alalım. Bu değişken için beş' i erkek 51' i kadın olan 56 gözlem yapılmış olsun. Cinsiyeti erkek olanlarla ilgili sonuçlar aşağıda gösterilmiştir. a)Erkek' lerin toplam bireye orantısı 5/56=0.089, veya b)Toplam birey içinde erkeklerin yüzdesi 0.089x100=8.9, veya c)Toplam birey içinde erkeklerin kadınlara göre oranı 5/51=0.089 şeklinde gösterilebilir. Ortalamalar Ortalama, değişkenin gözlenen değerleri arasında en yoğun noktayı ifade eder. Bu ifadeye göre, ortalama bir veri setinin orta noktası veya merkezi eğilim ölçüsü olduğu söylenebilir. Ortalamalar sadece kantitatif değişkenler için tanımlanabilir. Kalitatif değişkenleri oranlarla tanımlamak gerekir. Genellikle kullanılan üç ayrı ortalama vardır. Bunlar sırasıyla aritmetik ortalama(mean), ortanca(medyan) ve tepe değeri(mod)' dur. Şimdi, sırasıyla bunları ele alalım ve nasıl hesaplandıklarını görelim. Aritmetik ortalama Aritmetik ortalama, ele alınan verilerin toplamlarının toplam veri sayısına bölünmesi ile elde edilir. Bu durumu, sembollerle göstermeye çalışalım. Gözlemleri 1 , 2 ,...., n toplam gözlem sayısını n ve bu gözlemlerin aritmetik ortalamasını ile gösterelim. Toplam ifadesi (sigma) sembolü ile gösterildiğine göre, n Aritmetik Ortalama: i i 1 n şeklinde ifade edilebilir. i (bir'den n'e kadar verileri gösteren bir indistir) 5 Örnek 5.1 5.2, 3.7, 2.4, 0.3 verilerinin ortalaması 5.2 3.7 2.4 0.3 11.6 2.9 4 4 şeklindedir. Ortanca (Medyan) Ortanca verilerin orta noktasını ifade eden bir değerdir. Verilerin yarısı ortancadan daha küçük, diğer yarısı ise daha büyük değere sahiptir. Sınıflandırılmış verilerde ortancanın hesaplanmasında yapılan ilk iş verileri küçükten büyüğe sıralamaktır. Ortanca değerde bu sıranın tam ortasında yer almaktadır. Örnek: Gözlem değerleri; 8,2,11,5,6 şeklinde ise bunların küçükten büyüğe sıralınışı; 2,5,6,8,11 şeklinde olur. Bu sıralamada orta nokta(ortanca) 6 'dır. Eğer gözlem değerlerinin toplam sayısı çift ise gerçek bir ortanca yoktur. Bu durumda ortadaki iki değerin aritmetik ortalaması ortancayı verir. Örnek: Gözlem değerleri; 8,2,11,5,6,5 ise bunların küçükten büyüğe sıralanışı 2,5,5,6,8,11 olur. Bu sıralamada ortanca 1/2(5+6)= 5.5 olur. Yukardaki bu durum n gözlem için genellenirse ; n değeri tek ise: Ortanca , (n+1)/2' ci değerdir. n değeri çift ise: Ortanca , (n/2)'ci değer ile (n/2+1) ' ci değerin orta noktasıdır. Tepe Değeri(Mod) 6 Tepe değeri veri kümesi içinde en yüksek frekansa sahip olan değerdir. Kesikli değişken için yapılan frekans tablosunda da durum aynıdır. Bu frekans tablosunda en yüksek frekansa sahip değer tepe değeridir Özel Ortalamalar Aritmetik ortalama, ortanca ve tepe değerine ek olarak özel durumlar için kullanılan değişik ortalamalar mevcuttur. Bu bölümde geometrik ortalama ve tartılı ortalama ele alınacaktır. Geometrik Ortalama Oran olarak ölçülmüş artan veya azalan miktarların ortalamasını bulmada kullanılan bir ortalamadır. n adet değerin 1 , 2 ,..., n geometrik ortalaması; G.O. n x1x 2 ...x n olur. Ağırlıklı Ortalama Elde edilen gözlemlerin birbirine oranla ağırlıkları farklı olduğu durumlarda kullanılması gerekli olan bir ortalamadır. x1, x 2 ,..., x k k gözlem değeri ve her bir gözlem değerine karşı gelen ağırlık w1, w2 ,..., wk ile gösterilmişse ağırlıklı ortalama; k w x i x i i 1 k şeklinde ifade edilebilir. w i i 1 Yaygınlık Ölçüleri Ortalamalar, değişkenin gözlenen değerleri arasında en yoğun noktayı ifade ederek araştırıcıya faydalı bilgiler verirler. Ancak verilerin dağılımını tanımlamak için yeterli değildirler. 7 Değişim Aralığı Veri setinde en bütük ve en küçük değerlerin farkı olarak bilinen bir değerdir. Uç değerlerden fazla etkilenir. Değişim aralığının basit bir şekilde hesaplanabilmesi bir avantajdır. Verilerdeki değişim hakkında kaba bir fikir verir. Değişim aralığının genel gösterimi; D.A. X max X min gibidir. Standart Sapma ve Varyans En iyi yaygınlık ölçüsünün standart sapma olduğu unutulmamalıdır. Örnek için varyans hesaplanırken, ortalamadan ayrılışların kareleri toplamı n yerine (n-1)' e bölünür. Bu durum popülasyon varyansını daha iyi tahmin ettiği için yapılır. Örnek standart sapma değeri S semolü ile gösterilir. Popülasyon'un standart sapması ise, 2 sembolü ile gösterilmektedir. Varyans ve standart sapma; Varyans, S2 (x Standart sapma, S i x) 2 ( n 1) (x i x) 2 ( n 1) veya S x 2 ( x) 2 n n 1 formülleri ile hesaplanabilir. Sonuncu formülün kullanılması daha kolaydır. Birçok hesap makinasında ortalama ve standart sapma için fonksiyon tuşları vardır. Tuşlar genellikle ortalama ve standart sapma için sırasıyla x , n1 şeklinde gösterilmektedir. 8 Verilen zeka testi puanlarını ele alarak standart sapmalarını bulalım. Söz konusu puanları; 70, 85, 90, 100, 110, 115, 130 Bu puanların toplamı x i 700 , kareleri toplamı ise, x 2 i 72450 gibi bulunur. Bu sonuçları standart sapma formülünde yerine koyalım. S2 ( x i2 x ) 2 i n n 1 (700) 2 7 20.21 6 7240 olarak bulunur. Zeka testi puanlarının ortalaması 100 puan olarak bulunmuştu. O halde ortalama ve standart sapma x s 100 20. 21 şeklinde gösterilebilir. Bu durum, bireylerin % 68.26' nın bu sınırlarda puana sahip olduğu, %95.44' nün x 2 s 100 2( 20. 21) , %99.73'nün ise x 3s 100 3( 20. 21) aralığında, geri kalan çok az miktarın ise x 4 s sınırları içinde yer aldığı söylenebilir. Standart Hata Popülasyonun standart sapması nadiren bilinir. Bu nedenle, bunun yerine örnek standart sapması kullanarak S , standart hatayı, Sx S n formülünden tahmin ederiz. Varyasyon Katsayısı Varyasyon katsayısı büyük bir kolaylık sağlar. Bu katsayı, dağılışın ortalamasının yüzdesi gibi ifade edilebilen dağılışın standart sapmasıdır. Varyasyon katsayısı, 9 VK S x x100 şeklinde ifade edilir. POPÜLASYON DAĞILIŞLARI (28.01.2013 Y.ÇELİK) Popülasyon dağılışları istatistiğin en önemli konularından biridir. Bir zaman aralığında incelenen olayların sözü edilecek bir dağılış düzeninde dağıldığı görülür. Dağılışlar, olayların birbiriyle ne kadar ilişkili olduğu ve aralarında ardışık olarak bir sıralanışın olduğunu açıkça gösterir. Bu durum, ilginç bir gözlemi ortaya koyar. İstatistik bu dağılımlardan yararlanarak nasıl testler geliştirdiğini inceleyeceğiz. BİNOM DAĞILIŞI Binomial bir deney aşağıdaki özelllikleri gösterir: 1. Deney n adet benzer denemeden oluşur. 2. Her bir deneme iki sonuçtan birisiyle sonuçlanır. Bunlardan birisi başarı diğeri başarısızlık olarak adlandırılır. 3. Başarının olasılığı p ile gösterilir ve bu değer denemeden denemeye sabit kalır. 4. Denemeler birbirinden bağımsızdır ve bir denemenin sonucu diğer hiç bir denemenin sonucunu etkilemez. 5. Rastgele x değişkeni n denemede başarının sayısı olarak kabul edilir. Binom dağılışı için basit olarak kullanılan formül şu şekildedir. n denemede istenen olay sayısı x, ve istenen olayların herbirinin olma olasılığı p ise ve olaylar birbirinden bağımsız olarak meydana geliyorsa; n b (n , x , p ) (x )p x q n x n! p x q n x x ! ( n x )! 10 olarak gösterilebilir . Yukardaki formülde ! sembolü faktöriyeldir . n! n faktöriyel olarak ifade edilir ve 1.2.3., ..., (n-1).(n) çarpımlarına eşittir . Örneğin 4! = 1.2.3.4.= 24 olarak hesaplanır . 0! ise 1’e eşittir . Binom dağılışının parametreleri ise; Ortalama np S tan dartSapma npq olarak bilinmektedir. Binom dağılışını sayısal bir örnek vererek açıklamaya çalışalım. Örnek: Volenter olarak ilaç uygulamalarına katılan gençlerin % 40’ ı programı tamamlayabilmektedir. Rastgele olarak 6 birey seçildiğinde, bunların yarısından fazlasının programı tamamlaması olasılığı nedir? Çözüm : Altı bireyin yarısından fazlası istendiğinden: p=1-0.40=0.60 P(x>3) olasılığı ise; P(x>3)=P(x≥4)=P(X=4)+ P(X=5)+ P(X=6) 6 6 6 = (0.6) 4 (0.4) 2 (0.6)5 (0.4)1 (0.6) 6 (0.4) 0 4 5 6 0.311+0.187+0.047+0.545 olur. 11 POİSSON DAĞILIŞI Poisson dağılışının olasılık yoğunluk fonksiyonu; e x P( x ) x! P(x ) e x x! veya alındığında olarak gösterilebilir. Yukardaki formül kullanılarak 0,1,2,3,4 gibi ender olayların olasılığı sırasıyla ; e , e , e 2 e 3 e 4 , , ,... 2! 3! 4! şeklinde bulunabilir. Burada e = 2.718 doğal logaritma değeridir. Örnek Yapılan bir araştırmaya göre, 30-44 yaş erkek popülasyonunda kalp hastalığı bulunma olasılığının binde 0.5 olarak bulunmuştur. Babası kalp hastalığından ölen yani kalp hastalığı riski taşıyan popülasyondan 1000 kişi seçerek bunlarda ki kalp hastalık oranını ise binde üç olarak hesaplanmıştır. Risk taşıyan popülasyondan rastgele üç veya daha fazla kişinin ölmesi olasılığını bulalım. Öncelikle 30-44 yaş grubundaki popülasyonda ölüm oranının p=0.0005 olduğunu ve 1000 hastanın seçilmesinden dolayı n=1000 olacağını hatırlayalım. Bu durumda Poisson dağılışının ortalaması; n.p 1000 x 0.0005 0.50 olur. 0.50 alındığında e değeri 0.607 olarak hesaplanır. Bu değeri kullanarak sıfır , bir ve iki hastaya ait olasılıkları sırasıyla şu şekilde bulabiliriz . p(0) e 0.607 p(1) e (0.607)(0.50) 0.304 p(2) e 2 (0.607)(0.25) 0.076 2! 2 12 olur . Bu üç olasılığın toplamı p(0)+p(1)+p(2) = 0.987 olur . Bütün olasılık 1’e eşit olması gerektiği hatırlanırsa, seçilen 1000 kişide üç veya daha çok hastanın olma olasılığı ; P(x 3) 1 P(0) P(1) P(2) olur . = 1-0.987=0.013 bulunur. Bu olasılık küçük bir olasılıktır. NORMAL ( GAUSSIAN ) DAĞILIŞ Normal Dağılış süreklidir ve ortalamaya göre simetrik bir dağılıştır. Ortalaması ( mu) ve Standart Sapması (sigma) ile gösterilir. Herbir ve ‘ nın alacağı değere göre değişik normal dağılışlar elde edilir. Normal dağılışın olasılık dağılışı olması nedeniyle eğri altındaki alan bire eşittir. Normal dağılışın olasılık yoğunluk fonksiyonu ; )2 1 ( x 1 2 f (x) e 2 x için Olasılık yoğunluk fonksiyonunda değeri 3.141, e ise 2.718 olduğu hatırlanmalıdır. x ise rastlantı değişkeni olarak - ile + arasında yer almaktadır. Dağılış simetrik bir dağılış olması nedeniyle, alanın yarısı ortalamanın sağında diğer yarısı ise ortalamanın solunda yer alır. Normal Dağılışın Özellikleri : 1. Normal dağılış sürekli değişkenlerin bir dağılışıdır . 2. Ortalama , standart sapması ve N denek sayısı ile belirtilir . 3. Ortalama ve standart sapma birbirine bağlı değildir. Bunlar örnek hacmi ile ilgilidir . 4. Normal dağılış eğrisi, ortalamaya göre simetriktir. Dağılışın sol yarısı ( 0.50 ), sağ yarısına eşittir. 5. Normal dağılış eğrisi , - da başlayarak +‘a doğru dağılış gösterir . Bireylerin %68.26’sı 1S sınırları içinde, % 95.44’ü 2S sınırları içinde, % 99.74’ü 3S sınırları içinde yer alır. Geri 13 kalan pek önemsiz bir miktarı ise 4S sınırları dışında yer aldığı için bu nedenle bu sınırlar içerisinde de % 100 yer alır denilmektedir. STANDART NORMAL DAĞILIŞ Ortalaması 0, standart sapması 1 olan teorik normal dağılışa standart normal dağılış adı verilir. Standart normal dağılışa z dağılışı da denir. Standart normal dağılışta, aritmetik ortalama ile herhangi bir z değeri arasındaki olasılık değerleri z tablosunda toplanmıştır. Yetişkin kız bireylerde standardize edilmiş IQ testi skorlarının ortalaması 100, standart sapması 13 olduğu bilindiğine göre, 110 ile 130 arasında skora sahip kızların olasılığını bulalım Kızların IQ testi dağılışında 110 ve 130 skor arasında kalan alan Çözüm olarak değişken z’ye dönüştürülmeden önce istenen olasılığın P(110<x<130) olduğunu hatırlamamız gerekir. Daha önce ifade edildiği gibi, x değişkeninin z’ye dönüştürlmesi gerekir. x=110 değerini z’ye dönüştürelim, z x 110 100 0.77 13 x=130 değeri ise; z x 130 100 2.31 13 olarak bulunur. Bu durumda istenen olasılık P(0.77<z<2.31) şeklinde belirtilebilir. Bu olasılık, z değerlerini veren Tablo B kullanılarak; P(0.77<z<2.31) = P(0<z<2.31)-P(0<z<0.77) = 0.4896-0.2794 = 0.2102 olur. = 0.8444 olur. 14