DÖNEM I BİYOİSTATİSTİK, HALK SAĞLIĞI VE RUH SAĞLIĞI DERS

advertisement
DÖNEM I BİYOİSTATİSTİK, HALK SAĞLIĞI VE RUH SAĞLIĞI DERS KURULU
Ders Kurulu Başkanı : Yrd.Doç.Dr. İsmail YILDIZ
ARAŞTIRMADA PLANLAMA VE ÇÖZÜMLEME (03-09 Ocak 2014 Y.ÇELİK)
Araştırma Süreci (The research process):
1)Araştırma Önerisi (Research idea):
Araştırmanın en önemli, en çok ilginç kabul edilen aşaması araştırma önerisinin
sunulduğu adımdır. Bu bölümde araştırma önerisinin neden ilginç olduğu, farklı yanlarını,
katkısı açık bir öneri ile dile getirilmelidir.
2)Kaynak Tarama (Literature review):
Konuyla ilgili tüm kaynakların taranması sürecidir. Kaynak tararken özellikle
araştırmaları sistematik olarak derleyen “derleme” türü çalışmalardan yararlanmak gerekir.
Daha önce yayınlanmış bir araştırmanın tekrar yapılması doğru değildir. Harcanacak zaman
ve emeğin başka bir araştırma için ayrılması daha mantıklıdır.
3) Araştırma Probleminin Kuramsal Formülasyonu (Theoretical formulation of the research
problem and hypothesis)
Araştırma problemi için söylenecek en iyi söz “İyi tanımlanan bir problemin yarısı
çözülmüş sayılır” deyişidir. Araştırma problemi ve ilgili hipotezlerin formülasyonu en
önemli bir aşamadır. Araştırmanın belirginleşmesini ve araştırmadan beklentileri açığa
çıkarır.
4)Araştırma Dizaynı ve Planlanması (Design and plan the study)
Araştırma için en uygun araştırma dizaynının ne olduğu, araştırma yöntemi
seçiminin hangisi olacağı, araştırmaya dahil edilecek bireylerin kimler olacağı, kullanılacak
örnekleme yöntemleri ve verilerin analizi için kullanılacak istatistiksel testlerin neler olacağı
belirtilmelidir.
5)Araştırma Önerisinin Yazılması (Writing the research proposal)
Araştırıcı araştırma önerisini bilimsel ve etik kurallara uygun bir şekilde yazmalıdır.
1
6)Uygun Fonların İncelenmesi (Examine the appropriate funding)
Araştırma hangi alanda yapıldıysa o alana uygun bir fon bulmak gerekir. Fonlar
devlet kuruluşları veya özel fonlar olabilir. Bu konuda en iyi fon arama yeri internet
olanaklarıdır.
7)Etik Onay Alma (Obtain etical approval)
Yapılan çalışmada etik onay almak gerekliyse bunu atlamak veya ihmal etmek büyük
sorunlara neden olur. Bu durum araştırıcıyı hukuki sorunlar yaşamasına da neden olur.
Hangi çalışmaların etik onay alması gerektiğini detaylı öğrenmek için etik komitenin
yayınlamakta olduğu yönetmeliği incelikleri ile okumak gerekir.
8)Veri Toplama ve Analize Hazırlama (Collect the data and collate to analyse)
Verileri toplarken yansızlığa dikkat etmek gerekir. Yanlı elde edilen verilerin yanlı
sonuçlar vermesi beklenir. Bu durum araştırmanın yansızlığına aykırı bir durumdur.
İstatistik bilim dalında bias (yanlılık), çok fazla ele alınan bir konudur. Tüm istatistikler,
formülasyonlar ve yöntemlerin yansız olması için uğraş verilir.
9) Verlerin Analizi ve Yorumu (Analyse the data and interpret findings)
Verilerin analizi çok önemli bir aşama olduğu bilinen bir durumdur. Veri analizi başlı
başına iyi bir istatistik bilgisi gerektirir. Seçilen istatistik test, sonuçları önemli ölçüde olumlu
veya olumsuz bir şekilde etkiler.
10)Sonuçların uygulamalar için anlamlaştırılması (Research findings and practice
implications)
Araştırmadan elde edilen sonuçların uygulanabilirliği çok önemlidir. Araştırmaların
günlük yaşantımızda sorunları çözmeye yönelik olduğu unutulmamalıdır.
11) Raporun Hazırlanması (Report on the study)
Araştırma raporu, tüm uzun çalışmaların sonunda ürünün bir raporla ortaya
konulmasıdır.
2
1)Araştırmada örnek hacmi ve gücü göz önünde tutmak
Araştırıcıların istatistik uzmanına en çok sordukları sorulardan biri; Araştırmamın
örnek hacmi ne olmalıdır? şeklindeki sorudur.
Biyoistatistik uzmanı yukarda ifade edilen zorluğu çözmede ve yol göstermede
önemli bir görev üstlenebilir. Araştırmada genellenebilir sonuçlar elde etmek için örnek
hacmi konusunda önemli denilecek ölçütlerin belirlenmesi gerekir.
2) Anketler
Biyoistatistik uzmanı genellikle anket düzenlemede daha çok deneyimlidir. Ankette
kullanılacak ölçekler, soru sayısı, şık sayısı, soru şekillerinin düzenlenmesi araştırmada
genellenebilir sonuçlara ulaşmak için önemli konulardır.
3) Örneğin ve kontrol grubunun seçilmesi
Üzerinde araştırma yapılacak örneğin doğru seçilmiş olması gerekir. Seçilen konu ve
hipotezlere uygun örnek seçilmedikçe doğru sonuçlar elde edilemez.
4)Araştırmanın Düzeni
Araştırma düzeni hazırlamak verilerin değerlendirilmesinde kullanılacak olan analiz
kadar önemlidir ve istatistik uzmanı bu konuda önemli sayılacak şekilde fikir verebilir.
5) Laboratuar deneyleri
Tıbbi araştırıcılar genellikle hastadaki biyolojik varyasyonu ve etkilerini araştırırlar.
Ancak gözden kaçırılmaması gereken konu, bu varyasyonun laboratuar ile olan ilişkisidir.
6) Verilerin görüntülenmesi
İyi seçilmiş grafik veya şekillerin araştırma sonuçlarını çok açık bir şekilde sunulmasına
yardımcı olur. İstatistik uzmanı verilerin görüntülenmesinde kullanılacak yöntemlerde
yardımcı olabilir.
7) Tanımlayıcı istatistikler ve istatistiksel analizlerin seçimi
Araştırmada kullanılan tanımlayıcı istatistikler ve istatistiksel analizler verilere ve
seçilen araştırma düzenine uygun olmalıdır. Bazı durumlarda ortanca (medyan) değer,
aritmetik ortalama değerinden daha iyi bir ölçüm değeri olur.
3
Araştırmada kullanılan tanımlayıcı istatistikler ve istatistiksel analizler verilerin
dağılışına araştırmadaki hipotezlere uygun bir şekilde kullanılmalıdır. Araştırıcılar en çok bu
konularda yanlışlık
yapmaktadırlar.
Bu
nedenle,
uygun
tanımlayıcı
istatistiklerin
kullanılması ve analizlerin seçimi istatistik uzmanı yardımıyla gerçekleştirilmesi faydalı olur.
TANIMLAYICI İSTATİSTİKLER (27.01.2014 Pazartesi Y. ÇELİK)
Tanımlayıcı istatistiklere giriş
Tablo ve diyagramların verileri anlamlı bir şekilde özetledikleri bir önceki bölümde
gösterilmişti. Ancak veriler hakkında yorum yapmak veya iki farklı veri setini birbiriyle
karşılaştırmak için bazı tanımlayıcı istatistiklere gereksinim olur.
Tanımlayıcı istatistikleri sağlıkla ilgili yayınlarda veya günlük yaşantımızda sıkça
kullanmaktayız. Örneğin bir kadın doğum kliniğinde haftalık ortalama yapılan ameliyat
sayısını dile getirmek için, birçok haftada gözlenen ameliyet sayılarının ortalama değerinin
verilmesi ile olasıdır. Verilen bu ortalama tanımlayıcı bir istatistiği açıklar.
Bu bölümde verilecek olan tanımlayıcı istatistikler, kantitatif değişkenler için
kullanılan ortalamalar ve yaygınlık ölçüleri olarak tanınan ölçülerdir. Kalitatif değişkenleri
tanımlayan en iyi ölçüler oranlardır.
Oranlar
Oran, genel olarak herhangi iki sayının bölümü ile elde edilen sonucu açıklar.
"Orantı" ve "oran" olarak iki şekilde ele alınabilir. Orantı, bir bölümü tam ile karşılaştıran bir
oran olarak tanımlanabilir. Oranın sıkça kullanılan şekli "yüzde" dir. Bu oran, orantının 100
ile çarpılması sonucu elde edilen sayısal değerdir.
Oranlar, özellikle frekans tablosu şeklinde sınıflandırılmış değişkende veriler için
tanımlayıcı istatistik olarak kullanılmaktadır. Örneğin cinsiyeti ifade eden bir değişkeni ele
4
alalım. Bu değişken için beş' i erkek 51' i kadın olan 56 gözlem yapılmış olsun. Cinsiyeti
erkek olanlarla ilgili sonuçlar aşağıda gösterilmiştir.
a)Erkek' lerin toplam bireye orantısı 5/56=0.089, veya
b)Toplam birey içinde erkeklerin yüzdesi 0.089x100=8.9, veya
c)Toplam birey içinde erkeklerin kadınlara göre oranı 5/51=0.089
şeklinde gösterilebilir.
Ortalamalar
Ortalama, değişkenin gözlenen değerleri arasında en yoğun noktayı ifade eder. Bu
ifadeye göre, ortalama bir veri setinin orta noktası veya merkezi eğilim ölçüsü olduğu
söylenebilir. Ortalamalar sadece kantitatif değişkenler için tanımlanabilir. Kalitatif
değişkenleri oranlarla tanımlamak gerekir.
Genellikle
kullanılan
üç
ayrı
ortalama
vardır.
Bunlar
sırasıyla
aritmetik
ortalama(mean), ortanca(medyan) ve tepe değeri(mod)' dur. Şimdi, sırasıyla bunları ele
alalım ve nasıl hesaplandıklarını görelim.
Aritmetik ortalama
Aritmetik ortalama, ele alınan verilerin toplamlarının toplam veri sayısına bölünmesi
ile elde edilir. Bu durumu, sembollerle göstermeye çalışalım. Gözlemleri
1 ,  2 ,....,  n
toplam gözlem sayısını n ve bu gözlemlerin aritmetik ortalamasını  ile gösterelim. Toplam
ifadesi  (sigma) sembolü ile gösterildiğine göre,
n

Aritmetik Ortalama:  
i
i 1
n
şeklinde ifade edilebilir. i (bir'den n'e kadar verileri gösteren bir indistir)
5
Örnek 5.1 5.2, 3.7, 2.4, 0.3 verilerinin ortalaması

5.2  3.7  2.4  0.3 11.6

 2.9
4
4
şeklindedir.
Ortanca (Medyan)
Ortanca verilerin orta noktasını ifade eden bir değerdir. Verilerin yarısı ortancadan
daha küçük, diğer yarısı ise daha büyük değere sahiptir.
Sınıflandırılmış verilerde ortancanın hesaplanmasında yapılan ilk iş verileri küçükten
büyüğe sıralamaktır. Ortanca değerde bu sıranın tam ortasında yer almaktadır.
Örnek: Gözlem değerleri; 8,2,11,5,6 şeklinde ise bunların küçükten büyüğe sıralınışı;
2,5,6,8,11 şeklinde olur. Bu sıralamada orta nokta(ortanca) 6 'dır.
Eğer gözlem değerlerinin toplam sayısı çift ise gerçek bir ortanca yoktur. Bu durumda
ortadaki iki değerin aritmetik ortalaması ortancayı verir.
Örnek: Gözlem değerleri; 8,2,11,5,6,5 ise bunların küçükten büyüğe sıralanışı 2,5,5,6,8,11
olur. Bu sıralamada ortanca 1/2(5+6)= 5.5 olur.
Yukardaki bu durum n gözlem için genellenirse ;
n değeri tek ise: Ortanca , (n+1)/2' ci değerdir.
n değeri çift ise: Ortanca , (n/2)'ci değer ile (n/2+1) ' ci değerin orta noktasıdır.
Tepe Değeri(Mod)
6
Tepe değeri veri kümesi içinde en yüksek frekansa sahip olan değerdir. Kesikli
değişken için yapılan frekans tablosunda da durum aynıdır. Bu frekans tablosunda en
yüksek frekansa sahip değer tepe değeridir
Özel Ortalamalar
Aritmetik ortalama, ortanca ve tepe değerine ek olarak özel durumlar için kullanılan
değişik ortalamalar mevcuttur. Bu bölümde geometrik ortalama ve tartılı ortalama ele
alınacaktır.
Geometrik Ortalama
Oran olarak ölçülmüş artan veya azalan miktarların ortalamasını bulmada kullanılan
bir ortalamadır. n adet değerin 1 ,  2 ,...,  n geometrik ortalaması;
G.O.  n x1x 2 ...x n
olur.
Ağırlıklı Ortalama
Elde edilen gözlemlerin birbirine oranla ağırlıkları farklı olduğu durumlarda
kullanılması gerekli olan bir ortalamadır. x1, x 2 ,..., x k k gözlem değeri ve her bir gözlem
değerine karşı gelen ağırlık w1, w2 ,..., wk ile gösterilmişse ağırlıklı ortalama;
k
w x
i
x
i
i 1
k
şeklinde ifade edilebilir.
w
i
i 1
Yaygınlık Ölçüleri
Ortalamalar, değişkenin gözlenen değerleri arasında en yoğun noktayı ifade ederek
araştırıcıya faydalı bilgiler verirler. Ancak verilerin dağılımını tanımlamak için yeterli
değildirler.
7
Değişim Aralığı
Veri setinde en bütük ve en küçük değerlerin farkı olarak bilinen bir değerdir. Uç
değerlerden fazla etkilenir. Değişim aralığının basit bir şekilde hesaplanabilmesi bir
avantajdır. Verilerdeki değişim hakkında kaba bir fikir verir. Değişim aralığının genel
gösterimi;
D.A.  X max  X min
gibidir.
Standart Sapma ve Varyans
En iyi yaygınlık ölçüsünün standart sapma olduğu unutulmamalıdır.
Örnek için varyans hesaplanırken, ortalamadan ayrılışların kareleri toplamı n yerine
(n-1)' e bölünür. Bu durum popülasyon varyansını daha iyi tahmin ettiği için yapılır. Örnek
standart sapma değeri S semolü ile gösterilir. Popülasyon'un standart sapması ise, 
2
sembolü ile gösterilmektedir.
Varyans ve standart sapma;
Varyans, S2 
 (x
Standart sapma, S 
i
 x) 2
( n  1)
 (x
i
 x) 2
( n  1)
veya S 
x
2

(
 x)
2
n
n 1
formülleri ile hesaplanabilir. Sonuncu formülün kullanılması daha kolaydır. Birçok hesap
makinasında ortalama ve standart sapma için fonksiyon tuşları vardır. Tuşlar genellikle
ortalama ve standart sapma için sırasıyla x ,  n1 şeklinde gösterilmektedir.
8
Verilen zeka testi puanlarını ele alarak standart sapmalarını bulalım. Söz konusu
puanları;
70, 85, 90, 100, 110, 115, 130
Bu puanların toplamı
x
i
 700 , kareleri toplamı ise,
x
2
i
 72450 gibi bulunur. Bu
sonuçları standart sapma formülünde yerine koyalım.
S2

(
x i2 
x )
2
i
n

n 1
(700) 2
7
 20.21
6
7240 
olarak bulunur. Zeka testi puanlarının ortalaması 100 puan olarak bulunmuştu. O halde
ortalama ve standart sapma x  s  100  20. 21 şeklinde gösterilebilir. Bu durum, bireylerin
% 68.26' nın bu sınırlarda puana sahip olduğu, %95.44' nün x  2 s  100  2( 20. 21) ,
%99.73'nün ise x  3s  100  3( 20. 21) aralığında, geri kalan çok az miktarın ise x  4 s
sınırları içinde yer aldığı söylenebilir.
Standart Hata
Popülasyonun standart sapması  nadiren bilinir. Bu nedenle, bunun yerine örnek
standart sapması kullanarak S , standart hatayı,
Sx 
S
n
formülünden tahmin ederiz.
Varyasyon Katsayısı
Varyasyon katsayısı büyük bir kolaylık sağlar. Bu katsayı, dağılışın ortalamasının
yüzdesi gibi ifade edilebilen dağılışın standart sapmasıdır. Varyasyon katsayısı,
9
VK 
S
x
x100
şeklinde ifade edilir.
POPÜLASYON DAĞILIŞLARI (28.01.2013 Y.ÇELİK)
Popülasyon dağılışları istatistiğin en önemli konularından biridir. Bir zaman
aralığında incelenen olayların sözü edilecek bir dağılış düzeninde dağıldığı görülür.
Dağılışlar, olayların birbiriyle ne kadar ilişkili olduğu ve aralarında ardışık olarak bir
sıralanışın olduğunu açıkça gösterir. Bu durum, ilginç bir gözlemi ortaya koyar. İstatistik bu
dağılımlardan yararlanarak nasıl testler geliştirdiğini inceleyeceğiz.
BİNOM DAĞILIŞI
Binomial bir deney aşağıdaki özelllikleri gösterir:
1. Deney n adet benzer denemeden oluşur.
2. Her bir deneme iki sonuçtan birisiyle sonuçlanır. Bunlardan birisi başarı diğeri
başarısızlık olarak adlandırılır.
3. Başarının olasılığı p ile gösterilir ve bu değer denemeden denemeye sabit kalır.
4. Denemeler birbirinden bağımsızdır ve bir denemenin sonucu diğer hiç bir
denemenin sonucunu etkilemez.
5. Rastgele x değişkeni n denemede başarının sayısı olarak kabul edilir.
Binom dağılışı için basit olarak kullanılan formül şu şekildedir. n denemede istenen
olay sayısı x, ve istenen olayların herbirinin olma olasılığı p ise ve olaylar birbirinden
bağımsız olarak meydana geliyorsa;
n
b (n , x , p )  (x )p x q n  x

n!
p x q n  x
x ! ( n  x )!
10
olarak gösterilebilir . Yukardaki formülde ! sembolü faktöriyeldir . n! n faktöriyel olarak
ifade edilir ve 1.2.3., ..., (n-1).(n) çarpımlarına eşittir . Örneğin 4! = 1.2.3.4.= 24 olarak
hesaplanır . 0! ise 1’e eşittir .
Binom dağılışının parametreleri ise;
Ortalama  np
S tan dartSapma  npq
olarak bilinmektedir.
Binom dağılışını sayısal bir örnek vererek açıklamaya çalışalım.
Örnek:
Volenter
olarak
ilaç
uygulamalarına
katılan
gençlerin
%
40’
ı
programı
tamamlayabilmektedir. Rastgele olarak 6 birey seçildiğinde, bunların yarısından fazlasının
programı tamamlaması olasılığı nedir?
Çözüm :
Altı bireyin yarısından fazlası istendiğinden: p=1-0.40=0.60
P(x>3) olasılığı ise;
P(x>3)=P(x≥4)=P(X=4)+ P(X=5)+ P(X=6)
6
6
6
=  (0.6) 4 (0.4) 2   (0.6)5 (0.4)1   (0.6) 6 (0.4) 0
 4
5 
6
0.311+0.187+0.047+0.545
olur.
11
POİSSON DAĞILIŞI
Poisson dağılışının olasılık yoğunluk fonksiyonu;
e  x
P( x ) 
x!
P(x ) 
e   x
x!
veya
  
alındığında
olarak gösterilebilir.
Yukardaki formül kullanılarak 0,1,2,3,4 gibi ender olayların olasılığı sırasıyla ;
e   , e   ,
e   2 e   3 e   4
,
,
,...
2!
3!
4!
şeklinde bulunabilir. Burada e = 2.718 doğal logaritma değeridir.
Örnek Yapılan bir araştırmaya göre, 30-44 yaş erkek popülasyonunda kalp hastalığı
bulunma olasılığının binde 0.5 olarak bulunmuştur. Babası kalp hastalığından ölen yani kalp
hastalığı riski taşıyan popülasyondan 1000 kişi seçerek bunlarda ki kalp hastalık oranını ise
binde üç olarak hesaplanmıştır. Risk taşıyan popülasyondan rastgele üç veya daha fazla
kişinin ölmesi olasılığını bulalım.
Öncelikle 30-44 yaş grubundaki popülasyonda ölüm oranının p=0.0005 olduğunu ve
1000 hastanın seçilmesinden dolayı n=1000 olacağını hatırlayalım. Bu durumda Poisson
dağılışının ortalaması;
  n.p  1000 x 0.0005  0.50 olur.
  0.50 alındığında e  değeri 0.607 olarak hesaplanır. Bu değeri kullanarak sıfır , bir ve iki
hastaya ait olasılıkları sırasıyla şu şekilde bulabiliriz .
p(0)  e   0.607
p(1)  e    (0.607)(0.50)  0.304
p(2) 
e  2 (0.607)(0.25)

 0.076
2!
2
12
olur . Bu üç olasılığın toplamı p(0)+p(1)+p(2) = 0.987 olur . Bütün olasılık 1’e eşit olması
gerektiği hatırlanırsa, seçilen 1000 kişide üç veya daha çok hastanın olma olasılığı ;
P(x  3)  1  P(0)  P(1)  P(2) olur .
= 1-0.987=0.013 bulunur. Bu olasılık küçük bir olasılıktır.
NORMAL ( GAUSSIAN ) DAĞILIŞ
Normal Dağılış süreklidir ve ortalamaya göre simetrik bir dağılıştır. Ortalaması
( mu) ve Standart Sapması  (sigma) ile gösterilir. Herbir  ve  ‘ nın alacağı değere göre
değişik normal dağılışlar elde edilir. Normal dağılışın olasılık dağılışı olması nedeniyle eğri
altındaki alan bire eşittir.
Normal dağılışın olasılık yoğunluk fonksiyonu ;
 )2
 1 ( x
1
2
f (x) 
e
 2
   x  
için
Olasılık yoğunluk fonksiyonunda  değeri 3.141, e ise 2.718 olduğu hatırlanmalıdır.
x ise rastlantı değişkeni olarak - ile + arasında yer almaktadır. Dağılış simetrik bir dağılış
olması nedeniyle, alanın yarısı ortalamanın sağında diğer yarısı ise ortalamanın solunda yer
alır.
Normal Dağılışın Özellikleri :
1. Normal dağılış sürekli değişkenlerin bir dağılışıdır .
2. Ortalama  ,  standart sapması ve N denek sayısı ile belirtilir .
3. Ortalama ve standart sapma birbirine bağlı değildir. Bunlar örnek hacmi ile ilgilidir .
4. Normal dağılış eğrisi,  ortalamaya göre simetriktir. Dağılışın sol yarısı ( 0.50 ), sağ
yarısına eşittir.
5. Normal dağılış eğrisi , - da başlayarak +‘a doğru dağılış gösterir . Bireylerin %68.26’sı
1S sınırları içinde, % 95.44’ü  2S sınırları içinde, % 99.74’ü 3S sınırları içinde yer alır. Geri
13
kalan pek önemsiz bir miktarı ise 4S sınırları dışında yer aldığı için bu nedenle bu sınırlar
içerisinde de % 100 yer alır denilmektedir.
STANDART NORMAL DAĞILIŞ
Ortalaması 0, standart sapması 1 olan teorik normal dağılışa standart normal dağılış
adı verilir. Standart normal dağılışa z dağılışı da denir.
Standart normal dağılışta, aritmetik ortalama ile herhangi bir z değeri arasındaki olasılık
değerleri z tablosunda toplanmıştır.
Yetişkin kız bireylerde standardize edilmiş IQ testi skorlarının ortalaması 100, standart
sapması 13 olduğu bilindiğine göre, 110 ile 130 arasında skora sahip kızların olasılığını
bulalım
Kızların IQ testi dağılışında 110 ve 130 skor arasında kalan alan
Çözüm olarak değişken z’ye dönüştürülmeden önce istenen olasılığın P(110<x<130)
olduğunu hatırlamamız gerekir. Daha önce ifade edildiği gibi, x değişkeninin z’ye
dönüştürlmesi gerekir.
x=110 değerini z’ye dönüştürelim,
z
x   110  100

 0.77

13
x=130 değeri ise;
z
x   130  100

 2.31

13
olarak bulunur. Bu durumda istenen olasılık P(0.77<z<2.31) şeklinde belirtilebilir. Bu
olasılık, z değerlerini veren Tablo B kullanılarak;
P(0.77<z<2.31) = P(0<z<2.31)-P(0<z<0.77)
= 0.4896-0.2794
= 0.2102 olur.
= 0.8444 olur.
14
Download