Regresyon Analizi - Biyoistatistik ve Tıbbi Bilişim Anabilim Dalı

advertisement
BİYOİSTATİSTİK
Regresyon Analizi
Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH
Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD.
Web: www.biyoistatistik.med.ege.edu.tr
1
• Regresyon analizi, bir bağımlı değişken (Y) ile bir ya da daha
çok bağımsız (X1, X2, X3,....) değişken arasındaki ilişkiyi
yansıtan modeli (eşitliği) bulmaya yarayan bir yöntemdir.
• İki (ya da daha çok) değişken arasındaki ilişkiyi gösteren
denklem, değişkenler arasındaki ilişkinin fonksiyonel şeklini
gösterirken, değişkenlerden birinin değeri bilindiğinde
diğeri hakkında tahmin yapılmasını sağlamaktadır.
2
• Bağımlı değişken ile bağımsız değişken/ler
arasındaki ilişkinin doğrusal olduğu durumlarda,
yöntem, Doğrusal Regresyon Analizi adını alır.
• Eğer bir Y değişkeni ile bir X değişkeni arasında doğrusal
model aranıyor ise
Y= β0 + β1X + e
eşitliğindeki β0 ve β1 parametre değerlerini tahmin etmek ve
elde edilen modelin geçerliliğini test etmek amacıyla yapılan
analiz Basit Doğrusal Regresyon Analizi olur.
4
Y= β0 + β1X + e
• Burada;
X: Bağımsız (Açıklayıcı) Değişken
Y: Bağımlı (Açıklanan; Etkilenen; Cevap) Değişken
0: X=0 olduğunda bağımlı değişkenin alacağı değer (kesim
noktası)
1: Regresyon Katsayısı, Bağımsız değişkendeki bir birimlik
değişimin, bağımlı değişkendeki yaratacağı ortalama değişimi
göstermektedir.
e : Hata terimi (Ortalaması=0 ve Varyansı=2’dir)
Kitle için;
Y= β0 + β1X +e
Örneklem için;
ŷi  b 0  b1x i  ei
i = 1 ,…, n
Hata terimi (e), her bir gözlem çiftindeki bağımlı
değişkene ilişkin gerçek değer ile modelden tahmin
edilen değer arasındaki farktır.
6
• Bağımsız X değişkeni ile bağımlı Y değişkeni arasında
güçlü bir ilişki bulunursa, bu tahmin edilen model
kullanılarak herhangi bir X değeri için Y’nin alabileceği
değer tahmin edilebilir.
7
• Regresyon modeli oluştururken, gerçek gözlem
değeri ile tahmin değeri arasında fark olmaması
yada farkın minimum olması amaçlanmaktadır. Bu
amaçla kullanılan tahmin yöntemlerinden biri “En
Küçük Kareler” kriteridir.
n

i 1
n
ei2 
i
  y  yˆ 
2
i
i 1
i
Bu farkın en
küçük olması
amaçlanır
• Varsayımları:
– Bağımsız değişkenin her bir değeri (xi) için, yi değişkeni
normal dağılıma uyar.
– Bu normal dağılımlar, her bir xi değeri için, sabit bir 2
varyansına sahiptir.
– Bu iki değişken arasında doğrusal bir ilişki vardır.
– Gözlemler birbirlerinden bağımsız olarak elde edilirler.
– Basit Doğrusal Regresyon Analizinde gözlemler (xi,yi) çiftleri
şeklinde alınır.
9
Örnek
Süreye bağlı olarak, Ca salınımının
incelendiği çalışmada yandaki veriler
elde edilmiş.
X bağımsız değişkeni: Süre (saat)
Y bağımlı değişkeni: Ca salınım miktarı (mg/dl)
Öncelikle serpme (scatter) grafiği ile X ve Y arasında
doğrusal ilişkinin varlığını incelemek gerekir.
10
11
Şekilden doğrusal ilişkinin varlığı belirlendikten sonra, En Küçük Kareler
Yöntemine göre Y= β0 + β1X + e modelindeki β0 için b0 ve β1 için b1 tahminleri
elde edilir.
12
n
En küçük kareler yöntemi
dayanır.
2
e
 i ’ lerin minimize edilmesine
i 1
( x)( y)
 xy  n
b1 
2
(
x)

2
x  n
b0  y  b1x
b1: doğrunun eğimidir.
Aynı zamanda x’deki 1
birim değişimin y’de
oluşturduğu değişimin
büyüklüğünü verir.
b0: doğrunun y eksenini kestiği noktadır ve x=0’da y’nin
aldığı değeri gösterir.
13
• Doğru denklemi oluşturulduktan sonra;
1.
Doğrunun noktalara uyumunun önem kontrolü
2.
β0 için önem kontrolü
3.
β1 (doğrunun eğimi) için önem kontrolü
• Tahmin edilen regresyon doğrusunun önem kontrolü varyans
analizi (ANOVA) tablosuna benzer bir tablo oluşturularak test
edilir.
14
1. Doğrunun noktalara uyumunun önem kontrolü
1. Hipotez:
H0: Noktaların doğruya uyumu önemsizdir.
H1: Noktaların doğruya uyumu önemlidir.
15
2. Test İstatistiği
16
3. Tablo Değeri:
17
4. Kontrol
Elde
edilen
denklemin X ile Y
arasındaki doğrusal
ilişkiyi açıklamakta
Fh>Ftablo ise Ho hipotezi reddedilir.
önemli
olduğuna
karar verilir.
RKT
R 
GKT
2
Belirtme katsayısının 1’e yakın olması
model uyumunun iyi olduğunu gösterir.
18
2. β0 için önem kontrolü
H 0: β 0 = 0
H1: β0 ≠ 0
19
3. β1 için önem kontrolü
H 0: β 1 = 0
H1: β1 ≠ 0
20
Soru
Bir diş kliniğinde çalışan 15 diş hekimine ait yaş ve maaş
bilgileri verilmiştir.
a)Varyans analizi tablosu ile modelin önem kontrolünü
yapınız. (α=0,05)
b)Basit doğrusal regresyon modelini elde ediniz
katsayıların önem kontrolünü yapınız. (α=0,05)
ve
c)Belirtme katsayısını hesaplayıp yorumlayınız.
d)Yaşın 42 ve 43 olduğu durumlarda maaş tahminlerini
hesaplayınız.
21
YAŞ
45
55
60
36
42
39
63
41
49
68
36
67
41
56
55
MAAŞ
133
155
155
118
140
120
140
125
144
160
140
152
145
146
150
22
160
150
Maaş
140
y = 0,877x + 97,505
R² = 0,581
130
120
110
100
90
0
10
20
30
40
Yaş
50
60
70
Bağımlı değişken
Yaş
Maaş
24
Bağımlı değişken
Maaş
Bağımsız değişken
Yaş
25
H0: Noktaların doğruya uyumu önemsizdir.
H1: Noktaların doğruya uyumu önemlidir.
108094
753
2123
39533
302769
50,2
141,53
a)Varyans analizi tablosu ile modelin önem kontrolünü
yapınız. (α=0,05)
a)Varyans Analizi Tablosu
RKT  b1[ xi yi
GKT   yi2 
x y


]  (0,87)(1531,7)  1332,5
i
i
n
( yi ) 2
n
 2293,73
HKT  GKT  RKT  2293,73  1332,58  961,145
Ftablo(0,05;1,13) =4,66
H0 RED
• Ho red edildiğinden, noktaların doğruya
uyumu önemlidir.
• Başka bir ifade ile elde edilen denklemin X
ile Y arasındaki doğrusal ilişkiyi açıklamada
önemli olduğuna karar verilir.
b)
b) Basit doğrusal regresyon modelini elde ediniz ve
katsayıların önem kontrolünü yapınız. (α=0,05)
b1 
x y
i
i
x y


i
n
2
(
x
)

i
2
 xi  n
i
1531,7

 0,87
1760,57
b0  y  b1 x  141,53  (0,87)50,2  97,50
y=97,5+0,87x
Sb1 
HKO
73,93

 0,20
2
( xi )
1760,57
2
 xi  n
b1
0,87
t hesap 

 4,35
Sb1 0,20
t( 0,05/ 2;13)  2,16
t(0,025;13)  2,16
thesap  4,35
Ho RED
b1 katsayısı anlamlıdır.
31
1
Sb0  HKO

n
x2
 10,6
2
( xi )
2
 xi  n
b0
97,5
t hesap 

 9,19
Sb0
10,6
t( 0,05/ 2;13)  2,16
t(0,025;13)  2,16
thesap  9,19
Ho RED
b0 katsayısı anlamlıdır.
33
y=97,5+0,87x
Yorum: Yaş değişkeninde meydana gelen bir
birimlik artış maaşı ortalama 0,87 birim
yükseltir.
c)Belirtme katsayısını hesaplayıp, yorumlayınız.
RKT
1332,58
R 

 0,58
GKT
2293,73
2
Yorum: Maaş değişkenindeki varyasyonun
%58’i yaş değişkeni tarafından açıklanır.
YAŞ
MAAŞ
45
133
55
155
60
155
36
118
42
140
39
120
63
140
41
125
49
144
X=42 y=97,5+0,87x=97,5+(0,87)(42)
68
160
y=134,04 (uyum kestirimi)
36
140
67
152
41
145
X=43 y=97,5+0,87x=97,5+(0,87)(43)
56
146
y=134,91 (ön kestirim)
55
150
d) Yaşın 42 ve
durumlarda maaş
hesaplayınız.
43 olduğu
tahminlerini
y=97,5+0,87x
36
Arasınavda;
Hesap makinesi
Formül kağıdı
Öğrenci kimliği
Unutulmamalı!
38
Download