Ekonometri II 14.02.2009 J.M. Wooldridge Introductory Econometrics

advertisement
Ekonometri II
14.02.2009
• Section 9.2 de “ihmal edilmiş değişkenin yol
açtığı sapmayı (omitted variable bias) azaltıcı
yöntemleri (temsili değişkenlerin-proxykullanılması )göreceğiz.
• Ölçme hataları (measurement error) da belli
bir sapmaya yol açmaktadır. Bu konuyu
Section 9.3 de ele alacağız.
• CH 9 da sadece OLS tahminlerini ele
almaktayız.
• Oysa, u’larla x’lerin ilişkili olmasının yarattığı
bazı sorunlar OLS ile çözülemez.
• Bu konuları CH.13 de inceleyeceğiz.
Yıldız Teknik Üniversitesi
İktisat Bölümü
Ekonometri II Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. ed., 2002, Thomson Learning.
Ch. 9:
Model Spesifikasyonu ve Veri Sorunları
4
Ch 9 : Model spesifikasyonu ve veri
sorunları
Fonksiyon Kalıbının Yanlış Kurulması
• CH 8 ‘de Gauss-Markov varsayımlarından
birisinin (homoscedasticity) ihlalini ele aldık.
• Hata terimleri varyansının değişken olması bir
“model misspecification” olarak ele alınabilir,
ancak heteroscedasticity, görece olarak çok
büyük olmayan bir spesifikasyon hatasıdır.
• Heteroscedasticity, sapma ve tutarsızlığa yol
açmadığı için ciddi sorun oluşturmuyordu.
Robust se’ler kullanarak ya da WLS tahmini
yaparak geçerli t ve F testleri yapabiliyoruz.
• Bir regresyonda y ile x’lerin ilişkisi doğru formüle
edilmediği taktirde fonksiyonel biçim hatası
(functional form misspecification) ortaya çıkar.
• Örneğin, log-log model yerine level-level model
kullanılması, ya da olması gereken bir karesel
terimin dışlanması fonksiyonel biçim hatasına,
bu ise, betaların sapmalı ve tutarsız olmasına
yol açacaktır.
• Örneğin, ilave bir yıl eğitimin ücrete katkısı
cinsiyete göre değişiyorsa ücret regresyonunda
female*educ karşılıklı etkileşim (interaction)
terimini kullanmak zorundayız.
5
• Regresyona eklemek istediğimiz yeni değişken
gruplarının (karesel terimler vb) gerekli olup
olmadığına F testi (ortak anlamlılık – joint
significance-testi) yaparak karar verebiliriz.
• Böylece, regresyonumuzun fonksiyonel biçimini
daha az hatasız hale getirebiliriz.
• Pek çok ekonomik seride log kullanılması düzey
(level) değişken kullanılmasına göre daha iyi
sonuç vermektedir. Log kullanarak biçim
hatalarını azaltabiliriz.
• Yine, karesel terim eklemek de doğrusalolmayan (nonlinear) ilişkilerin yakalanmasında
önemli bir çözüm oluşturmaktadır.
• Bu Bölüm’de daha ciddi bir soruna, “u’larla
x’lerden birinin ya da bazılarının ilişkili
olması” durumunu ele alacağız.
• u’larla ilişki olan bir x içsel (endogenous) bir
bağımsız değişkendir (bkz. Ch.3).
• Yine CH.3 ve 5 de, regresyonda önemli bir
değişkenin ihmal edilmiş (dışarıda bırakılmış)
olmasının, tüm parametrelerin sapmalı ve
tutarsız olmasına yol açabildiğini görmüştük.
• İhmal edilen değişken eğer x’lerden birinin bir
fonksiyonu ise, modelimiz, fonksiyonel biçim
spesifikasyon hatası (functional form
misspecification) içerecektir.
3
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
6
1
Ekonometri II
14.02.2009
Fonksiyonel biçim hatası ile ilgili genel bir test:
RESET TESTİ
• Regresyonda genel fonksiyonel biçim hatası
(misspecification) olup olmadığını teşhise yönelik bir
çok test mevcuttur.
• Ancak, bunlardan en çok kullanılanı
Ramsey(1969)’in regression specification error
test (RESET) ‘idir.
• Orijinal regresyonumuz :
7
• MLR.3 (doğrusallık) varsayımımız sağlanmış olsun.
10
• (9.2) de eğer doğrusl-olmayan ilişkiler ihmal edilmişse
bu regresyonda x’lerin karesi, küpü, 4.cü kuvveti vs.
kullanılarak bu ilişkiler yakalanabilir.
• Genellikle kare ve küp yeterli olmaktadır.
• White testinde olduğu gibi, (9.2) ye x’lerin kare ve
küplerini eklemek serbestlik derecesi kaybına yol
açacaktır. Bunun yerine, (9.2) den elde edeceğimiz
yhat’lerin kare ve küpünü tekrar aynı regresyonda
açıklayıcı değişken olarak kullanıp F testiyle
katsayılarının anlamlı olup olmadığına bakabiliriz :
8
• 2.ci sütundaki regresyonda kareli terimler
eklendi.Tümü hem tek tek anlamlı (t testi) hem
de ortak olarak anlamlı (F testi). Dolayısıyla,
modelimiz daha iyi bir hal aldı.
• “Kareli terimlerin tümü birden anlamlı mıdır?”
sorusunun yanıtını F testi yaparak verelim : cal
F=31.37, df (3 ve 2713). Tab F =2.605< Cal F,
Ho red.
• Kareli terimler eklenince parametrelerin
yorumları da bunları dikkate alarak yapılmalı.
• d(narr86)/d(pcnv |cet.paribus)=0.5330.73(2)pcnv pcnv=0.365 dönüm
noktası.narr86 ile pcnv ilişkisi bu noktaya kadar
pozitif, bu noktadan sonra negatif hale geliyor.
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
11
• RESET testinde Ho hipotezinde (9.2) nin
spesifikasyonun doğru olarak yapıldığı vardır. Yani,
• Büyük örneklerde ve Gauss-Markov varsayımları
geçerli iken,Ho doğru ise “F istaistiği~ F(2, n-k-3)”
dağılacaktır. (9.3) deki genişletilmiş regresyonda
serbestlik derecesi n-k-2-1= n-k-3 olmaktadır.
• RESET testi LM ile de yapılabilir. Ki kare dağılımının
serbestlik derecesi 2 olacaktır.
• Test, heteroscedasticity’den etkilenmeyecek (robust)
şekilde de (Section 8.2) yapılabilir.
9
12
2
Ekonometri II
14.02.2009
• (9.6) ve (9.7) deki iki alternatif modeli de içine alan
genel model şudur :
13
• RESET testinin bir yetersizliği, Ho’ın reddi
halinde ne yapacağımız konusunda bize hiçbir
şey söylememesidir.
• Bazıları RESET testinin ihmal edilmiş değişken
ve heteroscedasticity’den ileri gelen biçim
hatalarını (misspecification) da yakaladığı,
dolayısıyla çok genel bir misspecification testi
olduğunu iddia ederler.
• Bu doğru değildir. İhmal edilmiş değişkenin y ile
ilişkisi doğrusal ise RESET testi bunu
yakalayamaz. Yine, fonksiyonel biçim doğru
yapılmışsa RESET testi heteroscedasticity’yi
belirlemede de başarısızdır.
• RESET testi sadece bir fonksiyonel biçim
testidir, genel bir misspecfication testi değildir. 14
İçiçe geçmemiş-yuvalanmamış (unnested)
almaşıklara karşı test
• İki içiçe geçmemiş (nonnested) modelden hangisini tercih
edeceğiz ?
• Burada standart F testi yapamayız, modellerden biri ötekisinin
özel bir hali değil.
• Bu durumda iki yaklaşım önerilmektedir : (1) Mizon-Richard
(1986) yöntemi: Her iki modeli de özel hal olarak içine alan
genel kapsamlı (comprehensive) bir model kurabilir ve sonra bu
model üzerinde F testi ile iki almaşık modeli test edebiliriz. 15
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
• (2) Diğer yaklaşım, Davidson-MacKinnon (1981)
testidir. Bu yaklaşıma göre, eğer (9.6) doğru model
ise, (9.7) den elde edilen yhat (9.6) da bağımsız
değişken olarak kullanıldığında katsayısının anlamsız
çıkması (t testi) gerekir. Anlamlı çıkarsa (9.6) doğru
fonksiyonel biçim değildir. Aynı şekilde (9.7) yi de test
16
edebiliriz.
• (9.7) yi OLS ile tahmin edelim ve buradan elde
ettiğimiz tahmini y değerlerine (fitted values)
diyelim.
• Bu yhat’i (9.6) da bağımsız değişken olarak koyup
yeniden tahmin edeceğiz :
• Ө1’ in t istatistiği anlamlı ise (9.6) yanlış demektir, vice
versa.
17
• Bu nonnested testlerle ilgili çeşitli sorunlar
mevcuttur :
• i) test, alternatiflerden hangisinin doğru
olduğuna her zaman karar veremeyebilir.İki
model de yanlış ya da doğru biçime sahip
olarak gözükebilir.
• ii) Alternatiflerden birinin reddi diğer alternatifin
doğru olduğu anlamına gelmez. Doğru model
çok farklı bir şey olabilir.
• iii) Almaşık modellerde bağımlı değişken aynı
değilse ciddi sorun ortaya çıkacaktır. Örneğin,
modelin birinde y diğerinde log y varsa ne
olacak? CH 6 da bu durumda R2’leri nasıl
karşılaştıracağımızı görmüştük. Bu konuda
geliştirilen karmaşık testlere burada
18
girmeyeceğiz.
3
Ekonometri II
14.02.2009
Gözlenemeyen (unobserved) açıklayıcı
değişkenler yerine temsili (proxy) değişken
kullanılması
• Ölçülemeyen, veri bulunamayan önemli bir değişken
varsa ne yapacağız?
• Örneğin, ücret denkleminde kişinin doğuştan gelen
kabiliyetinin (ability) büyük bir açıklama gücüne sahip
olduğunu biliyoruz, ama bunu ölçemediğimiz için
regresyonda kullanamıyoruz.
• Abil’in regresyonda yer almaması etkisinin u ile
birleşmesi anlamına gelir.
• Eğer educ ve abil ilişkili ise, educ ile u da ilişkili olacak
19
bu ise β1 (ve β2) nin sapmalı olmasına yol açacaktır.
• (9.9) da, abil yer alamayacağı için, ihmal edilmiş
değişken sapması (omitted variable bias) söz
konusu olacaktır.
• Bu sapmanın hafifletilmesine yönelik bir çare
gözlenemeyen değişken yerine herhangi bir
temsili (proxy) değişken kullanmaktır.
• Temsili değişkenin gözlenemeyen değişkenle
ilişkili (correlated) olması gerekir.
• Örneğin, bu örnekte ability yerine kişilerin IQ test
sonuçlarını kullanmak akla gelebilir.
• İki değişkenin aynı şeyi ifade etmesi
gerekmemekte, sadece ilişkili (correlated)
olmaları yeterli olmaktadır.
20
• y=log(wage), x1=educ, x2=exper, x3*=abil, x3=proxy
(abil için).Regresyonumuz :
• Temsili değişkenin ölçülemeyen değişkenle ilişkisi
şöyle olsun:
• Hata terimi v3, x3* ile x3’ ün tam (yüzde yüz) ilişkili
olmamalarından doğan hata terimleridir.
• X3* ile x3 aynı yönde ilişkili oldukları için (aksi halde
x3 proxy olamaz) δ3 >0 olacaktır.
21
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
• Soru, (9.10) da x3* yerine onunla ilişkili x3
‘ü kullanarak β1 ve β2 katsayılarını
sapmasız (ya da en azından tutarlı) olarak
tahmin edip edemeyeceğimizdir.
• Bir yöntem, (9.10) da x3* yerine doğrudan
x3 (proxy) ‘ü koyarak tahmin yapmaktır.
• Buna, ihmal edilmiş değişken sorununun
“yerine koyma (ikame)” yöntemiyle
çözümü (plug-in solution to the omitted
variables problem) denir.
• Bu yöntemin tutarlı β1 ve β2 verebilmesi
için u ve v3 artıklarıyla ilgili bazı
varsayımlar yapmamız gerekir.
22
• (9.10) da, standart varsayım gereği,u; x1, x2 ve x3*
ile ilişkisiz olmalıdır.
• Buna ek olarak u, proxy x3 ile de ilişkisiz olmalıdır.
• Bu şu demektir : populasyon modelinde x1, x2 ve
x3* yer alıyor iken x3’ün yer alması artık gereksizdir
(irrelevant).
• Bu varsayımı şöyle de ifade edebiliriz : u’nun x1, x2
ve x3* ‘e koşullu beklenen değeri sıfırdır.
• v3 ile ilgili varsayım ise şudur : v3; x1, x2 ve x3 ile
ilişkisizdir.
• v3’ün x1 ve x2 ile ilişkisiz olması, proxy x3’ün iyi bir
temsili değişken olduğu (x3*’ı iyi temsil ettiği)
anlamına gelir.
23
• Bunu koşullu beklenen değerle şöyle ifade edebiliriz :
• İlk eşitlik şunu söylüyor : x3 kontrol ediliyor iken (etkisi
dikkate alınıyor iken) x3*’ın beklenen değeri, x1 ve x2
‘ye bağlı değildir. Başka bir ifadeyle, x3’ün etkisi
arındırıldığında, x3*, artık x1 ve x2 ile sıfır korelasyona
sahiptir.
• Ücret örneğinde (9.13) koşulu şu hali alacaktır :
• Yani, ability’nin ortalaması, educ ve exper ile
değişmemekte, sadece IQ ile değişmektedir.
24
4
Ekonometri II
14.02.2009
• (9.11) i (9.10) da yerine koyup gerekli düzenlemeleri
yaparsak şu regresyonu elde ederiz :
• Yeni denklemin hata terimi (e ile gösterelim) iki hata
terimin bir bileşkesidir : e = u + β3.v3
• u ve v3 ‘ün her ikisi de sıfır ortalamaya sahip ve x1, x2
ve x3 ile ilişkisiz olduğundan, e de sıfır ortalamaya
sahip olacak ve x1, x2 ve x3 ile ilişkisiz olacaktır.
• Denklemi şöyle yazalım :
25
26
• IQ değişkeninin katsayısı anlamlı çıkmıştır.
• IQ de 10 puanlık bir artış ücrette %3.6
artış sağlıyor.
• IQ dağılımının ABD için standart sapması
15 olduğuna göre, IQ de 1 st.sapmalık
artış ücrette %5.4 ‘lük artış sağlıyor. Bu, 1
yıllık ilave eğitimin katkısına eşittir.
• IQ’ nün eklenmesi siyah-beyaz ücret
farkını biraz azalttı, ancak fark hala çok
büyük. Aynı IQ’ye, eğitime vs sahip bir
siyahla beyazın ücret farkı %14.3 siyahın
29
aleyhinedir.
27
• “Ability’si yüksek olan kişilerde educ’un ücrete
katkısı daha yüksek olabilir” diye düşünerek
educ*IQ karşılıklı etkileşim (interaction) terimini
ekledik (Sütun 3). Ancak anlamsız çıktı.
• Ability ‘ ye temsili değişken olarak IQ yerine
(veya onunla birlikte) KWW (Knowledge of the
World of Work) test sonuçları da kullanılabilir
(bkz. Exercise 9.7).
• Yukarıdaki varsayımlar sağlanmazsa proxy
değişken kulanılması da sapmaya yol
açacaktır.Örneğin, x3*’ın sadece x3 ile değil
[(9.11) deki gibi] x1 ve x2 ile de ilişkili olduğunu
varsayalım. Bu durumda x1 ve x2’ nin katsayıları
sapmalı olacaktır.
30
• Proxy (x3) değişkeni kullanarak yaptığımız
tahminde
katsayılarının
sapmasız (en azından tutarlı) tahminlerini yapmış
olacağız.
• Ücret denkleminde α3, kişinin IQ puanında 1
puanlık bir artışın ücrette yaratacağı % artışı
verecektir.
• Ayrıca, ability ‘yi temsilen IQ değişkeninin
denkleme girmasi, educ ve exper değişkenlerinin
gerçek katkılarının saptanmasını sağlayacaktır.
IQ olmadığında muhtemelen bu değişkenlerin
katkıları abartılarak ölçülmektedir.
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
28
5
Ekonometri II
14.02.2009
Bağımlı değişkenin hatalı ölçülmesi
durumu
• y* : Açıklamak istediğimiz (kitleye ait) değişken,
örneğin ailelerin yıllık tasarrufları.
• y : y*’ın gözlenen ölçümü olsun.
• Regresyonumuz Gauss-Markov koşullarını
sağlasın:
• En azından bazı ailelerin yıllık tasarruflarını doğru
bildirmeme olasılığı çok yüksektir. Bu durumda
ölçme hatası (measurement error):
31
•
34
• Bağımlı değişken y* yerine log(y*) ise, ölçme
hatası çarpım şeklinde olacaktır :
(9.18) den “y*=y – e(o)” ‘i regresyonda yerine koyarsak :
• Yeni regresyonun hata terimi u + e (o) ‘dır.
• Peki, y* yerine onun hatalı ölçümünü (y) kullandığımız (9.19)
dan OLS ile bulacağımız betalar tutarlı olacak mıdır?
• (9.17) Gauss-Markov varsayımlarını sağlıyordu. Dolayısıyla, u
sıfır ortalamaya sahiptir ve her bir x’le ilişkisizdir. Hatanın iki
yönlü yapıldığını düşünerek, ölçme hatalarının ,e(o), da sıfır
ortalamaya sahip olduğunu varsayabiliriz. Eğer değilse, bu,
sabit terim β(o)’ın sapmalı olmasına yol açar ki bu da önemli
değildir.
• Asıl önemli olan, ölçme hatası, e(o), ile x’lerin ilişkili olup
olmadığıdır.
• Bağımlı değişkendeki ölçme hataları tamamen
rasgele (random) ise, sistematik değilse ve x’lerle
ilişkisiz ise OLS tahmin edicilerinde sorun
çıkarmaz.
• Ancak, sistematik ise ve bazı x’lerle ilişkili ise
sapmaya yol açar.
32
• Genellikle yapılan varsayım, “ölçme hatalarının
istatistiksel olarak x’lerle ilişkisiz olduğu” şeklindedir.
• Eğer bu varsayım doğru ise, (9.19) dan OLS ile
bulacağımız tahminler sapmasız ve tutarlıdırlar.
Ayrıca, t, F, LM istatistikleri geçerlidir.
• Eğer e(o) ile u ilişkisiz ise (ki, genellikle öyle
varsayılır):
• Yani, bağımlı değişkende ölçme hatası varsa hata
terimlerinin varyansı daha yüksek çıkacaktr. Bu ise,
OLS tahmin edicilerinin daha yüksek varyansa sahip
olmaları demektir.
• Sonuç olarak, bağımlı değişkendeki ölçme hataları
x’lerle ilişkisiz ise OLS tahmin edicileri iyi özelliklere
33
sahip olacaktır.
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
35
Açıklayıcı değişkenlerde (x’lerde)
ölçme hataları
• Genellikle x’lerdeki ölçme hataları y’deki ölçme
hatasından daha ciddi sorunlara yol açar.
• Basit regresyonda konuyu ele alalım :
• Bu regresyon Gauss-Markov varsayımlarının en
azından ilk 4’ünü sağlasın. Yani, β(o) ve β1’in OLS
tahminleri sapmasız ve tutarlı olacaktır.
• X1* (gelir) hatalı ölçülsün ve ölçülen geliri x1 ile
gösterelim. Kitledeki ölçme hatası :
36
6
Ekonometri II
14.02.2009
• Ölçme hatası, e1, pozitif, negatif ya da 0 olabilir.
Ölçme hatasının kitledeki ortalamasının sıfır olduğunu
varsayacağız : E(e1) = 0.
• Diğer bir varsayım, u’nun x1* ve x1 ile ilişkisiz
olduğudur. Bunu koşullu beklenen değerle şöyle ifade
edebiliriz :
• Yani, x1*’ın y üzerindeki etkisi dikkate alındığında,
x1’in artık y üzerinde bir etkisi yoktur. Bu gerçekçi bir
varsayımdır.
• (9.21)i, gerçek x1* yerine onun hatalı ölçümü x1 ile
tahmin ettiğimizde ne olur? Yanıt, ölçme hatası ile ilgili
varsayımlarımıza bağlı.
The classical errors-inivariable
assumption
•
“e1’in x1 ile ilişkisizdir” varsayımı Section 9.2’deki
temsili (proxy) değişkenle ilgili olarak yapılan varsayıma
benzemektedir.
• Ekonometri yazınında bu varsayımın yerine daha çok
“e1, x1* ile ilişkisizdir” varsayımı yapılmaktadır.
•
Ölçme hatalarının gözlenemeyen açıklayıcı
değişkenlerle ilişkisiz olduğu varsayımına The
classical errors-in-variables (CEV) varsayımı denir:
37
• Ekonometri yazınında bu konuda birbirinin tam zıddı
olan iki varsayım yapılmaktadır :
• 1) e1, ölçüm değişkeni x1 ile ilişkisizdir.
• Eğer (9.23) deki varsayım doğru ise, (9.22) den, e1 ile
x1*’ın ilişkili olacağını görüyoruz. “x1* =x1 – e1”
eşitliğini, ( 9.21) de yerine koyalım :
• Burada, u ve e1, sıfır ortalamaya sahip ve x1 ile
ilişkisiz oldukları için, yeni artık terim (u-β1e1) de sıfır
ortalamaya sahip olacak ve x1 ile ilişkisiz olacak. 38
• Eğer (9.25) deki varsayım doğru ise, yani,
x1* ile e1 ilişkisiz ise, o zman x1 ile e1 ilişkili
olmak zorundadır :
• Demek ki, CEV varsayımı altında x1 ile e1’in
kovaryansı, e1’in varyansına eşit olacaktır.
41
• (9.24) deki regresyondan görüleceği gibi, x1 ile
e1’in ilişkili olması sorun yaratacaktır.
• u ile x1 ilişkisiz olduğundan, x1 ile bileşik hata
terimi
arasındaki kovaryans şuna
eşittir :
• Bu durumda (9.24)’ün x1 ile tahmini tutarlı
beta katsayıları verecektir.
• (9.24) ün varyansı :
• Demek ki, x’deki ölçme hatası hata terimi
varyansını artıracaktır. Dolayısıyla, βhat’lerin
se’leri daha yüksek olacaktır.
• Bunun dışında ölçme hatası OLS özelliklerine
zarar vermeyecektir.
• Demek ki, CEV varsayımı altında OLS tahmin
edicileri sapmalı ve tutarsız olacaktır.
• CH_5’deki asimtotik özelliklerden yararlanarak bu
tutarsızlığın (inconsistency) büyüklüğünü
belirleyebiliriz :
39
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
• Varsayım şuradan gelmektedir : Ölçülen
büyüklüğü, gerçek değişkenle ölçme
hatasının toplamı şeklinde yazalım :
42
7
Ekonometri II
14.02.2009
• (9.25) deki CEV varsayımı altında OLS sapmalı
ve tutarsız olacaktır. Zira, (9.29) da e1 ile x1
ilişkili olacaktır.
• Üstelik, daha önce gördüğümüz gibi, sadece
β1hat değil tüm betahat’ler sapmalı ve tutarsız
olmaktadır.
• Çoklu regresyon durumunda küçültme sapması
(attenuation bias) şöyle olacaktır :
• β1’ in sağındaki çarpan terimi Var (x1*) / Var (x1)
oranıdır. CEV varsayımı gereği bu oran daima
1’den küçüktür. Dolayısıyla, β1>0 iken, CEV
varsayımı altında, OLS tahmin edicisi β1hat daima
β1’den daha küçük (underestimation) olacaktır.
43
46
• Buna OLS’de CEV varsayımının küçültme
sapması (attenuation bias) denir.
• Eğer x1*’ın varyansı ölçme hataları (e1)
varyansına kıyasla büyükse, Var(x1*) / Var
(x1) oranı 1’e yakın çıkacağı için, OLS’deki
tutarsızlığın büyüklüğü önemsiz olacaktır.
• u ana kadar tek bir x (basit regresyon) söz
konusu idi. Birden çok x’in yer aldığı çoklu
regresyonda durum daha karmaşık hal
alacaktır.
• Örneğin, üç tane x değişkeninin olduğu bir
regresyonda x1* hatalı ölçülmüş olsun :
44
47
• Her zamanki “u, x1*, x2 ve x3 ile ilişkisizdir”
varsayımını yapacağız. Kritik varsayım e1 ile
ilgili olanıdır. Ama her durumda “e1’in doğru
ölçülen x2 ve x3 değişkenleriyle ilişkisiz”
olduğunu varsayıyoruz.
• Eğer e1, x1 ile ilişkisiz ise OLS tutarlı
olacaktır. Bu şuradan kolayca görülebilir :
• Burada, u ve e1, tüm açıklayıcı değişkenlerle
45
ilişkisizdir.
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
• üphesiz, ölçme hataları sadece bir değişkende
değil bir çok değişkende olabilecektir.
• Pratikte gerçek durum çoğu kez bu iki zıt
varsayımın, (9.23) ve (9.25), ortasında bir yere
denk düşmektedir.
• Yani, ölçme hataları hem x1* hem de x1 ile ilişkili
olabilmektedir.
• Bu halde OLS tutarsız tahmin ediciler verecektir.
Ancak, bu, OLS’yi terk etmemiz anlamına
gelmez.
• CH_15 de, bazı varsayımlar altında genel ölçme
hatalarının varlığı alında da tutarlı olabilen
tahmin ediciler bulabileceğiz.
48
8
Ekonometri II
14.02.2009
Verilerde boşluk (missing data), rasgeleolmayan örnekleme (nonrandom
sampling) ve aşırı uç değerler (outliers)
• Verilerle ilgili şu ana kadar karşılaştığımız sorunlar
çoklu-bağıntı (multicollinearity) ve ölçme hataları
(measurement errors) idi.
• MLR.2 varsayımını ihlal eden bir veri sorunu rasgeleolmayan örneklemedir (nonrandom sampling). Bazı
durumlar dışında rasgele-olmayan örnekleme OLS
tahmin edicilerinin sapmalı ve tutarsız olmasına yol
açmaktadır. Bu konu ayrıntılı biçimde CH_17 de
işlenecektir.
• Veride boşluklar (missing data) çok çeşitli şekillerde
karşımıza çıkar. En yaygın biçimi, bazı deneklerin
anket sorularının bir kısmını yanıtlamaması halidir.
49
• Yaş dağılımı açısından rasgele olmamasına
karşılık bu regresyondan hala nüfusun tümü
için geçerli tahminler elde edebiliriz. Zira, örnek
x’e dayanılarak seçilmiştir.
• Seçilen örneğin rasgele olmamasına rağmen
sapmasız tahmin ediciler elde edebilmemizin
nedeni, income, age ve size değişkenleri
kontrol edildiğinde ortalama tasarrufların
nüfusun her kesiminde aynı olmasıdır.
52
• Ekonometri paket programları veri boşluğu olan
serilerde boşluğa denk gelen gözlemleri otomatik
olarak dışlamaktadır. Dolayısıyla, veri boşluğu
örnek hacmini küçültmektedir.
• Veri boşluğunun daha ciddi istatistiki sorunlara yol
açıp açmayacağı boşluğun nedeni ile ilgilidir. Eğer
boşluklar rasgele oluşmuşsa, bu, örnek hacmini
küçültmenin dışında sapma ve tutarsızlık sorunları
doğurmaz, MLR.2 varsayımı hala geçerlidir.
Boşluklar, rasgele değil de sistematik ise sorun
ciddidir.
• Veride boşluklar rasgele-olmayan örneklemede
daha ciddi sorun yaratır. Örneğin, doğumda bebek
ağırlıkları veri setinde EDUC değişkenindeki
boşluklar eğitim düzeyi ortalamanın altında olan
anne-babalarda daha yaygın ise, bu sistematik bir
olaydır.
• Eğer örnek x’lere göre değil de bağımlı
değişkene (y) bağlı olarak seçiliyorsa sapma
ortaya çıkacaktır.
• Buna içsel örnek seçimi (endogenous
sample selection) denir.
• Örneğin, aşağıdaki regresyona sadece
serveti 75,000$ ‘ı aşan kişileri dahil edelim
• Bazı tür rasgele-olmayan örneklemeler
sapma veya tutarsızlığa yol açmaz. MLR.2
(random sampling) dışındaki Gauss-Markov
varsayımları sağlandığı taktirde, örnek
(sample) dışsal (exogenous) bağımsız
değişkenlere dayanılarak seçildiğinde sapma
ve tutarsızlık ortaya çıkmaz. Buna dışsal
örnek seçimi (exogenous sample
selection) denir. Örnek : 35 yaşın üzerinde
olan kişileri içeren şu regresyon :
• Özellikle küçük örnek hacimlerinde regresyon
sonuçları uç değerlerden (outliers) çok fazla
etkilenirler.
• Eğer herhangi bir gözlemi örnekten
çıkardığımızda regresyon sonuçları belirgin bir
şekilde değişiyorsa o gözlem bir uç değerdir.
• OLS, artık kareler toplamını minimize ettiği için
mutlak olarak büyük artıklar (eksi ya da artı )
kareleri alındıklarında daha da büyümekte ve
tahmine egemen olmaktadırlar. Başka bir
ifadeyle, uç değerler örnekte çok büyük ağırlık
almaktadır.
• Uç değerler maddi bir hatadan ya da
populasyonun dağılımından kaynaklanır.
• Regresyon uç değerlerle ve onlarsız iki kez
tahmin edilerek kıyaslama yapılabilir ve sonuçlar
bir arada verilebilir.
54
50
51
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
• (9.32) de sapmanın ortaya çıkmasının
nedeni,
‘nin serveti
75,000$’dan az olanlarda aynı olmamasıdır.
53
9
Ekonometri II
14.02.2009
55
56
Log kullanmak uç değer sorununu
hafifletir
57
J.M. Wooldridge Introductory
Econometrics: A Modern Approach,
2nd ed.
10
Download