BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 회귀모형 설정 오류 - 누락된 설명변수와 오차항의 자기상관

Started ‎11-21-2021 by
Modified ‎11-23-2021 by
Views 649

 

회귀모형의 설정에 오류가 존재하는 경우에는 잘못된 결과가 나오게 됩니다. 아무리 샘플데이터가 많다 하더라도 원하는 결과를 얻을 수 없게 됩니다. 그러므로 모형을 제대로 설정하는 것이 무엇보다도 중요합니다.

그렇다면 회귀모형의 모형설정의 오류를 수정하는 방법은 어떠한 것들이 있을까요?

구조변화가 있는 회귀모형(Structural Change)나, 비대칭(Asymmetric) 회귀모형은 모형설정의 오류를 바로잡는 방안 중의 하나가 됩니다. 회귀모형에 구조변화가 있었는데 이것을 무시하고 모형의 계수를 추정하였다면 의미없는 결과가 나오게 됩니다.

이렇게 구조변화나 비대칭 모형에서 발생하는 모형설정 오류는 모형 설정의 기술적인 오류(Technical error)라고 할 수 있습니다. 구조변화를 반영한 회귀모형을 사용해야 한는데 기술적으로 부족하여 대칭모형을 사용했을 수 있기 때문입니다.

기술적인 부족(Technical deficiency)에서 발생되는 모형설정의 오류도 있지만, 모형설정 오류로 가장 많이 나타나는 주제는 설명변수가 누락되는 경우입니다.

회귀모형에 설명변수로 있어야할 변수가 없는 상태로 모형을 추정하면 추정결과에 많고 심각한 왜곡이 발생하여 추정결과는 가치를 상실하기 때문입니다.

 
                                                                                                                                                                 

누락된 설명변수와 오차항의 자기상관

누락된 설명변수가 있을 경우 종종 오차항에 자기상관을 초래합니다.

즉, 오차항에 존재하는 자기상관성은 하나나 두 개 이상의 설명변수가 누락되었기 때문입니다.

누락된 설명변수로 인해 오차항에 자기상관이 존재하는지를 DW d 검정을 통해 확인하고자 합니다.

사용할 데이터 fyff(the U.S Federal funds interest rate)로 미국 연방펀드 이자율에 대한 자료와 'monthly industrial production(산업생산)의 연간 성장률' 데이터를 날짜를 기준으로 merge한 데이터 입니다

이에 대한 예시로 미국의 산업생산성장률 Yt = ipg를 종속변수로 하고, 연방퍼드이자율의 4달 전 값 xt-4 = fyff4를 설명변수로 사용하는 단순회귀분석을 하면 오차항에 비교적 심한 자기상관이 존재합니다. 자기상관이 존재하는 것은 설명변수 누락에 이유가 있을 수 있습니다. 그 가능성을 알아보기 위해 단순 회귀모형을 추정하고 오차항에 자기상관이 있는지를 DW d 검정을 통해 확인하고자 합니다.

 
 
 
스크린샷 2021-11-21 오후 11.39.51.png

 

 

 

여기서 Yt는 미국 산업생산 성장률 ipg, Xt-4는 4개월 전 연방펀드 이자율 fyfft-4, Zt는 민간실업률을 1차 차분한 dunempt입니다.

 

 

                                                                                                                                                                   

 

계수 추정 및 더빈왓슨 d 검정

 

data ip;
infile '/home/u45061472/ip.prn';
input mon ip;
logip = log(ip);
ipg = dif(logip)*1200;
ipg1 = lag(ipg);
if mon < 20080101 then delete;
run;


data fyff;
infile '/home/u45061472/fyff.prn';
input mon fyff;
fyff4 = lag4(fyff);
if mon < 20080101 then delete;
run;

data unemp;
infile '/home/u45061472/sasuser.v94/unemp.prn';
input mon unemp;
dunemp = dif(unemp);
if mon < 20080101 then delete;
run;

data all;
merge ip fyff unemp;
by mon;
run;

proc reg data = all;
model ipg = fyff4 / DWPROB;
model ipg = fyff4 dunemp /DWPROB;
run;

 

결과

 

결과는 아래의 코드를 통해서 나왔습니다.

 

model ipg = fyff4 / DWPROB;

 

 

image (1).png

 

 

첫번째 모형은 ipg 에 설명변수 fyff4 만 있는 단순회귀모형입니다.

Parameter Estimates에서 모형을 최소자승법으로 추정하고 더빈왓슨 d검정 결과를 확인할 수 있습니다.

회귀모형 MODEL ipg = fyff4; 는 여러 번 사용하였기 때문에 위에서는 Parameter Estimates만 표기하였습니다.

fyff4의 계수 추정치는 -2.89이고 4개월 전 연방 펀드 이자율 1%가 상승하면 산업생산 성장률은 2.89514% 하락하는 것을 알 수 있습니다.

또한 t 값은 - 3.61, p 값은 0.00004로 통계적으로 매우 유의한 결과입니다.

 

 

 

image (2).png

 

 

 

위의 결과는 옵션 /DWPROB; 로 얻은 결과입니다.

Durbin Watson D 값은 1.478이고, Pr < DW는 0.001이어서 회귀모형의 오차항에 자기 상관이 없다는 귀무가설을 기각하고 있습니다.

민간실업률 1차 차분하여 만들 설명변수 Dunemp를 위 회귀모형에 추가하여 최소자승법으로 분석한 결과는 아래와 같습니다

 

model ipg = fyff4 dunemp /DWPROB;

 

image (3).png

 

 

 

새로운 설명변수 dunemp를 추가하여 다중회귀모형 추정 결과를 보면, -2.89에서 -2.05로 절대값이 하락한 것을 알 수 있습니다.

즉, 추가한 설명변수 dunemp 때문에fyff4의 ipg에 대한 설명력이 감소하였음을 알 수 있습니다. 여기서 볼 수 있듯이 설명변수가 누락되었을 경우 그 결과로 추정치에 편의(bias)가 발생한다는 것을 알 수 있습니다. 실업률을 1차 차분한 변수 dunemp의 계수추정치는 -15.04로 fyff4와 같이 음수값이지만, 그 절대값은 7배가 넘어 fyff4보다 ipg에 훨씬 큰 영향을 미치고 있다는 것을 알 수 있습니다. 실업률 차분이 1% 오르면 산업생산 성장률은 15% 감소한다는 것을 알 수 있습니다.( 즉, 실업률 1%가 증가하면 산업생산성장률은 1.504% 감소한다는 의미)

실업률 1차 차분 dunemp의 계수 추정치 t 값은 fyff4 t 값보다 훨씬 커서 종속변수 ipg를 설명하는데 연방펀드 이자율인 fyff4보다 민간실업률이 훨씬 더 중요하다는 것을 의미합니다.

 

 

 

image (4).png

 

Durbin Watson D 값은 1.84이고 Pr < DW는 0.1648로 귀무가설 검청치의 확률값이 0.05보다 크기 때문에 오차항에 자기상관이 없다는 귀무가설을 기각할 수 없습니다. 위에서 언급하였듯이 오차항이 있는 자기상관성은 회귀모형에 누락된 설명변수가 있어서 발생한다는 주장이 맞다는 것을 보여주는 결과입니다. dunemp 변수가추가되지 않았을 때는 자기상관성이 있으나 강한 자기상관성이 추가된 dunemp 설명변수 때문에 모두 사라진 것입니다.

 

 

 

Version history
Last update:
‎11-23-2021 07:58 PM
Updated by:
Contributors

sas-innovate-white.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Early bird rate extended! Save $200 when you sign up by March 31.

Register now!

Article Labels
Article Tags