대부분의 회귀모형들의 오차항(Error term) 이 정규분포를 따른다는 가정하에 오차항은 아래와 같은 가정이 성립됩니다.
그러나 위와 같은 가정 3가지 중 하나라도 만족시키지 못한다면 Standard Error를 구하거나, t value를 구할 수 없게 되며, 또한 t 분포나 F 분포를 사용한 가설검정들은 모두 맞지 않기 때문에 검정을 시행할 수 없습니다.
특히, 오차항에 자기상관성이 없다는 가정이 성립하지 않는다면 최소자승법(OLS Method)로 회귀모형을 추정하는 소프트웨어들이 제공하는 회귀분석 결과 중 추정치 값을 제외한 모든 추정치와 관련 된 통계수치들, 즉, Standard Error, t value, Pr > | t | 는 틀린 값들이 됩니다.
최소자승법으로 회귀모형을 추정하는 모든 소프트웨어들은 주어진 회귀모형이 3개의 가정을 만족시킨다는 가정하여 표준오차(Standard Error)를 계산하기 때문에 계산된 표준오차는 잘못된 것이다. 표준오차가 틀리면 t Value도 틀리고, t Value에 기반하여 계산된 확률값, Pr > | t |도 틀리게 됩니다.
그러므로, 회귀모형의 오차항이 가정을 만족하는지 검정하는 것이 매우 중요합니다.
위의 식은 에러텀들 간의 상관관계(covariance)가 없다는 것이고, ui 의 분산은 σ2라는 것 입니다.
가장 많이 사용되는 오차항의 자기상관 모형은 아래와 같습니다.
위의 식을 보면 ut가 ut-1의 함수인 것을 알 수 있습니다.
α는 모르는 트루계수(true parameter)이고, εt는 확률변수(raondom variable)입니다.
회귀식을 추정하기 중요한 가정의 타당성을 의심하여, 모형에 어떠한 문제점이 존재하는지 알아보는 진단을 '모형진단(Model Diagnostic)이라고 합니다.
이번 게시글은 잔차의 분포를 바탕으로 오차에 대한 가정의 타당성을 진단하는 방법 중 하나인 Durbin-Watson 검정에 대하여 알아보겠습니다.
더빈 왓슨 검정은 DW d 검정이라고도 합니다. 더빈-왓슨이 제안한 검정방법은 상당히 잘 알려진 검정방법이며 검정통계량(test statistic)도 최소자승법에서 얻은 residual을 통해 쉽게 구할 수 있습니다.
더빈-왓슨(DW) d 검정통계량은 다음과 같은 가정하에서 구축되었습니다.
가정 1. 회귀모형의 설명변수들은 모두 확률변수가 아니고 고정된 상수들(fixed constants)이다.
가정 2. 귀무가설(null hyphothesis)은 formula 1의 α = 0이며, alternative hyphothesis는 α ≠ 0이다.
가정2의 alternative hyphothesis의 모형은 더빈-왓슨의 검정 통계치 d는 아래와 같습니다.
더빗-왓슨의 검정 통계치에서 N은 샘플 수이며, et는 최소 자승법으로 얻은 t기의 잔차입니다.
DW d의 테스트의 한 가지 단점은 그 분포가 간단하지 않고 귀무가설을 검정하는데 2개의 임계치(critical value)를 사용해야 하고, 검정결과는 "기각한다","기각하지 못한다." 아니면 "판단하기 어려움"으로 구분되는 3가지 영역이 존재합니다.
2개의 임계치 중 위의 도표는 DW d 검정 임계치로 dt는 lower critical, du는 upper value를 나타냅니다.
Durbin-Watson 통계량은 0 < d < 4의 값을 가집니다.
d ~ 0 : 잔차끼리 양의 상관관계를 가진다.
d ~ 2: 잔차끼리 상관관계를 가지지 않는다.
d ~ 4: 잔차끼리 음의 상관관계를 가진다.
이번에는 SAS 프로그램을 통하여 검정판단을 예제와 함께 알아보겠습니다.
사용데이터는 fyff.prn(이하 fyff) 과 ip.prn(이하 ip) 데이터로 파일을 첨부하였습니다.
fyff 데이터는 the U.S Federal funds interest rate로 미국 연방기금 금리에 대한 자료입니다.
1959년 이전의 데이터는 삭제하였습니다. 첫번째 칼럼은 날짜형식으로 yyyymmdd로 되어 있으며 두번째 칼럼은 미국 연방기금 금리를 의미합니다.
ip 데이터는 'monthly industrial production(산업생산)의 연간 성장률' 데이터입니다.
산업생산의 연간 성장률은 경제지표를 나타내는 지표 중 하나입니다. 그 중 2008년 이전의 데이터는 모두 삭제하였습니다. 위의 자료는 ip 데이터의 일부 자료로, 첫번째 칼럼은 날짜 yyyymmdd 형식으로 되어 있으며 두 번째 칼럼은 Industrial production으로 산업생산의 연간 성장률 지표를 나타냅니다.
data ip;
infile '/home/u45061472/ip.prn';
input mon ip;
logip = log(ip);
ipg = dif(logip)*1200;
if mon < 19590101 then delete;
num = _N_;
run;
data fyff;
infile '/home/u45061472/fyff.prn';
input mon fyff;
fyff4 = lag4(fyff);
/*if mon < 19590101 then delete;*/
if mon <= 20071201 then delete;
dfyff4 = dif(fyff4);
if dfyff4 > 0 then do;
ip = 1;
in = 0;
fyff4p = fyff4;
fyff4n = 0;
end;
else do;
ip = 0;
in = 1;
fyff4p = 0;
fyff4n = fyff4;
end;
run;
data all;
merge ip fyff;
by mon;
run;
PROC REG DATA = all;
MODEL ipg = fyff4/DWPROB;
RUN;
fyff 데이터와 ip 데이터를 일자(첫번째 컬럼)를 기준으로 merge를 실행하여 더빈왓슨 검정을 실시하였습니다.
DW d 검정은 SAS에서 PROC REG 명령어에 따라나오는 MODEL 명령어에서 옵션(option)으로 DWPROB를 지정하면됩니다.
여기서 DW d 검정을 위한 검정통계치 d를 계산하는 명령어는 /DW; 이고, /DWPROB; 명령어는 probability value도 같이 출력되는 명령어 입니다.
결과는 다음과 같습니다.
회귀분석 모형은 2008년 1월을 기준으로 구조변화를 겪었기 때문에 구조변화의 영향을 억제하기 위해 금융위기 이후인 2008년 1월부터 2018년 8월까지 128개의 데이터를 이용하였습니다.
위의 결과 중 Durbin-Watson D 에 1.478은 formula 2를 사용해서 얻은 값입니다.
Pr < DW는 확률값(Probability Value)를 나타내는 값으로, formula 1의 α값이 0이라서 오차항에 자기상관이 없는데도 불구하고, DW d 값을 구해보면 1.478이나 그보다 작은 값이 나올 확률은 0.0010 (Pr < DW)라는 것입니다.
이 확률값이 임계확률값 0.05보다 작기 때문에 귀무가설 α 값이 0이라는 가설은 기각됩니다.
즉, 오차항에 자기상관이 존재한다고 할 수 있습니다.
이러한 결론은 회귀분석 결과 중 Standard Error, t Value, Pr > | t | 값들이 틀렸다고 할 수 있습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Lock in the best rate now before the price increases on April 1.