회귀모형의 다중공선성은 설명변수들끼리 서로 밀접한 상관관계를 보인다는 것 입니다.
다중공선성 현상은 데이터 문제로 발생합니다. 설명변수들의 데이터들이 서로 상관성이 높아서 발생하는 것이며 그 이상도 그 이하도 아닙니다. 그러므로 다중공선성이 존재하는지에 대한 정식 검정 방법은 없습니다.
얼마나 심한 다중공선성이 심한 것이냐에 대한 이론적 가이드라인도 있을 수 없기 때문에 다중공선성 현상은 문제 아닌 문제가 되고 있습니다. 비공식적인 방법으로 다중공선성이 의심되는 설명변수들끼리 단순회귀분석을 하여 얻은 R^2 값이 0.70을 초과하면 다중공선성을 우려해야 하는 주장도 있지만, 이에 대한 이론적 뒷받침이 있는 것은 아닙니다. 다중공선성에 대한 대책은 샘플 수를 증가시키는 것 외에는 방법이 없습니다.
다중공선성의 대표적인 예로 들 수 있는 회귀모형은 다음 아래와 같습니다.
Y(t) = 소비(consumption), X(1t) = 소득(income), X(2t) = 재산(wealth)이다.
위 식에서 다중공선성 현상을 일으키는 설명변수들은 소득과 재산입니다. 왜냐면 이 두개의 설명변수는 서로 높은 상관성을 보이고 있기 때문입니다. 즉, 소득이 많은 사람이 재산도 많고 그 반대도 성립하기 때문에 소득변수와 재산변수 간의 상관성은 상당히 높다고 알려져 있습니다.
다중공선성에 대한 예제로 아래와 같은 회귀모형을 이용하고자 합니다.
위에서 사용한 산업생산성장율과 이자율 2개를 사용하여 다음과 회귀모형을 만들었습니다.
여기서 Y(t)는 미국 산업생산성장률, X(1t-4)는 4달 전 연방펀드 이자율(Federal Funds Rate), X(2t-4)는 4달 전 3개월 정부채권이자율입니다.
즉, 설명변수 2개가 모두 이자율이라서 심각한 다중공선성 현상이 존재할 것으로 예상합니다.
data ip;
infile '/home/u45061472/ip.prn';
input mon ip;
logip = log(ip);
ipg = dif(logip)*1200;
if mon < 19590101 then delete;
num = _N_;
run;
data fyff;
infile '/home/u45061472/fyff.prn';
input mon fyff;
fyff4 = lag(fyff);
if mon < 19590101 then delete;
if mon > 20071201 then delete;
dfyff4 = dif(fyff4);
if dfyff4 > 0 then do;
ip = 1;
in = 0;
fyff4p = fyff4;
fyff4n = 0;
end;
else do;
ip = 0;
in = 1;
fyff4p = 0;
fyff4n = fyff4;
end;
run;
data int3;
infile '/home/u45061472/int3.prn';
input mon int3;
int34 = lag(int3);
if mon < 19590101 then delete;
if mon > 20071201 then delete;
run;
data all;
merge ip fyff int3;
by mon;
proc reg data = all;
model ipg = fyff4;
model ipg = fyff4 int34;
model int3 = fyff;
run;
금융위기 이전기간에 대한 회귀분석 결과는 아래와 같습니다.
금융위기 이전기간 데이터를 사용하여 얻은 결과를 보면 눈에 크게 띄는 결과가 있습니다.
Parameter Estimates의 fyff4와 int34의 계수추정치들입니다. fyff4는 4달 전 연방정부채권에 대한 이자율이고, int34는 4달 전 3개월 만기 채무성 채권 이자율(3 Month Treasuary Bill Rate)입니다. 즉, 이 두 변수 모두 거의 비슷한 이자율을 나타냅니다. 금융위기 이전 기간, 1959년 1월 부터 2007년 12월까지 데이터 수는 많은 편이락 할 수 있습니다.
금융위기 이전기간 ipg를 fyff4에만 회귀분석하여 다중공선성이 없는 모형으로 얻은 결과는 이전의 게시물에 나왔습니다. 즉, fyff4의 계수추정치는 -4.93이고 t value는 -7.21입니다.
연방펀드 이자율인 fyff4가 1% 상승하면 종속변수인 ipg는 4.94%하락하지만 3개월짜리 재무부 채권 이자율 int34가 1% 상승하면 ipg는 5.25% 상승한다. 즉, 두 개의 이자율 중 하나가 상승하면 ipg가 하락하고 통계적으로 상당히 유의하지만 다른 하나의 이자율이 상승하면 ipg도 상승하고 통계적으로도 상당히 유의합니다.
이러한 이자율 상승의 효과는 3개의 설명변수들 사이에 매우 높은 상관관계, 즉 높은 다중공선성이 존재하기 때문에 발생합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Early bird rate extended! Save $200 when you sign up by March 31.