BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 다중공선성(Multicolinearity)

Started ‎10-31-2021 by
Modified ‎10-31-2021 by
Views 929

 

회귀모형의 다중공선성은 설명변수들끼리 서로 밀접한 상관관계를 보인다는 것 입니다.

다중공선성 현상은 데이터 문제로 발생합니다. 설명변수들의 데이터들이 서로 상관성이 높아서 발생하는 것이며 그 이상도 그 이하도 아닙니다. 그러므로 다중공선성이 존재하는지에 대한 정식 검정 방법은 없습니다.

얼마나 심한 다중공선성이 심한 것이냐에 대한 이론적 가이드라인도 있을 수 없기 때문에 다중공선성 현상은 문제 아닌 문제가 되고 있습니다. 비공식적인 방법으로 다중공선성이 의심되는 설명변수들끼리 단순회귀분석을 하여 얻은 R^2 값이 0.70을 초과하면 다중공선성을 우려해야 하는 주장도 있지만, 이에 대한 이론적 뒷받침이 있는 것은 아닙니다. 다중공선성에 대한 대책은 샘플 수를 증가시키는 것 외에는 방법이 없습니다.

 

다중공선성의 대표적인 예로 들 수 있는 회귀모형은 다음 아래와 같습니다.

 

스크린샷 2021-10-31 오후 11.47.53.png

 

Y(t) = 소비(consumption), X(1t) = 소득(income), X(2t) = 재산(wealth)이다.

위 식에서 다중공선성 현상을 일으키는 설명변수들은 소득과 재산입니다. 왜냐면 이 두개의 설명변수는 서로 높은 상관성을 보이고 있기 때문입니다. 즉, 소득이 많은 사람이 재산도 많고 그 반대도 성립하기 때문에 소득변수와 재산변수 간의 상관성은 상당히 높다고 알려져 있습니다.

 

 

다중공선성에 대한 예제로 아래와 같은 회귀모형을 이용하고자 합니다.

위에서 사용한 산업생산성장율과 이자율 2개를 사용하여 다음과 회귀모형을 만들었습니다.

 

스크린샷 2021-10-31 오후 11.47.59.png

 

여기서 Y(t)는 미국 산업생산성장률, X(1t-4)는 4달 전 연방펀드 이자율(Federal Funds Rate), X(2t-4)는 4달 전 3개월 정부채권이자율입니다.

즉, 설명변수 2개가 모두 이자율이라서 심각한 다중공선성 현상이 존재할 것으로 예상합니다.

 

data ip;
infile '/home/u45061472/ip.prn';
input mon ip;
logip = log(ip);
ipg = dif(logip)*1200;
if mon < 19590101 then delete;
num = _N_;
run;


data fyff;
infile '/home/u45061472/fyff.prn';
input mon fyff;
fyff4 = lag(fyff);
if mon < 19590101 then delete;
if mon > 20071201 then delete;
dfyff4 = dif(fyff4);
if dfyff4 > 0 then do;
ip = 1;
in = 0;
fyff4p = fyff4;
fyff4n = 0;
end;

else do;
ip = 0;
in = 1;
fyff4p = 0;
fyff4n = fyff4;
end;
run;

data int3;
infile '/home/u45061472/int3.prn';
input mon int3;
int34 = lag(int3);
if mon < 19590101 then delete;
if mon > 20071201 then delete;
run;

data all;
merge ip fyff int3;
by mon;
proc reg data = all;
model ipg = fyff4;
model ipg = fyff4 int34;
model int3 = fyff;
run;

 

금융위기 이전기간에 대한 회귀분석 결과는 아래와 같습니다.

 

스크린샷_2021-10-31_오후_11.54.29.png

 

융위기 이전기간 데이터를 사용하여 얻은 결과를 보면 눈에 크게 띄는 결과가 있습니다.

Parameter Estimates의 fyff4와 int34의 계수추정치들입니다. fyff4는 4달 전 연방정부채권에 대한 이자율이고, int34는 4달 전 3개월 만기 채무성 채권 이자율(3 Month Treasuary Bill Rate)입니다. 즉, 이 두 변수 모두 거의 비슷한 이자율을 나타냅니다. 금융위기 이전 기간, 1959년 1월 부터 2007년 12월까지 데이터 수는 많은 편이락 할 수 있습니다.

금융위기 이전기간 ipg를 fyff4에만 회귀분석하여 다중공선성이 없는 모형으로 얻은 결과는 이전의 게시물에 나왔습니다. 즉, fyff4의 계수추정치는 -4.93이고 t value는 -7.21입니다.

연방펀드 이자율인 fyff4가 1% 상승하면 종속변수인 ipg는 4.94%하락하지만 3개월짜리 재무부 채권 이자율 int34가 1% 상승하면 ipg는 5.25% 상승한다. 즉, 두 개의 이자율 중 하나가 상승하면 ipg가 하락하고 통계적으로 상당히 유의하지만 다른 하나의 이자율이 상승하면 ipg도 상승하고 통계적으로도 상당히 유의합니다.

이러한 이자율 상승의 효과는 3개의 설명변수들 사이에 매우 높은 상관관계, 즉 높은 다중공선성이 존재하기 때문에 발생합니다.

 

Version history
Last update:
‎10-31-2021 11:15 AM
Updated by:
Contributors

sas-innovate-white.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Early bird rate extended! Save $200 when you sign up by March 31.

Register now!

Article Labels
Article Tags