BookmarkSubscribeRSS Feed

4-3. Regression: 회귀진단(3)

Started ‎06-16-2020 by
Modified ‎06-16-2020 by
Views 485

4-3. Regression: 회귀진단(3); 공선성(collinearity)

 

안녕하세요^^

​이번 시간에는 공선성에 대해 알아보도록 하겠습니다.

강의의 목표는 다음 세 가지입니다.

​​1. 모형에 공선성이 있는지 판단할 수 있다.

​2. 공선성의 강도를 평가하는 결과를 생성하고 어떤 변수가 공선성과 관련되어 있는지 알 수 있다.

3. ​모형에서 공선성을 최소화하는 방법을 결정할 수 있다.

공선성이란,

​​두 설명변수 X1과 X2가 임의의 상수 c0, c1, c2에 대하여 “ c1*X1 + c2*X2 = c0 ”과 같은 선형관계가 성립한다면, 두 변수 사이에 완벽(exact)한 공선성(collinearity)이 있다고 말합니다.

이렇게 완벽한 공선성을 갖지는 않더라도 위 선형관계가 근사적으로 성립하는 경우에도 일반적으로 두 설명변수 사이에 공선성이 존재한다고 말합니다.

​​

공선성 진단 척도인 VIF(variance inflation factor; 분산팽창인자)에 대해 알아보도록 하겠습니다.

 VIF

VIF는 설명변수 사이에서 발생하는 다중공선성으로 인한 분산의 증가를 의미합니다.

​이러한 개념에서 VIF를 다중공선성에 대한 진단의 척도로 사용할 수 있습니다.

​일반적으로 p개(p; 모수 개수)의 VIF 중 가장 큰 값이 5~10을 넘으면 다중공선성이 있다고 판정합니다 

 

그럼 예시를 통해 활용해 보도록 하겠습니다.

사용할 데이터는 Sashelp에 있는 fish 데이터셋입니다.

​​사용할 변수와 관측값 리스트(일부 추출)는 다음과 같습니다.

 종속변수

 독립변수

 weight로, Bream fish의 체중을 의미하는 연속형 변수

 Width, Length1, Length2

 

 

===========================================================================

 

 

​상위 35개의 관측치를 가지고 분석을 진행하도록 하겠습니다.

 

SE22016042002010770.png

 

SE22016042002011470.png

 

 

===========================================================================

 

 

회귀 모형 적합 후 공선성이 있는 변수가 있는지 살펴보겠습니다.

 

SE22016042002013970.png

 

SE22016042002014670.png

 

Length1과 Length2의 VIF값이 306.8, 362.2로 10이상으로 매우 큼을 볼 수 있습니다.

​따라서 Length1과 Length2은 공선성이 매우 확실히 존재한다고 할 수 있습니다.

Length1과 Length2 중에 하나의 변수만 모형에 포함하는 것을 고려해볼 수 있겠습니다.

 


===========================================================================

 

 

이상 선형 회귀 모형 진단에 대해 공부해 보았습니다. ​감사합니다.

Contributors
Version history
Last update:
‎06-16-2020 04:18 AM
Updated by:

Catch up on SAS Innovate 2026

Nearly 200 sessions are now available on demand in the Innovate Hub.

Watch Now →
Article Labels
Article Tags