4-3. Regression: 회귀진단(3); 공선성(collinearity)
안녕하세요^^
이번 시간에는 공선성에 대해 알아보도록 하겠습니다.
강의의 목표는 다음 세 가지입니다.
1. 모형에 공선성이 있는지 판단할 수 있다.
2. 공선성의 강도를 평가하는 결과를 생성하고 어떤 변수가 공선성과 관련되어 있는지 알 수 있다.
3. 모형에서 공선성을 최소화하는 방법을 결정할 수 있다.
공선성이란,
두 설명변수 X1과 X2가 임의의 상수 c0, c1, c2에 대하여 “ c1*X1 + c2*X2 = c0 ”과 같은 선형관계가 성립한다면, 두 변수 사이에 완벽(exact)한 공선성(collinearity)이 있다고 말합니다.
이렇게 완벽한 공선성을 갖지는 않더라도 위 선형관계가 근사적으로 성립하는 경우에도 일반적으로 두 설명변수 사이에 공선성이 존재한다고 말합니다.
공선성 진단 척도인 VIF(variance inflation factor; 분산팽창인자)에 대해 알아보도록 하겠습니다.
|
VIF |
VIF는 설명변수 사이에서 발생하는 다중공선성으로 인한 분산의 증가를 의미합니다. 이러한 개념에서 VIF를 다중공선성에 대한 진단의 척도로 사용할 수 있습니다. 일반적으로 p개(p; 모수 개수)의 VIF 중 가장 큰 값이 5~10을 넘으면 다중공선성이 있다고 판정합니다 |
그럼 예시를 통해 활용해 보도록 하겠습니다.
사용할 데이터는 Sashelp에 있는 fish 데이터셋입니다.
사용할 변수와 관측값 리스트(일부 추출)는 다음과 같습니다.
|
종속변수 |
독립변수 |
|
weight로, Bream fish의 체중을 의미하는 연속형 변수 |
Width, Length1, Length2 |
===========================================================================
상위 35개의 관측치를 가지고 분석을 진행하도록 하겠습니다.
===========================================================================
회귀 모형 적합 후 공선성이 있는 변수가 있는지 살펴보겠습니다.
Length1과 Length2의 VIF값이 306.8, 362.2로 10이상으로 매우 큼을 볼 수 있습니다.
따라서 Length1과 Length2은 공선성이 매우 확실히 존재한다고 할 수 있습니다.
Length1과 Length2 중에 하나의 변수만 모형에 포함하는 것을 고려해볼 수 있겠습니다.
===========================================================================
이상 선형 회귀 모형 진단에 대해 공부해 보았습니다. 감사합니다.
April 27 – 30 | Gaylord Texan | Grapevine, Texas
Walk in ready to learn. Walk out ready to deliver. This is the data and AI conference you can't afford to miss.
Register now and lock in 2025 pricing—just $495!