BookmarkSubscribeRSS Feed

4-1. Regression: 회귀진단(1)

Started ‎06-16-2020 by
Modified ‎06-16-2020 by
Views 1,129

4-1. Regression: 회귀진단(1)

안녕하세요^^

이번 시간부터는 적합한 회귀 모형을 진단하는 방법을 알아보도록 하겠습니다.

​​

오늘은 잔차를 이용한 진단법에 대해 소개해 드리겠습니다.

 

SE22016042001393570.png

잔차란, 관측값과 예측값의 차이를 말합니다.

 

먼저, 잔차를 사용하여 회귀모형을 진단하는 목적은 다음 두 가지입니다.

1. 선형 회귀 가정 검토

2. ​​잔차 그림(residual plots) 및 산점도(scatter plots)을 통한 선형 회귀 가정 조사

복습 차원으로, 선형회귀 모형의 가정을 다시 한번 살펴보겠습니다.

​​1. 오차항의 평균은 독립변수의 각 값에서 0값을 갖는다.(오차항의 평균=0)

​2. 오차항의 분포는 독립변수의 각 값에서 정규분포를 따른다.(정규성)

3. ​오차항의 분산은 독립변수의 각 값에서 같은 값을 갖는다.(등분산성)

​4. 오차항은 독립이다.(독립성)

선형 회귀 가정을 확인할 때 잔차를 이용한 plot은 두 가지 종류가 있습니다.

​​첫 번째는 잔차(residuals) versus 예측값(predicted values)이고,

​두 번째는 잔차(residuals) versus 독립변수들의 값(values of the independent variables)입니다.

 

SE22016042001423170.png

위 그림들은 “잔차값 vs 예측값” plot의 네 가지 예시입니다.

​(왼쪽 위 그림부터 그림1, 그림2, 그림3, 그림4로 명명함)

모형 가정이 타당하다면 잔차값들은 원점 선을 기준으로 랜덤하게 흩어져있어야 합니다.

​​잔차의 패턴을 봄으로써 다음과 같은 문제점들을 발견할 수 있습니다.

 

그림1: 원점 선을 기준으로 랜덤하게 흩여져있고 특별한 패턴이 보이지 않기 때문에 모형의 형태가 적절하다고 할 수 있습니다. 그림2: 잔차값들이 이차곡선의 형태를 보이기 때문에 현 모형의 형태는 부적절하다고 판단할 수 있습니다독립변수의 하나로써 이차항을 추가하는 해결책이 있습니다.
그림3: 왼쪽에서 오른쪽으로 갈수록 분산이 점점 커지는 것으로 보아등분산성 가정을 만족하지 않는 것을 알 수 있습니다가능한 해결책으로는 종속변수을 변환하는 방법, PROC GENMOD or PROC GLMMIX를 사용하는 방법등분산 가정을 하지 않는 모형을 선택하는 방법 들이 있습니다. 그림4: 잔차값들이 이전 잔차값들의 값에 영향을 받아 (같은 흔적으로)따라가는 경향을 보입니다. (자기상관(autocorrelation)) 이런 문제는 자료가 시간에 따라 수집되었을 때 나타날 수 있습니다가능한 해결책으로는 AUTOREG procedure를 사용하는 방법이 있습니다.

 

 

SE22016042001435370.png

또한, 잔차 그림을 살펴보면, 위 그림처럼 이상점을 확인할 수 있습니다.

 (이상점이란, 데이터의 대부분이 있는 범위에서 멀리 벗어나 있는 관측값을 말합니다.)

이상점은 보통 data error이거나 일반적이지 않은 상황을 반영합니다.

​​위 같은 경우라면 이러한 이상점을 제거하거나 이상점이 발생하는 원인을 찾는 것이 좋은 통계적 습관이라 할 수 있겠습니다.

그럼 실습을 해보도록 하겠습니다.

​​사용할 데이터는 Sashelp에 있는 Bweight (Infant Birth Weight) 데이터셋입니다.

​사용할 변수와 관측값 리스트(일부 추출)는 다음과 같습니다.

 

 

종속변수 독립변수
Weight (Infant Birth Weight)로, 유아 출생체중을 의미하는 연속형 변수

MomWtGain (Mother's Pregnancy Weight Gain) - 엄마의 임신 기간의 체중 변화량(kg)

MomAge (Mother's Age) – 엄마의 나이

 

 

======================================================================


상위 
100개의 관측치를 가지고 분석을 진행하도록 하겠습니다.

 

 

SE22016042001461870.png

 

 

SE22016042001462470.png

 

 

======================================================================

 

회귀 모형을 적합해 보도록 하겠습니다.

아래와 같은 결과가 나오는 것을 확인할 수 있습니다.

 

 

SE22016042001464570.png

 

 

SE22016042001465070.png

- Residual vs Predicted value 그림을 보면, 잔차값들이 원점 선을 기준으로 무작위하게 흩어져있습니다. 따라서 잔차에서 특별한 패턴은 없다고 할 수 있겠습니다.

- RStudent vs Predicted value 그림을 보면, 평균 0으로부터 세 개의 관측값이 두 표준오차값(-2, +2)을 벗어나있는 것을 볼 수 있습니다. 우리는 오차항의 정규성 가정을 하였으므로 관측치의 약 5%는 두 표준오차값 사이에 포함되지 않을 것을 예상할 수 있습니다.

- ​​Residual vs quantile plot(Q-Q Plot)을 보면, 정규성 가정을 어느정도 잘 만족한다고 할 수 있습니다. 만일 잔차가 정규분포를 따른다면 그림은 직선으로 나타나기 때문입니다.

 

SE22016042001473670.png

Residual vs Predictor value 그림을 보면, 잔차값들이 원점 선을 기준으로 무작위하게 흩어져있습니다. 따라서 잔차에서 특별한 패턴은 없다고 할 수 있겠습니다.

 

 

 

 

이상 회귀모형 진단 중 잔차와 관련된 부분을 공부해 보았습니다.

​다음시간에는 진단 중 영향력이 있는 관측치와 관련하여 배워보도록 하겠습니다.

 

Contributors
Version history
Last update:
‎06-16-2020 05:08 AM
Updated by:

sas-innovate-2026-white.png



April 27 – 30 | Gaylord Texan | Grapevine, Texas

Registration is open

Walk in ready to learn. Walk out ready to deliver. This is the data and AI conference you can't afford to miss.
Register now and save with the early bird rate—just $795!

Register now

Article Labels
Article Tags