BookmarkSubscribeRSS Feed

4-1. Regression: 회귀진단(1)

Started ‎06-16-2020 by
Modified ‎06-16-2020 by
Views 1,180

4-1. Regression: 회귀진단(1)

안녕하세요^^

이번 시간부터는 적합한 회귀 모형을 진단하는 방법을 알아보도록 하겠습니다.

​​

오늘은 잔차를 이용한 진단법에 대해 소개해 드리겠습니다.

 

SE22016042001393570.png

잔차란, 관측값과 예측값의 차이를 말합니다.

 

먼저, 잔차를 사용하여 회귀모형을 진단하는 목적은 다음 두 가지입니다.

1. 선형 회귀 가정 검토

2. ​​잔차 그림(residual plots) 및 산점도(scatter plots)을 통한 선형 회귀 가정 조사

복습 차원으로, 선형회귀 모형의 가정을 다시 한번 살펴보겠습니다.

​​1. 오차항의 평균은 독립변수의 각 값에서 0값을 갖는다.(오차항의 평균=0)

​2. 오차항의 분포는 독립변수의 각 값에서 정규분포를 따른다.(정규성)

3. ​오차항의 분산은 독립변수의 각 값에서 같은 값을 갖는다.(등분산성)

​4. 오차항은 독립이다.(독립성)

선형 회귀 가정을 확인할 때 잔차를 이용한 plot은 두 가지 종류가 있습니다.

​​첫 번째는 잔차(residuals) versus 예측값(predicted values)이고,

​두 번째는 잔차(residuals) versus 독립변수들의 값(values of the independent variables)입니다.

 

SE22016042001423170.png

위 그림들은 “잔차값 vs 예측값” plot의 네 가지 예시입니다.

​(왼쪽 위 그림부터 그림1, 그림2, 그림3, 그림4로 명명함)

모형 가정이 타당하다면 잔차값들은 원점 선을 기준으로 랜덤하게 흩어져있어야 합니다.

​​잔차의 패턴을 봄으로써 다음과 같은 문제점들을 발견할 수 있습니다.

 

그림1: 원점 선을 기준으로 랜덤하게 흩여져있고 특별한 패턴이 보이지 않기 때문에 모형의 형태가 적절하다고 할 수 있습니다. 그림2: 잔차값들이 이차곡선의 형태를 보이기 때문에 현 모형의 형태는 부적절하다고 판단할 수 있습니다독립변수의 하나로써 이차항을 추가하는 해결책이 있습니다.
그림3: 왼쪽에서 오른쪽으로 갈수록 분산이 점점 커지는 것으로 보아등분산성 가정을 만족하지 않는 것을 알 수 있습니다가능한 해결책으로는 종속변수을 변환하는 방법, PROC GENMOD or PROC GLMMIX를 사용하는 방법등분산 가정을 하지 않는 모형을 선택하는 방법 들이 있습니다. 그림4: 잔차값들이 이전 잔차값들의 값에 영향을 받아 (같은 흔적으로)따라가는 경향을 보입니다. (자기상관(autocorrelation)) 이런 문제는 자료가 시간에 따라 수집되었을 때 나타날 수 있습니다가능한 해결책으로는 AUTOREG procedure를 사용하는 방법이 있습니다.

 

 

SE22016042001435370.png

또한, 잔차 그림을 살펴보면, 위 그림처럼 이상점을 확인할 수 있습니다.

 (이상점이란, 데이터의 대부분이 있는 범위에서 멀리 벗어나 있는 관측값을 말합니다.)

이상점은 보통 data error이거나 일반적이지 않은 상황을 반영합니다.

​​위 같은 경우라면 이러한 이상점을 제거하거나 이상점이 발생하는 원인을 찾는 것이 좋은 통계적 습관이라 할 수 있겠습니다.

그럼 실습을 해보도록 하겠습니다.

​​사용할 데이터는 Sashelp에 있는 Bweight (Infant Birth Weight) 데이터셋입니다.

​사용할 변수와 관측값 리스트(일부 추출)는 다음과 같습니다.

 

 

종속변수 독립변수
Weight (Infant Birth Weight)로, 유아 출생체중을 의미하는 연속형 변수

MomWtGain (Mother's Pregnancy Weight Gain) - 엄마의 임신 기간의 체중 변화량(kg)

MomAge (Mother's Age) – 엄마의 나이

 

 

======================================================================


상위 
100개의 관측치를 가지고 분석을 진행하도록 하겠습니다.

 

 

SE22016042001461870.png

 

 

SE22016042001462470.png

 

 

======================================================================

 

회귀 모형을 적합해 보도록 하겠습니다.

아래와 같은 결과가 나오는 것을 확인할 수 있습니다.

 

 

SE22016042001464570.png

 

 

SE22016042001465070.png

- Residual vs Predicted value 그림을 보면, 잔차값들이 원점 선을 기준으로 무작위하게 흩어져있습니다. 따라서 잔차에서 특별한 패턴은 없다고 할 수 있겠습니다.

- RStudent vs Predicted value 그림을 보면, 평균 0으로부터 세 개의 관측값이 두 표준오차값(-2, +2)을 벗어나있는 것을 볼 수 있습니다. 우리는 오차항의 정규성 가정을 하였으므로 관측치의 약 5%는 두 표준오차값 사이에 포함되지 않을 것을 예상할 수 있습니다.

- ​​Residual vs quantile plot(Q-Q Plot)을 보면, 정규성 가정을 어느정도 잘 만족한다고 할 수 있습니다. 만일 잔차가 정규분포를 따른다면 그림은 직선으로 나타나기 때문입니다.

 

SE22016042001473670.png

Residual vs Predictor value 그림을 보면, 잔차값들이 원점 선을 기준으로 무작위하게 흩어져있습니다. 따라서 잔차에서 특별한 패턴은 없다고 할 수 있겠습니다.

 

 

 

 

이상 회귀모형 진단 중 잔차와 관련된 부분을 공부해 보았습니다.

​다음시간에는 진단 중 영향력이 있는 관측치와 관련하여 배워보도록 하겠습니다.

 

Contributors
Version history
Last update:
‎06-16-2020 05:08 AM
Updated by:

Catch up on SAS Innovate 2026

Nearly 200 sessions are now available on demand in the Innovate Hub.

Watch Now →
Article Labels
Article Tags