BookmarkSubscribeRSS Feed

4-2. Regression: 회귀진단(2)

Started ‎06-16-2020 by
Modified ‎06-16-2020 by
Views 599

4-2. Regression: 회귀진단(2) ;  영향력이 큰 관측값

안녕하세요^^

이번 시간에는 영향력이 큰 관측값 (영향값)에 대해 알아보도록 하겠습니다.

​이번 강의의 목표는 잠재적으로 영향력이 큰 관측값을 찾아내기 위한 통계량을 바로 알고 사용해보는 것입니다.

영향력이 큰 관측값이란,

​​관측값의 영향력을 알아내는 한 가지 중요한 방밥은 한번에 하나씩 자료에서 관측값을 제거하는 것입니다. 전체자료를 이용한 분석과 특정 관측값이 제거된 분석을 비교함으로써 개개의 관측값의 영향이나 효과를 알아낼 수 있습니다. 제거했을 때 중요한 변화를 가져오는 관측값을 영향력이 큰 관측값이라고 부릅니다.

​영향력이 큰 관측값을 찾아내기 위해 도움을 주는 몇몇 통계량들이 있습니다.

1. ​Studentized residuals

2. ​RSTUDENT residuals

3. ​Cook’s D

4. ​DFFITS

​5. DFBETAS

추후 Model statement에서 R option은 Studentized residuals과 Cook’s D 값을 보여줄 것입니다.

​그럼, 위 5개 통계량에 대해 영향력이 큰 관측값으로 정의하기 위한 기준을 하나씩 살펴보도록 하겠습니다.

 

 

Studentized(Standardiazed) residuals (SR)

SR은 잔차를 표준오차로 나눈 값으로, 상대적으로 적은 표본수라면 2보다(상대적으로 큰 표본수라면 3을 기준으로) 더 크다면 영향력이 큰 관측치라 볼 수 있겠습니다.

RSTUDENT residuals RSTUDENT residuals은 i번째 관측치가 제거된 후에 계산된다는 점을 제외하고는 SR과 같은 방식으로 영향력이 큰 관측치를 판단하게 됩니다. RSTUDENT residual는 observed Y값과 해당 관측치가 제거된 모형의 Y 예측값(predicted value)간의 차이를 의미합니다.
Cook’s D Cook’s D 통계량은 i번째 관측치가 분석에서 제거되었을 때 모수 추정값들의 (동시적) 변화량의 척도입니다. 4/n(n; 표본수)보다 크다면 영향력이 큰 관측값으로 볼 수 있습니다.
DFFITS

DFFITS은 i번째 관측치가 예측값에서 보유하고 있는 영향력을 측정합니다. DFFITS의 절대값이 2*sqrt(p/n)보다 크다면 영향력이 큰 관측값으로 볼 수 있습니다.(p; 모수의 개수; 절편 포함)

DFBETAS DFBETAS는 관측값이 각각의 회귀계수에 미치는 영향력을 측정하는 거리 척도이다. DFBETAS의 절대값이 2*SQRT(1/n)보다 크다면 영향력이 큰 관측값으로 볼 수 있습니다.

 

예시로 실습을 해보도록 하겠습니다.

사용할 데이터는 Sashelp에 있는 fish 데이터셋입니다.

사용할 변수와 관측값 리스트(일부 추출)는 다음과 같습니다.

 

종속변수 독립변수
weight로, Bream fish의 체중을 의미하는 연속형 변수 Width, Length1

 

 

======================================================================

 

 상위 35개의 관측치를 가지고 분석을 진행하도록 하겠습니다.

 

SE22016042001541870.png

 

 

SE22016042001542570.png

 

 

======================================================================

 

회귀 모형 적합 후 영향력이 큰 관측값이 있는지 살펴보겠습니다.

 

 

SE22016042001544770.png

 

 

SE22016042001545370.png

Cook’s D vs Observation 그림을 보면, 30번째 관측값이 영향력이 큰 관측값(Cook’s D > 3/35=0.086)임을 볼 수 있습니다.

 

 

SE22016042001551770.pngSE22016042001553170.png

DFFITS 값을 보면, 역시 30번째 관측값의 DFFITS값이 1.42 (> 2*sqrt(3/35)=0.5855)로 영향력이 큰 관측치임을 알 수 있습니다.

30번째 관측치가 어느 모수에 영향을 주는지 보기 위해 DFBETA값을 살펴보면, Intercept: -0.454, Width: 1.161, Length1: -0.8089로 세 값의 절대값이 모두 0.338(=2*sqrt(1/35))보다 크므로, 세 모수에 모두 영향을 미침을 알 수 있습니다.

​그 중에서도 Width의 모수에 가장 큰 영향을 주는 것으로 판단할 수 있겠습니다.

 

 

 

 

이상 영향력이 큰 관측값에 대해 공부해 보았습니다.

​다음시간에는 진단 중 공선성과 관련하여 배워보도록 하겠습니다.

 

 

Version history
Last update:
‎06-16-2020 05:09 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags