BookmarkSubscribeRSS Feed

[SAS를 이용한 기초통계분석] 2. 가설검정-잔차분석

Started ‎06-15-2020 by
Modified ‎06-15-2020 by
Views 2,084

sas이용한(3).png

 

 

잔차분석

 

앞에서 기본적인 분포에 대한 확인을 했다면 이번에는 잔차에 대한 분석을 할 차례입니다.^^

오차가 있는 분석의 경우 일반적으로 오차는 정규성, 독립성, 등분산성 이 세 가지를 만족한다는 가정을 따릅니다.

그리고 오차에 주어진 가정을 검토하기 위해 잔차(e = y - y_hat (y_hat : 모형 적합값) )를 이용합니다.

여기서는 여러 가지 분석 중 회귀분석에 대하여 잔차 검정을 하겠습니다. (하지만 본격적인 회귀분석은 뒤에서 합니다^^)

 

0. 회귀모형을 적합 & 잔차(residual) SAS-data-set을 생성

res생성(1).png

** res라는 SAS-data-set을 생성하여 R(residual)은 'e'로, h(fitted value)는 'hat'이란 이름으로 저장

 

 

1. 정규성

- 가정 : 오차들은 정규분포를 따른다.

- 정규확률그림을 통해 확인

  -> 직선에 가까울수록 정규분포 가정이 타당

** 정규확률그림 : i 번째 정규점수(표본정규분포에서의 이상적인 표본) vs. i 번째 순서의 자료(자료를 작은 것부터 크기순으로 나열했을 때)

proc univariate data=SAS-data-set PLOT NORMAL;

run;

 

정규성.png

 

정규확률그림.png

-> 직선과 가까운 형태를 나타내는 것으로 보아 오차들은 정규성 가정을 만족

 

 

2. 독립성

- 가정 : 시간에 따라 나열된 오차들은 서로 상관관계가 없으며 독립이다.

- 더빈-왓슨 통계량(DW)를 통해 확인

-> DW값이 2에 가까우면 오차항간 독립성 존재. 즉, 오차항간 상관관계가 없으며 가정이 타당

                    4에 가까우면 인접오차항간 음의 상관관계 존재

                    0에 가까우면 인접오차항간 양의 상관관계 존재

 

proc reg data=SAS-data-set;

model y=x / DW;

run;

  

더빈 소스.png

 

더빈왓슨.png

-> DW값 = 1.703으로 2에 가까운 값을 나타내므로 오차항간 상관관계가 없고 독립성 가정을 만족

 

 

3. 등분산성

- 가정 : 오차들의 퍼진 정도가 아무런 패턴 없이 고르게 퍼져있다.

- 잔차그림(잔차 대 적합값 또는 독립변수 그래프)을 통해 확인

-> 잔차(residual) vs. 적합값(y_hat = fitted value)

     잔차(residual) vs. 독립변수(x_i = i번째 regressor)

proc (g)plot data=SAS-data-set;

plot e*hat;

plot e*x_i;

run;

 

잔차그림소스.png

 

e vs_ hat.png

-> 잔차 vs. 적합값

     :  Y축(잔차)의 0을 기준으로 특정 패턴이 나타나지 않고 고르게 퍼져있다고 할 수 있음

 

 

e vs_ adcost.png

-> 잔차 vs. 독립변수 adcost (여기서는 독립변수가 하나이므로 하나의 독립변수와만 그래프 생성)

     : Y축의 0을 기준으로 특정 패턴 없이 고르게 퍼져있다고 할 수 있음

 

Version history
Last update:
‎06-15-2020 05:33 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags