잔차분석
앞에서 기본적인 분포에 대한 확인을 했다면 이번에는 잔차에 대한 분석을 할 차례입니다.^^
오차가 있는 분석의 경우 일반적으로 오차는 정규성, 독립성, 등분산성 이 세 가지를 만족한다는 가정을 따릅니다.
그리고 오차에 주어진 가정을 검토하기 위해 잔차(e = y - y_hat (y_hat : 모형 적합값) )를 이용합니다.
여기서는 여러 가지 분석 중 회귀분석에 대하여 잔차 검정을 하겠습니다. (하지만 본격적인 회귀분석은 뒤에서 합니다^^)
0. 회귀모형을 적합 & 잔차(residual) SAS-data-set을 생성
** res라는 SAS-data-set을 생성하여 R(residual)은 'e'로, h(fitted value)는 'hat'이란 이름으로 저장
1. 정규성
- 가정 : 오차들은 정규분포를 따른다.
- 정규확률그림을 통해 확인
-> 직선에 가까울수록 정규분포 가정이 타당
** 정규확률그림 : i 번째 정규점수(표본정규분포에서의 이상적인 표본) vs. i 번째 순서의 자료(자료를 작은 것부터 크기순으로 나열했을 때)
proc univariate data=SAS-data-set PLOT NORMAL; run; |
-> 직선과 가까운 형태를 나타내는 것으로 보아 오차들은 정규성 가정을 만족
2. 독립성
- 가정 : 시간에 따라 나열된 오차들은 서로 상관관계가 없으며 독립이다.
- 더빈-왓슨 통계량(DW)를 통해 확인
-> DW값이 2에 가까우면 오차항간 독립성 존재. 즉, 오차항간 상관관계가 없으며 가정이 타당
4에 가까우면 인접오차항간 음의 상관관계 존재
0에 가까우면 인접오차항간 양의 상관관계 존재
proc reg data=SAS-data-set; model y=x / DW; run; |
-> DW값 = 1.703으로 2에 가까운 값을 나타내므로 오차항간 상관관계가 없고 독립성 가정을 만족
3. 등분산성
- 가정 : 오차들의 퍼진 정도가 아무런 패턴 없이 고르게 퍼져있다.
- 잔차그림(잔차 대 적합값 또는 독립변수 그래프)을 통해 확인
-> 잔차(residual) vs. 적합값(y_hat = fitted value)
잔차(residual) vs. 독립변수(x_i = i번째 regressor)
proc (g)plot data=SAS-data-set; plot e*hat; plot e*x_i; run; |
-> 잔차 vs. 적합값
: Y축(잔차)의 0을 기준으로 특정 패턴이 나타나지 않고 고르게 퍼져있다고 할 수 있음
-> 잔차 vs. 독립변수 adcost (여기서는 독립변수가 하나이므로 하나의 독립변수와만 그래프 생성)
: Y축의 0을 기준으로 특정 패턴 없이 고르게 퍼져있다고 할 수 있음
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.