안녕하세요. 이번 시간에는 선형회귀분석 들의 여러 가정들의 만족 여부를 진단하는 방법에 대해 알아보겠습니다. 선형회귀분석에서는 가정에 대한 진단이 항상 같이 행해져야 합니다. 가정에 대한 진단은 잔차(residual)를 분석함으로써 이루어집니다. 잔차란 관측된 y값과 피팅된 모델의 예측값 간의 차이를 의미합니다. 잔차분석을 통해 등분산성 가정, 오차의 정규성 가정 등을 진단할 때 필요한 인사이트를 얻을 수 있습니다.
먼저 지지난 시간에 사용했던 resting 데이터셋을 이용하여 선형회귀모형을 적합하고 잔차분석을 해보겠습니다.
<그림1>
<그림 2>
먼저 그림1의 첫번째 패널을 살펴보면, 예측값에 대한 잔차 도표을 보면 어떤 명확한 패턴이 보이지 않으므로 등분산성에 대한 가정을 만족한다고 진단할 수 있습니다. 또한, 바로 밑의 정규확률도표를 보면 점들이 선에 어느정도 잘 붙어있는 것을 확인할 수 있습니다. 따라서 정규성 또한 만족한다고 진단할 수 있습니다. 그림2는 설명변수에 대한 잔차 도표로 어떤 명확한 패턴이 보이지 않습니다. 또한 2개 정도의 관측값이 상대적으로 큰 잔차를 갖는 것을 확인할 수 있는데, 이 관측값들은 이상치로 의심해볼 수 있습니다. 이번에는 지난 시간의 anearob 데이터셋을 이용하여 잔차 분석을 진행해보겠습니다. 절차는 위와 같으므로 생략하겠습니다.
<그림 3>
<그림 4>
마찬 가지로 잔차 도표에서 특정한 패턴을 확인할 수 없고 정규성 가정 또한 잘 만족한다고 결론 지을 수 있습니다.
이번 시간에는 선형회귀분석의 가정을 잔차 분석을 통해 진단하는 방법에 대해 알아보았습니다.
감사합니다.
Reference
도서 – Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!