선형회귀에서 최선의 직선 y = mx +b 을 찾기 위해서 실제 값과 예측 값이 최소가 되는 방법을 사용합니다.
https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80
최적의 직선을 찾기 위해서 회귀모형의 적합도 지표가 필요합니다.
적합도 지표는 SST = SSR + SSE 라는 개념을 사용합니다.
■ SST (Total Sum of Squares); 총변동
개별 y의 편차 제곱합으로, 관측값에서 관측값의 평균을 뺀 결과의 총 합의 제곱을 의미한다.
이는, 전체에 대한 변동성을 나타냅니다. 전체 데이터의 총 변동령을 의미합니다.
각 데이터 값이 평균에서 얼마나 벗어나 있는지를 나타냅니다.
■ SSR(Sum of Squares due to Regression); 회귀 제곱합
SSR은 회귀 제곱합으로 예측값(y hat)에서 관측값(y)의 평균을 뺀 결과의 총합을 의미합니다.
직선에 대한 변동성을 의미하며 분석을 통해 설명이 가능한 수치입니다.
회귀 직선이 데이터의 변동을 얼마나 잘 설명하는지를 의미합니다.
예측값(y hat)은 회귀모델에 의해서 예측된 값을 의미합니다.
■ SSE(Sum of Squared Redisuals)
위의 식을 잔차 제곱의 합 RSS(Residual Sum of Squares) 라고 합니다.
실제 관측값(y)와 예측값 사이의 차인 잔차(residual)의 총합을 의미합니다.
위 식에서 y는 실제 데이터 값을 의미하고, ˆy(y hat)은 y = mx + b 단순 선형회귀 식에서 예측값을 의미합니다.
즉, RSS은 회귀식 추정값과 관측값의 평균 간 차이인 회귀 제곱합을 의미합니다.
예측값과 실제 관측값의 차이가 있을 수 있으나 회귀식으로는 설명할 수 없는 설명 불가능 수치를 의미합니다.
오차에 대한 변동성을 의미하고, 해당 값이 작을수록 좋은 모델입니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.