선형회귀에서 최선의 직선 y = mx +b 을 찾기 위해서 실제 값과 예측 값이 최소가 되는 방법을 사용합니다.
https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80
최적의 직선을 찾기 위해서 회귀모형의 적합도 지표가 필요합니다.
적합도 지표는 SST = SSR + SSE 라는 개념을 사용합니다.
■ SST (Total Sum of Squares); 총변동
개별 y의 편차 제곱합으로, 관측값에서 관측값의 평균을 뺀 결과의 총 합의 제곱을 의미한다.
이는, 전체에 대한 변동성을 나타냅니다. 전체 데이터의 총 변동령을 의미합니다.
각 데이터 값이 평균에서 얼마나 벗어나 있는지를 나타냅니다.
■ SSR(Sum of Squares due to Regression); 회귀 제곱합
SSR은 회귀 제곱합으로 예측값(y hat)에서 관측값(y)의 평균을 뺀 결과의 총합을 의미합니다.
직선에 대한 변동성을 의미하며 분석을 통해 설명이 가능한 수치입니다.
회귀 직선이 데이터의 변동을 얼마나 잘 설명하는지를 의미합니다.
예측값(y hat)은 회귀모델에 의해서 예측된 값을 의미합니다.
■ SSE(Sum of Squared Redisuals)
위의 식을 잔차 제곱의 합 RSS(Residual Sum of Squares) 라고 합니다.
실제 관측값(y)와 예측값 사이의 차인 잔차(residual)의 총합을 의미합니다.
위 식에서 y는 실제 데이터 값을 의미하고, ˆy(y hat)은 y = mx + b 단순 선형회귀 식에서 예측값을 의미합니다.
즉, RSS은 회귀식 추정값과 관측값의 평균 간 차이인 회귀 제곱합을 의미합니다.
예측값과 실제 관측값의 차이가 있을 수 있으나 회귀식으로는 설명할 수 없는 설명 불가능 수치를 의미합니다.
오차에 대한 변동성을 의미하고, 해당 값이 작을수록 좋은 모델입니다.
Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!