BookmarkSubscribeRSS Feed

Linear Regression: SST = SSR + SSE

Started ‎05-29-2024 by
Modified ‎05-31-2024 by
Views 403

선형회귀에서 최선의 직선 y = mx +b 을 찾기 위해서 실제 값과 예측 값이 최소가 되는 방법을 사용합니다.

Normdist_regression (1).png

https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80

 

 

 

최적의 직선을 찾기 위해서 회귀모형의 적합도 지표가 필요합니다.

적합도 지표는 SST = SSR + SSE 라는 개념을 사용합니다.

 

image.png

 

 
 

 ■ SST (Total Sum of Squares); 총변동

 

스크린샷 2024-05-29 오후 4.08.05.png

 

 

 

개별 y의 편차 제곱합으로, 관측값에서 관측값의 평균을 뺀 결과의 총 합의 제곱을 의미한다.

이는, 전체에 대한 변동성을 나타냅니다. 전체 데이터의 총 변동령을 의미합니다.

각 데이터 값이 평균에서 얼마나 벗어나 있는지를 나타냅니다.

■ SSR(Sum of Squares due to Regression); 회귀 제곱합

 

스크린샷 2024-05-29 오후 4.08.22.png

 

 

 

SSR은 회귀 제곱합으로 예측값(y hat)에서 관측값(y)의 평균을 뺀 결과의 총합을 의미합니다.

직선에 대한 변동성을 의미하며 분석을 통해 설명이 가능한 수치입니다.

회귀 직선이 데이터의 변동을 얼마나 잘 설명하는지를 의미합니다.

예측값(y hat)은 회귀모델에 의해서 예측된 값을 의미합니다.

 

 

 

 ■ SSE(Sum of Squared Redisuals)

 

스크린샷 2024-05-29 오후 4.08.35.png

 

 

 

 

위의 식을 잔차 제곱의 합 RSS(Residual Sum of Squares) 라고 합니다.

실제 관측값(y)와 예측값 사이의 차인 잔차(residual)의 총합을 의미합니다.

위 식에서 y는 실제 데이터 값을 의미하고, ˆy(y hat)은 y = mx + b 단순 선형회귀 식에서 예측값을 의미합니다.

즉, RSS은 회귀식 추정값과 관측값의 평균 간 차이인 회귀 제곱합을 의미합니다.

예측값과 실제 관측값의 차이가 있을 수 있으나 회귀식으로는 설명할 수 없는 설명 불가능 수치를 의미합니다.

오차에 대한 변동성을 의미하고, 해당 값이 작을수록 좋은 모델입니다.

Version history
Last update:
‎05-31-2024 10:14 AM
Updated by:
Contributors

SAS Innovate 2025: Call for Content

Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!

Submit your idea!

Article Labels
Article Tags