BookmarkSubscribeRSS Feed

Linear Regression: SST = SSR + SSE

Started ‎05-29-2024 by
Modified ‎05-31-2024 by
Views 2,200

선형회귀에서 최선의 직선 y = mx +b 을 찾기 위해서 실제 값과 예측 값이 최소가 되는 방법을 사용합니다.

Normdist_regression (1).png

https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80

 

 

 

최적의 직선을 찾기 위해서 회귀모형의 적합도 지표가 필요합니다.

적합도 지표는 SST = SSR + SSE 라는 개념을 사용합니다.

 

image.png

 

 
 

 ■ SST (Total Sum of Squares); 총변동

 

스크린샷 2024-05-29 오후 4.08.05.png

 

 

 

개별 y의 편차 제곱합으로, 관측값에서 관측값의 평균을 뺀 결과의 총 합의 제곱을 의미한다.

이는, 전체에 대한 변동성을 나타냅니다. 전체 데이터의 총 변동령을 의미합니다.

각 데이터 값이 평균에서 얼마나 벗어나 있는지를 나타냅니다.

■ SSR(Sum of Squares due to Regression); 회귀 제곱합

 

스크린샷 2024-05-29 오후 4.08.22.png

 

 

 

SSR은 회귀 제곱합으로 예측값(y hat)에서 관측값(y)의 평균을 뺀 결과의 총합을 의미합니다.

직선에 대한 변동성을 의미하며 분석을 통해 설명이 가능한 수치입니다.

회귀 직선이 데이터의 변동을 얼마나 잘 설명하는지를 의미합니다.

예측값(y hat)은 회귀모델에 의해서 예측된 값을 의미합니다.

 

 

 

 ■ SSE(Sum of Squared Redisuals)

 

스크린샷 2024-05-29 오후 4.08.35.png

 

 

 

 

위의 식을 잔차 제곱의 합 RSS(Residual Sum of Squares) 라고 합니다.

실제 관측값(y)와 예측값 사이의 차인 잔차(residual)의 총합을 의미합니다.

위 식에서 y는 실제 데이터 값을 의미하고, ˆy(y hat)은 y = mx + b 단순 선형회귀 식에서 예측값을 의미합니다.

즉, RSS은 회귀식 추정값과 관측값의 평균 간 차이인 회귀 제곱합을 의미합니다.

예측값과 실제 관측값의 차이가 있을 수 있으나 회귀식으로는 설명할 수 없는 설명 불가능 수치를 의미합니다.

오차에 대한 변동성을 의미하고, 해당 값이 작을수록 좋은 모델입니다.

Contributors
Version history
Last update:
‎05-31-2024 10:14 AM
Updated by:

sas-innovate-2026-white.png



April 27 – 30 | Gaylord Texan | Grapevine, Texas

Registration is open

Walk in ready to learn. Walk out ready to deliver. This is the data and AI conference you can't afford to miss.
Register now and save with the early bird rate—just $795!

Register now

Article Labels
Article Tags