이번 게시글은 'SAS 실전 활용 가이드 6'의 이어지는 글입니다.
동일한 BASEBALL 데이터를 활용합니다.
이번 게시글은 회귀분석에 대해서 다루려고 합니다.
회귀분석은 데이터를 기반으로 변수 간 관계를 분석하는 중요한 통계 기법으로 의사결정을 내리는데 유용하게 활용할 수 있습니다.
- out 횟수(nOuts)가 Salary (연봉)에 미치는 영향.
PROC REG DATA = BASEBALL;
MODEL SALARY =nOuts;
run;
PROC REG: BASEBALL 데이터셋을 활용해서 회귀분석(Regression)을 수행한다라는 statement 입니다.
MODEL salary = nOuts: 종속변수는 salary 이고, 독립변수는 nOuts입니다.
위 결과값을 해석하겠습니다.
① Number of Observations
Number of Observations Read: 322
→ 데이터셋에서 총 322개 관측치를 읽었습니다.
Number of Observations Used: 263
→ 결측치가 있는 59개의 데이터를 제외하고 263개의 데이터만분석에 사용했습니다.
Number of Observations with Missing Values: 59
→ 결측치가 있는 관측치 59개.
② ANOVA - Analysis of Varience 테이블
F Value = 25.90 & p-value <0.0001
→ 아웃횟수가 연봉에 유의미한 영향을 끼친다라고 해석할 수 있습니다.
→ p-value가 0.05보다 작기 때문에 아웃횟수가 통계적으로 유의미한 영향을 끼칩니다.
③ Model Summary
Root MSE: 예측 잔차의 표준편차가 431. 1
R-Square (결정계수): 0.0903
→ nOuts가 Salary 의 변동성 중 약 9.03을 설명합니다.
Adj R-Square: 0.0868
→ 변수 수를 고려해도 설명력이 유지됩니다.
Coefficient of Varience: 80.44%
→ 상대적으로 오차가 크다라고 해석할 수 있습니다.
④ Parameter Estimates
Intercept (절편): 395.15532
→ nOuts(아웃횟수)가 0일 때 Salary 는 395.16 값을 가집니다.
nOuts (기울기): 0.48423
→ nOuts 이 1 증가할 때 Salary 는 평균적으로 0.48만큼 증가합니다.
t-value
→ nOuts의 p-value가 <0.0001로 매우 작습니다. 그러므로, nOuts가 Salary 가 유의미한 양의 영향을 준다라고 해석할 수 있습니다.
Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.