이번 게시글은 'SAS 실전 활용 가이드 7'의 이어지는 글입니다.
동일한 BASEBALL 데이터를 활용합니다.
이번 게시글은 다중 회귀분석에 대해서 다루려고 합니다.
다중 회귀분석은 하나의 종속변수와 여러 개의 독립변수간의 관계를 분석하는 통계 기법입니다.
다중 회귀분석을 통해 각 독립 변수의 상관 관계와 영향력을 평가하고 예측 모델을 만들 수 있습니다.
proc reg data = baseball;
model salary = nHome nHits nRuns nAtBat nRBI nBB nOuts nAssts nError;
run;
PROC REG: 회귀분석을 수행하는 SAS statement 입니다.
MODEL: 회귀 모델을 정의하는 statement 로 SALARY를 예측하는 모델을 설정합니다.
→ salary 는 종속 변수로 예측하고자 하는 값 입니다. 선수들의 연봉을 예측하기 위해 nHome(홈런수), nHits(히트 수), nRuns(득점수), nAtBat(타석 수), nRBI(타점 수), nBB(볼넷 수), nOuts(아웃 수), nAssts(어시스트 수), nError(실책수)는 독립변수로 선수들의 여러 통계 지표입니다.
결과의 해석은 다음과 같습니다.
1. 데이터 요약
Number of Observations Read: 322개
Number of Observations Used: 263개 (59개는 결측치로 인해 제외됨)
→ 결측값이 있는 데이터는 회귀 분석에서 제외했습니다.
2. ANOVA
F-Value = 18.83 이고, P-Value < 0.0001.
→ 모델 전체가 유의미한 값을 가진다라고 할 수 있습니다.
Adj R-Square = 0.4011
→ 다중회귀 분석으로 세워진 모델이 변동의 약 40.1 %를 설명할 수 있습니다.
Root MSE = 355.27
→ 평균 오차 크기
설명력은 중간 정도로 평가할 수 있습니다. (R2 의 값이 0.4일 경우 설명력이 그렇게 높지는 않습니다.)
3. Parameter Esimates _ 회귀계수
nHits & nBB 계수: salary 에 유의미한 영향을 줍니다.
nRBI는 10%의 유의수준에서 평가를 하자먄 약간의 영향이 있을 수 있습니다.
나머지 변수들은 통계적으로 유의미하지 않습니다.
Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.