지난 게시글에서난 자동차 데이터 셋을 활용해 기본적인 다중회귀분석을 진행했습니다.
이번 게시글은 같은 데이터셋을 활용해 모델 구성과 분석 해석에 있어 새로운 방법을 적용하고자 합니다.
proc reg data = car;
model horsepower = cylinders weight wheelbase length / vif;
run;
독립변수: Cylinders, Weight, Wheelbase, Length
종속변수: Horsepower
모델은 전체 변동성의 67.4% 를 설명합니다.
F-statistic의 P-value <0.0001로 회귀모델은 통계적으로 유의미하다라고 할 수 있습니다.
Cylinders: 2.2967
Weight: 6.1536
Wheelbase: 3.6302
Length: 4.9547
VIF가 10 미만이므로 심각한 다중공선성 문제는 없지만,
Weight 변수가 VIF(6.15)로 다른 변수에 비해 높은 편이므로 주의할 필요가 있습니다. (변수변환 등의 방법을 사용할 수 있습니다.)
잔차 vs 예측값 플롯:
→ 잔차가 대체로 수평하게 분포해서 선형성 가정은 대체로 만족하는 경향이 있습니다.
QQ 플롯 (정규성):
→ 중간 부분은 직선에 잘 맞지만 양 끝 부분에서 약간 벗어나는 모습을 보이고 있습니다. 정규성 가정은 대체로 괜찮지만, 극단값이 있어 데이터 보정이 필요할 수 있습니다.
Cook's Distance 플롯:
→ 일부 관측치가 다른 데이터에 비해 영향력이 큰 것으로 보임 특이점 존재 가능).
잔차 히스토그램:
→ 대체로 정규분포 형태를 따르나 약간의 비대칭성 존재합니다.
Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.