BookmarkSubscribeRSS Feed

SAS 실전 활용 가이드 10

Started 3 weeks ago by
Modified 3 weeks ago by
Views 115

지난 게시글에서난 자동차 데이터 셋을 활용해 기본적인 다중회귀분석을 진행했습니다.

이번 게시글은 같은 데이터셋을 활용해 모델 구성과 분석 해석에 있어 새로운 방법을 적용하고자 합니다.

 

 

proc reg data = car;
model horsepower = cylinders weight wheelbase length / vif;
run;

 

 

  • 독립변수: Cylinders, Weight, Wheelbase, Length

  • 종속변수: Horsepower

 

 

 

image.png

 

 

 

 

 

 

1. ANOVA

image.png

 

 

 

모델은 전체 변동성의 67.4% 를 설명합니다.

F-statistic의 P-value <0.0001로 회귀모델은 통계적으로 유의미하다라고 할 수 있습니다.

 

 

 

 

 

 

2. Parameter Estimates

 

 

image.png

 

 

 

 

 

3. 다중공선성 (VIF) 확인

  • Cylinders: 2.2967

  • Weight: 6.1536

  • Wheelbase: 3.6302

  • Length: 4.9547

VIF가 10 미만이므로 심각한 다중공선성 문제는 없지만,

Weight 변수가 VIF(6.15)로 다른 변수에 비해 높은 편이므로 주의할 필요가 있습니다. (변수변환 등의 방법을 사용할 수 있습니다.)

 

 

 

 

4. 잔차 분석 (모델 진단)

 

image.png

 

 

 

  • 잔차 vs 예측값 플롯:

→ 잔차가 대체로 수평하게 분포해서 선형성 가정은 대체로 만족하는 경향이 있습니다.

  • QQ 플롯 (정규성):

→ 중간 부분은 직선에 잘 맞지만 양 끝 부분에서 약간 벗어나는 모습을 보이고 있습니다. 정규성 가정은 대체로 괜찮지만, 극단값이 있어 데이터 보정이 필요할 수 있습니다.

  • Cook's Distance 플롯:

→ 일부 관측치가 다른 데이터에 비해 영향력이 큰 것으로 보임 특이점 존재 가능).

  • 잔차 히스토그램:

→ 대체로 정규분포 형태를 따르나 약간의 비대칭성 존재합니다.

 

 

Version history
Last update:
3 weeks ago
Updated by:
Contributors

sas-innovate-white.png

Missed SAS Innovate in Orlando?

Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.

 

Register now

Article Labels
Article Tags