통계학을 공부하는 분이라면 회귀분석에 대한 개념은 한번쯤 들어보셨을 것 입니다.
회귀분석을 간단히 말하면 '원인과 결과의 연관을 찾는 것' 입니다.
즉, 변수 X(원인)가 변수 y(결과)에 주는 영향을 아기 위한 방법으로 변수 X와 변수 Y 사이에 있는 관계를 직선 또는 곡선의 식으로 나타낸 것 입니다.
회귀분석을 통해서 a회사의 광고비(원인)가 매출(결과)에 주는 영향을 추정하여 결과를 예측할 수 있습니다.
이렇게 회귀분석을 통해서 원인이 결과에 주는 정도 또는 영향을 수치화할 수 있으며 예측 등에 사용할 수 있습니다.
또한, 이러한 추정된 회귀선이 통계적으로 의미가있는지도 확인할 수 있습니다.
회귀식의 이론 모델은 아래와 같습니다.
변수 Y: 종속변수 또는 목적변수
변수 X: 독립변수 또는 예측변수
a: 모회귀계수 절편
B: 기울기(파라미터)
u: 오차항
여기서 오차항은 변수 X이외의 요인이 변수 Y에 주는 영향을 나타내는 것으로 오차항은 확률변수로 나타냅니다 .
회귀분석에는 아래와 같이 2가지의 회귀분석이 있습니다.
● 단순선형 회귀
● 다중선형 회귀
선형회귀분석에서 사용할 변수들 의미에 대해서 알아보겠습니다.
● 설명변수(Explanatory Variables): 설명변수를 지정하지 않으면 상수항만 가진 모형이 됩니다.
● 그룹 분석변수(Group Analysis by): 그룹별로 회귀분석을 수행
● 빈도변수(Frequency Count): 관측치에 대한 빈도를 의미
● 상대 가중값 변수(Relative Weight): 가중 최소 제곱합을 위한 상대 가중값으로 사용할 변수를 의미. 음수가 없이 설정되어야 하며 1개의 변수만 지정할 수 있다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.