안녕하세요 MYSAS 홍보대사 최준입니다.
이제 점점 여름이 다가오고 있네요..ㅎㅎ 날씨가 덥네요!ㅎㅎ
이번에 연재할 내용은 바로 회귀분석 입니다~^_^
일반적으로 회귀분석은 전공자 뿐만 아니라 비전공자도 많이 알고 있지만,
그래도 통계에서 매우 중요한 분야이기 때문에 제가 다시 한번 연재해보겠습니다~^_^
Y= a + bx
회귀분석이란 하나의 종속 변수(Y : 예측하고자 하는 값)와 독립 변수(X : 예측자)사이의 관계를
명시하는 것을 의미합니다~
회귀분석은 일반적으로 결과에 대한 충격을 추정하거나 미래를 추론하는 데이터 간의
복잡한 관계를 모델화하는 데 사용됩니다.
일반적인 선형회귀에서의 종속변수는 연속형 변수[ex 몸무게, 키]를 의미하고, 독립 변수의 개수에 따라
단순 회귀 분석(독립변수가 한개인 경우), 다중 회귀 분석(독립변수가 두개 이상인 경우)로 나누어집니다.
(* 종속변수가 연속형 변수가 아닌 경우도 있습니다 [ex 채무 이행 불이행 여부 'O' or 'X']
이러한 경우에는 일반적인 선형회귀가 아닌 로지스틱 회귀분석 방법을 사용해야만 합니다)
이러한 회귀 분석의 장점과 단점은 다음과 같습니다.
장점 : 수치 데이터를 모델화 하기 위한 가장 일반적인 접근법, 거의 모든 데이터 모델화 가능
속성과 결과 간 관계의 견고성과 크기 추정이 가능
단점 : 데이터에 대한 강한 가정이 필요(선형성, 오차의 정규성, 오차의 등분산성, 오차의 등분산성)
, 결측치가 있으면 모델이 잘 형성되지 않음
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
실습
제가 예시로 보여주는 데이터는 미국의 환자 개인 특성정보에 따른 의료비 데이터입니다. (insurance.sas7bdat)
데이터는 1338개의 관측치와 7개의 변수(ex 나이, 성별...)을 가지고 있습니다.
Insurnace 데이터는 U.S. Census Bureau을 기반으로 가공된 미국 환자의 의료비 데이터입니다.
(참조 : Brett_Lantz, Machine Learning with R)
Insurance 데이터를 읽어온 후에 회귀분석 노드를 사용하여 환자 특성을 이용하여
의료비를 예측하는 모델을 만들어보겠습니다.
Insurance 데이터를 읽어올 때 한가지 Tip이 있습니다~
단계 4/8 메타데이터 관리자 옵션을 고급으로 설정한다면,
데이터의 통계량 정보도 손쉽게 불러올 수 있습니다.
고급 설정으로 불러온 데이터를 다음과 같이 통계량(T)를 체크해보면, Insurance 데이터의 통계량 정보를
손쉽게 파악할 수 있습니다.
(통계량 탐색 노드를 실행하지 않더라도 각 변수의 결측률이 없음을 손쉽게 파악할 수 있는 장점이 있죠~^^)
다음번 연재에서는 이제 본격적으로 회귀분석 노드의 여러 옵션을 사용하는 방법에 대해서 살펴보겠습니다~
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!