BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Generalized Linear Models

Started ‎05-01-2022 by
Modified ‎05-01-2022 by
Views 3,182

 

 

이전 게시글에서는 일반적인 linear model에 대해서 다뤘습니다.

이번 게시글은 일반화된 선형 모델(Generalized Linear Model) 에 관해 알아볼 것 입니다.

통계 그래픽, 기타 정보 저장, 테이블, 보고서 작성 등을 수행할 수 있습니다.

R에서는 일반화된 선형 모델에 GLM 함수를 사용합니다.

GLM 함수를 사용할 때, 적절한 분포를 지정해야 합니다.

 

 

image (17).png

 

 

이번 게시글에서는 이항 데이터에 대한 로지스틱 회귀 분석과 포아송 회귀 분석에 대해 설명합니다.

PROC LOGISTIC

일반화 선형 모형을 학습할 때 가장 먼저 배우는 GLM은 로지스틱 회귀 분석일 가능성이 높습니다.

로지스틱 회귀 분석의 가정은 로짓이 예측 변수와 선형 관계를 갖는 것입니다.

이항 데이터와 이항 분포의 경우 성공 확률이 있습니다. 이진 변수를 모델링하기 위해 성공 확률을 모델링하려고 합니다. 아래의 그림을 보면 왼쪽에 있는 그래프에서 확률은 공변량과 선형적으로 연관되지 않습니다. 또한 0과 0 사이에 경계가 있습니다

 

 

 

 

 image (18).png

 

 

 

 

 

PROC LOGISTIC DATA=data-table-name <options>;
MODEL dependent-variable(EVENT=) = effects;
RUN;

 

 

 

 

로짓 변환을 수행하고 로짓 또는 로그 확률을 예측합니다.

로짓은 일반적으로 공변량과 관련이 있습니다. 그런 다음 이전과 같이 선형 모델을 간단히 지정할 수 있습니다.

 

 

 

 

proc logistic data=ameshousing;
model bonus(event='1') = basement_area;
run;

 

 

 

 

이번 게시글에서는 계속해서 ameshousing 데이터 세트를 사용해 것입니다.

종속 변수, 보너스, 판매 가격이 $175,000보다 크면 값이 1이고 값이 0입니다.

 

 

 

 

 image (19).png

 

 

 

 

 

 

 

기본적으로 PROC LOGISTIC 은 모델 적합 통계 테이블과 전역 귀무 가설 테스트를 얻습니다.

R의 residual deviance가 SAS의 값 157.838과 동일합니다.

또한, R의 편차는 여기에서 95.787의 우도비 검정 통계량입니다.

PROC GENMOD

PROC GENMOD를 사용하면 이항 분포뿐만 아니라 모든 분포를 지정할 수 있습니다.

GENMOD procedure는 그래픽, 테이블을 가져오고, 새로운 데이터 세트를 만드는 등의 작업 수행이 가능합니다.

예제에 사용될 데이터는 Female Horseshoe Crab Data (= 암컷 게 자료)를 사용합니다.

 

 

 image (20).png

 

 

 

 

데이터는 대략 위와 같습니다. width와 weight는 continuous variable이며 그 외의 변수인 Color, Spine(척추), statellites 변수는 count variable입니다.

여기서 possion regression을 사용합니다.

포아송 회귀이란 종속변수(dependent variable)가 포아송 분포를 따른다고 가정하고, 일반화 선형모형의 회귀분석을 수행한다. 특히 종속변수가 가산자료(count data)일때 주로 사용됩니다.

포아송 분포(poisson distribution)이란 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률 분포로 구간에서 발생하는 사건의 횟수를 추정하는데 매우 유용합니다.

 

 

 

 

 

 

 

poisson_distribution.png

 

 

 

 

 

proc genmod data=crab;
model satellites = weight / dist=poi;
run;

 

 

 

 

Female Horseshoe Crab Data 데이터 세트의 경우 위성을 예측하고 회귀 변수 가중치와 동일하게 설정합니다.

R에서 FAMILY= 옵션을 사용하는 것과 같은 방식으로 DIST= 옵션을 사용합니다.

family는 종속변수의 분포에 따라 다음과 같은 것들을 사용할 수 있다. 종속변수의 분포가 정규분포인 경우 gaussian, 이항분포인 경우 binomial, 포아송분포인 경우 poisson, 역정규분포인 경우 inverse.gaussian, 감마분포인 경우 gamma를 사용합니다.

Poisson 데이터를 위해 poi로 보냅니다. 다음과 같이 PROC LOGISTIC과 동일한 기본 출력을 생성합니다.

로지스틱 회귀 분석을 수행할 분포를 지정할 수 있습니다.

로지스틱 회귀 분석을 수행한다는 것을 알고 더 관련성이 높은 그래픽을 제공하기 때문에 PROC LOGISTIC을 사용하는 것이 좋습니다.

 

 

 image.png

 

 

 

 

위의 표에서 오른쪽 열이 기본 링크 함수임을 알 수 있습니다.

분포를 지정하면 해당 링크 기능이 자동으로 사용됩니다.

이항 분포의 경우 로짓이 사용됩니다. 포아송의 경우 로그 등을 사용합니다.

어떤 이유로든 링크 기능을 변경하려는 경우, 모델 문의 LINK= 옵션을 사용하면됩니다.

 

 

Version history
Last update:
‎05-01-2022 09:16 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags