[SAS 활용 노하우] 추론과정을 통한 데이터 분석 2

LMEANS Statement

PROC GLM에서 사용할 수 있는 또 다른 명령문은 LSMEEANS 명령문입니다.

정사각형을 의미합니다. 명령문을 사용하여 최소 제곱을 찾고자 하는 분류 변수를 추가합니다.

LSMEANS class-variable < / options>;

ADJUST= 옵션을 사용하여 여러 동시 비교를 요청할 수 있습니다.

Tukey, Bonferroni, Dunnett 또는 Scheffe adjustments 옵션들을 아래의 테이블에서 볼 수 있습니다.

LSMEANS 문을 사용하면 분류 변수의 각 수준에 대한 판매 가격의 최소 제곱 평균을 얻을 수 있고 비교도 얻을 수 있습니다. 가설 검정의 p-값이 0.002로, 이는 우수한 가열 품질과 양호한 가열 품질이 유의하게 다르다는 것을 나타냅니다.

수준 2와 수준 3을 비교하고, Good와 Average를 비교해보면, p-값이 확실히 0.05 이상이어서 서로 유의하게 다르지 않음을 알 수 있습니다.

image (11).png

image (12).png

image (13).png

비교표와 동일한 정보를 가지고 있는 기본 그래픽도 볼 수 있습니다.

예를 들어, 보통은 Average, Good 및 Excellent와 크게 다르며 Average와 Good은 크게 다르지 않다는 것을 알 수 있습니다.

ESTIMATE Statement

PROC PLM을 사용하여 새 데이터 세트에 점수를 매기는 방법에 대해 이야기했습니다.

선형 테스트를 하고 싶다면 어떻게 해야 할까요?

R 에서는 매개변수의 기능 또는 선형 조합에서 베타 모자 계수에 a를 곱할 수 있습니다. 그러면 선형 조합이 제공됩니다.

SAS에서 주효과를 테스트하려는 경우 또는 단순히 하나의 주택 가격을 추정하는 경우 ESTIMATE 문에서 직접 할 수 있습니다.

ESTIMATE 'estimate-name' class-variable
linear-combination < / options>;

proc glm data=ameshousing;
...   /*1*/
estimate 'mu1 vs the rest'
heating_qc 3 -1 -1 -1 / divisor=3;  /*2*/
run;quit;

MODEL Statement 를 생략합니다
EMUTMENT 문에서는 mu1에 대한 주효과를 mu2와 동일하게 검정하려고 합니다. 먼저, 견적서에 이름을 붙입니다. 따옴표에서 mu1 - mu2를 지정한 다음 분류 변수 heating_qc를 전달합니다. 그런 다음 L 벡터에 대한 계수를 지정합니다. 우수할 경우 계수 1을, 양호할 경우 -1을 원합니다. 나머지는 모두 0으로 설정됩니다. 만약 우리가 0을 생략한다면, 그것은 필요한 경우 모든 나머지 계수를 0으로 설정할 것이다.

image (14).png

엑설런트 주택의 매매가는 난방 조건은 좋은 난방 조건의 주택보다 평균 약 $24,000 더 높습니다. 우리

또한 표준 오차, t 값 및 p-값을 얻습니다. 여기서 p-값은 주효과 차이가 통계적으로 유의미하다는 것을 알 수 있습니다.

proc glm data=ameshousing;
...
estimate 'mu1 vs the rest'
heating_qc 3 -1 -1 -1 / divisor=3;
run;quit;

image (15).png

ESTIMATE 문에서 E 옵션을 사용하는 것이 좋습니다.

계수는 0입니다. 우수의 계수는 1이고 나머지는 계수가 -1/3입니다.

proc glm data=ameshousing;
...
estimate 'mu1 vs the rest'
heating_qc 3 -1 -1 -1 / e divisor=3;
run;quit;

image (16).png

단일 분류 변수를 사용한 분산 분석에 대해 이야기했습니다.

PROC GLM에서는 다음 ANCOVA 모델과 같은 공분산 분석에 연속 변수를 추가할 수 있습니다.

PROC GLMSELECT

더 간결한 모델을 얻기 위해서는 PROC GLMSELECT를 사용하여 효과 선택을 수행할 수 있습니다.

PROC GLMSELECT는 일반적인 선형 모델 에만 해당되지만 모델을 맞추는 것은 이번 게시을 앞에서 소개한 것과 절차와 정확히 동일합니다.

동일한 CLASS 및 MODEL 문을 사용합니다. 차이점은 효과 선택을 수행하기 위해 다른 옵션을 지정한다는 것입니다.

PROC GLMSELECT DATA=data-table-name;
CLASS categorical-variables;
MODEL dependent-variable = model-effects / options;
RUN;

PROC GLMSELECT는 PROC GLM과 PROCREG의 기능을 결합하므로 모든 작업을 수행할 수 있습니다. 일반 선형 모형, 모든 다중 선형 회귀 분석, 분산 분석, PROC의 공분산 권한 분석 등을 수행할 수 있습니다. 위는 PROC GLMSELECT의 Syntax입니다.

다른 PROC 문에서는 그래픽을 출력할 수 있습니다. 예를 들어 PROC GLM에서 단방향 분산 분석을 수행하고 있다는 것을 알고 있으면 자동으로 나란히 상자 그림을 출력합니다.

PROC GLMSELECT은 그래픽을 출력하지 않습니다.

SELECTION= Option

다중 선형(multiple linear regression), ANOVA, ANCOVA를 수행하려면 PROC GLMSELECT에서 SELECTION= 선택 방법을 지정하고 NONE으로 지정하는 옵션입니다.

PROC GLMSELECT에서 효과 선택을 하려면 다음 방법을 사용할 수 있습니다.

SELECTION 옵션에서 가장 많이 사용하는 방법은 LASSO, ELASSICNET, GROUPLASSO가 있습니다.

선택 방법은 모형 모수 추정치를 0으로 축소할 가능성에 대해 패널티를 적용합니다.

EFFECTS Statement

PROC REG에서 다항식 회귀를 생성할 때 먼저 2차 함수를 생성해야 했습니다.

DATA 단계를 사용하여 PROC GLMSELECT를 사용하여 이 프로세스를 조금 더 간단하게 만들 수 있습니다.

특히 EFFECTS 문을 사용하여 다음 구문을 사용하여 DATA 단계에서 새 변수 생성을 우회할 수 있습니다.

EFFECTS Statement

EFFECTS 문을 사용하고 가장 먼저 이름을 지정합니다. 아래의 예시에서는 x_new가 됩니다.

proc glmselect data=paper outdesign=des;
effect x_new = polynomial(amount / degree=5);     /*1.*/
model strength = x_new / selection=none;          /*2.*/
run;quit;

1. x_new는 EFFECT 문이 생성하는 새로운 예측자 집합을 나타내며 다음을 설정합니다.

effect type과 동일합니다. 이 경우 다항식과 동일하게 설정하지만 스플라인을 사용할 수도 있습니다.

다항식 회귀를 만들고 싶습니다.

5차까지의 amount 변수, 그리고 그것들은 x_new 변수에 포함될 것입니다.

2. MODEL 문에서 강도를 지정하고 이를 새로운 회귀자 세트인 x_new와 동일하게 설정합니다.

선택 프로세스를 수행하지 않으므로 selection= 을 none입니다.

다항식 효과 유형이며 outdesign= to 옵션을 사용해야 합니다.

DATA 단계를 사용할 필요 없이 최대 차수 5까지의 모든 회귀 변수를 사용하여 새 SAS 데이터 세트를 생성합니다.

proc reg data=des;
      model y = &_glsmod;
run;quit;

PROC GLMSELECT에서 EFFECTS 문을 사용하면 예측 변수를 나타내는 매크로 변수가 생성됩니다.

지정했습니다.

위의 예시에서는 &_glsmod는 X, X2, X3, X3에서 X5까지를 나타냅니다.

위와 같이 매크로 변수를 PROC REG의 MODEL 문에 전달할 수 있습니다.

변수를 PROC REG로 전달하는 경우 데이터 세트가 PROC GLMSELECT의 아웃 디자인 옵션에서 나온 OUTPUT 데이터 세트인지 확인할 수 있습니다.

PROC GLMSELECT를 사용하여 새 회귀 변수와 새 SAS 데이터 세트를 생성하고 있습니다.

그런 다음 해당 정보를 PROC REG에 전달하여 다항식 회귀를 수행합니다.

GLMSELECT를 사용하지만 PROC REG에서 더 많은 플롯들을 생성 할 수 있습니다. EFFECTS 문을 사용하여 생성하는 경우 PROC GLMSELECT의 변수 세트와 효과 선택 프로세스를 수행하는 새 매크로 변수 생성하는 SAS 데이터 세트에는 최종 모델 선택의 예측 변수만 있습니다.

따라서 예를 들어 역효과에서 4제곱과 5제곱에 해당하는 양을 삭제하면 데이터 세트 des에는 변수 amount, amount만 있습니다.

SAS Tech & Tip