BookmarkSubscribeRSS Feed

[SAS 활용 노하우] one-way ANOVA

Started ‎08-29-2021 by
Modified ‎08-29-2021 by
Views 4,700

 

 

분산분석은 셋 이상의 모집단에서 관측된 자료에서 대하여 각 모집단의 평균값이 같다고 할 수 있는지 검정하는데 쓰이는 통계분석법입니다. 분산분석법은 특히 일반선형모형을 가정한 비교실험 자료를 분석하는 주된 통계기법입니다.

 

다음 아래는 일원산분산분석(one - way ANOVA)의 자료구조입니다.

단일 요인(single factor) A의 수준(level), 즉 처리(treatment)의 수가 a인 경우로 각 수준마다 ni(i = 1, ... a)회 반복하고 있습니다

 

 

스크린샷 2021-08-29 오후 11.16.02.png

 

 

 

이런 데이터에서 분석목표는 요인 A의 수준 간, 즉 처리 간 표과 차이가 존재하는지 여부에 대한 통계적 판단입니다. 그리고 각 처리의 대표값으로 평균을 고려하는 것이 상례이므로 처리 간 효과 차이 여부를 확인하려는 것은 결국 처리평균 간에 통계적으로 유의한 차이가 있는지 여부를 검정하는 문제로 귀착됩니다. 따라서 다음과 같이 적절한 가설을 설정합니다.

 

H0 : μ1 = μ2 = ... = μa

H1:  not H0

 

 

분산분석이 각 처리의 모평균 μi가 같은지 여부를 검정하려는 것입니다.

GLM(General Linear Model)은 균형으든 불균형이든 상관없이 어떤 형태의 선형모형 자료라도 다 처리할 수 있는 가장 일반적인 분석 프로시저이지만 그만큼 다루기가 복잡합니다. GLM은 프로시저는 최소제곱법을 이용하여 선형모형을 적합하는 모든 종류의 분산분석, 공분산분석, 회귀분석, 다변량분석 등 일체의 분석에 적용할 수 있습니다. 반면에 ANOVA 프로시저에는 제한된 GLM 프로시저로서 균형자료에 대한 분산분석 프로시저입니다. 일원 또는 이원분산분석, 불균형자료라도 ANOVA 프로시저로 해석할 수 있습니다. 결국 ANOVA 프로시저는 GLM프로시저의 부분집합에 해당하기 때문에 두 프로시저의 핵심 문법은 똑같습니다.

 

 

PROC GLM DATA = SASdataset;
     CLASS variables;
     MODEL dependent = indepents;
     BY variables;
     MEANS effects / TURKEY DUNCAN;
RUN;

 

 

GLM문에 딸린 부속 문장의 기능은 다음과 같습니다.

 

CLASS : 처리요인을 지정하고 반드시 MODEL 문장 전에 나와야 합니다.

MODEL : 자료에 적합된 모형을 지정합니다.

BY : 그룹별로 분석을 진행합니다. 변수들에 대한 순서화가 선행되어야 합니다.

MEANS : 다중비교(multi comaprison)를 합니다. 다중비교는 주효과(main effect)에 대해서만 가능합니다. Turkey, Duncan 등은 다중비교법의 이름입니다.

 

가장 대표적인 GLM 프로시저는 다음과 같이 CLASS문과 MODEL 문으로 이루어집니다.

 

 

PROC GLM DATA = SASdataset;
         CLASS variables;
         MODEL dependent = independent;
RUN;

 

단일요인 A에 대한 일원산분산분석에 대한 수리모형은 다음과 같습니다.

 

    스크린샷 2021-08-29 오후 11.37.43.png

 

그런데 통상적인 선형모형에서는 언제나 전체 평균 μ와 오차항 ε의 존재를 가정하기 때문에 이 두가지는 MODEL 문에는 따로 지정할 필요가 없습니다. 따라서 첨자를 무시하고 모형에서는 평균 μ와 오차항 ε를 제거하면 남는 것은 다음과 같습니다.

 

    스크린샷 2021-08-29 오후 11.41.25.png

실험요인이 A와 B의 두 가지인 이원 분류자료에서 상호작용효과를 포함하는 모형은 다음과 같습니다.

스크린샷 2021-08-29 오후 11.41.30.png

 마찬가지로 평균 μ와 오차항 ε를 제거하고 첨자를 고려하지 않으면 축소 표현된 모형은 다음과 같습니다.

 

스크린샷 2021-08-29 오후 11.42.45.png

 

 이에 대응하는 CLASS문과 MODEL문은 다음과 같이 작성합니다.

 

CLASS a b;
MODEL y = a b a*b;

 

 

[예제]

 

아래는 목화함유량 퍼센티지(pct)에 따라 변하는 섬유 장력(tensile)을 측정한 자료입니다.

여기서 요인은 목화 함유량이고, 실험수준으로 15%, 20%, 25%, 30%, 35%의 5개 처리를 선택하였고 각 수준별로 5회씩 반복 측정하였습니다.

 

 

DATA cotton;
   INPUT pct @;
   DO i = 1 TO 5;
      INPUT tensile @@; OUTPUT;
	END;
DATALINES;
15 7 7 15 11 9
20 12 17 12 18 18
25 14 18 18 19 19
30 19 25 22 19 23
35 7 10 11 15 11
;
RUN;

PROC ANOVA DATA = cotton;
CLASS pct;
MODEL tensile = pct;
MEANS pct / TUKEY DUNCAN;
RUN;

 

장력 데이터에 대한 프로그램 실행결과가 다음 아래와 같습니다.

요인, 또는 처리에 해당하는 용어가 'class'입니다. 이렇게 부르는 요인이 분류변수(classification variable)에 해당하기 때문입니다. 따라서 요인수준 또는 처리수준은 'class level'이라고 합니다.

 

 

스크린샷 2021-08-29 오후 11.52.08.png

 

 

분류변수의 이름이 pct, 자료에서 확인한 pct 수준수는 5, 입력된 수준 값은 15,20,25, 30,35입니다. 입력관측의 총수가 25입니다.

 

 

스크린샷_2021-08-29_오후_11.54.27.png

 

위의 출력결과는 분산분석의 결과로 그 아래에는 요인수준에 따른 자료의 분포를 비교할 수 있는 상자도표가 구분되어 도시되어 있습니다.

 

 

스크린샷_2021-08-29_오후_11.53.17.png

 

 

분산분석표의 오른쪽 상단의 'Pr > F'및에 나온 값이 바로 유의 확률입니다. 현재 이 값이 0.0001로 일반적인 유의수준 0.05보다 아주 작은값입니다. 

그러므로 '목화의 함유량 퍼센트(%)에 따라 섬유의 장력은 같지 않다.'라고 결론을 내릴 수 있습니다.

또한, R-Square는 결정계수로 0.746923으로 나와있습니다. 즉, 현재 우리가 가정한 일원산 분산 모형이 잘ㅇ력 데이터의 변화 패턴을 약 75% 정도 설명하고 있다라는 의미입니다.

오차평균제곱(MSE)로 현재 8.06으로 나와있습니다.

 

 

 스크린샷_2021-08-30_오전_12.00.23.png

 

 

 

다음은 덩컨의 다중비교 입니다.

일반적으로 효과 차이가 없는 수준은 밑줄로 연결하여 나타내곤 하는데 덩컨 방법으로 수행된 다중비교 결과를 정리하면 다음과 같이 요약할 수 있습니다.

 

스크린샷 2021-08-30 오전 12.05.15.png

 

여기서 색깔로 연결된 처리 간에는 효과 차이가 없습니다.

목화 함유량 %가 30%일 때 섬유 장력은 최대가 되며, 20%와 25%는 그 다음이며, 15%와 35%는 최하의 장력을 갖고 있습니다.

 

 

 스크린샷_2021-08-30_오전_12.05.51.png

 

다음은 Tukey 방법입니다.

위의 결과와는 다른 것을 볼 수 있습니다. 25%와 30%일 때 최대 장력은 최대가 되며, 이 두 수준 간에는 장력 차이가 없습니다. 또한, 15%와 35%에서 장력은 최소이며 역시 이 두 수준 간에는 장력 차이가 없습니다.

 

 

Version history
Last update:
‎08-29-2021 11:10 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags