분산분석은 셋 이상의 모집단에서 관측된 자료에서 대하여 각 모집단의 평균값이 같다고 할 수 있는지 검정하는데 쓰이는 통계분석법입니다. 분산분석법은 특히 일반선형모형을 가정한 비교실험 자료를 분석하는 주된 통계기법입니다.
다음 아래는 일원산분산분석(one - way ANOVA)의 자료구조입니다.
단일 요인(single factor) A의 수준(level), 즉 처리(treatment)의 수가 a인 경우로 각 수준마다 ni(i = 1, ... a)회 반복하고 있습니다
이런 데이터에서 분석목표는 요인 A의 수준 간, 즉 처리 간 표과 차이가 존재하는지 여부에 대한 통계적 판단입니다. 그리고 각 처리의 대표값으로 평균을 고려하는 것이 상례이므로 처리 간 효과 차이 여부를 확인하려는 것은 결국 처리평균 간에 통계적으로 유의한 차이가 있는지 여부를 검정하는 문제로 귀착됩니다. 따라서 다음과 같이 적절한 가설을 설정합니다.
H0 : μ1 = μ2 = ... = μa
H1: not H0
분산분석이 각 처리의 모평균 μi가 같은지 여부를 검정하려는 것입니다.
GLM(General Linear Model)은 균형으든 불균형이든 상관없이 어떤 형태의 선형모형 자료라도 다 처리할 수 있는 가장 일반적인 분석 프로시저이지만 그만큼 다루기가 복잡합니다. GLM은 프로시저는 최소제곱법을 이용하여 선형모형을 적합하는 모든 종류의 분산분석, 공분산분석, 회귀분석, 다변량분석 등 일체의 분석에 적용할 수 있습니다. 반면에 ANOVA 프로시저에는 제한된 GLM 프로시저로서 균형자료에 대한 분산분석 프로시저입니다. 일원 또는 이원분산분석, 불균형자료라도 ANOVA 프로시저로 해석할 수 있습니다. 결국 ANOVA 프로시저는 GLM프로시저의 부분집합에 해당하기 때문에 두 프로시저의 핵심 문법은 똑같습니다.
PROC GLM DATA = SASdataset;
CLASS variables;
MODEL dependent = indepents;
BY variables;
MEANS effects / TURKEY DUNCAN;
RUN;
GLM문에 딸린 부속 문장의 기능은 다음과 같습니다.
CLASS : 처리요인을 지정하고 반드시 MODEL 문장 전에 나와야 합니다.
MODEL : 자료에 적합된 모형을 지정합니다.
BY : 그룹별로 분석을 진행합니다. 변수들에 대한 순서화가 선행되어야 합니다.
MEANS : 다중비교(multi comaprison)를 합니다. 다중비교는 주효과(main effect)에 대해서만 가능합니다. Turkey, Duncan 등은 다중비교법의 이름입니다.
가장 대표적인 GLM 프로시저는 다음과 같이 CLASS문과 MODEL 문으로 이루어집니다.
PROC GLM DATA = SASdataset;
CLASS variables;
MODEL dependent = independent;
RUN;
단일요인 A에 대한 일원산분산분석에 대한 수리모형은 다음과 같습니다.
그런데 통상적인 선형모형에서는 언제나 전체 평균 μ와 오차항 ε의 존재를 가정하기 때문에 이 두가지는 MODEL 문에는 따로 지정할 필요가 없습니다. 따라서 첨자를 무시하고 모형에서는 평균 μ와 오차항 ε를 제거하면 남는 것은 다음과 같습니다.
실험요인이 A와 B의 두 가지인 이원 분류자료에서 상호작용효과를 포함하는 모형은 다음과 같습니다.
마찬가지로 평균 μ와 오차항 ε를 제거하고 첨자를 고려하지 않으면 축소 표현된 모형은 다음과 같습니다.
이에 대응하는 CLASS문과 MODEL문은 다음과 같이 작성합니다.
CLASS a b;
MODEL y = a b a*b;
아래는 목화함유량 퍼센티지(pct)에 따라 변하는 섬유 장력(tensile)을 측정한 자료입니다.
여기서 요인은 목화 함유량이고, 실험수준으로 15%, 20%, 25%, 30%, 35%의 5개 처리를 선택하였고 각 수준별로 5회씩 반복 측정하였습니다.
DATA cotton;
INPUT pct @;
DO i = 1 TO 5;
INPUT tensile @@; OUTPUT;
END;
DATALINES;
15 7 7 15 11 9
20 12 17 12 18 18
25 14 18 18 19 19
30 19 25 22 19 23
35 7 10 11 15 11
;
RUN;
PROC ANOVA DATA = cotton;
CLASS pct;
MODEL tensile = pct;
MEANS pct / TUKEY DUNCAN;
RUN;
장력 데이터에 대한 프로그램 실행결과가 다음 아래와 같습니다.
요인, 또는 처리에 해당하는 용어가 'class'입니다. 이렇게 부르는 요인이 분류변수(classification variable)에 해당하기 때문입니다. 따라서 요인수준 또는 처리수준은 'class level'이라고 합니다.
분류변수의 이름이 pct, 자료에서 확인한 pct 수준수는 5, 입력된 수준 값은 15,20,25, 30,35입니다. 입력관측의 총수가 25입니다.
위의 출력결과는 분산분석의 결과로 그 아래에는 요인수준에 따른 자료의 분포를 비교할 수 있는 상자도표가 구분되어 도시되어 있습니다.
분산분석표의 오른쪽 상단의 'Pr > F'및에 나온 값이 바로 유의 확률입니다. 현재 이 값이 0.0001로 일반적인 유의수준 0.05보다 아주 작은값입니다.
그러므로 '목화의 함유량 퍼센트(%)에 따라 섬유의 장력은 같지 않다.'라고 결론을 내릴 수 있습니다.
또한, R-Square는 결정계수로 0.746923으로 나와있습니다. 즉, 현재 우리가 가정한 일원산 분산 모형이 잘ㅇ력 데이터의 변화 패턴을 약 75% 정도 설명하고 있다라는 의미입니다.
오차평균제곱(MSE)로 현재 8.06으로 나와있습니다.
다음은 덩컨의 다중비교 입니다.
일반적으로 효과 차이가 없는 수준은 밑줄로 연결하여 나타내곤 하는데 덩컨 방법으로 수행된 다중비교 결과를 정리하면 다음과 같이 요약할 수 있습니다.
여기서 색깔로 연결된 처리 간에는 효과 차이가 없습니다.
목화 함유량 %가 30%일 때 섬유 장력은 최대가 되며, 20%와 25%는 그 다음이며, 15%와 35%는 최하의 장력을 갖고 있습니다.
다음은 Tukey 방법입니다.
위의 결과와는 다른 것을 볼 수 있습니다. 25%와 30%일 때 최대 장력은 최대가 되며, 이 두 수준 간에는 장력 차이가 없습니다. 또한, 15%와 35%에서 장력은 최소이며 역시 이 두 수준 간에는 장력 차이가 없습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.