2-1. Analysis Of Variance(ANOVA): 일원분산분석
안녕하세요~^^
이번 시간에는 분산분석의 개념과 일원분산분석(One-Way ANOVA)에 대해 공부해봅시다.
설명변수가 범주형이고 반응변수가 연속형인 경우에 사용할 수 있는 분석 방법이 분산분석입니다.
여러 개의 범주형 level들의 평균 간의 차이가 있는지 확인해보기 위해 분산분석을 사용합니다.
분산분석에 사용되는 분포는 F-분포입니다.
-총 변동(Total Variation)은 반응 변수의 전체적인 변동을 나타냅니다.
를 계산하면 총변동 SST(Total Sum of Squares)를 얻을 수 있습니다.
-그룹 간 변동(Between Group Variation)은 독립변수에 의해서 설명되는 변동입니다.
를 계산하면 그룹 간 변동 SSM(Model Sum of Squares)을 얻을 수 있습니다.
-그룹 내 변동(Within Group Variation)은 모델에 의해서 설명되어지지 않는 변동입니다.
를 계산하면 그룹 내 변동 SSE(Error Sum of Squares)를 얻을 수 있습니다.
=> SST=SSM+SSE
분산분석에 사용되는 F통계량은 다음과 같이 계산할 수 있습니다.
분산분석에서는 결정계수도 구할 수 있습니다. 결정계수란 모델에 의해 설명되는 변동의 비율, 즉 독립변수에 의해서 설명되는 변동성 비율로로 구할 수 있습니다.
일원분산분석은 Proc ANOVA를 사용하는데 기본 프로시져는 다음과 같습니다.
PROC ANOVA DATA=SAS-data-set; CLASS variable; MODEL dependents = independents; MEANS effects ; RUN; |
CLASS문장에는 분석의 classification variables(기준변수)를 씁니다.
MODEL문장에는 반응변수와 설명변수를 씁니다.
MEANS문장은 주어진 효과에 대한 각 반응변수의 조정되지 않은 평균을 계산할 때 사용합니다.
이제 일원분산분석을 예제를 통해 알아보겠습니다. 일원분산분석의 가설은 다음과 같습니다.
귀무가설: 각 처리 간 평균은 동일하다.
대립가설: 적어도 하나의 평균은 다르다.
다음과 같이 코드를 입력하고 자료를 불러들입니다.
범주형 변수 Sound는 소리의 처리 방법입니다. 소리의 처리 방법에 따라 score의 차이가 있는지 확인해 봅시다.
======================================================================
Proc ANOVA
첫 번째 표는 Class의 level 수, level의 값과 총 읽어들인 관측치 수를 보여줍니다.
ANOVA table은 Model, Error, Total의 제곱합이 나와있고 각 자유도 값을 나누어서 평균제곱합을 구한 후 계산된 F통계량을 보여줍니다. 위 자료의 F=3.59, p-value=0.0454로 유의수준 5%에서 p-value값이 유의수준보다 작으므로 귀무가설을 기각합니다.
따라서 소리의 처리 방법 간에 score의 차이가 있다고 볼 수 있습니다.
결정계수도 확인할 수 있는데 0.255로 독립변수에 의해 설명되는 변동성이 약 25.5%라는 것을 알 수 있습니다.
위 그림은 level 각각의 box plot입니다. 처리 간 분포의 차이를 확인할 수 있습니다.
위 결과는 자료의 처리간 등분산을 검정하는 것으로 p-value=0.6630이므로 유의수준 5%일 때 '처리 간 분산은 동일하다'는 귀무가설을 기각할 수 없습니다. 따라서 각 처리는 분산이 동일하다는 것을 확인할 수 있습니다.
Welch’s ANOVA는 등분산 가정을 만족하지 않을 경우 자료를 분산분석을 수행할 수 있는 HOVTEST WELCH 옵션을 통해 계산된 결과입니다.
마지막 표는 각 처리level의 평균과 표준편차를 보여줍니다.
이상으로 분산분석의 개념과 일원분산분석 설명을 마칩니다.
다음에는 Randomized Block Design에 대해 알아봅시다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Early bird rate extended! Save $200 when you sign up by March 31.