BookmarkSubscribeRSS Feed

2-1. Analysis Of Variance(ANOVA): 분산분석(일원분산분석)

Started ‎06-15-2020 by
Modified ‎06-23-2020 by
Views 11,670

2-1. Analysis Of Variance(ANOVA): 일원분산분석

안녕하세요~^^

이번 시간에는 분산분석의 개념과 일원분산분석(One-Way ANOVA)에 대해 공부해봅시다.

​​설명변수가 범주형이고 반응변수가 연속형인 경우에 사용할 수 있는 분석 방법이 분산분석입니다.

​여러 개의 범주형 level들의 평균 간의 차이가 있는지 확인해보기 위해 분산분석을 사용합니다.

​분산분석에 사용되는 분포는 F-분포입니다.

-총 변동(Total Variation)은 반응 변수의 전체적인 변동을 나타냅니다.

 

SE22016031722341470.png를 계산하면 총변동 SST(Total Sum of Squares)를 얻을 수 있습니다.

 

-그룹 간 변동(Between Group Variation)은 독립변수에 의해서 설명되는 변동입니다.

 

SE22016031722360270.png를 계산하면 그룹 간 변동 SSM(Model Sum of Squares)을 얻을 수 있습니다.

 

-그룹 내 변동(Within Group Variation)은 모델에 의해서 설명되어지지 않는 변동입니다.

 

SE22016031722372070.png를 계산하면 그룹 내 변동 SSE(Error Sum of Squares)를 얻을 수 있습니다.

 

=> SST=SSM+SSE

 

 

분산분석에 사용되는 F통계량은 다음과 같이 계산할 수 있습니다.

 

SE22016031722403770.png

분산분석에서는 결정계수도 구할 수 있습니다. 결정계수란 모델에 의해 설명되는 변동의 비율, 즉 독립변수에 의해서 설명되는 변동성 비율로SE22016031722421770.png로 구할 수 있습니다.

​일원분산분석은 Proc ANOVA를 사용하는데 기본 프로시져는 다음과 같습니다.

PROC ANOVA DATA=SAS-data-set;

CLASS variable;

MODEL dependents = independents;

MEANS effects ;

RUN;

 

CLASS문장에는 분석의 classification variables(기준변수)를 씁니다.

MODEL문장에는 반응변수와 설명변수를 씁니다.

​​

MEANS문장은 주어진 효과에 대한 각 반응변수의 조정되지 않은 평균을 계산할 때 사용합니다.

이제 일원분산분석을 예제를 통해 알아보겠습니다. 일원분산분석의 가설은 다음과 같습니다.

귀무가설: 각 처리 간 평균은 동일하다.

대립가설: 적어도 하나의 평균은 다르다.

 

다음과 같이 코드를 입력하고 자료를 불러들입니다.

SE22016031723011870.jpg

 

범주형 변수 Sound는 소리의 처리 방법입니다. 소리의 처리 방법에 따라 score의 차이가 있는지 확인해 봅시다.​

 

 

======================================================================

 

 

 Proc ANOVA

 

SE22016031723023370.jpg

 

 

SE22016031723045770.jpg

첫 번째 표는 Class의 level 수, level의 값과 총 읽어들인 관측치 수를 보여줍니다.

SE22016031723071770.jpg

ANOVA table은 Model, Error, Total의 제곱합이 나와있고 각 자유도 값을 나누어서 평균제곱합을 구한 후 계산된 F통계량을 보여줍니다. 위 자료의 F=3.59, p-value=0.0454로 유의수준 5%에서 p-value값이 유의수준보다 작으므로 귀무가설을 기각합니다.

따라서 ​소리의 처리 방법 간에 score의 차이가 있다고 볼 수 있습니다.

결정계수도 확인할 수 있는데 ​0.255로 독립변수에 의해 설명되는 변동성이 약 25.5%라는 것을 알 수 있습니다.

 

SE22016031723023370.jpgSE22016031723223070.jpg

위 그림은 ​level 각각의 box plot입니다. 처리 간 분포의 차이를 확인할 수 있습니다.

 

SE22016031723242870.jpg

위 결과는 자료의 처리간 등분산을 검정하는 것으로 p-value=0.6630이므로 유의수준 5%일 때 '처리 간 분산은 동일하다'는 귀무가설을 기각할 수 없습니다. 따라서 각 처리는 분산이 동일하다는 것을 확인할 수 있습니다.

 

 

SE22016031723344470.jpg

Welch’s ANOVA는 등분산 가정을 만족하지 않을 경우 자료를 분산분석을 수행할 수 있는 HOVTEST WELCH 옵션을 통해 계산된 결과입니다.

SE22016031723380570.jpg

마지막 표는 각 처리level의 평균과 표준편차를 보여줍니다.

 

 

 

 

 

이상으로 분산분석의 개념과 일원분산분석 설명을 마칩니다.

​다음에는 Randomized Block Design에 대해 알아봅시다.

 

 

Version history
Last update:
‎06-23-2020 05:36 AM
Updated by:
Contributors

sas-innovate-white.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Early bird rate extended! Save $200 when you sign up by March 31.

Register now!

Article Labels
Article Tags