■ SAS: 분산분석
사용된 데이터는 MGGarlic 데이터로 비료의 종류에 따라 마늘의 성장에 영향을 주는 지 알아볼 수 있는 데이터 셋입니다.
MGGarilc 데이터 셋에는 아래의 4개의 변수로 구성되어 있습니다.
Fertilizer 변수: 사용된 비료의 종류이며 categorical 변수로 1,2,3,4의 값을 가지고 있습니다.
BulbWt 변수는 구역별 마늘의 평균 무게이메 파운드로 무게를 측정하고 있습니다.
Cloves 변수는 구역별 마늘의 평균 쪽 개수입니다.
BedID는 랜덤으로 할당된 구역 식별 번호 입니다.
데이터의 개수는 32개로 땅을 32개로 나누어 각 구역마다 비료들을 랜덤하게 할당하여 시간이 지난 후에 마늘의 무게(BulbWt)와 마늘 쪽의 개수(Cloves)를 측정하려고 합니다.
즉, One-Way ANOVA를 이용하여 비료(Fertilizer)별 마늘의 무게(BulbWt)에 대한 평균이 통계적으로 유의미한 차이를 보이는지 알아보려고 합니다.
[일원분산분석] 에서 [종속변수]에는 BulWt 변수를 선택하고 , [독립변수]에는 Fertilizer 변수를 선택합니다.
분산분석표에는 모델과 오차에 대한 제곱합, F 통계량, 유의확률 등을 확인할 수 있습니다.
여기서 유의확률을 보면 0.1432로 0.05보다 크기 때문에 귀무가설을 기각할 수 없습니다.
따라서, 집단별 평균들은 통계적으로 유의한 차이가 없다라고 할 수 있습니다.
분산분석표에서 R-Square는 결정계수로 분산분석에서 독립변수들에 의해 설명되는 변동의 비율을 측정하는 통계량입니다.
R-Square는 0에서 1사이의 값을 가지고 독립변수들이 모형의 변동성을 많이 설명할수록 1에 가까운 값이 되고 변동성을 설명하지 못할수록 0에 가까운 값을 가집니다.
R-Square 의 식은 아래와 같습니다.
위의 분산분석표에서 R-Square값은 해석은 Fertilizer가 BulbWt에 대한 변동성을 17.34% 정도 설명한다라고 할 수 있습니다.
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!