안녕하세요. 지난 시간에 이어서 시작 stall 위치가 경주에서의 우승에 영향을 미치는지에 대하여 알아보겠습니다. 지난 시간에는 먼저 일원빈도분석의 빈도표와 막대 그래프, 원 그래프를 통하여 각 stall마다 우승 횟수가 어떻게 다른지 비교해 보았습니다. 이번 시간에는 이를 통계적 방법을 이용하여 공식적으로 검정하는 카이제곱 적합도 검정에 대하여 알아보겠습니다.
카이제곱 적합도 검정
만약 stall 위치가 우승에 영향을 미치지 않는다면 우리는 각 stall에서 우승 횟수가 거의 같을 것으로 기대할 것입니다. 이를 아래와 같이 귀무가설로 설정할 수 있습니다.
귀무가설이 사실이라면, 144번 경주를 했을 경우 각 stall에서 우승 횟수는 144/8=18로 모두 같을 것입니다. 이를 기대도수(expected frequency)라고 합니다. 이를 실제 각 stall에서의 우승 횟수 즉, 관찰도수(observed frequency)와 비교합니다. 기대도수와 관찰도수의 큰 차이는 곧, 귀무가설이 옳지 않다는 증거가 됩니다. 그 차이에 대한 검정통계량으로 흔히 아래의 카이제곱 검정통계량을 사용합니다.
귀무가설이 사실이라면, 카이제곱 검정통계량은 근사적으로 자유도를 (k-1)로 가지는 카이제곱 분포를 따릅니다.
2. 데이터 ▶ sasue.racestalls를 테이블 선택
3. 역할 ▶ stall을 분석변수로 지정
4. 옵션 ▶ 통계량 ▶ 카이제곱 적합도 체크 ▶ 점근 검정 체크
그림1
그림2 <카이제곱 적합도 검정 결과>
그림3
그림3은 관찰도수와 기대도수의 차이를 그래프로 나타낸 결과입니다. stall 1부터4 까지는 양의 값을 갖고 5부터 8까지는 음의 값을 갖는 것으로 보아 안쪽에 위치한 stall에서의 우승자가 더 많았다고 결론 지을 수 있습니다.
이번 시간에는 범주형 변수의 계급에 따라 빈도수가 동일한 것인지 검정해 볼 때 사용하는 카이제곱 적합도 검정에 대하여 알아보았습니다. 감사합니다.
Reference
도서 - Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!