안녕하세요. 이번 시간에는 관심있는 변수에 대해 다른 두 집단에서의 평균값이 동일한지 여부를 테스트하는 방법 에 대해 알아보기에 앞서 자료를 요약하고 자료의 특성을 파악하는 방법에 대해 알아보겠습니다.
데이터 설명
사용할 데이터는 지난 시간에 사용한 widths 데이터 입니다.
총 113명의 학생들을 대상으로, 44명의 학생으로 구성된 첫번째 그룹에는 앉아 있는 강당의 너비를 미터 단위로 추측하도록 요청하고, 나머지 69명의 학생들로 구성된 두번째 그룹에는 피트 단위로 추측하도록 요청하여 수집된 데이터 입니다. (측정된 강당의 너비는 13.1 미터(43.0 피트))
데이터셋의 변수는 units guess 두가지로 구성되어있고 units는 각 학생이 어느 그룹에 속하는지 여부(미터= metres, 피트=feet)를 guess 는 각 학생들이 추측한 값을 나타냅니다.
우리의 주요 관심사는 미터를 이용한 추측과, 피트를 이용한 추측이 다른지 와 추측에 의해 실제 강당의 폭에 가깝게 추측할 수 있는지 여부입니다.
그림 1 <데이터셋 일부>
데이터 전처리
먼저 비교를 위해 metres 그룹에 속하는 guess 값들에 3.28을 곱하여 단위를 피트로 통일하여 새로운 변수 feet를 생성합니다.
F4키를 누르면 작업 영역에 새로운 프로그램이 생성됩니다.
그림2 <전처리 코드>
그림3 <출력 데이터>
데이터 탐색
데이터 분석의 초기 단계에서 평균, 분산과 같은 요약통계량과 다양한 그래프를 통한 시각화를 통해 우리가 가진 자료의 특성을 파악하고 분석의 다음 진행 과정에 필요한 insight를 얻습니다. 분석의 목표가 되는 주요 관심사를 항상 염두하고 데이터 탐색을 진행하는 것이 중요합니다.
먼저, 아래의 과정을 통해 자료의 요약 통계량을 살펴봅시다.
1. 네이게이션 영역의 작업 및 유틸리티 ▶ 작업 ▶ 통계량 ▶ 요약통계량 클릭
그림 4
2. 데이터 ▶ work라이브러리의 앞서 전처리한 widths 데이터 선택
그림 5
3. 역할 ▶ feet 를 분석변수로 units를 분류변수로 설정
그림 6
4. 실행 클릭
그림 7 <요약통계량 결과표>
요약통계량의 평균과 분산을 살펴봅시다. 피트 단위를 이용하여 추측한 그룹의 값의 평균이 43.69로 실제 강당의 너비인 43.0와 더 가깝고, 표준편차도 12.49로 미터로 측정한 경우보다 변동이 적습니다. 이는 피트 단위로 추측한 경우가 더 정확하다는 것을 암시합니다. 하지만 평균과 표준편차는 이상치에 민감하다는 특성이 있으므로 반드시 그래프를 통한 시각화를 통해 이를 확인해야 합니다.
다음 시간에는 그래프를 통한 시각화하는 방법에 대하여 알아보겠습니다.
감사합니다.
Reference
도서 - Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.