BookmarkSubscribeRSS Feed

5-1. Categorical Data Analysis: 범주형 자료분석(1)

Started ‎06-16-2020 by
Modified ‎06-23-2020 by
Views 1,707

5-1. Categorical Data Analysis: 범주형 자료분석(1)

 

안녕하세요^^

​이번 시간에는 범주형 자료분석 첫 번째 시간입니다.

​범주형 자료를 통계적인 방법론으로 분석하기에 앞서, 분포를 조사하는 과정이 필요합니다.

​Categorical data의 분포를 조사하는 방법은 다음과 같습니다.

  1. 데이터 값의 frequency 조사
  2. 변수 간 가능한 association 확인

​오늘은 첫 번째 방법인 데이터 값의 frequency를 조사하는 방법에 대해 알아보도록 하겠습니다.

​데이터 값의 frequency를 조사하는 가장 기본적인 방법은 frequency table을 작성하는 것입니다.

PROC FREQ DATA=SAS-data-set;

TABLES table- requests </options>;​

RUN;

 

===========================================================================

 

 

Frequency table은 SAS를 통해 손쉽게 얻을 수 있습니다. 

 

 

SE22016051919270070.jpg

 

 

SE22016031723023370.jpg

 

 

Tables문 첫번째 줄의 명령문을 실행한 결과입니다.

​하나의 변수에 대한 frequency table과 plot이 작성됩니다.

​Plot은 tables문의 옵션으로 작성할 수 있는데 plot=freqplot을 사용하며, scale을 freq나 percent로 지정할 수 있습니다.

 

 

SE22016051919281270.jpg

 

 

SE22016051919282170.jpg

 

---------------------------------------------------------------------------------------------------------------------------------------

 

PROC FREQ 프로시저는 default로 frequency, percent, cumulative frequency, cumulative percent값을 제공합니다.

Crosstabulation table은 row와 column의 변수의 조합에 대한 관측값의 수를 보여주는데, 이 또한 default로 frequency, percent를 제공하며, row perncent, column percent를 제공합니다.

Crosstabulation table은 proc freq 프로시저에서 tables문에 지정할 수 있는데, 행변수*열변수 의 순서로 입력합니다

​​Row percent는 row의 total관찰값 중 각 cell의 관찰값이 차지하는 퍼센트를 의미합니다.

Column percent는 column의 total관찰값 중 각 cell의 관찰값이 차지하는 퍼센트를 의미합니다.

 

SE22016051919294470.jpg

 

SE22016051919295370.jpg

 

tables문의 두번째 문장으로 crosstabulation table을 작성하는 문장입니다.

 

SE22016051919301170.jpg

 

SE22016051919301770.jpg

 

 

===========================================================================

 

 

frequency table는 특정 범주나 구간에 존재하는 관찰값의 개수를 나타낸 표입니다.

​먼저 구한 하나의 변수를 조사하여 table로 나타낸 것을 One way frequency table이라고 합니다.

​​Frequency table은 특히 frequency에 관한 측정값을 나타내는데, frequency, percent, cumulative frequency, cumulative percent 등을 포함합니다.

이제, 범주형자료의 분포를 조사하는 방법 두번째로 변수 간 가능한 association 확인하는 방법에 대해 알아보도록 하겠습니다.

변수의 값이 다른 변수의 level변화에 따라 변하는 경우 association 존재한다고 말하며,

​​변수의 분포가 다른 변수의 level변화에도 변하지 않는 경우 association 없다고 말합니다.

​예를들어, 위의 SAS코딩으로 얻을 수 있는 결과 중 plot을 이용하여 두 변수간 association을 확인해보도록 하겠습니다.

SE22016051919314570.jpg

먼저, sex와 status의 관계는, sex가 변하여도 status의 분포(alive > dead)는 변하지 않기 때문에 이러한 경우 association이 존재하지 않는다고 말합니다.

 

SE22016051919321470.jpg

Blood pressure 상태와 status의 관계는, blood pressure이 high일 때의 status 분포와 normal이나 optimal일때의 status의 분포가 다르기 때문에 이러한 경우 association이 존재한다고 말합니다.

이상의 과정은 proc freq문을 사용해서 결론지을 수 있습니다.

​​다음 시간에는 범주형 자료분석의 통계적인 방법론에 대해 알아보도록 하겠습니다.

Version history
Last update:
‎06-23-2020 05:05 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags