범주형 데이터는 값의 종류가 정해진 값으로, 명목형 데이터와 순서형 데이터로 나뉩니다.
명목형 데이터 (Nominal Data):
명목형 데이터는 서로 구별할 수 있는 범주 또는 그룹을 나타냅니다.
범주 간에 순서가 없으며, 각 범주는 동등합니다.
예: 성별 (남성, 여성), 혈액형 (A형, B형, AB형, O형)
2.순서형 데이터 (Ordinal Data):
순서형 데이터는 범주 간에 상대적인 순서나 등급이 있습니다.
간격은 일정하지 않을 수 있습니다.
예: 학력 수준 (고졸, 대졸, 석사, 박사)
범주형 데이터는 주로 명목형과 순서형 데이터를 포함하며, 이러한 데이터 유형은 통계 분석, 시각화 및 기계 학습 모델에서 다르게 처리될 수 있습니다. 예를 들어, 명목형 데이터는 더미 변수로 인코딩되거나 카이제곱 검정과 같은 통계 분석 기법에 사용될 수 있습니다. 순서형 데이터는 대개 순서를 고려한 분석에 사용되며, 일부 경우에는 간격이 일정한 것으로 가정하여 숫자로 표현될 수 있습니다.
아래는 SASUSER 라이브러리에 있는 Bacteria 데이터 중 temp 변수를 활용해 숫자형 데이터를 범주형 데이터로 변환하는 코드입니다.
data work.bacteria_new;
set sasuser.bacteria;
if temp < 10 then
temp_category = 0;
else if temp >= 10 and temp < 20 then
temp_category = 1;
else if temp >= 20 and temp < 30 then
temp_category = 2;
else if temp >= 30 and temp < 40 then
temp_category = 3;
else if temp >= 40 and temp < 50 then
temp_category = 4;
else
temp_category = 5;
drop temp;
run;
SASUSER의 Bacteria 데이터의 temp 데이터는 아래와 같이 10,20,30 .. 수치형 데이터로 나와있었습니다.
이를 10 미만이면 0, 10이상 20미만이면 1, 20이상 30미만이면 2, 30이상 40미만이면 3, 40이상 50미만이면 4, 이외의 값은 5라고 설정했습니다.
또한, 기존의 temp 변수를 버리고 새로운 temp_category변수로 변환했습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.