[SAS 활용 노하우] 범주형 변수 - Missing Data
- Article History
- RSS Feed
- Mark as New
- Mark as Read
- Bookmark
- Subscribe
- Printer Friendly Page
- Report Inappropriate Content
범주형 데이터에 누락이 발생하면 어떠한 결측값인지 확인한 후, 적절한 조치를 해야합니다.
결측값이 발생한 데이터를 전부 삭제하거나 보완하지 않고 분석에 사용할 수 있습니다.
아래는 범주형 변수에 결측값이 생겼을 때, 보완하는 방법입니다.
1. 고정값으로 보완
임의의 값으로 결손값을 보완할 수 있습니다.
범줏값을 새로 만들어 결손값을 새로운 범줏값으로 이용하는 것입니다.
이러한 방법은 존재하지 않는 범줏값을 만들어 데이터 분석에 영향을 미칠 수 있어 잘 사용하는 방법은 아닙니다.
2. 집곗값으로 보완
결측값을 제외하고 남은 데이터에서 최빈값을 계산하여 결측값을 대체합니다.
환자의 성별이 남자가 많을 때는, 성별이 불명확한 경우 남자로 보완할 수 있습니다.
지정한 최빈값의 데이터가 극단적으로 늘어날 수 있는 단점이 있습니다.
3. 결손이 발생하지 않은 데이터를 기반으로 예측값을 보완한다.
결측값이 발생하지 않은 열의 값과 일부 결측값이 발생한 열의 값과의 관계에서 결측이 발생한 값을 예측하여 보완할 수 있습니다.
예측을 위해서 머신러닝 모델 등을 활용합니다.
결측값이 발생하지 않은 열은 하나만 이용하거나 여러 열을 이용할 수도 있습니다.
연봉 데이터에서 일부 사람의 데이터가 빠지면 연봉 랭킹과 연령, 직업의 관계를 분석하여 작업으로 결측이 발생한 수익 랭킹을 예측하여 보완합니다.
다중대입법을 사용할 수도 있습니다.
4. 시간관계로 보완
결측이 발생한 데이터의 앞뒤 데이터에서 결측값을 예측하여 보완할 수 있습니다.
범주형에서는 사용하지 않고 있습니다.
2021년 주거지가 불명확하다고, 2020년의 주거지와 2022년의 주거지가 같으면 2021년의 주거지는 동일하게 설정합니다.
이 외에도 다중대입법과, 최대 가능도로 결측값을 보완할 수 있습니다.