BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 손실 데이터 처리 방법

Started ‎11-29-2023 by
Modified ‎11-29-2023 by
Views 396

데이터의 발생 환경에 따라 null 값이 생길 수 있습니다.

예를 들면, 센서의 오작동으로 null 값이 생기고 센서가 고장이 날 경우에는 데이터가 완전히 사라지기도 합니다.

이 때, 손실된 데이터를 적용하기 전에 어떠한 데이터가 손실되었는지 확인되어야 합니다.

손실 데이터를 처리하는 방법 중 가장 쉬운 방법은 데이터를 통째로 삭제하는 방법입니다.

하지만 이 데이터는 데이터의 손실로 데이터 전체를 파악하지 못할 수도 있다라는 단점이 있습니다.

데이터를 보완하지 않고 직접 분석하는 방법도 존재하지만 이번 게시글은 데이터를 보완하는 방법에 대해서 알아보려고 합니다.

  1. 정수로 보완

임의의 값이 결손되었을 경우 한개의 정수를 선택해서 손실된 데이터에 값을 넣는 것입니다.

이렇게 되면 데이터의 분산이 실제값보다 작아지지만 결손값이 많을 경우 데이터의 정확도가 떨어지기 때문에 많이 사용되지는 않는 방법입니다.

2. 집곗값으로 보완

평균값, 중앙값, 최솟값, 최댓값 등을 계산하여 데이터가 없는 값의 경우 데이터를 보완할 수 있습니다.

예를 들어, 사람의 몸무게 데이터가 빠졌을 경우 크게 벗어나지 않는 중앙값으로 보완할 수 있습니다.

정수로 보완한 것처럼 지정한 정수 데이터가 극단적으로 늘어나 결손값이 많을 경우에는 사용하지 않는 것이 좋습니다.

3. 결손값을 제외한 데이터를 활용해 예측값으로 데이터를 보완

결손이 발생하지 않은 데이터를 사용해서 머신러닝 모델 등을 이용하여 데이터를 보완할 수 있습니다.

예를 들면, 사람의 신장 데이터가 빠졌을 경우 체중과 신장의 관계를 분석해서 손실된 신장의 값을 예측하여 데이터를 보완할 수 있습니다.

4. 시간 관계를 통한 데이터 보완

데이터의 앞뒤로 데이터의 결손값을 보완하는 방법입니다.

이 데이터는 시계열 분석에서 사용하는 방법으로 12:00 시의 습도의 데이터가 빠졌을 경우 11:59의 데이터와 12:01시의 평균 데이터를 사용하여 보완할 수 있습니다.

시간에 따라 연속된 값이라면 데이터 보완을 할 수 있습니다.

5. 다중대입법

보완한 데이터셋을 여러 개 만들어 각 데이터를 해석하는 방법입니다.

바이어스가 적은 데이터셋으로 보완할 수 있습니다.

6. 최대 가능도

데이터의 분포보다 보완한 데이터의 분포가 작아지는 문제를 해결할 수 있습니다.

잠재변수를 도입하여 알고리즘을 사용해 likelihood를 최대화하여 데이터를 보완합니다.

Version history
Last update:
‎11-29-2023 03:01 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags