SAS Tech & Tip

BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 오버샘플링_SMOTE

Started ‎11-28-2023 by
Modified ‎11-28-2023 by
Views 560

SMOTE는 Synthetic Minority Over-sampling Technique 의 약자로 불균형 데이터 문제를 해결하기 위한 샘플링 방법 중 하나입니다.

SMOTE 방법은 오버샘플링 중 완전히 같은 데이터가 중복 생성되는 문제를 방지할 수 있습니다.

SMOTE는 소수 클래스의 샘플을 이용하여 새로운 합성 샘플을 생성하는 것 입니다.

기존의 소수 클래스 샘플들과 유사하지만 다소 다른 샘플을 생성하여 모델이 다양한 데이터에 대해서 학습합니다.

 

 

the-basic-principle-of-the-synthetic-minority-oversample-technique-smote-alg (1).jpg

 

 

 

  1. 원본 데이터에서 랜덤하게 하나의 데이터 선택

  2. K값을 설정하여 1~K의 정숫값에서 랜덤하게 n을 설정합니다.

여기서 말하는 K값은 하이퍼파라미터로 모델 학습 과정을 제어하거나 모델의 구조를 결정하는데 사용되는 매개변수를 의미합니다. 매개변수들은 모델을 조정하고 최적화하는데 도움을 줄 수 있습니다.

SMOTE에서의 하이퍼파라미터 K는 K-nearest neighbors에서 사용되는 이웃의 수를 의미합니다.

사용자가 설정하는 값으로 모델의 성능에 영향을 끼칠 수 있습니다.

3. 소수 클래스의 각 샘플에 대해서 K-nearest neihbors 중 하나를 랜덤하게 선택합니다.

이는 2.에서 선택한 데이터에서 n번째로 가까운 데이터를 새롭게 선택하는 것 입니다.

4. 1~3번에서 선택한 데이터를 기반으로 새로운 데이터를 생성합니다.

선택된 이웃과의 차이에 비례해서 새로운 샘플을 생성합니다.

생성할 데이터의 값 = 1.에서 선택한 값 + 3.에서 선택한 값 - (1.에서 선택한 값 * 0~1사이의 균일 분포 난수)

5. 이러한 과정을 원하는 수의 합성 샘플을 생성할 때까지 반복합니다.

SMOTE로 생성된 데이터는 원본 데이터와 같은 특성을 유지하면서 약간의 노이즈를 더한 데이터입니다.

 

 

Version history
Last update:
‎11-28-2023 08:33 PM
Updated by:
Contributors

sas-innovate-white.png

Our biggest data and AI event of the year.

Don’t miss the livestream kicking off May 7. It’s free. It’s easy. And it’s the best seat in the house.

Join us virtually with our complimentary SAS Innovate Digital Pass. Watch live or on-demand in multiple languages, with translations available to help you get the most out of every session.

 

Register now!

Article Labels
Article Tags