BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 오버샘플링_SMOTE

Started ‎11-28-2023 by
Modified ‎11-28-2023 by
Views 517

SMOTE는 Synthetic Minority Over-sampling Technique 의 약자로 불균형 데이터 문제를 해결하기 위한 샘플링 방법 중 하나입니다.

SMOTE 방법은 오버샘플링 중 완전히 같은 데이터가 중복 생성되는 문제를 방지할 수 있습니다.

SMOTE는 소수 클래스의 샘플을 이용하여 새로운 합성 샘플을 생성하는 것 입니다.

기존의 소수 클래스 샘플들과 유사하지만 다소 다른 샘플을 생성하여 모델이 다양한 데이터에 대해서 학습합니다.

 

 

the-basic-principle-of-the-synthetic-minority-oversample-technique-smote-alg (1).jpg

 

 

 

  1. 원본 데이터에서 랜덤하게 하나의 데이터 선택

  2. K값을 설정하여 1~K의 정숫값에서 랜덤하게 n을 설정합니다.

여기서 말하는 K값은 하이퍼파라미터로 모델 학습 과정을 제어하거나 모델의 구조를 결정하는데 사용되는 매개변수를 의미합니다. 매개변수들은 모델을 조정하고 최적화하는데 도움을 줄 수 있습니다.

SMOTE에서의 하이퍼파라미터 K는 K-nearest neighbors에서 사용되는 이웃의 수를 의미합니다.

사용자가 설정하는 값으로 모델의 성능에 영향을 끼칠 수 있습니다.

3. 소수 클래스의 각 샘플에 대해서 K-nearest neihbors 중 하나를 랜덤하게 선택합니다.

이는 2.에서 선택한 데이터에서 n번째로 가까운 데이터를 새롭게 선택하는 것 입니다.

4. 1~3번에서 선택한 데이터를 기반으로 새로운 데이터를 생성합니다.

선택된 이웃과의 차이에 비례해서 새로운 샘플을 생성합니다.

생성할 데이터의 값 = 1.에서 선택한 값 + 3.에서 선택한 값 - (1.에서 선택한 값 * 0~1사이의 균일 분포 난수)

5. 이러한 과정을 원하는 수의 합성 샘플을 생성할 때까지 반복합니다.

SMOTE로 생성된 데이터는 원본 데이터와 같은 특성을 유지하면서 약간의 노이즈를 더한 데이터입니다.

 

 

Version history
Last update:
‎11-28-2023 08:33 PM
Updated by:
Contributors

sas-innovate-white.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Early bird rate extended! Save $200 when you sign up by March 31.

Register now!

Article Labels
Article Tags