BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 머신러닝 학습과정

Started ‎06-19-2023 by
Modified ‎06-19-2023 by
Views 491

 

이번 게시글은 머신러닝의 학습 flow에 대해서 알아보겠습니다.

 

 

 

2 (1).png

 

 

 

Raw Data가 학습 알고리즘을 통해서 최적의 성능을 내기 위해서는 데이터 전처리가 필요합니다.

전처리는 데이터들이 균일한 scale을 가져야합니다.

그래서 데이터들의 범위를 [0,1]로 변환하거나 평균이 0 또는 단위 분산을 가지고 있는 표준 정규분포로 변환하기도 합니다.

전처리 과정중에서 변수들끼리의 상관관계가 높을 경우에는 중복된 정보로 최적의 성능을 내기가 힘들어 차원 축소 기법으로 변수를 줄이기도 합니다.

또한, SNR(Signal to Noise Ratio; 신호 대 잡음비)이 높은 경우가 있습니다. 이는 데이터셋에 관련이 없는 노이즈 등이 많이 있는 경우에 예측 성능이 낮을 수 있습니다.

데이터 셋을 훈련 set와 테스트 set로 나눕니다.

훈련 세트에서 학습 알고리즘 선정 또는 평가하여 최종 모델을 확정합니다.

이는 다시 새로운 테스트 세트에서 선정된 알고리즘이 일반화 되는지 확인합니다.

학습 알고리즘을 선택하기 위해서 성능을 평가할 지표를 선정해야 합니다.

주로 Accuracy 를 사용합니다.

Accuracy 는 정확히 분류된 샘플의 비율입니다.

선정된 알고리즘과 모델의 성능을 상세히 조정하기 위해서는 하이퍼파라미터 최적화 기법을 사용합니다.

하이퍼파라미터는 데이터에서 학습하는 파라미터가 아니라 모델의 성능을 향상시키는 방법입니다.

자세히 설명하자면, 하이퍼파라미터를 통해 머신 러닝 라이브러리의 함수느 클래스 매개변수로 전달합니다.

훈련세트에서 최적의 모델을 선택하여 새로운 데이터 세트에서 성능을 확인합니다.

 

 

 

Version history
Last update:
‎06-19-2023 07:38 AM
Updated by:
Contributors

SAS Innovate 2025: Call for Content

Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 16. Read more here about why you should contribute and what is in it for you!

Submit your idea!

Article Labels
Article Tags