BookmarkSubscribeRSS Feed

[데이터 분석] 어떤 모델을 선택해야 할까? (대표적인 ML 모델 요약)

Started ‎06-15-2020 by
Modified ‎06-15-2020 by
Views 122

안녕하세요, 박세훈입니다.

1. Introduction

분석가들은 프로젝트를 진행하면서 여러가지 분석기법을 선정하고, 선택하며 최고의 퍼포먼스를 이끌어내기위해 고민합니다. 데이터의 형태, 종속 변수의 포맷 등 여러가지 사항을 고려하여 모델을 선택하는 것 또한 분석가의 역량입니다.

2. Selection

다운로드.png

 

 

예를 들어, SVM(Support Vector Machine)의 경우 모델 학습시간이 오래 걸려 대용량의 데이터에는 적절하지 않습니다. 또한 RF(Random Forest)와 같은 블랙박스 기법은 변수의 인과관계를 정확히 따져야하는 경우 적절하지 않죠.

위의 자료는 우리가 어떤 상황에서 어떤 모델을 선택해야 조금 더 효율적인 분석을 진행할 수 있는지 가이드를 제시해줍니다. 이 글을 읽는 분들에게도 많은 도움이 되었으면 좋겠네요.

3. Extension

물론 위의 가이드가 모델 선택의 근거와 완벽한 모델 기법을 제시하진 않습니다. 그 후의 과정은 데이터 분석가의 역량에 따라 선택될 것입니다. 예를 들어 RF기법과 XGBoost 모델을 사용했을 때, 여러분은 어떤 근거로 RF를 선택했는지 설명할 수 있었야합니다. "본 데이터의 이상치는 부적절한 측정법에 의해 생성되었어요. 이상치에 가중을 더하는 XGBoost는 본 데이터와 적절하지 않다고 판단하여 제외하였습니다" 라고 말할 수 있어야 하죠.

오늘도 즐거운 머신러닝 공부가 되셨으면 합니다.

Version history
Last update:
‎06-15-2020 03:16 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags