기존 Machine Learning의 Work Flow는 아래와 같이 5단계로 구성됩니다.
문제 정의(Define Problem)
데이터 수집(Collect Data)
전처리(Preprocess Data)
Train Model
Evaluate
위 5단계에서 3번째 ~ 5번째는 전문가들이 아닐 경우 어려울 수 있습니다.
그래서 Auto Machine Learning을 활용하게 된다면 위 5단계 중 3 ~ 5번째 단계는 사라지고, 다음과 같은 Work Flow를 구성하게 됩니다.
문제 정의
데이터 수집(Collect Data)
AutoML
AutoML은 전처리, Train Model, Evaluate를 자동화한 것으로 효율성, 비전문가들도 참여할 수 있다라는 장점이 있습니다.
위 그림은 AutoML의 PipeLine입니다.
크게 보면 크게 Data Preparation > Feature Engineering > Model Evaluation 로 구성되어 있습니다.
기존 ML과 큰 차이점은 AutoML의 Feature Engineering을 자동화하는 PipeLine이 존재한다라는 것 입니다.
다양한 Auto Feature Engineering 중 Python 라이브러리의 Feature Tools이 가장 유명합니다.
Feature Tools라이브러리는 오픈소스 라이브러리로 Deep Feature Synthesis(DFS) 기술을 활용해 데이터로부터 자동으로 특성을 생성합니다. 복잡한 데이터 변환을 수행하지 않고 머신러닝 모델에 적합한 다양한 특성을 만들 수 있습니다.
메타러닝은 모델 학습의 효율성을 높이기 위해 과거 데이터를 바탕으로 학습하는 기술을 의미합니다.
Learning to Learn 이라는 개념으로 여러 학습 데이터를 가지고 새로운 테스크에서 성능을 향상시키는 것을 목표로 합니다.
Good news: We've extended SAS Hackathon registration until Sept. 12, so you still have time to be part of our biggest event yet – our five-year anniversary!