BookmarkSubscribeRSS Feed

[EM] 앙상블(Ensemble) 이론

Started ‎06-10-2020 by
Modified ‎06-10-2020 by
Views 376

안녕하세요 MySAS 홍보대사 한노아입니다.

오늘부터 연재할 주제는 앙상블(Ensemble)입니다. 앞서 연재된 내용은 단일 모형을 기반으로 한 예측 방법이었다면 지금부터는 다수의 모형의 예측/분류 결과를 종합하여 최종적인 의사결정을 하는 방법인 앙상블에 대해 알아보도록 하겠습니다.

 

이번 연재에서는 앙상블이란 무엇이고, 그 종류에는 어떠한 것들이 있는지 개략적으로 살펴보고 다음 연재부터는 각각의 모형들에 대해 세부적으로 알아보고 E-miner를 이용해 구연해보는 단계로 연재를 진행 하도록 하겠습니다.

 

자 그럼 먼저 “앙상블”이라는 용어가 본래 무엇을 의미하는지 한 번 알아보도록 하겠습니다.

 

앙상블(Ensemble)

앙상블이라는 용어는 본래 프랑스어로 ‘통일, 조화’ 등을 나타내는 용어라고 합니다. 주로 음악용어로 많이 사용되는데 그 때 사용되는 의미는

 

 “두 사람 이상의 연주자에 의한 합주 또는 합창을 말하며, 같은 악기, 다른 악기에 관계없이 듀엣에서 튜티라 불리는 총주까지 모두 앙상블에 속한다.”

라고 합니다. 그렇다면 과연 앙상블이라는 개념을 처음 발견하신 분은 어떤 의미에서 이러한 방법론을 앙상블이라고 명명하게 되었을까요?

 

저도 정확히는 모르겠지만 아마 분류모형의 독주가 아닌 결합 즉, 합주 또는 합창이라는 의미에서 이렇게 명명한 것이 아닐까 하는 생각이 들었습니다.

 

정리하면 앙상블 기법은 여러 가지 동일한 종류의 혹은 서로 상이한 모형들의 의사결정을 결합하여 최종적인 의사결정에 활용하는 것을 말한다는 것을 알 수 있습니다.

 

앙상블모형의 이론적 배경

그럼 다수의 모형을 이용한 예측이 왜 좋은 것일까요?

 

예를 들어, 두 집단을 분류하는 분류기가 5개 있고, 각각의 오분류율이 5%라고 가정할 때 만약 해당 모형들이 모두 동일한 결정을 내린다고 한다면 앙상블 모형의 분류결과의 오분율을 5%가 되게 됩니다. 반면, 각각의 분류기가 상호 독립적이어서 전체 분류기의 반 이상이 오분류를 하는 경우에 앙상블모형도 오분류를 하게 됩니다. 즉, 결과적으로 앙상블 모형의 오분류율은 아래와 같게 됩니다.

 

SE22016110413541870.png

 

 

위 식을 통해서도 알 수 있듯 단일 분류기를 이용하는 것보다 이론적으로 앙상블 모형을 이용하는 것이 오분류율이 더 작은 것을 알 수 있습니다. 일반적으로 앙상블 모형이 단일 분류기보다 더 좋은 예측력을 갖기 위해서는 두 가지 조건이 필요합니다.

 

1) 각각의 분류기는 상호 독립적이어야 한다.

2) 각 분류기의 오분류율은 적어도 50%보다는 낮아야 한다.

 

하지만 일반적으로 독립성 조건의 경우 만족하지 않아도 예측력이 높아지는 것으로 알려져 있습니다.

 

그럼 이제 앙상블 모형의 종류에 대하여 알아보도록 하겠습니다.

 

앙상블 모형의 종류

  1.  데이터를 조절하는 방법

 - 적절한 표본추출 방법을 이용 여러 개의 훈련용 데이터 집합을 생성

 - 각각의 데이터 집합을 이용해 여러 개의 분류기를 생성하여 앙상블을 진행예)  배깅(Bagging), 부스팅(Boosting)

  1.  변수수의 수를 조절하는 방법

 - 전체 변수집합에서 부분 변수집합을 선택하여 훈련용 데이터를 생성

 - 각각의 데이터 집합에 대해 분류기를 생성 후 앙상블

예) 랜덤포레스트(Random Forest) : 랜덤포레스트의 경우 1번 방법과 2번 방법을 결합한 방법임.

 

  1.  집단명을 조절하는 방법

 - 집단의 종류가 많은 경우 소수의 집단만으로 묶어서 분류

 - 각 집단에서 속하는지의 여부만 분류하는 분류기를 만들어 앙상블 모형에 적용

 

  1.  분류모형의 가정을 조절하는 방법

 - 하나의 분류모형은 모수(Parameter)에 대한 가정이나 알고리즘에 대한 가정에 따라 상이해짐

 - 모수 및 가정을 변경하여 여러 개의 모형을 생성하여 앙상블을 진행

 예) 신경망의 네트워크 형태에 대한 가정 -> 층, 히든유닛, 가중치 초기값 설정 등

 

 

마치며

이렇게 앙상블 모형은 다양한 방법에 의해 모형을 다양성을 획득하여 전반적인 예측력을 높이는 방법입니다. 일반적으로 앙상블 기법을 사용하게 되면 이상치에 대한 대응력이 높아지고, 전체적인 분산을 감소시킴으로써 정분류을 높이는 것으로 알려져 있지만, 모형의 투명성이 떨어지게 되어 현상에 대한 원인을 분석하는 것은 상당히 어렵게 됩니다.

 

즉, 투명성을 잃고 더 안정적이고 정확한 예측력을 얻게 된다고 말할 수 있습니다.

 

따라서 우리에게 주어진 문제가 무엇인지에 따라 앙상블 기법은 매우 좋은 해결방법이 될 수도 있지만 예측력보다 원인규명이 중요한 경우에는 그다지 좋은 선택이 아닐 수 있습니다. 따라서 주어진 문제에 대한 적합성을 먼저 검토한 뒤에 방법을 적용하는 것이 좋을 것으로 생각됩니다.

 

다음 연재에서는 “데이터를 조절하는 방법”의 배깅의 이론적 배경에 대해 더 상세하게 알아보고, 이를 E-miner에서 어떻게 구연할 수 있는지에 대해 알아보도록 하겠습니다.

 

감사합니다.

 

 

 

Reference

[1] R, SAS, MS-SQL을 활용한 데이터 마이닝 / 자유아카데미 / 이정진 지음

[2] http://www3.nd.edu/~rjohns15/cse40647.sp14/www/content/lectures/31%20-%20Decision%20Tree%20Ensembles...

[3] http://www.ise.bgu.ac.il/faculty/liorr/hbchap45.pdf

  

Version history
Last update:
‎06-10-2020 03:17 AM
Updated by:
Contributors

SAS Innovate 2025: Register Now

Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!

Article Labels
Article Tags