BookmarkSubscribeRSS Feed

[EM] 인공신경망을 이용한 앙상블

Started ‎06-10-2020 by
Modified ‎06-10-2020 by
Views 167

안녕하세요 MySAS홍보대사 한노아입니다.

안녕하세요 이번 시간부터는 E-miner를 통해 구현이 가능한 다양한 앙상블 방법에 대해 알아 보도록 하겠습니다. 지난 시간에는 매우 흔하게 쓰이고 또한 강력한 예측력을 갖고 있는 랜덤포레스트를 알아봤는데요 오늘은 요즘 가장 핫한 알고리즘 중 하나인 신경망 모형을 이용한 앙상블 방법에 대해 알아보도록 하겠습니다. 

 

INTRODUCTION

오늘 연재에서는 주어진 데이터를 이용하여 인공신경망의 히든 유닛의 수를 조정한 앙상블 방법을 통한 최적 모형을 추정하는 방법을 알아보도록 하겠습니다.

 

DATA DESCRIPTION 

SE22017010800003970.png

 

오늘 실습에서 이용할 데이터는 UCI의 “Image Segmentation Data Set”입니다. 이 데이터는 이미지의 픽셀정보를 이용한 다양한 특징(feature)들을 이용하여 어떤 이미지 인지를 맞추는 기계학습 문제를 갖고 있는 데이터 입니다. 이 데이터의 입력변수는 총 19개이고 자세한 내용은 위와 같습니다.

SE22017010800020270.png

목표변수(target)는 위와 같이 7개의 수준을 갖는 범주형 변수입니다. 위 목표변수는 직접 사진을 보고 사람이 어떤 사진인지를 명명해 준 것으로 예를 들어 “SKY” 하늘을 찍은 사진을 의미합니다.

 

DESCRIPTIVE STATICS

SE22017010800021670.png

위 표를 통해 알 수 있듯 “region-pixel-count”변수의 경우 모든 데이터에서 동일한 값을 갖기 때문에 자동으로 reject가 된 것을 알 수 있습니다. 나머지 변수들의 경우 대체로 분포 왜곡이 심판 편이지만 결측치는 없는 것으로 보아 변수변환 노드를 이용한 변수변환 절차만을 진행하는 것이 좋을 것으로 보입니다.

 

PREDICTIVE MODELING

SE22017010800023270.png

이번 실습에서는 앞서 말했듯 인공신경망노드의 Hidden Unit의 수를 조절한 개별 분류기들을 앙상블하는 모형을 만들어보고자 합니다. E-miner에서 신경망 노드의 세부 옵션을 조정하는 방법은 위 그림과 같이 신경망 노드를 클릭하고 [분석]항목의 [신경망]의 […]을 클릭하면 위와 같이 “은닉마디 수”라는 옵션을 발견할 수 있습니다. 이 옵션을 이용해 Hidden Unit의 개수를 조절할 수 있습니다.

SE22017010800024670.png

앞 서 살펴본 옵션 조정방법을 이용해 위와 같이 여러 개의 신경망을 만들어 줄 수 있습니다. 위 경우에는 총 3개의 층(입력층, 은닉층, 출력측)을 갖게 되는 경우로 이 때 은닉층에서 이용할 Unit의 개수를 조절해 준 것입니다. 만약 층의 개수를 조절하여 앙상블에 적용하고 싶은 경우에는 [HPDM]항목에서 “HP 신경망”을 이용하면 됩니다.

 

위 그림에서도 알 수 있듯 우선 각각의 개별 신경망 모형은 “Control Point”라는 일종의 버퍼(buffer)를 이용해 모형 평가 노드로 연결되게 됩니다. 그리고 은닉마디의 수가 한 개인 신경망 모형부터 64개인 신경망 모형을 앙상블하는 “Ensemble – All NNs”노드를 이용해 전체 신경망의 사후확률을 종합하게 됩니다. 이와 같은 패턴은 앙상블 되는 신경망 노드의 숫자를 하나씩 줄여 나가며 앙상블을 진행합니다. 위와 같은 설정은 어떤 기준에 의한 것이 아니라 실험자의 목적에 따라 자유롭게 변경하여도 좋습니다.

 

GOODNESS-OF-FIT

SE22017010800030170.png

위 표와 그래프는 각 앙상블 및 단일 신경망 모형들의 분류결과의 성능을 나타내는 표와 그래프로 우선 앙상블을 이용한 모형의 분류결과가 대체로 단일 신경망을 이용한 것보다 더 낮은 오분류율 그리고 더 안정적인 분류를 하는 것을 알 수 있습니다.

 

단일 신경망 노드에 대한 분류결과를 살펴보면 은닉마디의 수가 증가할수록 오분류율이 감소하는 트랜드를 보이고 있습니다. 앙상블을 이용한 모형들의 경우 대체로 유사한 오분류율을 나타냈고, 가장 안정적인 분류를 한 모형은 “Ensemble 25 to 64 HU”모형으로 학습 및 평가용 데이터 모두에서 유사한 오분류율을 보이면서 동시에 매우 낮은 오뷴율을 나타내는 것을 알 수 있었습니다.

 

CONCLUSION

오늘은 신경망 모형의 최적화 방법 및 은닉 마디의 수를 조절하여 신경망 모형을 앙상블 하는 방법에 대해 알아보았습니다. 신경망 모형의 경우 은닉마디의 수가 증가하고 층의 수가 증가하게 되면 좀더 복잡한 형태의 분류 경계면을 생성하게 되는 경향이 있고 이로 인해 정확도가 증가하는 추세를 보일 때도 있습니다. 이번 데이터의 경우에도 대체로 은닉마디의 수가 증가할수록 분류정확도가 높아지는 것을 알 수 있었습니다. 하지만 이러한 패턴은 항상 이렇게 나타나는 것은 아니고 데이터에 따라 차이가 있을 수 있습니다. 그렇기 때문에 가능한 경우의 수를 많이 시도해 보는 것이 좋습니다. 앙상블 모형의 경우에는 은닉마디 수가 적은 모형부터 차례로 빼 나가면서 생성했습니다. 하지만 꼭 이 방법을 고수할 필요는 없고 목적에 맞게 적절히 이용하면 될 것으로 보입니다. 다음 시간에도 이 번 시간에 이어 다양한 앙상블 모형에 대해서 알아보도록 하겠습니다.

 

REFERENCES

[1] https://support.sas.com/resources/papers/proceedings14/SAS133-2014.pdf

[2] http://archive.ics.uci.edu/ml/datasets/Image+Segmentation

 

Version history
Last update:
‎06-10-2020 03:54 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags