본 게시글은 SAS Enterprise Miner Part1의 이어지는 글입니다.
앞 게시글은 SEMMA 방법과 SEMMA 5단계 중 2단계까지 설명하였습니다.
이번 게시글에서는 SEMMA 중 3단계 Modify 부터 설명하겠습니다.
[SEMMA]
SEMMA방법은 데이터 마이닝 모델을 개발하기 위한 방법론입니다.
SAS 뿐만 아니라 다른 Tool을 사용하더라도 데이터 마이닝을 할 때 표준 방법론으로 사용하실 수 있습니다.
SEMMA는 각각의 마이닝 절차의 앞글자를 따와 이름이 만들어졌습니다.
[SAS Enterprise Miner - Modify]
Modify 단계에서는 값을 대체하거나 결측값을 처리하는 단계입니다.
<변수변환> 에서 2개의 plot 중 윗쪽에 있는 plot은 원변수(original)의 분포를 의미합니다.
원변수 plot을 보면 한쪽으로 skewed된 모습입니다.
이를 log변환을 하여, 정규화된 형태가 <변수변환> 중 아래의 plot 입니다.
이렇게 SEMMA 단계 중 Modify에서는 비대칭 데이터를 처리할 수도 있습니다.
[SAS Enterprise Miner - Modify]
다음은 대화식 구간생성(Interactive Binning)입니다.
대화식 구간생성를 쉽게 설명하기 위해 간단한 예시를 들어보겠습니다.
연봉이라는 연속형 변수가 있고, 정규직과 비정규직을 Target변수로 잡았을 때, 연봉이라는 변수를 그대로 이용하기 보다는 그룹화할 경우가 있을 때, 어떤 식으로 나눠야 할 지 애매한 경우가 있을 것입니다.
어떻게 나누면 추후 모델의 예측 능력이 좋을 지 고심을 하기도 합니다. 이럴 때 하나의 Tip으로 사용되는 노드가 바로 대화식 구간 생성입니다.
주성분분석은 서로 연관이 있는 변수들이 관측되었을 때, 이 변수들을 가지고 있는 정보들을 최대한 담아내는 적은 수의 새로운 변수들을 생성하는 통계적 방법입니다.
[SAS Enterprise Miner - Modeling]
SAS EM에는 여러가지 알고리즘이 구성되어 있습니다.
그 중 많이 사용되는 의사결정 트리(Decision Tree)와 회귀분석(regression)을 설명하겠습니다.
의사결정 트리는 데이터를 분석하여 이들 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며, 그 모양이 ‘나무’와 같다고 해서 의사결정나무라 불립니다.
회귀분석이란 변수들 간의 함수관계를 분석하는 방법 중의 하나로 독립변수가 종속변수에 미치는 영향력의 크기를 파악하고, 이를 통해 독립변수의 일정한 값에 대응하는 종속변수값을 예측하는 모형을 산출하는 방법입니다.
[SAS Enterprise Miner - Assessment 1/2]
SEMMA단계 중 Assessment 단계는 여러가지 알고리즘에 대한 모델을 비교할 수 있습니다.
차트와 통계량을 통해서 모델을 비교할 수 있습니다.
위의 그림에는 Lift Chart와 ROC차트를 보여주고 있지만 분석하는 과제에 맞게 모델을 선택할 수 있습니다.
[SAS Enterprise Miner - Assessment 2/2]
<세그먼트 프로파일링> 노드는 클러스터링 노드를 분석한 이후에 결과를 볼 수 있는 노드 입니다.
탐색 모델링은 통계량이 주어지지 않기 때문에 올바른 분석인가에 대한 의구심이 들 수 있습니다. 그림의 파이플롯은 클러스터링 노드를 실행 하였을 때 5개의 segment로 나뉘는 것을 확인 할 수 있습니다. 새그먼트 프로파일링 노드를 통해서 그림에서 오른쪽 그래프가 제공됩니다. 그래프 해석을 통해서 분석이 잘 되었는지 판단 할 수 있습니다.
[SAS Enterprise Miner - 오픈 소스 통합 노드]
SAS EM에서는 SEMMA 노드들 이외의 노드들도 제공합니다.
<오픈소스 노드 통합>에서는 오픈소스인 R과 SAS EM을 비교할 수 있습니다.
[SAS Enterprise Miner - 생존(Survival) 노드]
Survival analysis는 '생명체 관찰시작 ~ 사망'에 이르는 생존시간을 추정하는 통계적 분석법으로 Bio 분야에서 잘 사용하는 방법입니다.
사망/이탈 등 특정한 사건으로 볼 때, 생존 분석에서의 사건은 '사망/ 퇴원/ 출산' 등 다양한 지표가 될 수 있습니다. 생존분석을 통해 시간에 따른 특이 변화를 직관적으로 확인 가능합니다.
[SAS Enterprise Miner - HPDM 노드]
HPDM 노드는 High performance Data Mining으로 빅데이터들을 빠르게 분석할 수 있는 옵션들로 이루어져 있습니다.
HPDM 탭에는 HP 포리스트, HP 트리, HP 회귀, HP 신경망, HP SVM이 있습니다.
HP Tree는 Decision Tree 노드와는 차별화된 알고리즘을 제공합니다.
HP Regression은 빅데이터 최대우도추정을 위한 다양한 최적화 알고리즘을 지원하고 빅데이터를 효율적으로 처리하기 위해 다양한 모델 선택과 연산 중지 판단 기준을 제공합니다.
HP 신경망은 기존의 신경망에서 추가적인 옵션들을 제공하고 있습니다. 추가적인 옵션으로는 데이터 표준화 방법, 네트워크 아키텍처, 활성함수, 가중치 초기화 방법을 지원합니다.
HP SVM은 2차원 상에서 분류가 가능한 선형의 경우 마진을 최대로 나누는 서포트 벡터를 찾아 분류하는 알고리즘으로 비선형 분류의 경우 커널방법으로 Hyperplane을 찾아 문제를 분류합니다.
이상으로 SAS Enterprise Miner 설명을 마치겠습니다.
감사합니다. 😀
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!