본 게시글은 SAS Enterprise Miner를 소개하는 글 입니다.
SAS Enterprise Miner은 SAS에서 만든 제품 중 하나로 신뢰성 높은 예측을 위한 보다 정확한 모델을 생성합니다.
[SAS Enterprise Miner 주요 특징]
[머신러닝 VS 통계학]
SAS EM을 알아보기 전에 머신러닝과 통계학의 차이점을 알아보겠습니다.
Data mining, AI, Data Science, Machine Learning 등 각 분야가 독립적인 것이 아니라 역시 여러 분야에 overlap되어 있습니다.
머신러닝과 통계학의 관계/차이를 간단히 알아보자면,
통계학 - '왜 그런 결과가 나오는지?'같이 설명력이 굉장히 중요합니다. → 화이트박스 분석
머신러닝 - 통계학과 다르게 결과중심으로 '정확도'가 중요합니다. 그래서 블랙박스로 해석이 어렵다는 단점이 있습니다.
[분석에서의 Life Cycle]
Identify/Formulate problem : 분석가들이 해결하고자 하는 과제
Data Preparation: 다양한 DB들을 모으는 단계, 분석하기 위해 Gathering, 데이터 수집 단계
Data Exploration: 데이터 탐색 (Ex: 시각적 탐색 등)
Transform & Selection: 데이터 탐색으로 데이터의 변형이 필요하다고 하면 데이터를 변형하는 단계
Build Model: 여러 알고리즘을 비교 분석
Validate Model : 검증 단계
Deploy Model: 모델 운용
[ 데이터 마이닝 적용 사례]
그럼 어떻게 데이터 마이닝을 분석에 적용할 수 있을까요?
업무영역은 고객/사용자의 다양한 요구 입니다.
고객 세분화, 고객 선호도를 조사, 구매 패턴을 조사 등 분석을 통해 알고 싶은 결과 입니다. 알고리즘은 분석에 필요한 방법론으로 Decision Tree, Regression 등 다양한 방법이 존재합니다.
이렇게 필요로 하는 데이터 분석에 적절한 알고리즘을 찾는 것이 중요합니다.
[SAS Enterprise Miner 개요 - 특징]
이제 SAS Enterprise에서 어떤 분석들을 할 수 있을지 설명드리겠습니다.
그림과 같이 SAS Enterprise Miner은 여러가지 장점이 있습니다.
* 가장 유용한 특징
[SAS Enterprise Miner 개요 - SEMMA 방법론]
SEMMA방법은 데이터 마이닝 모델을 개발하기 위한 방법론입니다.
SAS 뿐만 아니라 다른 Tool을 사용하더라도 데이터 마이닝을 할 때 표준 방법론으로 사용하실 수 있습니다.
SEMMA는 각각의 마이닝 절차의 앞글자를 따와 이름이 만들어졌습니다.
[SAS Enterprise Miner 개요]
SAS Enterprise Miner에서는 앞에서 소개한 SEMMA가 각각의 탭으로 존재합니다.
SEMMA 탭 안에는 여러가지 기능을 가진 노드들이 존재합니다.
이러한 노드들을 사용해서 데이터 작업을 수행할 수 있습니다.
[SAS Enterprise Miner 개요 - 구성]
그림에서 보면 'Menu bar & Shortcut buttons'에 SEMMA 탭이 있습니다.
왼쪽 상단에 보면 <Project Panel>가 있습니다.
EM은 Project 단위로 저장되고 ,Project안에서 내가 어떤 데이터를 쓰고 있는지 어떤 분석을 하고 있는지 알 수 있습니다.
그 아래 Properties panel은 각각의 노드들이 기능이 다르기 때문에 속성도 다릅니다.
그 속성을 변경 할 수 있는 창 입니다.
Help panel은 각 속성들의 내용들을 확인 할 수 있습니다.
Diagram Workspace는 분석을 하기 위한 도화지 입니다. 각 노드들을 연결해서 Process Flow로 만들 수 있는 공간입니다.
이와 같이 SAS Enterprise Miner은 별도의 코딩 없이 이미 만들어진 것을 Drag & Drop으로 데이터 분석을 진행할 수 있습니다.
[SAS Enterprise Miner 개요 - 구성 요소]
EM은 프로젝트 안 다이어그램으로 존재를 하고 노드들을 끌어들여 프로세스 플로우 형태로 만들 수 있습니다. 이는 직관적이며 시간이 절약되는 장점이 존재합니다.
[SAS Enterprise Miner 노드 - Sampling]
이번에는 SEMMA에서 자주 사용 노드들을 설명하고자 합니다.
첫번째는 Sampling 탭입니다. (+ 파일 가져오기 탭으로 데이터를 가져오기가 가능합니다.)
Sampling 탭에는 여러가지 표본 추출 방법들이 제공됩니다.
[SAS Enterprise Miner 노드 - Explore]
Explore단계에서는 DMDB, 멀티 플롯, 경로분석, 통계량 탐색 등의 기능을 제공합니다. (=EDA)
'그래프 탐색'으로 outlier나 이상치 탐색을 할 수 있습니다.
'클러스터링'은 data들의 군집분석을 진행 할 수 있습니다. 클러스터링은 비슷한 개체끼리 세분화하는데 사용할 수 있습니다.
[SAS Enterprise Miner 노드 - Explore]
이번에는 Explore탭에서 연관성 분석과 장바구니 탐색을 비교해보겠습니다.
장바구니 분석은 분류가 대분류, 중분류, 소분류로 Hierarchical하게 존재합니다. 이는 레벨을 넘나들며 분석을 진행 할 수 있습니다. '레벨을 넘나들며 분석을 진행한다'는 소분류는 대분류와도 분석을 진행할 수 있으며, 분류간의 구분 없이 분석을 진행할 수 있다는 의미입니다.
연관성 분석은 하나의 레벨에서만 분석이 가능합니다.
[SAS Enterprise Miner 노드 - Explore]
이번에는 Explore탭에서 경로분석 노드와 변수 클러스터링 노드를 비교해보겠습니다.
경로분석에서의 데이터는 웹로그 데이터로 분석을 진행합니다.
웹로그 데이터는 특정 웹사이트에 방문한 사용자들이 언제, 어디서, 어떤 페이지를 방문 했는지에 대한 정보를 기록한 파일입니다. 이 파일을 기반으로 웹사이트의 에러나 방문자 수, 방문 경로 등 사이트에 대한 다양한 분석과 통계가 가능해집니다.
변수 클러스터링 분석은 분서를 클러스터링 하는 분석입니다. 100개 이상의 변수로 이루어진 데이터가 있다면, 비슷한 패턴을 갖는 변수끼리 클러스터링하여 전체의 변수로 데이터 분석을 진행하는 것이 아니라 일부 변수만 선택하여 알고리즘에 넣어 분석을 진행할 수 있습니다. 또는 연관성있는 변수끼리 선형관계가 보인다면 파생 변수로 변수를 생성할 수도 있습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.