BookmarkSubscribeRSS Feed

[SAS EM] SAS Enterprise Miner-part1

Started ‎11-29-2020 by
Modified ‎11-29-2020 by
Views 1,097

 

본 게시글은 SAS Enterprise Miner를 소개하는 글 입니다.

SAS Enterprise Miner은 SAS에서 만든 제품 중 하나로 신뢰성 높은 예측을 위한 보다 정확한 모델을 생성합니다.

 

[SAS Enterprise Miner 주요 특징]

  • 핵심 관계 파악 및 직관적이고 신속한 모델 개발
  • 프로세스 플로우 다이어 그램 환경이 모델 개발 시간 단축
  • 모델을 자동으로 생성하고 분석 결과를 이해하기 쉬운 도표에 표시되어 의사 결정 능력을 향상
  • 모델의 예측의 안정성과 정확성을 높혀줌
  • 빠른 결과 제시
  • 사용하기 쉬운 GUI

 

[머신러닝 VS 통계학]

1.png

 

SAS EM을 알아보기 전에 머신러닝과 통계학의 차이점을 알아보겠습니다.

 

Data mining, AI, Data Science, Machine Learning 등 각 분야가 독립적인 것이 아니라 역시 여러 분야에 overlap되어 있습니다.

 

머신러닝과 통계학의 관계/차이를 간단히 알아보자면,

통계학 -  '왜 그런 결과가 나오는지?'같이 설명력이 굉장히 중요합니다. → 화이트박스 분석

머신러닝 - 통계학과 다르게 결과중심으로 '정확도'가 중요합니다. 그래서 블랙박스로 해석이 어렵다는 단점이 있습니다.

 

[분석에서의 Life Cycle]

 

2.png

Identify/Formulate problem : 분석가들이 해결하고자 하는 과제

Data Preparation: 다양한 DB들을 모으는 단계, 분석하기 위해 Gathering, 데이터 수집 단계

Data Exploration: 데이터 탐색 (Ex: 시각적 탐색 등)

Transform & Selection: 데이터 탐색으로 데이터의 변형이 필요하다고 하면 데이터를 변형하는 단계

Build Model: 여러 알고리즘을 비교 분석

Validate Model : 검증 단계

Deploy Model: 모델 운용

 

 [ 데이터 마이닝 적용 사례]

 

3.png

그럼 어떻게 데이터 마이닝을 분석에 적용할 수 있을까요?

업무영역은 고객/사용자의 다양한 요구 입니다.

고객 세분화, 고객 선호도를 조사, 구매 패턴을 조사 등 분석을 통해 알고 싶은 결과 입니다. 알고리즘은 분석에 필요한 방법론으로 Decision Tree, Regression 등 다양한 방법이 존재합니다.

이렇게 필요로 하는 데이터 분석에 적절한 알고리즘을 찾는 것이 중요합니다.

 

  • 업무영역 : 고객의 입장에서 원하는 데이터 분석
  • 알고리즘: 분석에 필요한 방법론

 

[SAS Enterprise Miner 개요 - 특징]

5.png

 

이제 SAS Enterprise에서 어떤 분석들을 할 수 있을지 설명드리겠습니다.

그림과 같이 SAS Enterprise Miner은 여러가지 장점이 있습니다.

     

     * 가장 유용한 특징

  1. UI가 JAVA기반으로 제공됩니다.
  2. 다양한 모델링 기법이 탑재 입니다.

 

[SAS Enterprise Miner 개요 - SEMMA 방법론]

 

6.png

 

SEMMA방법은 데이터 마이닝 모델을 개발하기 위한 방법론입니다.

SAS 뿐만 아니라 다른 Tool을 사용하더라도 데이터 마이닝을 할 때 표준 방법론으로 사용하실 수 있습니다.

SEMMA는 각각의 마이닝 절차의 앞글자를 따와 이름이 만들어졌습니다.

  • Sampling: 분석 데이터 생성 → 데이터 gathering 단계
  • Explore: 데이터 조감도를 간략히 살펴 보는 단계로 기초 통계랑을 살펴본다던가 그래프를 그려 데이터를 대략적으로 알아가는 단계입니다. Explore 단계에서 outlier, 결측치가 있는 것을 알 수 있습니다.
  • Modify: Explore 단계에서 있는 데이터를 outlier, 결측치를 처리하는 단계입니다.
  • Modeling: 데이터의 패턴을 발견하는 단계로 회귀분석, 신경망 , Decision Tree 등과 같은 여러가지 모델링을 수행해 볼 수 있습니다.
  • Assessment: Modeling에서 수행한 여러가지 모델 중 하나를 선택해 추가 분석 수행 여부를 결정합니다.

  

[SAS Enterprise Miner 개요] 

 

7.png

 

SAS Enterprise Miner에서는 앞에서 소개한 SEMMA가 각각의 탭으로 존재합니다.

SEMMA 탭 안에는 여러가지 기능을 가진 노드들이 존재합니다.

이러한 노드들을 사용해서 데이터 작업을 수행할 수 있습니다.

 

[SAS Enterprise Miner 개요 - 구성]

 

8.png

 

그림에서 보면 'Menu bar & Shortcut buttons'에 SEMMA 탭이 있습니다.

왼쪽 상단에 보면 <Project Panel>가 있습니다.

EM은 Project 단위로 저장되고 ,Project안에서 내가 어떤 데이터를 쓰고 있는지 어떤 분석을 하고 있는지 알 수 있습니다.

그 아래 Properties panel은 각각의 노드들이 기능이 다르기 때문에 속성도 다릅니다.

그 속성을 변경 할 수 있는 창 입니다.

Help panel은 각 속성들의 내용들을 확인 할 수 있습니다.

Diagram Workspace는 분석을 하기 위한 도화지 입니다. 각 노드들을 연결해서 Process Flow로 만들 수 있는 공간입니다.

이와 같이 SAS Enterprise Miner은 별도의 코딩 없이 이미 만들어진 것을 Drag & Drop으로 데이터 분석을 진행할 수 있습니다.

 

 

[SAS Enterprise Miner 개요 - 구성 요소] 

 

9.png

 

EM은 프로젝트 안 다이어그램으로 존재를 하고 노드들을 끌어들여 프로세스 플로우 형태로 만들 수 있습니다. 이는 직관적이며 시간이 절약되는 장점이 존재합니다.

 

[SAS Enterprise Miner 노드 - Sampling]

 

10.png

 

이번에는 SEMMA에서 자주 사용 노드들을 설명하고자 합니다.

첫번째는 Sampling 탭입니다. (+ 파일 가져오기 탭으로 데이터를 가져오기가 가능합니다.)

Sampling 탭에는 여러가지 표본 추출 방법들이 제공됩니다.

 

 

[SAS Enterprise Miner 노드 - Explore]

 

11.png

 

Explore단계에서는 DMDB, 멀티 플롯, 경로분석, 통계량 탐색 등의 기능을 제공합니다. (=EDA)

'그래프 탐색'으로 outlier나 이상치 탐색을 할 수 있습니다.

'클러스터링'은 data들의 군집분석을 진행 할 수 있습니다. 클러스터링은 비슷한 개체끼리 세분화하는데 사용할 수 있습니다.

 

 

 [SAS Enterprise Miner 노드 - Explore]

 

12.png

 

이번에는 Explore탭에서 연관성 분석과 장바구니 탐색을 비교해보겠습니다.

장바구니 분석은 분류가 대분류, 중분류, 소분류로 Hierarchical하게 존재합니다. 이는 레벨을 넘나들며 분석을 진행 할 수 있습니다. '레벨을 넘나들며 분석을 진행한다'는 소분류는 대분류와도 분석을 진행할 수 있으며, 분류간의 구분 없이 분석을 진행할 수 있다는 의미입니다.

연관성 분석은 하나의 레벨에서만 분석이 가능합니다.

 

 

[SAS Enterprise Miner 노드 - Explore]

 

13.png

 

이번에는 Explore탭에서 경로분석 노드와 변수 클러스터링 노드를 비교해보겠습니다.

경로분석에서의 데이터는 웹로그 데이터로 분석을 진행합니다.

웹로그 데이터는 특정 웹사이트에 방문한 사용자들이 언제, 어디서, 어떤 페이지를 방문 했는지에 대한 정보를 기록한 파일입니다. 이 파일을 기반으로 웹사이트의 에러나 방문자 수, 방문 경로 등 사이트에 대한 다양한 분석과 통계가 가능해집니다.

변수 클러스터링 분석은 분서를 클러스터링 하는 분석입니다. 100개 이상의 변수로 이루어진 데이터가 있다면, 비슷한 패턴을 갖는 변수끼리 클러스터링하여 전체의 변수로 데이터 분석을 진행하는 것이 아니라 일부 변수만 선택하여 알고리즘에 넣어 분석을 진행할 수 있습니다. 또는 연관성있는 변수끼리 선형관계가 보인다면 파생 변수로 변수를 생성할 수도 있습니다.

 

Version history
Last update:
‎11-29-2020 07:33 PM
Updated by:
Contributors

Ready to join fellow brilliant minds for the SAS Hackathon?

Build your skills. Make connections. Enjoy creative freedom. Maybe change the world. Registration is now open through August 30th. Visit the SAS Hackathon homepage.

Register today!
Article Labels
Article Tags