BookmarkSubscribeRSS Feed

3. html 소스 제외 텍스트 원형 + 이미지 첨부

Started ‎06-05-2020 by
Modified ‎06-07-2020 by
Views 270

SAS E-Miner 시작하기

 

 

 


Lesson 01. Datamining 정의, 활용분야 및 E-Miner 시작하기

 

 

들어가는 말

 


안녕하세요 MYSAS 대학원생 홍보대사 김현우입니다. 들어가기에 앞서 이번 SAS Enterprise Miner의 과정을 통해 주로 쓰이는 기본적인 기능 습득(실습 포함)과 Datamining의 방법론인 SEMMA 위주로 진행하도록 하겠습니다.

 

Lesson

 

 

 

1. Datamining의 정의 및 활용 분야

대용량 데이터가 담긴 데이터 베이스로부터 분석하여 새로운 중요한 정보(예를 들어, 패턴, 유사성 등)를 발견하고 현실에 적용하는 과정을 의미 합니다. 분야로는 통신(이탈 고객 방지), 금융(리스크 관리), 제조(불량품 원인을 분석하고 예방), 의료, 유통, 치안 등등 다양한 분야에서 사용되고 있습니다.

 

2. SAS Enterprise Miner 시작하기


기본적인 구성 들을 소개하면서 Datamining의 방법론인 SEMMA과정을 실습과
함께 진행하겠습니다.

1. 프로젝트 생성하기
기존에 만들어 놓은 프로젝트가 있는 경우 프로젝트 열기를 통해 불러오면 됩니다.

1(59).png

 


프로젝트 이름: 새로운 프로젝트의 이름을 정합니다.
SAS 서버 디렉터리: 새로운 프로젝트의 저장장소를 설정합니다.



2(57).png3(47).png

결과
4(45).png
로컬 디스크(C:)안에 MYSAS 폴더가 완성되었습니다. 폴더 안에 여러 폴더가 존재하는 것을 알 수 있습니다. 각각의 역할은 추후 강의를 통해서 자세하게 알려드리겠습니다.

2. 라이브러리 생성하기(Dataset을 불러오기 위해서)
파일 메뉴를 통해서 하는 방법과 프로젝트 시작 코드 방법 두 가지를 보여 드리겠습니다.

1) 파일


1단계

5(41).png

2단계

6(40).png

3단계
7(33).png


라이브러리 이름 설정과 Dataset이 들어있는 폴더를 설정합니다.

4단계

8(32).png

 

2) 프로젝트 시작 코드
1단계: MYSAS를 클릭한 상태에서 프로젝크 시작 코드부분을 클릭합니다.

9(34).png

 

 

2단계
10(30).png


기본적인 라이브러리 생성 명령어와 동일합니다.
파일 메뉴를 통한 방법과 비교하기 위해 MYSAS_1로 설정했습니다.

두 방법의 결과 비교
11(27).png
12(23).png12-1(1).png

동일한 Dataset이 들어있다는 것을 확인 할 수 있습니다.
추천을 한다면 프로젝트 시작 코드 방법을 추천해드리고 싶습니다.(시간 절약)

3. 다이어그램 생성하기
다이어그램은 하나의 작업공간(Enterprise Guide에서는 프로세스 플로우의 역할)이라고 생각하면 됩니다. 직접 생성하는 방법을 보여드리겠습니다.
(파일 메뉴 방법을 통해서도 가능합니다.)

1단계: 다이어그램 클릭 후, 마우스 오른쪽 클릭

2단계

4. 데이터 소스 생성하기
직접 생성하는 방법을 보여드리겠습니다.
(파일 메뉴 방법을 통해서도 가능합니다.)

1단계: 데이터 소스 클릭 후, 마우스 오른쪽 클릭

2단계

3단계: 찾아보기 -> 분석할 Dataset 선택

4단계: 테이블 속성

5단계: 메타데이터 관리자 옵션은 기본으로 설정


6단계

중요!!
대부분 맞게 설정되지만 변수의 역할과 레벨이 정확한기 확인이 꼭 필요합니다.

추가적으로 말씀 드리면, 밑부분을 보면
요약 계산: 기본적인 통계량이 나옵니다.(개수, 결측률, 최소, 최대 등)
탐색: 변수 선택 후 실행해야 합니다.(빈도 그래프, 통계량, Data의 형태 등)

만약 FICO의 변수를 사용하지 않을 경우(변수 역할 클릭 후 Rejected 선택)

7단계: 표본 데이터셋 생성 - 아니요

8단계: Dataset의 역할

*Raw: 가공하지 않은 입력 Dataset으로 탐색할 때 주로 선택함.(모델링 활용 X)
*Train: 모형 개발에 활용됨.
*Validate: 모형 평가에 활용됨.
*Test: 모형 검증에 활용됨.
*Score: 새로운 Dataset으로 모형의 정확성 예측에 활용됨.
*Transaction: 연관성 분석, 장바구니 분석 등에 활용됨.
참고
Raw를 선택해도 분석과정에서 데이터분할을 통해 모델링 활용에 가능합니다.

9단계: 완료

"프로젝트 구성화면"

 

차회 예고 - Sampling

 

 

 

 

실습 QUIZ

 

 

Q. 라이브러리를 할당하여 데이터 소스 생성과정을 예시답변 화면을 캡쳐하여
khwend@nate.com 으로 메일을 보내주세요.

라이브러리 이름: 자유
Dataset: 자유

예시 답변)


소정의 상품이 있습니다.
보내주신 분들 중 추첨을 통해 스타벅스 카페라떼 1잔씩 보내 드립니다.
많은 참여 부탁드립니다.
참고로 회원정보 수정에 가셔서 본인의 핸드폰이 맞는지 확인 해주세요.

정답 발표 날: 2013.04.15(월요일)

감사합니다.

MYSAS 대학원생 홍보대사 김현우 올림.

 

 


본 자료의 저작원은 SAS KOREA. 에 있으며, 무단배포를 금합니다

Version history
Last update:
‎06-07-2020 12:02 PM
Updated by:
Contributors

Ready to join fellow brilliant minds for the SAS Hackathon?

Build your skills. Make connections. Enjoy creative freedom. Maybe change the world. Registration is now open through August 30th. Visit the SAS Hackathon homepage.

Register today!
Article Labels
Article Tags