안녕하세요, Marketing 부서에 근무하고 있는 인턴 김규리입니다.
이번에는 SAS VDMML을 사용하는 방법에 대해 알아보도록 하겠습니다.
① 모델링 준비과정
② 모델링 과정
③ 모델 비교 및 결과 도출
위와 같이 3가지의 시리즈로 나눠서 진행하겠습니다.
① 모델링 준비과정 에 대해 알아보기 전, SAS VDMML이 어떤 것인지 알아볼까요?
SAS VDMML은 Visual Data Mining & Machine Learning의 줄임말입니다.
통합적인 시각화(프로그래밍) 인터페이스를 통하여 분석 라이프 사이클의 모든 작업을 처리하는 엔드 투 엔드(End-to-end)로 데이터 마이닝 및 머신러닝 프로세스를 지원하는 제품입니다.
SAS VDMML은 데이터 관리에서 모델 개발 및 배포에 이르기까지 모든 작업을 동일한 통합 환경에서 진행할 수 있고, 초 또는 분 단위로 분석 모델링을 신속히 처리할 수 있습니다.
또한, Python, R, Java 및 Lua 프로그래머는 SAS 프로그래밍 방법을 배우지 않고도 다른 프로그래밍 언어를 통해 검증된 SAS 머신러닝 알고리즘에 액세스할 수 있으며 자동 생성된 SAS 스코어 코드를 사용하여 예측 모델을 신속하게 배포할 수 있습니다.
고급 머신러닝 알고리즘은 코드를 작성하지 않고도 드래그-앤-드롭(Drag-and-Drop) 방식의 시각화 인터페이스를 사용하여 생성할 수 있습니다. 😊
SAS VDMML에서 [모델 생성]을 클릭하면 위와 같이 새로운 프로젝트를 만들 수 있습니다.
새로운 프로젝트의 이름을 입력한 뒤, 프로젝트의 유형을 선택합니다.
프로젝트 유형에는 데이터 마이닝 및 머신 러닝, 예측, 텍스트 분석이 있습니다.
그 다음 모델링하려는 데이터를 선택합니다.
고급을 클릭하면 프로젝트에 대한 설정을 할 수 있습니다.
관리자 옵션에선 최대 결측 비율 등을 설정할 수 있습니다.
데이터 분할에선 모델을 학습시키기 위한 train데이터와 평가(Validation)와 검증(Test)을 위한
데이터를 원하는 비율로 나눌 수 있습니다.
설명 드린 과정대로 진행하시면 위와 같이 프로젝트를 생성합니다.
생성이 되면 다음과 같은 화면이 나타납니다. 이 화면에서 데이터에 대한 정보 확인 및 변수에 대한 설정을 할 수 있습니다.
주의할 점은 위에 나타난 경고문처럼 하나의 변수에 대해 Target으로 무조건 지정해야 합니다.
다음과 같이 Target을 설정할 수 있습니다.
그리고 각 변수에 대한 역할과 레벨 등을 설정할 수 있습니다.
역할에는 Input(모델링에 쓰이는 변수), Rejected(모델링에 쓰이지 않는 변수), Target, ID 등이 있습니다.
레벨에는 Nominal, Interval, Binary, Ordinal가 있습니다.
그 다음, 오른쪽 위에 설정 버튼을 클릭하면 프로젝트에 대한 전체 설정을 할 수 있습니다.
첫번째 프로젝트 생성 단계에서 설정한 옵션도 포함되어 있습니다.
파이프라인을 실행하게 되면 편집이 불가능하므로 정확하게 설정해야 합니다.
위의 순서에 따라 진행하시면 모델링 준비를 모두 마치셨습니다.
다음 시간에는 ② 모델링 과정에 대해 알아보도록 하겠습니다.
감사합니다. 😊
Save $250 on SAS Innovate and get a free advance copy of the new SAS For Dummies book! Use the code "SASforDummies" to register. Don't miss out, May 6-9, in Orlando, Florida.