- EM을 실행하면 위와 같은 화면이 나옵니다. 여기서 “새로운 프로젝트”를 클릭해주세요
- 프로젝트이름과 디렉터리를 설정해 주시면 해당 디렉터리에 해당 프로젝트이름의 폴더가 생성됩니다. “다음”을 클릭해주세요
- 완성된 프로젝트의 정보를 보여주는 화면입니다. “마침”을 클릭하시면 프로젝트가 생성됩니다.
2. 라이브러리 만들기
- SAS를 사용하시면서 “라이브러리”라는 말을 많이 들으셨으리라 생각됩니다.
저는 처음에는 라이브러리라길래 학교에 있는 중앙도서관 생각했었는데
영어권에서는 그냥 서적이나 자료가 좀 모여있으면 그걸 라이브러리라고 부를 수 있는 모양입니다.
스케일이 작군요 땅덩이도 큰 곳에서 사는 사람들이 ㅎㅎ
- EM 상단의 파일메뉴에서 새로만들기 메뉴를 보시면 라이브러리를 생성할 수 있습니다. “라이브러리”를 클릭해 주세요
- 파일메뉴 바로 아래에 있는 해 모양의 아이콘을 클릭하는 방법도 있습니다.
- 기존에 만들어진 라이브러리가 없으므로 새로운 라이브러리만 선택 가능합니다. “다음”을 클릭해주세요
- 앞서 프로젝트를 만들 때와 마찬가지로 라이브러리의 이름과 경로를 지정해줍니다.
프로젝트와 다른 점은, 새로운 폴더를 생성하는 것이 아니라 기존 폴더에 이름을 새로운 붙인다는 점입니다.
SAS/BASE의 LIBNAME 명령어와 같은 개념이라고 보시면 될 것 같습니다.
- 라이브러리의 이름과 경로를 지정하신 후 “다음”을 클릭해주세요
- 생성된 라이브러리의 정보를 보여주는 화면입니다. “마침”을 클릭하면 라이브러리가 생성됩니다.
3. 다이어그램 만들기
- 다이어그램은 비교적 간단히 만들 수 있습니다.
- 파일메뉴와 해 모양 아이콘으로 만들 수도 있지만 저는 다이어그램 아이콘을 우클릭하여 다이어그램 생성을 해보았습니다.
(셋 중에 편한 방법을 이용하세요~)
- 다이어그램은 이름만 지정하면 되네요? 간단해서 좋습니다 ㅎ
- 이름을 지정하신 후 “확인”을 클릭해주세요
4. 데이터소스 만들기
- “파일-새로만들기-데이터소스”를 차례로 클릭하여 데이터소스 구성을 시작해보겠습니다.
- “다음”을 누릅니다.
- “찾아보기”를 누르면 아래와 같은 화면이 나옵니다.
- 왼쪽 칸에는 라이브러리, 오른쪽 칸에는 선택된 라이브러리에 포함된 데이터셋들이 표출됩니다.
- 저는 “Movie”라는 데이터셋을 선택해보겠습니다. “확인”을 클릭합니다.
- 저렇게 테이블명이 입력됩니다. “다음”을 누릅니다.
- 데이터의 정보를 나타내는 화면이 표출됩니다. “다음”을 누릅니다.
- 메타데이터 관리를 어떻게 할 것이냐를 묻는 창이 나옵니다.
메타데이터는,, 어떤 데이터를 분석한 데이터,,정도로 보시는 게 어떨까 싶네요.
“이 데이터는 어떤 변수로 구성되어 있으며 변수의 성격은 각각 무엇이며, 관측치는 어떤 포맷인가” 등등
말 그대로 데이터를 위한 데이터라고 보시면 됩니다.
- 저는 “기본”을 선택하기로 했습니다. 디폴트 만세
- “다음”을 누릅니다.
- 이미 접해보신 분들은 아시겠지만 요놈이 메타데이터인데요, 분석을 위해서는 종속변수,,
즉 타겟변수가 필요하기 때문에 저는 영화평점 변수를 Target변수를 설정하였습니다.
- 기타 등등 분석에 필요한 기초작업을 마친 뒤 “다음”을 누릅니다.
- 의사결정에 기반한 모델을 생성하시겠냐고 묻는데 그저 쿨하게 “다음”을 눌러주세요
- 표본 데이터셋을 생성할 것인지 묻는 화면이 나옵니다. 관측치(행)가 60개 뿐이므로
저는 따로 표본을 만들지 않기로 했습니다.
- “다음”을 누릅니다.
- 세그먼트 ID라,,,,,
- “다음”을 눌러주세요
- 메타데이터가 완료되었다는 화면과 함께 변수들을 성격별로 나누어서 그 개수를 보여줍니다.
- “마침”을 누르시면 드디어 데이터소스 생성이 완료됩니다.
데이터소스 만드는 게 사실 과정이 길어서 그렇지 복잡하지 않습니다.
그리고 데이터소스를 생성할 때 깜빡하고 메타데이터에 넣지 않은 내용이 있을 때에는
“유틸리티” 탭에 있는 “메타데이터” 노드를 이용하여 언제든지 재구성할 수 있으니 안심하셔도 됩니다.
오늘은 여기까지 진행하도록 하겠습니다.
다음 시간에는 드디어 텍스트 마이닝 노드를 이용하여 분석작업을 시작하게 됩니다.
텍스트 마이닝의 가장 첫 번째 단계인 “텍스트 파싱” 노드를 이용하여 분석을 진행하도록 하겠습니다.
그럼 다음 시간에 뵙도록 하겠습니다. 긴 글 읽어주셔서 감사합니다. 좋은 하루 되세요!