BookmarkSubscribeRSS Feed

Enterprise Miner 활용 하기 (10) : 클러스터링 노드2

Started ‎06-10-2020 by
Modified ‎06-10-2020 by
Views 100

안녕하세요 MYSAS 홍보대사 최준입니다.

 

저번 시간에 이어서 이번에는

클러스터링 코드 노드를 통해 학생들을 군집화 하는 과정을 해보겠습니다~^^

 

SE22015072813184270.png

먼저 snsdata를 불러옵니다.

데이터를 불러올 때 고급옵션으로 불러오면 다음과 같이 간단한 통계량 정보를 확인할 수 있습니다.

먼저 왜도를 확인해보면 sex, god, band 변수가 왜도가 높음을 확인해볼 수 있습니다.

또한 나이 변수(age)가 결측치가 17%가 존재하고 범위는 3세부터 105세까지 있음을 확인할 수 있습니다.

 

저희가 하고자 하는 것은 Clustering 기법을 적용해 10대 이용자 시장을 분류하는 것입니다.

때문에 필터링 작업이 필요합니다.

 

SE22015072813234370.png

먼저 age 변수의 결측치 처리부터 해보겠습니다.

Enterprise MIner에서도 결측치 처리 노드가 있지만, 오늘은 지난시간에 배웠었던 SAS 코드 노드를 복습하는 의미로써

SAS 코드 노드를 이용해서 결측치 처리를 해보았습니다.

 

변수 중에 grandyear 변수가 있습니다.(중학교 졸업한 년도)

제가 grandyear 년도별 age 평균을 계산해보니 코드창에 나와있는 숫자(ex 2006년 졸업생 평균 나이 : 18.68)

를 도출해 낼 수 있었습니다.

이를 통해서 age 결측치도 유추할 수 있었고, 대체 할 수 있었습니다~^_^ 

 

SE22015072813292070.png

 

다음은 SAS코드 노드에 필터링 노드를 연결하여 10대들만 추출 해보았습니다.

필터링 노드의 속성탭에 interval 변수 옵션을 통해서

age 변수 필터링 하한을 13, 필터링 상한을 20으로 설정해보았습니다.

 

SE22015072813311970.png

그 결과 다음과 같이 결측치를 처리하였고, 최소값 13, 최대값 20으로 10대의 데이터만 불러왔음을 확인할 수 있었습니다.

 

SE22015072813331670.png

통계량 탐색 노드에서 변수변환 노드를 연결한 후에 interval 옵션을 표준화 해주었습니다.

 

SE22015072813364870.png

그 후에 변수변환 노드 뒤에 탐색 탭 -> 클러스터링 노드를 연결했습니다.

이미 내부표준화를 해주었기 때문에, 내부 표준화 옵션은 None으로 하였고,

클러스터 개수는 5개로 설정했습니다.

 

SE22015072813383570.png

클러스터링으로 군집화 된 학생들의 특성을 조금 더 살펴보고 싶다면

클러스터링 노드 뒤에 세그먼트 프로파일링 노드를 연결하면 됩니다.

 

SE22015072813394970.png

 

 

회색 히스토그램은 각 변수별로 세그먼트 내의 분포를 나타냅니다. 

그리고 투명한 히스토그램(빨강색)은 각 변수별 전체 데이터의 분포를 보여줍니다.

이를 비교함으로써 각 세그먼트가 전체 분포와는 달리 어떤 특징을 가지는지 쉽게 확인할 수 있습니다.

 

하나만 예를 들면 세그먼트 2의 10대들은 헤어, 키스, 옷 과 같은 변수들에 대한 관심이 높은 것을 파악할 수 있는 것입니다.

(이를 통해 세그먼트 2의 10대들은 여성이라는 것을 유추해 볼 수 있습니다.)

저는 클러스터링 노드로 5개를 구분하고 싶었는데, 3가지 집단으로 구분이 되었네요...

지금까지 클러스터링 노드에 대해서 살펴보았습니다.

 

기타 궁금하신 점이 있으시다면

언제든지 저에게 쪽지 or 댓글로 문의해주시면 친절하게 답변해드리겠습니다.

 

감사합니다.

 

Version history
Last update:
‎06-10-2020 02:45 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags