BookmarkSubscribeRSS Feed

Enterprise Miner 활용 하기 (09) : 클러스터링 노드1

Started ‎06-10-2020 by
Modified ‎06-10-2020 by
Views 150

안녕하세요  MYSAS 홍보대사 최준입니다.

 

오늘 연재할 내용은 클러스터링 노드,

즉 군집분석에 대한 연재를 해보겠습니다~^^

 

군집분석이란 포함된 변수들에 기초해 유사한 그룹

또는 군집을 만드는 것,

 동질성(Hoogeneity)를 가진 집단을 만드는 것입니다.

 

군집분석은 데이터를 나눈다? 라는 개념에서

Classificatoion과 Clustering 두가지 개념이 헷갈릴 수 있습니다.

 

Classification

 Clustering

 Dataset을 Sub-dataset으로 나누는 알고리즘

사전에 분류된 training set이 존재

미리 데이터의 유사 특징을 알 수 없음

학습용 데이터에 기반

알고리즘이 새로운 데이터를 분류하는데

사용

데이터 셋을 유사한 특성을 가진

sub dataset으로 나누고,

이 정보를 다른곳에 활용

 

위의 표를 보면 Clustering과 Classification의 차이를 확인하실 수 있습니다.

 

즉 군집분석은 데이터를 새로운 방식으로 요약

-> Insighit를 얻는 것이고,

타겟변수가 없고, 학습용 데이터를 사용하지 않기에

-> 비지도학습이라고 생각하시면 될 것 같습니다.

 

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

실습

 

제가 예시로 보여주는 데이터는 소셜네트워크서비스(SNS)에 가입된

이용자의 프로필 및 게시정보를 기반으로

Clustering 기법을 적용해 10대 이용자 시장을 분류해보겠습니다. (snsdata.sas7bdat)

데이터는 1338개의 관측치와 7개의 변수(ex 나이, 성별...)을 가지고 있습니다.

 

이 데이터셋은 노터 데임 대학(University of Notre Dame)에서

10대 식별에 대한 사회학적 연구를 진행할때 만들어진 데이터셋입니다.

(참조 : Brett_Lantz, Machine Learning with R)

 

다음 이시간에는 snsdata 데이터를 읽어온 후에 클러스터링 노드를 사용하여 환자를 분류하는 것을

해보겠습니다.

 

감사합니다.

 

Version history
Last update:
‎06-10-2020 02:41 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags