BookmarkSubscribeRSS Feed

Enterprise Miner 활용 하기 (09) : 클러스터링 노드1

Started ‎06-10-2020 by
Modified ‎06-10-2020 by
Views 187

안녕하세요  MYSAS 홍보대사 최준입니다.

 

오늘 연재할 내용은 클러스터링 노드,

즉 군집분석에 대한 연재를 해보겠습니다~^^

 

군집분석이란 포함된 변수들에 기초해 유사한 그룹

또는 군집을 만드는 것,

 동질성(Hoogeneity)를 가진 집단을 만드는 것입니다.

 

군집분석은 데이터를 나눈다? 라는 개념에서

Classificatoion과 Clustering 두가지 개념이 헷갈릴 수 있습니다.

 

Classification

 Clustering

 Dataset을 Sub-dataset으로 나누는 알고리즘

사전에 분류된 training set이 존재

미리 데이터의 유사 특징을 알 수 없음

학습용 데이터에 기반

알고리즘이 새로운 데이터를 분류하는데

사용

데이터 셋을 유사한 특성을 가진

sub dataset으로 나누고,

이 정보를 다른곳에 활용

 

위의 표를 보면 Clustering과 Classification의 차이를 확인하실 수 있습니다.

 

즉 군집분석은 데이터를 새로운 방식으로 요약

-> Insighit를 얻는 것이고,

타겟변수가 없고, 학습용 데이터를 사용하지 않기에

-> 비지도학습이라고 생각하시면 될 것 같습니다.

 

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

실습

 

제가 예시로 보여주는 데이터는 소셜네트워크서비스(SNS)에 가입된

이용자의 프로필 및 게시정보를 기반으로

Clustering 기법을 적용해 10대 이용자 시장을 분류해보겠습니다. (snsdata.sas7bdat)

데이터는 1338개의 관측치와 7개의 변수(ex 나이, 성별...)을 가지고 있습니다.

 

이 데이터셋은 노터 데임 대학(University of Notre Dame)에서

10대 식별에 대한 사회학적 연구를 진행할때 만들어진 데이터셋입니다.

(참조 : Brett_Lantz, Machine Learning with R)

 

다음 이시간에는 snsdata 데이터를 읽어온 후에 클러스터링 노드를 사용하여 환자를 분류하는 것을

해보겠습니다.

 

감사합니다.

 

Version history
Last update:
‎06-10-2020 02:41 AM
Updated by:
Contributors

hackathon24-white-horiz.png

The 2025 SAS Hackathon Kicks Off on June 11!

Watch the live Hackathon Kickoff to get all the essential information about the SAS Hackathon—including how to join, how to participate, and expert tips for success.

YouTube LinkedIn

Article Labels
Article Tags