안녕하세요 MYSAS 홍보대사 최준입니다.
오늘 연재할 내용은 클러스터링 노드,
즉 군집분석에 대한 연재를 해보겠습니다~^^
군집분석이란 포함된 변수들에 기초해 유사한 그룹
또는 군집을 만드는 것,
즉 동질성(Hoogeneity)를 가진 집단을 만드는 것입니다.
군집분석은 데이터를 나눈다? 라는 개념에서
Classificatoion과 Clustering 두가지 개념이 헷갈릴 수 있습니다.
Classification |
Clustering |
Dataset을 Sub-dataset으로 나누는 알고리즘 |
|
사전에 분류된 training set이 존재 |
미리 데이터의 유사 특징을 알 수 없음 |
학습용 데이터에 기반 알고리즘이 새로운 데이터를 분류하는데 사용 |
데이터 셋을 유사한 특성을 가진 sub dataset으로 나누고, 이 정보를 다른곳에 활용 |
위의 표를 보면 Clustering과 Classification의 차이를 확인하실 수 있습니다.
즉 군집분석은 데이터를 새로운 방식으로 요약
-> Insighit를 얻는 것이고,
타겟변수가 없고, 학습용 데이터를 사용하지 않기에
-> 비지도학습이라고 생각하시면 될 것 같습니다.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
실습
제가 예시로 보여주는 데이터는 소셜네트워크서비스(SNS)에 가입된
이용자의 프로필 및 게시정보를 기반으로
Clustering 기법을 적용해 10대 이용자 시장을 분류해보겠습니다. (snsdata.sas7bdat)
데이터는 1338개의 관측치와 7개의 변수(ex 나이, 성별...)을 가지고 있습니다.
이 데이터셋은 노터 데임 대학(University of Notre Dame)에서
10대 식별에 대한 사회학적 연구를 진행할때 만들어진 데이터셋입니다.
(참조 : Brett_Lantz, Machine Learning with R)
다음 이시간에는 snsdata 데이터를 읽어온 후에 클러스터링 노드를 사용하여 환자를 분류하는 것을
해보겠습니다.
감사합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.