클러스터 분석이란, 많은 데이터에서 유사한 것끼리 그룹으로 묶어 클러스터를 만들기 위한 방법이다.
주로, 고객이나 상품을 분류해서 마케팅 분야에서 많이 사용되고는 한다.
클러스터로 분류하는 방법은 2가지이다.
출처: https://datavizproject.com/data-type/dendrogram/
■ 계층 클러스터 분석(Hierarchical Cluster Analysis)
계층 구조로 개체를 분류하는 방법으로, Dendrogram(수형도)를 그려서 계층을 분류할 수 있다.
이는 분류하고 싶은 데이터의 수가 적을 때만 적합하다.
수형도란, 계층 클러스터 분석에서 클러스터나 개체의 결합과정을 나타낸 모양으로 가로축은 개체이고, 세로축은 결합 시의 비유사성을 나타냅니다.
그룹과 개체, 그룹 간의 거리를 측정하려면 그룹의 중심 좌표를 이용한다.
■ 개체를 클러스터에 결합하는 방법
대표적으로 무게중심법과 워드법이 있다.
무게중심법: 각 클러스터의 중심을 구한 다음 중심과의 거리를 산출
워드법: 클러스터 내의 변동의 증가가 최소가 되게 클러스터를 통합
Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!