BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Cluster Analysis

Started ‎05-29-2023 by
Modified ‎05-29-2023 by
Views 621

 

클러스터 분석이란, 많은 데이터에서 유사한 것끼리 그룹으로 묶어 클러스터를 만들기 위한 방법이다.

주로, 고객이나 상품을 분류해서 마케팅 분야에서 많이 사용되고는 한다.

클러스터로 분류하는 방법은 2가지이다.

 

 

 

다운로드 (1).png

출처: https://datavizproject.com/data-type/dendrogram/ 

 

 

■ 계층 클러스터 분석(Hierarchical Cluster Analysis)

계층 구조로 개체를 분류하는 방법으로, Dendrogram(수형도)를 그려서 계층을 분류할 수 있다.

이는 분류하고 싶은 데이터의 수가 적을 때만 적합하다.

수형도란, 계층 클러스터 분석에서 클러스터나 개체의 결합과정을 나타낸 모양으로 가로축은 개체이고, 세로축은 결합 시의 비유사성을 나타냅니다.

 

 

 

 

 

 

 

kmeans (1).png

 

출처: https://bookdown.org/tpinto_home/Unsupervised-learning/k-means-clustering.html

 

 

 

 

 

■ 비계층 클러스터 분석 ( Non-Hierarchical Cluster Analysis)

계층 구조를 만들지 않고 개체의 분류만 하는 방법으로 몇 개의 클러스터로 나눌 것인가를 정하고 분류합니다. 대표적인 비계층 클러스터 분석은 K-means가 있다.

개체 수가 많을 경우, 계층 형성이 복잡하기 때문에 비계층 클러스터 분석이 적합하다.

 

■ 개체간의 거리 측정 방법

데이터간의 유사성을 측정하기 위해서는 일반적으로 거리 척도를 사용한다.

거리가 가까우면 유사성이 높고, 거리가 밀면 유사성이 낮다고 판단한다.

대표적으로 데이터간의 거리 계산법은 유클리드 거리를 사용한다.

개체 A는 X,Y 좌표상에서 A = (Xa, Ya)와 개체 B는 X,Y는 좌표상에서 (Xb, Yb)와의 거리 측정은 아래의 수식이다.

 

image (5).png

 

 

 

 

그룹과 개체, 그룹 간의 거리를 측정하려면 그룹의 중심 좌표를 이용한다.

 

 

 

■ 개체를 클러스터에 결합하는 방법

대표적으로 무게중심법과 워드법이 있다.

 

  • 무게중심법: 각 클러스터의 중심을 구한 다음 중심과의 거리를 산출

  • 워드법: 클러스터 내의 변동의 증가가 최소가 되게 클러스터를 통합

 

 

 

Version history
Last update:
‎05-29-2023 07:08 AM
Updated by:
Contributors

SAS Innovate 2025: Call for Content

Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!

Submit your idea!

Article Tags