SAS Tech & Tip

BookmarkSubscribeRSS Feed

[ML] 거리 측정 방식

Started ‎06-23-2024 by
Modified ‎06-23-2024 by
Views 332

 

 

K-means는 개체간의 유사도가 높은 데이터끼리 Clustering 합니다.

데이터 간의 유사도를 측정하는 방법으로는 다음과 같은 방법들이 있습니다.

 

  1. Euclidean Distance

제목_없는_다이어그램-페이지-3.drawio.png

 

 

데이터 유사도를 측정하기 위한 방법으로 여러 방법이 있지만 가장 대표적인 거리 계산 방법은 유클리드 거리(Euclidaen Distance)입니다.

Euclidean Distance 를 간단히 정의하자면, 가장 일반적인 거리 척도로 두 점의 좌표 차의 제곱합의 제곱근이라고 할 수 있습니다.

 

image (5).png

 

수식은 위와 같습니다. 피타고라스 정의와 유사합니다.

2. Manhattan Distance

 

 image (6).png

 

 

데이터 사이의 거리를 계산하는 방식 중 하나로, 격자 형식의 도시 블록을 따라 이동하는 것처럼 수평과 수직 경로만을 고려한 거리 측정 방식입니다.

위 그림을 보면 Route1, Route2, Route3를 보면 거리는 3개 모두 동일합니다.

 


image (7).png

 

 

 

 3. Cosine SImilarity

 

  

 

제목_없는_다이어그램-페이지-4.drawio_(1) (1).png
 
image (8).png

 

위 그림을 보면 A와 B, A와 C, B와 C의 3개의 각도가 존재합니다.

코사인 유사도는 각도가 작을수록 데이터끼리의 유사도가 높다라고 할 수 있습니다. 즉, 위의 데이터에서는 A와 B의 데이터가 가장 유사도가 높다라고 할 수 있습니다.

 

 

Version history
Last update:
‎06-23-2024 07:46 AM
Updated by:
Contributors

sas-innovate-white.png

Our biggest data and AI event of the year.

Don’t miss the livestream kicking off May 7. It’s free. It’s easy. And it’s the best seat in the house.

Join us virtually with our complimentary SAS Innovate Digital Pass. Watch live or on-demand in multiple languages, with translations available to help you get the most out of every session.

 

Register now!

Article Labels
Article Tags