BookmarkSubscribeRSS Feed

[ML] 거리 측정 방식

Started ‎06-23-2024 by
Modified ‎06-23-2024 by
Views 180

 

 

K-means는 개체간의 유사도가 높은 데이터끼리 Clustering 합니다.

데이터 간의 유사도를 측정하는 방법으로는 다음과 같은 방법들이 있습니다.

 

  1. Euclidean Distance

제목_없는_다이어그램-페이지-3.drawio.png

 

 

데이터 유사도를 측정하기 위한 방법으로 여러 방법이 있지만 가장 대표적인 거리 계산 방법은 유클리드 거리(Euclidaen Distance)입니다.

Euclidean Distance 를 간단히 정의하자면, 가장 일반적인 거리 척도로 두 점의 좌표 차의 제곱합의 제곱근이라고 할 수 있습니다.

 

image (5).png

 

수식은 위와 같습니다. 피타고라스 정의와 유사합니다.

2. Manhattan Distance

 

 image (6).png

 

 

데이터 사이의 거리를 계산하는 방식 중 하나로, 격자 형식의 도시 블록을 따라 이동하는 것처럼 수평과 수직 경로만을 고려한 거리 측정 방식입니다.

위 그림을 보면 Route1, Route2, Route3를 보면 거리는 3개 모두 동일합니다.

 


image (7).png

 

 

 

 3. Cosine SImilarity

 

  

 

제목_없는_다이어그램-페이지-4.drawio_(1) (1).png
 
image (8).png

 

위 그림을 보면 A와 B, A와 C, B와 C의 3개의 각도가 존재합니다.

코사인 유사도는 각도가 작을수록 데이터끼리의 유사도가 높다라고 할 수 있습니다. 즉, 위의 데이터에서는 A와 B의 데이터가 가장 유사도가 높다라고 할 수 있습니다.

 

 

Version history
Last update:
‎06-23-2024 07:46 AM
Updated by:
Contributors

SAS Innovate 2025: Register Now

Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!

Article Labels
Article Tags