[ML] 거리 측정 방식

K-means는 개체간의 유사도가 높은 데이터끼리 Clustering 합니다.

데이터 간의 유사도를 측정하는 방법으로는 다음과 같은 방법들이 있습니다.

제목_없는_다이어그램-페이지-3.drawio.png

데이터 유사도를 측정하기 위한 방법으로 여러 방법이 있지만 가장 대표적인 거리 계산 방법은 유클리드 거리(Euclidaen Distance)입니다.

Euclidean Distance 를 간단히 정의하자면, 가장 일반적인 거리 척도로 두 점의 좌표 차의 제곱합의 제곱근이라고 할 수 있습니다.

image (5).png

수식은 위와 같습니다. 피타고라스 정의와 유사합니다.

2. Manhattan Distance

image (6).png

데이터 사이의 거리를 계산하는 방식 중 하나로, 격자 형식의 도시 블록을 따라 이동하는 것처럼 수평과 수직 경로만을 고려한 거리 측정 방식입니다.

위 그림을 보면 Route1, Route2, Route3를 보면 거리는 3개 모두 동일합니다.

image (7).png

3. Cosine SImilarity

위 그림을 보면 A와 B, A와 C, B와 C의 3개의 각도가 존재합니다.

코사인 유사도는 각도가 작을수록 데이터끼리의 유사도가 높다라고 할 수 있습니다. 즉, 위의 데이터에서는 A와 B의 데이터가 가장 유사도가 높다라고 할 수 있습니다.

Resources