[ML] 거리 측정 방식
Article Options
- Article History
- RSS Feed
- Mark as New
- Mark as Read
- Bookmark
- Subscribe
- Printer Friendly Page
- Report Inappropriate Content
Views
290
K-means는 개체간의 유사도가 높은 데이터끼리 Clustering 합니다.
데이터 간의 유사도를 측정하는 방법으로는 다음과 같은 방법들이 있습니다.
-
Euclidean Distance
데이터 유사도를 측정하기 위한 방법으로 여러 방법이 있지만 가장 대표적인 거리 계산 방법은 유클리드 거리(Euclidaen Distance)입니다.
Euclidean Distance 를 간단히 정의하자면, 가장 일반적인 거리 척도로 두 점의 좌표 차의 제곱합의 제곱근이라고 할 수 있습니다.
수식은 위와 같습니다. 피타고라스 정의와 유사합니다.
2. Manhattan Distance
데이터 사이의 거리를 계산하는 방식 중 하나로, 격자 형식의 도시 블록을 따라 이동하는 것처럼 수평과 수직 경로만을 고려한 거리 측정 방식입니다.
위 그림을 보면 Route1, Route2, Route3를 보면 거리는 3개 모두 동일합니다.
3. Cosine SImilarity
위 그림을 보면 A와 B, A와 C, B와 C의 3개의 각도가 존재합니다.
코사인 유사도는 각도가 작을수록 데이터끼리의 유사도가 높다라고 할 수 있습니다. 즉, 위의 데이터에서는 A와 B의 데이터가 가장 유사도가 높다라고 할 수 있습니다.