K-means는 개체간의 유사도가 높은 데이터끼리 Clustering 합니다.
데이터 간의 유사도를 측정하는 방법으로는 다음과 같은 방법들이 있습니다.
Euclidean Distance
데이터 유사도를 측정하기 위한 방법으로 여러 방법이 있지만 가장 대표적인 거리 계산 방법은 유클리드 거리(Euclidaen Distance)입니다.
Euclidean Distance 를 간단히 정의하자면, 가장 일반적인 거리 척도로 두 점의 좌표 차의 제곱합의 제곱근이라고 할 수 있습니다.
수식은 위와 같습니다. 피타고라스 정의와 유사합니다.
2. Manhattan Distance
데이터 사이의 거리를 계산하는 방식 중 하나로, 격자 형식의 도시 블록을 따라 이동하는 것처럼 수평과 수직 경로만을 고려한 거리 측정 방식입니다.
위 그림을 보면 Route1, Route2, Route3를 보면 거리는 3개 모두 동일합니다.
3. Cosine SImilarity
위 그림을 보면 A와 B, A와 C, B와 C의 3개의 각도가 존재합니다.
코사인 유사도는 각도가 작을수록 데이터끼리의 유사도가 높다라고 할 수 있습니다. 즉, 위의 데이터에서는 A와 B의 데이터가 가장 유사도가 높다라고 할 수 있습니다.
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!