Unsupervised Learning은 정답이 없는 데이터를 기반으로 데이터의 유의미한 패턴이나 구조를 발견하는 것 입니다.
대표적인 Unsupervised Learning은 Clustering이 있습니다.
Clustering의 의미는 유사한 특징을 가지는 데이터들을 그룹화 하는 것 입니다. Clustering 방법을 통해 구매 가격별 고객을 세분화, 소셜 네트워크 분석 - 나와 관련있는 친구를 찾기 , 기사 그룹 분류 - 스포츠, 정치 등으로 분류할 수 있습니다.
# Classification
Classification 이란, 정답이 있는 데이터들을 학습시켜 새로운 데이터가 들어오면, 데이터를 분류하게 됩니다.
# Clustering
Clustering 이란, 비슷한 특징을 가지고 있는 데이터들끼리 묶어주는 역할을 합니다.
정의) 데이터를 K개의 클러스터(그룹)으로 군집화하는 알고리즘으로 각 데이터로부터 각 데이터들이 속한 클러스터의 중심점(Centroid)까지 평균 거리를 계산하는 알고리즘.
동작순서)
K값 설정 - n 개의 임의의 그룹을 설정합니다.
지정된 K개 만큼의 랜덤 좌표를 설정합니다. 클러스터링 최초의 중심점을 의미합니다. 위 그림을 참고하면 3개의 임의의 그룹으로 설정하게 되면 각 그룹의 중심점을 설정합니다. 중심점은 아무 곳이나 괜찮습니다. (=랜덤)
모든 데이터로부터 가장 가까운 중심점을 선택합니다.
데이터들의 평균 중심으로 중심점을 이동합니다. 즉, 그룹으로 나눈 데이터들을 기준으로 새로운 중심점을 세팅합니다.
중심점이 이동되지 않을 때까지 반복합니다.
Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!