[ML] Unsupervised Learning
- Article History
- RSS Feed
- Mark as New
- Mark as Read
- Bookmark
- Subscribe
- Printer Friendly Page
- Report Inappropriate Content
Unsupervised Learning은 정답이 없는 데이터를 기반으로 데이터의 유의미한 패턴이나 구조를 발견하는 것 입니다.
대표적인 Unsupervised Learning은 Clustering이 있습니다.
Clustering의 의미는 유사한 특징을 가지는 데이터들을 그룹화 하는 것 입니다. Clustering 방법을 통해 구매 가격별 고객을 세분화, 소셜 네트워크 분석 - 나와 관련있는 친구를 찾기 , 기사 그룹 분류 - 스포츠, 정치 등으로 분류할 수 있습니다.
■ Classification 과 Clustering 방법의 차이점.
# Classification
Classification 이란, 정답이 있는 데이터들을 학습시켜 새로운 데이터가 들어오면, 데이터를 분류하게 됩니다.
# Clustering
Clustering 이란, 비슷한 특징을 가지고 있는 데이터들끼리 묶어주는 역할을 합니다.
■ Clustering의 대표적 알고리즘: K-means
정의) 데이터를 K개의 클러스터(그룹)으로 군집화하는 알고리즘으로 각 데이터로부터 각 데이터들이 속한 클러스터의 중심점(Centroid)까지 평균 거리를 계산하는 알고리즘.
동작순서)
-
K값 설정 - n 개의 임의의 그룹을 설정합니다.
-
지정된 K개 만큼의 랜덤 좌표를 설정합니다. 클러스터링 최초의 중심점을 의미합니다. 위 그림을 참고하면 3개의 임의의 그룹으로 설정하게 되면 각 그룹의 중심점을 설정합니다. 중심점은 아무 곳이나 괜찮습니다. (=랜덤)
-
모든 데이터로부터 가장 가까운 중심점을 선택합니다.
-
데이터들의 평균 중심으로 중심점을 이동합니다. 즉, 그룹으로 나눈 데이터들을 기준으로 새로운 중심점을 세팅합니다.
-
중심점이 이동되지 않을 때까지 반복합니다.