BookmarkSubscribeRSS Feed

[ML] Unsupervised Learning

Started ‎06-23-2024 by
Modified ‎06-23-2024 by
Views 147

 

 

제목_없는_다이어그램.drawio_(1).png

 

 

Unsupervised Learning은 정답이 없는 데이터를 기반으로 데이터의 유의미한 패턴이나 구조를 발견하는 것 입니다.

대표적인 Unsupervised Learning은 Clustering이 있습니다.

Clustering의 의미는 유사한 특징을 가지는 데이터들을 그룹화 하는 것 입니다. Clustering 방법을 통해 구매 가격별 고객을 세분화, 소셜 네트워크 분석 - 나와 관련있는 친구를 찾기 , 기사 그룹 분류 - 스포츠, 정치 등으로 분류할 수 있습니다.

■ Classification 과 Clustering 방법의 차이점.

 

image (1).png

 

 

# Classification

Classification 이란, 정답이 있는 데이터들을 학습시켜 새로운 데이터가 들어오면, 데이터를 분류하게 됩니다.

 

 

 

image (2).png

 

 

# Clustering

Clustering 이란, 비슷한 특징을 가지고 있는 데이터들끼리 묶어주는 역할을 합니다.

 

 

■ Clustering의 대표적 알고리즘: K-means

 

제목_없는_다이어그램.drawio_(2).png

 

 

정의) 데이터를 K개의 클러스터(그룹)으로 군집화하는 알고리즘으로 각 데이터로부터 각 데이터들이 속한 클러스터의 중심점(Centroid)까지 평균 거리를 계산하는 알고리즘.

 

동작순서)

  1. K값 설정 - n 개의 임의의 그룹을 설정합니다.

  2. 지정된 K개 만큼의 랜덤 좌표를 설정합니다. 클러스터링 최초의 중심점을 의미합니다. 위 그림을 참고하면 3개의 임의의 그룹으로 설정하게 되면 각 그룹의 중심점을 설정합니다. 중심점은 아무 곳이나 괜찮습니다. (=랜덤)

  3. 모든 데이터로부터 가장 가까운 중심점을 선택합니다.

  4. 데이터들의 평균 중심으로 중심점을 이동합니다. 즉, 그룹으로 나눈 데이터들을 기준으로 새로운 중심점을 세팅합니다.

  5. 중심점이 이동되지 않을 때까지 반복합니다.

Version history
Last update:
‎06-23-2024 06:29 AM
Updated by:
Contributors

SAS Innovate 2025: Call for Content

Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!

Submit your idea!

Article Labels
Article Tags