BookmarkSubscribeRSS Feed

[ML] Unsupervised Learning

Started ‎06-23-2024 by
Modified ‎06-23-2024 by
Views 771

 

 

제목_없는_다이어그램.drawio_(1).png

 

 

Unsupervised Learning은 정답이 없는 데이터를 기반으로 데이터의 유의미한 패턴이나 구조를 발견하는 것 입니다.

대표적인 Unsupervised Learning은 Clustering이 있습니다.

Clustering의 의미는 유사한 특징을 가지는 데이터들을 그룹화 하는 것 입니다. Clustering 방법을 통해 구매 가격별 고객을 세분화, 소셜 네트워크 분석 - 나와 관련있는 친구를 찾기 , 기사 그룹 분류 - 스포츠, 정치 등으로 분류할 수 있습니다.

■ Classification 과 Clustering 방법의 차이점.

 

image (1).png

 

 

# Classification

Classification 이란, 정답이 있는 데이터들을 학습시켜 새로운 데이터가 들어오면, 데이터를 분류하게 됩니다.

 

 

 

image (2).png

 

 

# Clustering

Clustering 이란, 비슷한 특징을 가지고 있는 데이터들끼리 묶어주는 역할을 합니다.

 

 

■ Clustering의 대표적 알고리즘: K-means

 

제목_없는_다이어그램.drawio_(2).png

 

 

정의) 데이터를 K개의 클러스터(그룹)으로 군집화하는 알고리즘으로 각 데이터로부터 각 데이터들이 속한 클러스터의 중심점(Centroid)까지 평균 거리를 계산하는 알고리즘.

 

동작순서)

  1. K값 설정 - n 개의 임의의 그룹을 설정합니다.

  2. 지정된 K개 만큼의 랜덤 좌표를 설정합니다. 클러스터링 최초의 중심점을 의미합니다. 위 그림을 참고하면 3개의 임의의 그룹으로 설정하게 되면 각 그룹의 중심점을 설정합니다. 중심점은 아무 곳이나 괜찮습니다. (=랜덤)

  3. 모든 데이터로부터 가장 가까운 중심점을 선택합니다.

  4. 데이터들의 평균 중심으로 중심점을 이동합니다. 즉, 그룹으로 나눈 데이터들을 기준으로 새로운 중심점을 세팅합니다.

  5. 중심점이 이동되지 않을 때까지 반복합니다.

Contributors
Version history
Last update:
‎06-23-2024 06:29 AM
Updated by:

sas-innovate-2026-white.png



April 27 – 30 | Gaylord Texan | Grapevine, Texas

Registration is open

Walk in ready to learn. Walk out ready to deliver. This is the data and AI conference you can't afford to miss.
Register now and save with the early bird rate—just $795!

Register now

Article Labels
Article Tags