SAS Tech & Tip

BookmarkSubscribeRSS Feed

[ML] Unsupervised Learning

Started ‎06-23-2024 by
Modified ‎06-23-2024 by
Views 489

 

 

제목_없는_다이어그램.drawio_(1).png

 

 

Unsupervised Learning은 정답이 없는 데이터를 기반으로 데이터의 유의미한 패턴이나 구조를 발견하는 것 입니다.

대표적인 Unsupervised Learning은 Clustering이 있습니다.

Clustering의 의미는 유사한 특징을 가지는 데이터들을 그룹화 하는 것 입니다. Clustering 방법을 통해 구매 가격별 고객을 세분화, 소셜 네트워크 분석 - 나와 관련있는 친구를 찾기 , 기사 그룹 분류 - 스포츠, 정치 등으로 분류할 수 있습니다.

■ Classification 과 Clustering 방법의 차이점.

 

image (1).png

 

 

# Classification

Classification 이란, 정답이 있는 데이터들을 학습시켜 새로운 데이터가 들어오면, 데이터를 분류하게 됩니다.

 

 

 

image (2).png

 

 

# Clustering

Clustering 이란, 비슷한 특징을 가지고 있는 데이터들끼리 묶어주는 역할을 합니다.

 

 

■ Clustering의 대표적 알고리즘: K-means

 

제목_없는_다이어그램.drawio_(2).png

 

 

정의) 데이터를 K개의 클러스터(그룹)으로 군집화하는 알고리즘으로 각 데이터로부터 각 데이터들이 속한 클러스터의 중심점(Centroid)까지 평균 거리를 계산하는 알고리즘.

 

동작순서)

  1. K값 설정 - n 개의 임의의 그룹을 설정합니다.

  2. 지정된 K개 만큼의 랜덤 좌표를 설정합니다. 클러스터링 최초의 중심점을 의미합니다. 위 그림을 참고하면 3개의 임의의 그룹으로 설정하게 되면 각 그룹의 중심점을 설정합니다. 중심점은 아무 곳이나 괜찮습니다. (=랜덤)

  3. 모든 데이터로부터 가장 가까운 중심점을 선택합니다.

  4. 데이터들의 평균 중심으로 중심점을 이동합니다. 즉, 그룹으로 나눈 데이터들을 기준으로 새로운 중심점을 세팅합니다.

  5. 중심점이 이동되지 않을 때까지 반복합니다.

Version history
Last update:
‎06-23-2024 06:29 AM
Updated by:
Contributors

sas-innovate-white.png

Our biggest data and AI event of the year.

Don’t miss the livestream kicking off May 7. It’s free. It’s easy. And it’s the best seat in the house.

Join us virtually with our complimentary SAS Innovate Digital Pass. Watch live or on-demand in multiple languages, with translations available to help you get the most out of every session.

 

Register now!

Article Labels
Article Tags