BookmarkSubscribeRSS Feed

[SAS 활용 노하우 ] Data Modeling part4

Started ‎03-06-2021 by
Modified ‎03-06-2021 by
Views 389

안녕하세요

이번 게시글은 Data Modeling par3의 이어지는 글 입니다.

 

10. K-Means Clustering

K-Means Clustering은 유사도 거리를 이용하여 자료를 분류하는 Algorithm입니다.

 

* Path Analysis의 기본 개념

관찰치들의 밀도가 높은 가상의 중심점을 찾아서 반복 계산을 수행하여, 특정 그룹에 속한 관찰치들은 유사도가 높고 그룹간에는 유사도가 낮아지도록 함.

 

* K-Means Clustering 절차

  Step 1. 입력 값 선택

  Step 2. 군집 수 결정

  Step 3. 관찰치 군집 할당

  Step 4. 새로운 중심 계산

  Step 5. 군집에 재할당

  Step 6. 4단계 반복

  Step 7. 5단계 반복

  Step 8. 중심이 한 점 수렴시 종료

 

* K-Means 예시

 

그림1.png

[ 그림 1 : K-Means Clustering 절차 ]

 

그림1.png

[ 그림 2 ]

 

 

* Using Enterprise Miner

그림1.png

 

1. 입력 평균 그래프 - 클러스터 별로 입력 변수의 평균값을 보여주는 그래프

 

그림1.png

 

 

2. 클러스터 통계량: 입력 변수와 세그먼트 값의 요약 내용을 포함

 

그림2.png

 

 

3. 테이블 : 각 클러스터 간의 거리를 표로 나타냄

 

그림3.png

 

 

4. 세그먼트 도표 : class 변수에 대해서 각 세그먼트 내에서의 레벨 별 분포를 보여주는 도표

 

그림4.png

 

 

5. 변수중요도 : 클러스터를 나누는데 사용되는 변수의 중요도를 보여줌

 

       그림5.png

 

 

11. K - Nearest Neighbor 

K-Nearest Classification은 K개의 학습샘플을 이용하여 특정 관찰치의 목표값을 추정하는 Algorithm입니다.

 

* Path Analysis의 기본 개념 

타겟값을 예측하고 싶은 관측치가 있으면 그 점으로부터 가장 가까운 K개의 관측치를 찾고 이들의 타겟값을 이용하여 예측하는 알고리즘

 

* K-Nearest Neighbor 절차

1. 가장 가까운 K개 관측치의 타겟값의 분포로부터 사후 확률 계산을 합니다.

2. 예시 그림과 같이 이진 타겟을 예측하는 경우 녹색 점의 타겟은 K = 3일 때는 삼각형, K= 5일 때는 사각형일 확률이 높음

 

그림1.png

 

 

3.  interval 타겟의 경우에는 가장 가까운 k개 관측치의 타겟값을 평균 내에 예측이 가능합니다.

 

* Enterprise Miner

그림1.png

 

1. 순위스코어 행렬 : 백분위 구간별 예측값과 실제값 비교

 

그림2.png

 

 

2. 스코어 분포 : 실제값과 예측값의 비교 

 

그림3.png

 

 

3. 분류 그래프 : 모델의 타겟 변수 예측 정확도 결과 그래프

 

그림4.png

  

 

4. 스코어 순위 행렬:스코어 값을 이용하여 분류 정도를 판단하는데 유용한 그래프 

 

그림6.png

 

 

12. SOM / Kohonen

SOM(Self - Organizing Maps)은 입력변수를 뉴런 클러스터에 대입하여 분류하는 신경망 Algorithm

 

* 기본 개념 

실제 데이터의 입력 변수 개수보다 낮은 차원의 map에 뉴런(클러스터)을 구성하고 이 클러스터와 입력 변수들 사이의 관계를 파악하는 신경망의 일종입니다.

SOM에서는 뉴런들로 격자조직을 이루며 분석과정에서는 neighborhood 크기의 선택이 가장 중요한 파라미터 분석 과정입니다.

 

* SOM의 절차 

1. N(x1,x2, ... , xn)개의 입력변수

2. X(가로)*Y(세로)개의 격자형 클러스터

그림1.png

 

[ SOM 절차 그림 ]

 

 

 * Enterprise Miner 그림1.png

 

 

1. Cluster Maps(X*Y)

각 영역은 하나의 클러스터를 의미하며 색은 클러스터에 속하고 데이터의 개수에 의해 결정됩니다.

 

그림3.png

 

 

2. Cluster Map(X*Y) : 생성된 세그먼트 정보 제공 

 

그림4.png

 

 

3. 분석 통계량 

관측치의 종류 별로 SOM 세그먼트 ID, SOM 차원 1, SOM 차원2 , 각 입력 변수의 통계량을 정리한 표

 

그림5.png

 

Version history
Last update:
‎03-06-2021 12:26 PM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags