안녕하세요
이번 게시글은 Data Modeling par3의 이어지는 글 입니다.
K-Means Clustering은 유사도 거리를 이용하여 자료를 분류하는 Algorithm입니다.
* Path Analysis의 기본 개념
관찰치들의 밀도가 높은 가상의 중심점을 찾아서 반복 계산을 수행하여, 특정 그룹에 속한 관찰치들은 유사도가 높고 그룹간에는 유사도가 낮아지도록 함.
* K-Means Clustering 절차
Step 1. 입력 값 선택
Step 2. 군집 수 결정
Step 3. 관찰치 군집 할당
Step 4. 새로운 중심 계산
Step 5. 군집에 재할당
Step 6. 4단계 반복
Step 7. 5단계 반복
Step 8. 중심이 한 점 수렴시 종료
* K-Means 예시
[ 그림 1 : K-Means Clustering 절차 ]
[ 그림 2 ]
* Using Enterprise Miner
1. 입력 평균 그래프 - 클러스터 별로 입력 변수의 평균값을 보여주는 그래프
2. 클러스터 통계량: 입력 변수와 세그먼트 값의 요약 내용을 포함
3. 테이블 : 각 클러스터 간의 거리를 표로 나타냄
4. 세그먼트 도표 : class 변수에 대해서 각 세그먼트 내에서의 레벨 별 분포를 보여주는 도표
5. 변수중요도 : 클러스터를 나누는데 사용되는 변수의 중요도를 보여줌
K-Nearest Classification은 K개의 학습샘플을 이용하여 특정 관찰치의 목표값을 추정하는 Algorithm입니다.
* Path Analysis의 기본 개념
타겟값을 예측하고 싶은 관측치가 있으면 그 점으로부터 가장 가까운 K개의 관측치를 찾고 이들의 타겟값을 이용하여 예측하는 알고리즘
* K-Nearest Neighbor 절차
1. 가장 가까운 K개 관측치의 타겟값의 분포로부터 사후 확률 계산을 합니다.
2. 예시 그림과 같이 이진 타겟을 예측하는 경우 녹색 점의 타겟은 K = 3일 때는 삼각형, K= 5일 때는 사각형일 확률이 높음
3. interval 타겟의 경우에는 가장 가까운 k개 관측치의 타겟값을 평균 내에 예측이 가능합니다.
* Enterprise Miner
1. 순위스코어 행렬 : 백분위 구간별 예측값과 실제값 비교
2. 스코어 분포 : 실제값과 예측값의 비교
3. 분류 그래프 : 모델의 타겟 변수 예측 정확도 결과 그래프
4. 스코어 순위 행렬:스코어 값을 이용하여 분류 정도를 판단하는데 유용한 그래프
SOM(Self - Organizing Maps)은 입력변수를 뉴런 클러스터에 대입하여 분류하는 신경망 Algorithm
* 기본 개념
실제 데이터의 입력 변수 개수보다 낮은 차원의 map에 뉴런(클러스터)을 구성하고 이 클러스터와 입력 변수들 사이의 관계를 파악하는 신경망의 일종입니다.
SOM에서는 뉴런들로 격자조직을 이루며 분석과정에서는 neighborhood 크기의 선택이 가장 중요한 파라미터 분석 과정입니다.
* SOM의 절차
1. N(x1,x2, ... , xn)개의 입력변수
2. X(가로)*Y(세로)개의 격자형 클러스터
[ SOM 절차 그림 ]
* Enterprise Miner
1. Cluster Maps(X*Y)
각 영역은 하나의 클러스터를 의미하며 색은 클러스터에 속하고 데이터의 개수에 의해 결정됩니다.
2. Cluster Map(X*Y) : 생성된 세그먼트 정보 제공
3. 분석 통계량
관측치의 종류 별로 SOM 세그먼트 ID, SOM 차원 1, SOM 차원2 , 각 입력 변수의 통계량을 정리한 표
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.