BookmarkSubscribeRSS Feed

[SAS 활용 노하우 ] Data Modeling part2

Started ‎02-26-2021 by
Modified ‎02-26-2021 by
Views 554

 

안녕하세요 이번 게시글은 Data Modeling part1의 이어지는 게시글 입니다.

 

5. Data Type & Variable Type

Data Type은 저장 Attribute의 형태이고, Variable Type은 통계/마이닝 분석 Attribute의 유형

 

* Data Type 

SAS Dataset의 Attribute는 Number Type과 Text Type으로 구분된다.

 

스크린샷 2021-02-26 오후 9.12.08.png

 [ 예시 ]

 

Variable Type   설명
Categorical 범주형
  • 개체의 범위 식별
  • 지역 부서 등
Nominal 명명형
  • 이름, 구분식별이 있으나 비순서적
  • 성별 표시
  • ( 여:1 , 남:2 / 분류 : A 그룹 , B 그룹 ) 등
Ordinal 순위형
  • 순위간에 사칙연산은 무의미
  • 등급, 성적순위
Interval 구간형
  • 자료들간의 크기가 균등하며, 사칙연산 적용가능
  • 개수, 횟수 등
Continuous 연속형
  •  자료값이 무한소수로 표현되며 비율 산출이 가능
  • Cm, Kg 등

 

* Variable Type to Data in SAS 

SAS에서 모든 유형별 분석변수는 Text 혹은 Number로 저장/표현된다.

 

자료 유형 변수 유형 자료저장 / 표현유형 예시

질적 자료 

Categorical Text Type 서울 , 부산
    Number Type

1 ( ← 서울 )

2 ( ← 부산 )

  Nominal Text Type

남 ( ← 남자 )

여 ( ← 여자 )

    Number Type

1 ( ← 남자 )

2 ( ← 여자 )

  Ordinal Text Type n/a
    Number Type

1 ( ← 1순위 )

2 ( ← 2순위 )

질적자료는 측량할 수 없는 자료 입니다.

 

자료 유형 변수 유형 자료저장 / 표현유형 예시
양적 자료 Interval Text Type n/a
    Number Type 1,2,3,4
  continous Text Type n/a
    Number Type -10.54 , 123.345

 

6. Sampling 

통계학에서 특정한 모집단으로부터 개체 또는 사건들로 이루어진 대표 집단을 추출해내는 과정이나 방법

 

* Sampling 목표

  • 모집단의 성격이 그대로 반영되도록 표본을 구성함
  • 표본 추출 방법에 따라 결과가 상이해질 수 있음
  • 표본변동이 최소화 되도록 표본 추출 방법을 적용

 

* 표본 추출의 방법

표본 추출 개요 특징
Simple Random

표본이 추출되는 확률이 각각에 대해 모두 동일하게 추출되도록 하는 방법

모집단에 대한 어떠한 정보도 존재하지 않는 경우 일반적으로 활용

Nth (Systematic)

계통추출법이라 하며, 초기치를 랜덤하게 결정하고
등 간격으로 표본을
구성하는 방법

대체표본을 쉽게 구성 가능. 추출된  불량 표본, 또는 누락 표본을 대체가능

Stratified

모집단을 층으로 구분하고 층 내에서 랜덤하게 표본을 추출하는 방법

층 내에는 동일, 층 간에는 변동이 커야 함

First N

모집단의 리스트가 랜덤하다고 가정하여 순서대로  표본을 추출하는 방법

모집단의 리스트가 랜덤한 경우, 단순임의 추출과 동일

Cluster

모집단을 몇 개의 군집으로 구분하고 군집 자체를 
추출하는 방법

군집 내에는 변동이 크고, 군집 간에는 동일해야 함(군집을 추출)

 

* Using Enterprise Miner 

   그림1.png

Sampling 노드를 이용하여 표본 추출을 수행합니다. 

 

 

* Sampling 노드의 주요 속성

 

그림1.png

 

샘플링 방법 : 샘플링 방법으로 지정하는 것으로 (1) Class 타겟 변수인 경우에는 층화 추출 ( Stratified Sampling)이 기본 방법이고, (2) 다른 경우에는 랜덤 추출(Simple random sampling)이 기본입니다.

 

그림1.png

 

레벨 선택 : 층화의 옵션의 [기존]에서 '레벨 기반' 선택 시 무엇을 레벨로 선택할지 결정

  • 이벤트 : 레벨은 변수 순서에 기반
  • 희귀 레벨 : 비율이 적은 레벨을 기준으로 함

 

 

Version history
Last update:
‎02-26-2021 08:17 AM
Updated by:
Contributors

sas-innovate-white.png

Missed SAS Innovate in Orlando?

Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.

 

Register now

Article Labels
Article Tags