안녕하세요 이번 게시글은 Data Modeling part1의 이어지는 게시글 입니다.
5. Data Type & Variable Type
Data Type은 저장 Attribute의 형태이고, Variable Type은 통계/마이닝 분석 Attribute의 유형
* Data Type
SAS Dataset의 Attribute는 Number Type과 Text Type으로 구분된다.
[ 예시 ]
Variable Type | 설명 | |
Categorical | 범주형 |
|
Nominal | 명명형 |
|
Ordinal | 순위형 |
|
Interval | 구간형 |
|
Continuous | 연속형 |
|
* Variable Type to Data in SAS
SAS에서 모든 유형별 분석변수는 Text 혹은 Number로 저장/표현된다.
자료 유형 | 변수 유형 | 자료저장 / 표현유형 | 예시 |
질적 자료 |
Categorical | Text Type | 서울 , 부산 |
Number Type |
1 ( ← 서울 ) 2 ( ← 부산 ) |
||
Nominal | Text Type |
남 ( ← 남자 ) 여 ( ← 여자 ) |
|
Number Type |
1 ( ← 남자 ) 2 ( ← 여자 ) |
||
Ordinal | Text Type | n/a | |
Number Type |
1 ( ← 1순위 ) 2 ( ← 2순위 ) |
질적자료는 측량할 수 없는 자료 입니다.
자료 유형 | 변수 유형 | 자료저장 / 표현유형 | 예시 |
양적 자료 | Interval | Text Type | n/a |
Number Type | 1,2,3,4 | ||
continous | Text Type | n/a | |
Number Type | -10.54 , 123.345 |
6. Sampling
통계학에서 특정한 모집단으로부터 개체 또는 사건들로 이루어진 대표 집단을 추출해내는 과정이나 방법
* Sampling 목표
* 표본 추출의 방법
표본 추출 | 개요 | 특징 |
Simple Random |
표본이 추출되는 확률이 각각에 대해 모두 동일하게 추출되도록 하는 방법 |
모집단에 대한 어떠한 정보도 존재하지 않는 경우 일반적으로 활용 |
Nth (Systematic) |
계통추출법이라 하며, 초기치를 랜덤하게 결정하고 |
대체표본을 쉽게 구성 가능. 추출된 불량 표본, 또는 누락 표본을 대체가능 |
Stratified |
모집단을 층으로 구분하고 층 내에서 랜덤하게 표본을 추출하는 방법 |
층 내에는 동일, 층 간에는 변동이 커야 함 |
First N |
모집단의 리스트가 랜덤하다고 가정하여 순서대로 표본을 추출하는 방법 |
모집단의 리스트가 랜덤한 경우, 단순임의 추출과 동일 |
Cluster |
모집단을 몇 개의 군집으로 구분하고 군집 자체를 |
군집 내에는 변동이 크고, 군집 간에는 동일해야 함(군집을 추출) |
* Using Enterprise Miner
Sampling 노드를 이용하여 표본 추출을 수행합니다.
* Sampling 노드의 주요 속성
샘플링 방법 : 샘플링 방법으로 지정하는 것으로 (1) Class 타겟 변수인 경우에는 층화 추출 ( Stratified Sampling)이 기본 방법이고, (2) 다른 경우에는 랜덤 추출(Simple random sampling)이 기본입니다.
레벨 선택 : 층화의 옵션의 [기존]에서 '레벨 기반' 선택 시 무엇을 레벨로 선택할지 결정
Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.