안녕하세요. MYSAS입니다.
금주는 SAS에 대해 알아보겠습니다.
목 차
1. SAS 소개
SAS는 데이터를 관리하고 분석하는 모듈의 집합체 입니다. 1960년대 말부터 1970년 초에 통계패키지로 시작했습니다. 최근에는 최신식의 데이터마이닝툴(DataMining)과 웹개발/분석 프로그램을 제공 하고 있습니다.
1990년 중반 이후 SAS는 다차원분석처리(OLAP), 데이터 추출(ETL) 툴 등 데이터 웨어하우스(DW) 솔루션과 품질 마이닝 및 리스크, 활동 기준 원가 관리 등 기업의 의사 결정 지원을 위한 포괄적인 비즈니스 인텔리전스 제품 군을 선보이면서 ‘엔터프라이즈 인텔리전스’ 즉 ‘전사적 BI 솔루션 전문 기업’으로 재탄생 했습니다.
2. Getting Data into SAS
SAS는 거의 모든 Source로 부터 데이터를 불러올수 있습니다. 예를 들어, 가장 흔히 사용하는 Raw Text 데이터, Microsoft Office Excel 데이터, Access Databases 등 뿐만 아니라, 오라클, DB2 등과 같은 데이터베이스 시스템내 데이터도 불러 올 수 있습니다.
3. SAS 샘플 프로그램
Options nocenter nonumber;
data veg;
infile "c:\SASsample\learning\veggies.txt";
input Name $ Code $ Days Number Price;
CostPerSeed = Price / Number;
Run;
Title "List of The Raw Data"
Proc Print Data = veg;
Run;
Title "Frequency Distribution of Vegetable Names";
Proc Freq Data = veg;
Tables Name;
Run;
Title "Average Cost of Seeds";
Proc Means Data =Veg;
var Price Days;
Run;
위 프로그램에서 SAS의 몇 가지 특징들을 살펴 볼 수 있습니다.
1. DATA Step과 PROC step
2. Global Statement
3. 기본적인 문장(Statements) 규칙
4. SAS Names
SAS에서 사용되는 각종 Names들은 아래와 같은 간단한 규칙을 따릅니다.
예)
사용가능한 이름들 |
Parts |
LastName |
First_Name |
Ques5 |
Cost_per_Pound |
DATE |
time |
X12Y34Z56 |
사용 불가능한 이름들 | |
8_is_enough | 숫자로 시작함 |
Price Per Pound | 띄어쓰기(Blank)는 안됨 |
Month-total | 콜론(-) 안됨 |
Num% | 퍼센트(%)도 안됨 * 매크로 트리거로 %Num은 |
5. SAS Data Sets 과 DATA Types
SAS는 외부에서 데이터를 불러온 후, 'SAS data set'에 저장됩니다. SAS는 이 SAS Data Set에서만 데이터를 읽고, 쓰고 할 수 있습니다. 즉, Raw Text, Excel데이터, 오라클, DB2등에서의 데이터를 불러와서(Convert) SAS Data Set으로 만들어야 합니다.
SAS Data Set이 어떻 만들어지는지에 대해서는 신경 쓸 필요 없지만, SAS Data Set이 두가지 파트로 나뉜다는 것은 이해할 필요가 있습니다.
Data Type은 문자형(Character)과 숫자형(Numeric)이 있습니다. 이는 다른 프로그램에 비해 매우 간단한 구조입니다. integer, Long Interger, Logical 등의 길이에 따른 타입을 지정하지 않아도 되기 때문입니다.
6. 연습문제
1) SAS에서 사용가능한 변수명을 골라 주세요.
a) Height
b) HeightInCentimeters
c) Height_in_Centimeters
d) Wt-Kg
e) x123y456
f) 76Trombones
g) MiXeDcasE
2) SAS에서 사용가능한 Data-Set 이름을 골라 주세요.
a) Clinic
b) clinic
c) work
d) hyphens-in-the-name
e) 123go
f) Demographics_2006
3) 당신은 지금 Student ID, English, History, Math, Science로 구성된 10명의 학생의 데이터셋을 갖고 있습니다.
a) 변수의 개수는?
b) Observations의 개수는?
4) True of False?
a) SAS statement는 한줄 이상으로 구성될수 있다.
b) 여러줄에 걸쳐 하나의 SAS 문장을 쓸수 있다.
c) SAS는 세가지 타입이 있다. : Character, numeric, and integer.
d) OPTIONS와 TITLE문장은 Global statementㅇ다.
5) SAS에서 기본적으로 numeric 변수는 몇 byte 입니까?
수고하셨습니다. 정답은 다음주에 댓글로 달아드리겠습니다.^^ 즐거운 한주 보내세요~
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.