[SAS Viya] SAS Visual Analytics part 4

SAS Data Explorer를 사용하여 SAS Viya 환경에서 데이터를 프로파일링하여 데이터 이상 및 불일치를 확인하는 방법에 대해 알아보려합니다.

기술 측정 및 빈도 분포와 같은 관련 프로필 보고서를 사용하고 검토합니다.

Profile Data

각 테이블에 대해 세부 정보 탭에서 해당 테이블에 대한 메타데이터를 볼 수 있습니다.

샘플 데이터 탭에서 처음 100개 행의 샘플을 볼 수 있습니다.

프로필 탭에서 보고서를 실행하여 열을 보고 고유, Null, 공백 개수, 패턴 개수 및 평균, 중앙값, 모드, 표준 편차 및 표준 오차를 포함한 통계 값에 대한 테이블 메트릭을 생성할 수 있습니다.

image (24).png

일부 데이터를 추가로 검토하려면 프로필 탭에서 열 이름을 클릭하고 위의 그림과 같이 모드, 최소값 및 최대값을 포함한 설명 메트릭과 함께 열 설명을 불러올 수 있습니다.

데이터에 중복성이 있는 경우 문제를 나타낼 수 있습니다.

패턴 분포 섹션에서는 현재 데이터에 존재하는 다양한 패턴을 볼 수 있습니다.

빈도 분포 그래프를 사용하면 다른 막대 위로 마우스를 가져가 특정 값을 볼 수 있습니다. 맨 오른쪽에는 데이터 유형 및 데이터 길이와 같은 몇 가지 기본 열 정보가 표시됩니다.

데이터를 정리하고 비즈니스 규칙을 만들 때 기계 학습 또는 수동 데이터 정리 프로세스를 통해 즉석에서 데이터를 정리하는 새 비즈니스 규칙을 사용하여 프로필을 다시 실행할 수 있습니다. SAS Data Explorer는 동일한 테이블에서 리포트를 비교할 수 있는 기능을 제공합니다. 프로필 탭의 맨 오른쪽에 있는 원형 화살표 아이콘을 클릭하면 각 보고서의 버전을 보고 비교할 수 있습니다.

SAS Data Studio

SAS Data Studio를 사용하여 SAS Viya 환경에서 데이터를 준비하고 정리하는 방법을 알아보려합니다.

SAS Data Explorer에서 테이블을 CAS 메모리로 로드했거나 로컬 파일에서 테이블을 가져왔습니다.

해당 데이터를 검토할 때 일부 불일치를 발견할 수 있습니다.

화면 오른쪽 상단 모서리에 있는 작업 드롭다운 메뉴를 클릭하고 "데이터 준비"를 선택합니다.

그러면 SAS Data Studio가 열립니다.

SAS Data Studio를 처음 시작할 때 새 계획을 생성하거나 기존 계획을 열 수 있는 옵션이 있습니다.

새 계획을 만들고 CAS 메모리에 로드된 사용 가능한 테이블에서 데이터를 선택한 후 데이터 스튜디오 창의 왼쪽에 CASL 또는 DATA 단계와 같은 사용자 지정 코드를 제출하기 위한 열 변환, 사용자 지정 변환 목록이 표시됩니다.

image (25).png

Column Transforms Option

① Split _ 분할

image (26).png

이메일 주소가 포함된 열이 있는 테이블이 있는 경우 이메일 주소를 보낸 사람과 도메인이라는 두 개의 개별 필드로 나눌 수 있습니다. 이를 위해 열 변환에서 분할 옵션을 사용합니다.

그런 다음 원본 열 필드에서 분할을 수행할 테이블의 열을 선택할 수 있습니다. 데이터 분할 필드에서 구분 기호 또는 기타 옵션으로 데이터를 분할할 수 있습니다.

그런 다음 구분 기호 필드에서 구분 기호를 선택할 수 있습니다.

이번 예에서는 소스 열 이메일을 선택하고 구분 기호로 데이터를 분할하고 구분 기호 유형으로 기타를 선택한 다음 @ 기호를 구분 기호로 지정합니다. 분할하면 왼쪽과 오른쪽에 하나씩 두 개의 새 열이 생성됩니다. 새 열의 이름을 변경하려면 "새 열에 대한 옵션" 링크를 클릭하여 이름, 데이터 유형, 길이를 변경하거나 레이블 또는 SAS 형식을 적용할 수 있습니다. 모든 옵션을 선택했으면 오른쪽 상단의 "실행"을 클릭합니다. 화면 하단의 표에 변경 사항이 적용된 것을 볼 수 있습니다.

② Calculated Column _ 계산된 칼럼

다른 단계를 추가하여 데이터를 계속 변환할 수 있습니다. 이 섹션에서는 데이터 스튜디오에서 사용할 수 있는 두 가지 유형의 사용자 지정 변환을 살펴보겠습니다.

image (27).png

"계산된 열"을 클릭하고 SAS IFC 함수를 표현식 상자에 복사하여 다른 변환을 추가합니다. IFC 함수는 기본적으로 CUST_ID가 250보다 크면 새 열을 생성한다는 문자열 비교를 수행합니다.

"계산된 칼럼"을 클릭하고 SAS IFC 함수를 표현식 상자에 복사하여 다른 변환을 추가합니다.

IFC 함수는 기본적으로 CUST_ID가 250보다 크면 새 열을 생성한다는 문자열 비교를 수행합니다.

③ Code _ 코드

적용하려는 기존 SAS DATA 단계 코드 또는 새 CAS 언어 프로그래밍 코드(CASL)가 있는 경우에는 사용자 정의 변환 섹션에서 코드를 두 번 클릭할 수 있습니다.

DATA 단계 코드 또는 CASL을 지정하여 결측값 대치와 같은 CAS 작업 세트를 호출할 수 있는 또 다른 단계가 추가됩니다. 이 예에서는 그림 4.17과 같이 기존 코드를 복사하여 편집기 창에 붙여넣어 DATA 단계 코드를 사용합니다. 코드는 ACCT_TYPE의 일부 기준에 따라 계정 설명이라는 새 열을 추가합니다.

image (28).png

data {{_dp_outputTable}} (caslib={{_dp_outputCaslib}}); 
	set {{_dp_inputTable}} (caslib={{_dp_inputCaslib}}); 
	length ACCT_DSC varchar(20);
	if ACCT_TYPE=”” then ACCT_DESC=”Unknown”; 
	if ACCT_TYPE=”SAV” then ACCT_DESC=”Savings”; 
	if ACCT_TYPE=”CHK” then ACCT_DESC=”Checking”; 
	if ACCT_TYPE=”MM” then ACCT_DESC=”Money Market”; 
run;

첫 번째 줄에서 출력 테이블과 참조되는 CAS 라이브러리에 대한 변수를 지정합니다. 두 번째 줄에서는 읽고 있는 테이블에 대한 변수를 지정합니다. CAS가 분산 환경에서 작동하고 중간 테이블을 생성하기 때문에 이러한 변수가 필요합니다. 데이터 스튜디오는 이러한 모든 중간 테이블을 추적합니다.

Data Studio에서 활용하려는 SAS 9의 기존 DATA 단계 코드가 있는 경우 기존 코드에서 현재 사용 중인 변수 대신 변수를 사용하면됩니다. 실행을 클릭하면 화면 하단의 표에서 결과를 검토할 수 있습니다.

Data Quality Transforms

① Standardize _ 표준화

데이터 품질 변환 표준화를 통해 SAS Quality Knowledge Base를 사용하여 데이터를 일관된 형식으로 표준화할 수 있습니다.

이전에 SAS Data Explorer에서 데이터를 프로파일링할 때 데이터에 수정해야 할 일부 이상이 있음을 발견했을 수 있습니다. 이 예에서 State에 대한 데이터에는 2바이트 코드와 전체 상태 이름이 모두 있습니다. 데이터 품질 변환 섹션에서 표준화를 두 번 클릭합니다. 그런 다음 소스 열을 선택할 수 있습니다. 다음 필드를 사용하면 새 열에 대해 원하는 이름을 지정할 수 있습니다. 다음 필드인 로케일에서 사용하려는 SAS Quality Knowledge Base의 로케일을 선택할 수 있습니다.

image (29).png

다음 필드인 정의에는 다양한 데이터 유형에 사용할 수 있는 다양한 정의가 있습니다. 이 예에서는 모든 State 값을 약어로 표시하기를 원하기 때문에 State/Province(Abbreviation)를 선택합니다. 이전에 논의한 다른 변환의 옵션과 유사하게 새 열의 길이와 옵션을 지정할 수도 있습니다.

② Parsing

image (30).png

데이터를 다양한 의미론적 구성 요소로 나누거나 개별 구성 요소를 분석할 수 있도록 "파싱"하고 싶을 수 있습니다.

예를 들어 전체 주소의 우편 번호만 분석하거나 DD/MM/YY 날짜의 연도만 분석할 수 있습니다.

Parse 변환은 SAS Quality Knowledge base를 사용하여 정보를 추출한다는 점에서 Standardize 변환과 유사합니다. 이 예에서는 PHONE이라는 열의 데이터를 구문 분석합니다. 데이터 품질 변환 섹션에서 구문 분석을 두 번 클릭합니다. 소스 열 필드에서 열 이름과 사용하려는 로캘을 선택합니다. 정의에서 전화 번호를 구문 분석하기 때문에 전화를 선택합니다. 다음으로 데이터 유형을 구문 분석할 수 있는 개별 토큰이 표시됩니다.

③ Gender Analysis

데이터 품질 변환의 마지막 예를 살펴보겠습니다. 성별 분석 변환을 사용하면 SAS Quality Knowledge Base의 정보를 기반으로 개인의 이름과 관련된 성별을 알 수 있습니다. 알고리즘은 데이터 값이 남성, 여성 또는 알 수 없는지 여부를 결정합니다. 이는 마케팅 또는 임상 시험 시나리오에서 유용할 수 있습니다. 데이터 품질 변환 섹션에서 성별 분석을 두 번 클릭합니다. 소스 열 필드에서 열 이름을 선택하고 새 열의 이름을 선택한 다음 사용할 로케일을 선택합니다. 정의에서 이름을 선택합니다. 실행을 선택하여 변환을 완료합니다. 그림 4.21에서 볼 수 있듯이 NAME 열의 이름을 기반으로 F, M, U 값으로 새 열이 추가됩니다.

image (31).png

Saving Results

모든 변환을 완료하고 데이터가 예상한 대로 되면 이 데이터 준비 계획과 결과를 실제 테이블에 저장할 수 있습니다. 실행 버튼 옆 오른쪽 상단에 있는 저장 버튼을 클릭합니다. 데이터 계획에 제목을 지정하고 테이블을 새 이름으로 저장하거나 옵션을 사용하여 기존 테이블을 교체할 수도 있습니다. 실제 CAS 테이블을 저장할 위치를 지정할 수도 있습니다.

image (32).png