BookmarkSubscribeRSS Feed

[ SAS Viya ] Visual Analytics part1

Started ‎02-07-2021 by
Modified ‎02-07-2021 by
Views 622

안녕하세요

이번 게시글은 SAS Visual Analytics에 관한 글 입니다. 

 

SAS Viya는 클라우드 기반의 인메모리(in-memory) 분석 엔진으로서 빠르고 정확한 분석 결과 를 도출하기 위한 모든 기능을 가지고 있습니다. 탄력적이고 확장하기 용이하며 내결함성(faulttolerant) 프로세싱 기술 덕분에 오늘날의 복잡한 분석 문제를 해결하면서 필요에 따라 손쉽게 확장할 수 있습니다. 

SAS 플랫폼의 클라우드 기반 확장 기능을 활용 하는 다양한 솔루션의 플랫폼과 같은 역할을 합니다. 대부분의 솔루션 에는 코딩 인터페이스와 직관적으로 이해하고 사용할 수 있는 시각화 인터페이스가 포함되어 있습니다. 현재 출시되어 있는 SAS Viya 제품은 다음과 같습니다. SAS® Visual Analytics , SAS® Data Preparation , SAS® Visual Statistics , SAS® Visual Data Mining and Machine Learning , SAS® Visual Forecasting 등이 있습니다.

 

그 중 Visual Analytics 특징들을 알아보고자 합니다.

 

SAS Visual Analytics 는 인터렉티브 리포트 기능부터 시각적 탐색, 셀프 서비스 분석과 확장성 및 거버넌스에 이르기 모든 기능을 메모리 환경에서 처리할 수 있도록 강력한 기능과 빠른 성능을 제공합니다.

 

1. Data Exploration

과거 OLAP의 다차원 분석에서 파생된 개념으로 많은 데이터 혹은 2개 이상의 변수를 조합하여 분석을 진행하는데 시각화의 개념을 활용하는 방법론.

** OLAP는 On-Line-Analytical Processing의 약자로 온라인상에서 데이터를 분석 처리한는 것 입니다.

 

* 주요 특성

  1. 데이터 탐색 : 시각적인 방법이나 통계적인 수치를 통해 데이터 속에 숨어있는 패턴이나 특성을 파악
  2. Story Profiling : 데이터 탐색을 통해 얻어진 수치적인 인사이트를 비지니스적 스토리를 통해 해석하고 이해하는 것
  3. Advanced Analytics : 마이닝, 예측모델링을 위한 준비 단계로써 데이터를 이해하고 유의미한 변수를 도출하는 것

예시

그림1.png

 

그림2.png

 

2. Uni, BI & Multivariate Visualization

* 주요 특성

  • 데이터 시각화

- 데이터를 분석하는 방식이 Text나 스프레드 시트를 통한 방법이 아닌 시각적 분별력이 우수한 이미지를 활용하는 방법

 

  • 정확한 값의 리포팅 보다는 전체적인 데이터의 의미 전달에 초점

-  데이터 시각화는 실무 레벨의 정확한 수치와 값을 요구하는 업무 보다는 의사 결정자 레벨의 데이터 전체를 대상으로 패턴을 찾아 내고 숨겨진 의미를 파악하는 용도로 많이 활용됨.

 

* Big Data 활용

  • 비정형 데이터를 정형 데이터로 변환 시키는 것이 관건
  • 데이터의 양이 방대할 수록 시각화 형태의 분석 방식이 적합함.

예시

그림1.png

 

그림2.png

 

3. Histogram & Pie

데이터의 분포를 시각적으로 표현하는 방법. Histogram은 주로 연속형 변수의 분포를 파악하는데 사용되며, Pie Chart는 범주별 분포를 파악하는데 사용

 

* 주요 특성

Histogram : 단일측도에 대한 값 분포가 표시됨. 일련의 막대는 측도에서 특정 값 또는 값 범위와 일치하는 관측치 수를 나타냄. 막대 높이는 정확한 관측치 수를 나타내거나 각 값 범위에 대한 모든 관측치의 백분율 표현이 가능합니다.

Pie : 범주형 데이터를 대상으로 값의 분포를 파악하는데 활용할 수 있고, 단순 파이 그래프 뿐만 아니라 그룹화 등과 같은 새로운 시각화 방법 적용 가능합니다.

 

* 차트 활용 분야

  • 데이터 분포 파악 : 데이터의 속성의 변수에 대한 비중을 판단하는데 활용합니다.

* Big Data 활용

  • 전체 데이터의 분포 현황을 파악 함으로 집계 수치의 함정에서 탈피

Ex) Average 값이 한쪽으로 편중된 원인에 대한 판단 등.

 

예시그림1.png

 

그림2.png

 

4. Tree & Tree Map

둘 이상의 기준값(측정값)을 사각형의 크기와 색상으로 표현하는 데이터 시각화 방법 중 하나로 패턴이나 차이를 표현하는데 유용한 차트 도구.

 

* 주요 특성

  • 사각형 사이즈 표현

- 하나이상의 모집단 속성(Branch)에 대해 속성이 가지고 있는 수치 정보를 사각형의 사이즈로 표현

- 속성들간의 사이즈 비교는 수치 비교에 비해 상대적으로 많은 정보를 빠르게

 인지 할 수 있는데 효과적

 

  •  사각형 색상 표현

- 속성이 가지고 있는 수치 정보를 색상의 변화로 표현합니다.

 ex. 파랑 ⇨ 빨강, 녹색 ⇨ 노랑

 - 속성간의 색상 비교는 상대적으로 속성들이 가진 패턴을 유추하는데 효과적입니다.

 

* 차트 활용 분야

- 데이터의 다중 속성을 파악하고 패턴을 찾아낸느데 유용

- 유사 속성 군집의 추출에 유용하고 이슈 사항 파악이 한 눈에 가능합니다.

 

* Big Data 활용

  • 데이터의 대표성 변수를 기준으로 시각화 이후에 분석 방향성 수립에 활용

- 분석의 방향을 잡지 못했을 때 가이드가 되어 줄 수 있습니다.

 

예시

그림1.png

 

그림2.png

 

5. Scatter Plot

상관연구에서 사용되는 일종의 도표로서, 도표의 가로축과 세로축에 변수를 설정하고 각각의 X값에 해당되는 Y값을 도표상에 점으로 표시하여 X와 Y의 상관 정도를 추정할 수 있는 도표

 

* 주요 특성

  • 속성의 군집화 파악에 용이 

- 각 변수를 좌표로 가지는 하나하나의 속성값들의 산포를 통해 유사 속성의 군집을 추출

 

  • 변수 관계의 왜곡값(Noise / Outlier ) 도출

- 특정한 패턴 군집을 보이지 않는 왜곡 값들이 Noise 형태로 시각화 표현 되기 때문에 유사 관계에서 벗어나는 값 추출이 용이

 

* 차트 활용 분야

  • 데이터의 산점 분포를 통해 군집을 추출하는 경우
  • 군집에서 동떨어진 노이즈 데이터를 추출해야 하는 경우

 

* Big Data 활용

  • 대량의 데이터를 하나의 Scatter로 불러 들여 Sampling이 아닌 전체 모딥단의 패턴 분석 가능
  • Ex. 전체 기업별 매출대비 이익률 패턴 분석

 

예시

그림1.png

 

그림2.png

 

Version history
Last update:
‎02-07-2021 08:22 AM
Updated by:
Contributors

sas-innovate-white.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Early bird rate extended! Save $200 when you sign up by March 31.

Register now!

Article Labels
Article Tags