BookmarkSubscribeRSS Feed

[ SAS Viya ] Visual Analytics part1

Started ‎02-07-2021 by
Modified ‎02-07-2021 by
Views 409

안녕하세요

이번 게시글은 SAS Visual Analytics에 관한 글 입니다. 

 

SAS Viya는 클라우드 기반의 인메모리(in-memory) 분석 엔진으로서 빠르고 정확한 분석 결과 를 도출하기 위한 모든 기능을 가지고 있습니다. 탄력적이고 확장하기 용이하며 내결함성(faulttolerant) 프로세싱 기술 덕분에 오늘날의 복잡한 분석 문제를 해결하면서 필요에 따라 손쉽게 확장할 수 있습니다. 

SAS 플랫폼의 클라우드 기반 확장 기능을 활용 하는 다양한 솔루션의 플랫폼과 같은 역할을 합니다. 대부분의 솔루션 에는 코딩 인터페이스와 직관적으로 이해하고 사용할 수 있는 시각화 인터페이스가 포함되어 있습니다. 현재 출시되어 있는 SAS Viya 제품은 다음과 같습니다. SAS® Visual Analytics , SAS® Data Preparation , SAS® Visual Statistics , SAS® Visual Data Mining and Machine Learning , SAS® Visual Forecasting 등이 있습니다.

 

그 중 Visual Analytics 특징들을 알아보고자 합니다.

 

SAS Visual Analytics 는 인터렉티브 리포트 기능부터 시각적 탐색, 셀프 서비스 분석과 확장성 및 거버넌스에 이르기 모든 기능을 메모리 환경에서 처리할 수 있도록 강력한 기능과 빠른 성능을 제공합니다.

 

1. Data Exploration

과거 OLAP의 다차원 분석에서 파생된 개념으로 많은 데이터 혹은 2개 이상의 변수를 조합하여 분석을 진행하는데 시각화의 개념을 활용하는 방법론.

** OLAP는 On-Line-Analytical Processing의 약자로 온라인상에서 데이터를 분석 처리한는 것 입니다.

 

* 주요 특성

  1. 데이터 탐색 : 시각적인 방법이나 통계적인 수치를 통해 데이터 속에 숨어있는 패턴이나 특성을 파악
  2. Story Profiling : 데이터 탐색을 통해 얻어진 수치적인 인사이트를 비지니스적 스토리를 통해 해석하고 이해하는 것
  3. Advanced Analytics : 마이닝, 예측모델링을 위한 준비 단계로써 데이터를 이해하고 유의미한 변수를 도출하는 것

예시

그림1.png

 

그림2.png

 

2. Uni, BI & Multivariate Visualization

* 주요 특성

  • 데이터 시각화

- 데이터를 분석하는 방식이 Text나 스프레드 시트를 통한 방법이 아닌 시각적 분별력이 우수한 이미지를 활용하는 방법

 

  • 정확한 값의 리포팅 보다는 전체적인 데이터의 의미 전달에 초점

-  데이터 시각화는 실무 레벨의 정확한 수치와 값을 요구하는 업무 보다는 의사 결정자 레벨의 데이터 전체를 대상으로 패턴을 찾아 내고 숨겨진 의미를 파악하는 용도로 많이 활용됨.

 

* Big Data 활용

  • 비정형 데이터를 정형 데이터로 변환 시키는 것이 관건
  • 데이터의 양이 방대할 수록 시각화 형태의 분석 방식이 적합함.

예시

그림1.png

 

그림2.png

 

3. Histogram & Pie

데이터의 분포를 시각적으로 표현하는 방법. Histogram은 주로 연속형 변수의 분포를 파악하는데 사용되며, Pie Chart는 범주별 분포를 파악하는데 사용

 

* 주요 특성

Histogram : 단일측도에 대한 값 분포가 표시됨. 일련의 막대는 측도에서 특정 값 또는 값 범위와 일치하는 관측치 수를 나타냄. 막대 높이는 정확한 관측치 수를 나타내거나 각 값 범위에 대한 모든 관측치의 백분율 표현이 가능합니다.

Pie : 범주형 데이터를 대상으로 값의 분포를 파악하는데 활용할 수 있고, 단순 파이 그래프 뿐만 아니라 그룹화 등과 같은 새로운 시각화 방법 적용 가능합니다.

 

* 차트 활용 분야

  • 데이터 분포 파악 : 데이터의 속성의 변수에 대한 비중을 판단하는데 활용합니다.

* Big Data 활용

  • 전체 데이터의 분포 현황을 파악 함으로 집계 수치의 함정에서 탈피

Ex) Average 값이 한쪽으로 편중된 원인에 대한 판단 등.

 

예시그림1.png

 

그림2.png

 

4. Tree & Tree Map

둘 이상의 기준값(측정값)을 사각형의 크기와 색상으로 표현하는 데이터 시각화 방법 중 하나로 패턴이나 차이를 표현하는데 유용한 차트 도구.

 

* 주요 특성

  • 사각형 사이즈 표현

- 하나이상의 모집단 속성(Branch)에 대해 속성이 가지고 있는 수치 정보를 사각형의 사이즈로 표현

- 속성들간의 사이즈 비교는 수치 비교에 비해 상대적으로 많은 정보를 빠르게

 인지 할 수 있는데 효과적

 

  •  사각형 색상 표현

- 속성이 가지고 있는 수치 정보를 색상의 변화로 표현합니다.

 ex. 파랑 ⇨ 빨강, 녹색 ⇨ 노랑

 - 속성간의 색상 비교는 상대적으로 속성들이 가진 패턴을 유추하는데 효과적입니다.

 

* 차트 활용 분야

- 데이터의 다중 속성을 파악하고 패턴을 찾아낸느데 유용

- 유사 속성 군집의 추출에 유용하고 이슈 사항 파악이 한 눈에 가능합니다.

 

* Big Data 활용

  • 데이터의 대표성 변수를 기준으로 시각화 이후에 분석 방향성 수립에 활용

- 분석의 방향을 잡지 못했을 때 가이드가 되어 줄 수 있습니다.

 

예시

그림1.png

 

그림2.png

 

5. Scatter Plot

상관연구에서 사용되는 일종의 도표로서, 도표의 가로축과 세로축에 변수를 설정하고 각각의 X값에 해당되는 Y값을 도표상에 점으로 표시하여 X와 Y의 상관 정도를 추정할 수 있는 도표

 

* 주요 특성

  • 속성의 군집화 파악에 용이 

- 각 변수를 좌표로 가지는 하나하나의 속성값들의 산포를 통해 유사 속성의 군집을 추출

 

  • 변수 관계의 왜곡값(Noise / Outlier ) 도출

- 특정한 패턴 군집을 보이지 않는 왜곡 값들이 Noise 형태로 시각화 표현 되기 때문에 유사 관계에서 벗어나는 값 추출이 용이

 

* 차트 활용 분야

  • 데이터의 산점 분포를 통해 군집을 추출하는 경우
  • 군집에서 동떨어진 노이즈 데이터를 추출해야 하는 경우

 

* Big Data 활용

  • 대량의 데이터를 하나의 Scatter로 불러 들여 Sampling이 아닌 전체 모딥단의 패턴 분석 가능
  • Ex. 전체 기업별 매출대비 이익률 패턴 분석

 

예시

그림1.png

 

그림2.png

 

Version history
Last update:
‎02-07-2021 08:22 AM
Updated by:
Contributors

Ready to join fellow brilliant minds for the SAS Hackathon?

Build your skills. Make connections. Enjoy creative freedom. Maybe change the world. Registration is now open through August 30th. Visit the SAS Hackathon homepage.

Register today!
Article Labels
Article Tags