BookmarkSubscribeRSS Feed

새로운 SAS 정보 카탈로그를 사용하는 7가지 방법

Started ‎05-25-2022 by
Modified ‎05-25-2022 by
Views 714
Daun_0-1653528688022.png

 크게 보시려면 이미지를 클릭하시기 바랍니다. 모바일 버전: 이미지를 보시려면 페이지 하단의 풀 버전을 선택하세요.

 

SAS Information Catalog가 드디어 출시되었습니다! 이 포스팅에서는 SAS Viya 2020.1.3버전부터 2020년 2월 17일 출시된 버전까지에 대해 소개합니다. 새롭게 출시된 제품을 활용하는 방법을 학습하실 수 있습니다. SAS Information Catalog는 사용 목적에 따른 데이터 검색에 도움을 줍니다. 더불어 데이터 소스에서 메타데이터를 수집할 수 만한 공간을 제공합니다. 메타데이터를 사용하여 비즈니스 목표에 대한 관련 데이터를 찾고 필요한 데이터 세트를 이해할 수 있도록 합니다. 

 

SAS Information Catalog를 누가 어떻게 사용해야 하는지에 대한 고정된 플레이북은 없습니다. 사실, 모든 사람이 자신의 작업 라인에서 유용한 작품을 찾을 수 있습니다. 다음을 살펴보겠습니다. 

 

SAS Information Catalog를 사용할 수 있는 7가지 방법 

 

  1. 필요한 정보 검색  
    1. 일반 검색 
    2. 구문 검색 
  2. 사용성 평가 
  3. 세부 내용 이해 
    1. 열 세부 정보 
    2. 샘플 데이터 
  4. 데이터 준비 평가 
  5. 데이터 품질 평가 
  6. 개인정보 식별 
  7. 지식 공유 및 실행 

 

필요한 정보 검색 

SAS Information Catalog는 일반 및 구문 검색을 지원합니다. 이 두 방법 모두 가장 높은 점수를 받은 결과가 먼저 나열합니다. 데이터 사이언티스트로서 특정 지역의 가정용 수도 사용량을 예측해야 한다고 가정해 보겠습니다. 수도 미터 데이터, 입방 미터 단위의 소비량, 미터 위치 등과 같은 목적에 가장 적합한 데이터 세트를 찾아야 합니다. 데이터 소스를 정확히 알지 못하는 경우에는 방대한 양의 데이터를 다뤄야 할 수 있습니다. 모래 사장에서 바늘을 어떻게 찾을 수 있을까요? 바늘을 찾아낼 강력한 자석은 검색입니다. 

Daun_1-1653528797902.png

 

일반 검색 

일반 검색 영상의 첫 1분을 시청하시기 바랍니다.

https://youtu.be/jzlysUuxBpI

예를 들어 와일드카드 문자를 사용하지 않고 단어 일부를 검색합니다. 물, water이라는 단어의 오타인 wat를 입력하여 검색 결과에 포함된 물 관련 항목을 찾을 수 있습니다. 일반 검색은 퍼지 논리도 지원하며 오타 watr 등 밀접하게 관련된 문자열도 결과를 나타냅니다. Water*로 검색합니다. 

Daun_2-1653528828260.png

 

watr(물의 오타) 검색 

Daun_3-1653528845572.png

다양한 결과가 나타납니다. 테이블은 연관성 기준으로 하향식으로 나열됩니다. 물 데이터를 포함한 테이블을 검색하면 유사한 상위 3개 순위를 보여줍니다. 일반 검 은 임의의 단어나 구를 입력하여 쿼리를 구성할 수 있는 자유 텍스트 입력을 지원합니다. 또한 테이블 또는 열 수준을 검색할 수 있습니다. 이 접근 방식은 전문적인 구문이나 구문을 사용하지 않고도 대화식 언어를 사용하여 필요한 정보 자산을 설명합니다.  Elasticsearch 는 간접적 혹은 추가적으로 사용됩니다. 세제곱 미터(m3)와 같은 특정 열을 찾기 위해 퍼지를 활용합니다. *m3*로 검색합니다.

Daun_4-1653528875349.png

관련도가 높은 결과가 표시됩니다. Daily_W_C_M3이라는 열이 포함된 테이블만 표시됩니다. 

 

구문 검색 

구문 검색의 이용 목적은 보다 구체적인 쿼리를 생성하기 위한 텍스트 인터페이스를 제공함에 있습니다. 검색은 테이블 단위로 이루어집니다. 구문 검색 영상의 첫 1분을 시청하시기 바랍니다. 

 https://youtu.be/jzlysUuxBpI 

1월 12일과 14일 사이에 생성된 테이블을 검색합니다. 다음과 같이 시도해 보세요 dataCreated: [2021-01-12 TO 2021-01-14] 

Daun_5-1653528921822.png

테이블 레이블에 키워드가 있는 테이블을 검색합니다. 다음과 같이 시도해 보세요. Label:”water” 

Daun_6-1653528961985.png

테이블 레이블에 물, water가 포함된 테이블이 표시됩니다. 

Daun_7-1653528980481.png

이름에 "water" 또는 "cluster"라는 키워드를 포함하여을 검색합니다. name:"water"^3 OR name:"cluster" "Water"는 여기에서 부스트되고 "cluster" 스코어의 3배를 받게됩니다.

Daun_8-1653529002656.png

쿼리를 다음과 같이 더 구체화할 수 있습니다: name:"water"^3 OR name:"cluster" AND type:casTable 

Daun_9-1653529023121.png

이제 흐름을 파악하셨으리라 생각됩니다. 검색은 꽤 강력한 힘을 가지고 있습니다. 유용한 결과를 구체화하고 반환하려면 몇 가지 방법을 사용하면 됩니다. 구문 검색은 Lucene 쿼리 구문(LQS)을 기반으로 합니다. 자세한 내용은 SAS Information Catalog 2020.1.3 production documentation과 Apache Lucene - Query Parser Syntax을 통해 확인하실 수 있습니다.

Elasticsearch

 

SAS Information Catalog는 Elasticsearch 엔진을 사용합니다. Elasticsearch의 기본 구성은 대부분 모든 사용자에게 좋은 경험을 선사합니다. 관리자는 일부 옵션을 변경할 수 있습니다. Elasticsearch 구성 옵션에 대한 일반 정보는 Elasticsearch documentation SAS Viya deployment notes on Elasticsearch을 통해 확인하실 수 있습니다. Elasticsearch는 SAS Visual Investigator 내에서 활용되어 왔습니다. 공식적으로 데이터 관리 제품의 일부가 되었습니다. 

계산된 지표 

계산된 측정항목을 가장 잘 사용할 수 있는 방법을 이해하려면 동영상의 나머지 부분을 시청하시기 바랍니다.

https://youtu.be/jzlysUuxBpI

사용성 평가 

검색은 시간을 단축하고 결과를 좁혔습니다. 이제 관련 데이터 식별 다루기로 합니다. 결과는 다음과 같습니다.

Daun_10-1653529095743.png

 

선택한 검색 결과를 열어 테이블 개요가 포함된 화면으로 드릴다운 합니다. Overview 탭에는 요약된 텍스트 및 그래픽을 보여줍니다.

선택한 검색 결과를 열고 테이블 개요가 포함된 화면으로 드릴다운 합니다. 개요 탭에는 항목의 메타데이터에서 파생된 요약된 텍스트 및 그래픽 정보가 포함되어 있습니다. 

 

  • 행 및 열의 개수와 테이블의 크기 46,720/ 21 /9.6MB. 
  • 테이블의 완성도 95%의 완성도
    Daun_11-1653529129480.png

Overview 다른 사용자로부터 수집된 일부 집단 지식을 포함할 수 있습니다. 

  • 이전 사용자의 비즈니스 설명
  • 소스의 유용한 정도 

 이러한 정보는 추가 지식을 전달하며 사용 여부는 직접 판단하면 됩니다. 주의:

  • 지식 공유, 공동 작업, 태그 지정과 같은 기능은 현재 버전은 제공하지 않습니다. 정돈된 계획은 없으나 상위 버전에서 지원 예정입니다.
  •  현재 버전에서는 작성자, 마지막 수정 날짜 및 업체 설명 등을 확인할 수 없습니다.

 

세부 정보 이해 

 

Column Analysis (Descriptive Measures에서 각 열은 내용에 대한 통계를 나타냅니다. 단 몇 초 만에 내용 평가 및 적정성 여부를 판단할 수 있습니다. 계산된 열 매트릭스를 보면 테이블은 다음과 같은 내용을 포함하고 있습니다 

  • 50가지 속성에 대한 수도 계량기(고유 값)
  • 일일 물 소비량(m3). 예측하고자 하는 지표입니다. 처리해야 할 몇 가지 이상한 점을 조기 발견합니다. Daun_12-1653529215684.png

    소비는 2014년과 2015년(최소 및 최대 연도)의 날짜 범위에 대한 것입니다. 

    Daun_13-1653529243334.png

 

열 세부정보 

선택한 열에 대한 자세한 정보를 드릴다운 할 수 있습니다. 예시: 숫자 열 

 Daun_14-1653529282837.png

문자열

Daun_15-1653529301422.png

두 번째 문자열 

Daun_16-1653529349788.png

위도와 경도가 포함된 열

Daun_17-1653529363671.png

 

샘플 데이터 

sample data 탭을 사용하면 SAS Data Explorer에서와 같이 몇 가지 샘플 행을 찾아볼 수 있습니다. 

 

데이터 준비 평가

Column Analysis (Metadata Measures)은 다음을 평가하는 데 도움이 됩니다. 

  • 먼저 데이터 준비 또는 처리가 필요합니다. 예를 들어 데이터를 문자열에서 숫자로 변환해야 하는 경우입니다. 
  • 불필요한 데이터가 있을 수 있습니다. 예를 들어 논리적 유형은 "City"(Houston)와 같은 단항 변수를 강조 표시합니다. 이 열은 보고서에 도움이 될 수 있습니다. 데이터를 모델링할 때 변수 선택 단계에서 이를 제외할 수 있습니다.
    Daun_18-1653529399730.png

 

데이터 품질 평가 

Column Analysis (Metadata Measures)은 다음 질문에 답할 수 있습니다. 

  • 데이터가 완전하거나 고유한가? 
  • 데이터에 흥미로운 패턴이 존재하는가?  
Daun_19-1653529429106.png

 

개인 정보 식별 

동일한 Column Analysis (Metadata Measures) 탭에서 데이터 세트의 개인 데이터에 대해 정보를 보여줍니다. 데이터 식별은 간접적 혹은 추가적으로 사용됩니다. 시맨틱 유형은 데이터 세트에 비공개 또는 잠재적으로 비공개가 될 만한 데이터의 존재 여부를 알려줍니다. 이 예제에서는 주소, 우편 번호, 도시 및 좌표가 정보 개인 정보 보호 후보로 여겨집니다.

 

다른 테이블에서 이러한 열은 정보 프라이버시 개인 데이터로 평가됩니다. 현지 법률에 따라 기업은 소비자의 별도의 허가 없이 본 목적 이외에 개인 데이터를 사용할 수 없습니다. 상하수도 소비량을 예측하는 경우 이름과 전화번호 등은 불필요 한 경우도 있습니다. 항상  Data Protection Officer와 협력하는 것이 우선입니다.

Daun_20-1653529467412.png

 

지식 공유 및 실행 

이상적으로는 데이터를 분석한 후 집단 지식을 형성해 새로운 발견을 다른 사람들과 공유할 수 있습니다. 

  • 비즈니스 설명을 추가합니다. 
  • 상태를 조율합니다. 
Daun_21-1653529484593.png

비즈니스 설명에 추가하여 구문 검색을 개선할 수 있습니다.

Daun_22-1653529499176.png

설명: 세제곱 미터 또는 설명:"m3"을 검색하여 결과 값에 해당 키워드가 포함된 데이터 세트를 찾아냅니다. 위에 설명한 바와 같이 지식 공유, 공동 작업, 태그 지정과 같은 기능은 이번 버전에서는 지원하지 않습니다. 확정된 계획은 없으나 상위 버전에서 지원 예정입니다. 마지막으로 다음 단계로 이동하여 데이터를 추가 탐색 및 시각화, 준비 또는 관리하고, 모델을 구축하거나, 계보를 탐색할 수 있습니다. 

Daun_23-1653529513504.png

 

메타데이터 및 검색 에이전트 수집 

메타데이터를 수집하려면 SAS Information Catalog가 이러한 자산을 검색 또는 크롤링해야 합니다. 자체 caslib 및 SAS Compute 라이브러리를 크롤링하는 방법을 알고 싶으신가요? 혹은 해당 에이전트를 모니터링하고 싶으시다면  How to Collect Metadata with the SAS Information Catalog을 통해 자세한 사항을 확인하실 수 있습니다. 

 

SAS Information Catalog SAS Viya 2020.1.4 버전의 새로운 기능 

SAS Viya의 안정적인 최신 2020.1.4 버전은 SAS 정보 카탈로그에 개인 정보 보호, 기간, 자산 적용 영역, 디스커버리 에이전트의 로케일 선택을 추가했습니다. 자세한 사항은 여기를 클릭해서 확인하실 수 있습니다.

 

결론 

SAS Viya 2020.1.3의 새로운 SAS Information Catalog는 필요한 데이터 자산을 위한 강력한 검색 엔진을 활용합니다. 카탈로그는 다양한 애플리케이션을 통해 계산된 일련의 메트릭을 함께 제공합니다. 인터페이스를 통해 데이터의 유용성을 평가하고, 내용을 이해하고, 열 세부 정보로 드릴다운하며, 샘플 데이터를 볼 수 있습니다. 또한 특정 테이블 사용 여부를 결정을 더욱 신속히 내릴 수 있습니다.

 

라이선싱

 SAS Information Catalog 제품은 basic과 advanced  두 가지 타입으로 제공됩니다. 

  • SAS Information Catalog: 보통 계산된 메트릭인 CASlib를 검색합니다. 
  • SAS Information Governance: 위와 같은 의미 유형과(개인 데이터 식별 및 분류) SAS Compute 라이브러리를 검색합니다. 

 

리소스 

감사 말씀: Nancy Rausch, Vincent Rejany, Kumar Thangamuthu 및 Ashish Sharma 께 감사드립니다.

 

포스팅을 읽어 주셔서 감사합니다. 마음에 드셨다면좋아요’를 눌러주세요

신규 SAS Information Catalog에 대한 고견을 나눠주시면 감사하겠습니다.

 

 여기에서 SAS Global Enablement and Learning에서 많은 기사를 찾아보실 있습니다.

 

 

 

Version history
Last update:
‎05-25-2022 09:47 PM
Updated by:
Contributors

sas-innovate-white.png

🚨 Early Bird Rate Extended!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Lock in the best rate now before the price increases on April 1.

Register now!

Article Labels
Article Tags