————————————————————————————————————————————————————————
안녕하세요. SAS University Edition (SAS UE) 컨텐츠 제작자 이규현입니다.
앞으로 MYSAS 커뮤니티 유저분들에게 SAS UE의 데이터 핸들링, 분석 그리고 시각화 등의 사용법에 대해 전해드리려고 합니다.
MYSAS 커뮤니티 사이트 뿐만 아니라 SAS Korea 유튜브 채널*에서도 해당 컨텐츠의 동영상을 제공하고 있습니다.
(*SAS Korea 유튜브 채널: https://www.youtube.com/user/saskorea)
모든 학계의 교수님들과 학생들이 사용하는 제품인 만큼, 어느 누구라도 보기 쉬우며 따라할 수 있는 컨텐츠를 제작하겠습니다.
—————————————————————————————————————————————————————————
CH3. 데이터의 종류와 그래프를 이용한 데이터 시각화 동영상: https://youtu.be/MBQBlam3Lss
이번 컨텐츠는 "Ch3. 데이터의 종류와 그래프를 이용한 데이터 시각화" 이며, 데이터의 종류와 그에따른 데이터 시각화에 대해 알려드리겠습니다.
우리는 살면서 다양한 종류의 데이터를 만나게 됩니다. 숫자와 같이 통계적 분석에 바로 이용가능한 정형 데이터, 문자, 사진과 같이 가공없이는 분석이 불가능한 비정형 데이터가 있습니다. 하지만 우리는 앞으로 정형 데이터만 다룰 예정입니다.
저희가 다룰 정형 데이터는 다음과 같이 나눌 수 있습니다. 남/여, 성공/실패, A/B/AB/O와 같이 유한개의 범주로 나누어지는 범주형 변수, 나이(사람은 수명이 한정되어 있음)와 같이 일정 구간이 유한한 개수로 나누어지는 이산형 변수, 그리고 마지막으로 키와 몸무게와 같이 일정 구간이 무한한 개수로 나누어지는 연속형 변수로 나누어 집니다.
이러한 변수들의 형태를 보기위해 시각화를 하려면, 변수의 형태와 개수에 따라 그에 맞는 그래프의 종류를 선택해야 합니다.
위의 표에 기재된 그래프 종류는 일반적으로 쓰이는 것으로 예를 든 것이며, 경우에 따라 다른 그래프를 사용하실 수 있습니다.
지금부터, SAS UE에서 제공하는 그래프에 대한 설명과 사용법에 대해 알려 드리겠습니다.
SAS UE에서 제공하는 그래프는 다음과 같습니다.
막대 그래프, 막대-선 그래프, 상자 도표, 버블 도표, 히스토그램, 선 그래프, 모자이크 도표, 원 그래프, 산점도, 시계열 도표, 단순 수평 막대가 있습니다. 이중에 설명드릴 그래프는 일반적으로 많이 쓰이는 그래프에 한해 알려 드리겠습니다.
먼저, 막대 그래프입니다.
막대 그래프는 단순히 빈도만 측정하는 것 뿐만 아니라 범주의 반응변수에 따른 통계량(평균, 합계)를 시각화 할 수 있습니다.
해당 그래프는 “어느 학교의 한 반에 속한 학생들의 나이를 성별에 따라 어떻게 나뉘어 있는지”를 보기 위해 사용하였습니다.
데이터:SASHELP.CLASS
범주변수:Age(이산형 변수)
그룹변수:Sex(범주형 변수)
두 번째, 원 그래프입니다.
원 그래프에서 차지하는 크기에 따라 더욱더 많은 비율을 갖고 있음을 나타내는 그래프입니다.
해당 그래프는 “현재 시장에 나와있는 차의 종류(세단, 트럭, SUV 등.)가 어떤 비율로 나뉘어 있는지”를 보기 위해 사용하였습니다.
데이터:SASHELP.CARS
범주변수:Type(범주형 변수)
세 번째, 모자이크 도표입니다.
모자이크 도표는 교차 테이블을 숫자가 아닌 시각화 해주는 도표입니다.
해당 도표는 “현재 시장에 나와있는 차의 브랜드(현대, 밴츠 등.)에 따라 어떠한 종류의 차를 어떠한 비율로 출시했는지”를 보기 위해 사용하였습니다.
데이터:SASHELP.CARS
수직 축:Type(범주형 변수)
수평 축:Make(범주형 변수)
네 번째, 히스토그램입니다.
히스토그램은 숫자 변수(연속형 변수)의 빈도분포를 표시하며, 밀도곡선 옵션을 통해 막대로 표현되어 있는 히스토그램 위에 분포의 모형을 밀도(확률)로 표현가능하게 해줄 수 있습니다.
밀도곡선은 정규 밀도함수 곡선과 커널 밀도함수 추정값으로 나뉘며, 정규 밀도함수 곡선은 데이터의 평균과 분산만으로 정규 밀도곡선을 표현해줍니다.
커널 밀도함수 추정값은 각각의 데이터를 커널 함수에 입력하여 나온 모든 밀도곡선을 하나의 곡선으로 만든 것으로 정규성 모양이 아닌 불규칙한 모양의 히스토그램의 분포를 좀더 명확하게 표현해줍니다.
해당 그래프는 “어느 학교의 한 반에 속한 학생들의 키 분포가 어떤지”를 보기 위해 사용하였습니다.
데이터:SASHELP.CLASS
분석변수:Height(연속형 변수)
다섯 번째, 상자 도표입니다.
상자 도표는 일정 구간으로 정해진 값을 각종 통계량(최소값, 최대값, 평균, 중위수, 표준편차, 사분위수 등.)을 측정하여 상자모양으로 보여주는 도표입니다.
해당 도표는 “어느 학교의 한 반에 속한 학생들의 키 분포가 성별에 따라 어떻게 되는지”를 보기 위해 사용하였습니다.
데이터:SASHELP.CLASS
분석변수:Height(연속형 변수)
그룹변수:Sex(범주형 변수)
여섯 번째, 선 그래프입니다 데이터의 추세나 패턴을 볼 수 있는 그래프.
선 그래프는입니다.
해당 그래프는 “현재 시장에 나와있는 차의 종류에 따라 엔진사이즈 대비 마력의 평균의 패턴이 어떻게 되는지”를 보기 위해 사용하였습니다.
데이터:SASHELP.CARS
범주변수:EngineSize(연속형 변수)
반응변수:Horsepower(연속형 변수)
그룹변수:Type(범주형 변수)
일곱 번째, 산점도입니다.
산점도는 두개의 연속형 변수 간의 관계를 보여주는 도표이며, 데이터의 패턴이나 집중도를 확인할 수 있습니다.
해당 도표는 “현재 시장에 나와있는 세단과 트럭에 대해서 엔진사이즈와 마력 간의 관계가 어떠한지”를 확인하기 위해 사용하였습니다.
데이터:SASHELP.CARS
Where 절 적용: Type=“Sedan” or Type=“Truck”
범주변수:EngineSize(연속형 변수)
반응변수:Horsepower(연속형 변수)
그룹변수:Type(범주형 변수)
여덟 번째, 시계열 도표입니다.
시계열 도표는 데이터의 흐름에 따라 추세를 확인할 수 있는 도표입니다.
해당 도표는 “20년간 IBM, Intel, 그리고 MS의 시가(Open)의 추세가 어떠한지”를 확인하기 위해 사용하였습니다.
데이터:SASHELP.STOCKS
X변수:Date(연속형 변수)
Y변수:Open(연속형 변수)
그룹변수:Stock(범주형 변수)
마지막으로, 버블 도표입니다.
버블 도표는 세 개 이상의 변수 간 관계를 탐색할 수 있는 도표입니다.
해당 도표는 “현재 시장에 나와있는 세단과 트럭에 대해서 엔진사이즈와 실린더 크기 그리고 도심연비 간의 관계가 어떠한지”를 확인하기 위해 사용하였습니다.
데이터:SASHELP.CARS
Where 절 적용: Type=“Sedan” or Type=“Truck”
X변수:EngineSize(연속형 변수)
Y변수:Horsepower(연속형 변수)
크기변수:MPG_City(연속형 변수)
그룹변수:Type(범주형 변수)
이상, 데이터의 종류와 그에따른 데이터 시각화에 대해 소개한 “Ch3. 데이터의 종류와 그래프를 이용한 데이터 시각화”였습니다.
컨텐츠에 대해 궁금한 사항은 댓글로 남겨주시면 감사 하겠습니다.
앞으로 더 좋은 컨텐츠를 가지고 여러분들을 MYSAS를 통해 찾아 뵙겠습니다.
감사합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.