BookmarkSubscribeRSS Feed

1-2. Statistics의 소개: 기초적인 통계적 개념(2)

Started ‎06-15-2020 by
Modified ‎06-15-2020 by
Views 292

1-2. Statistics의 소개: 기초적인 통계적 개념(2)

 

안녕하세요^^

이번 시간에는 지난시간에 이어 기초적인 통계적 개념 두번째 공부를 하도록 하겠습니다.

 

모집단으로부터 Random sample을 추출한 이후에는, 데이터 분석에 앞서 우선적으로 데이터를 탐색하고 묘사해야 합니다.

데이터 묘사를 통해 중심 집중 경향성을 파악하고, 연속형 변수의 퍼진 정도와 모양을 파악할 수 있습니다. 또한, 특이한 데이터 값을 찾아낼 수 있습니다.

​이를 통해, 데이터의 error 값을 파악할 수 있고, 데이터의 모양을 식별할 수 있습니다. 극단적인 값이 존재할 때에는 통계적인 해석에 큰 오류를 범할 수 있기 때문에 이를 파악하여야 합니다​​​.

변수의 값의 분포를 조사할 때, 다음의 3개의 사항을 결정할 수 있습니다.

p112_1.png

 

데이터 값의 분포는 상대 빈도를 통해 정해집니다.

​어떠한 type의 데이터인지 관계없이, 그래프와 기술통계량을사용하여 값의 위치와 퍼진 정도와 모양을 파악하는 것은 매우 중요합니다.

1) Measures of central tendency(중심집중경향성) – MEAN, MEDIAN, MODE

​데이터의 중심의 위치에 대한 기술통계량은 measures of central tendency입니다.

​가장 일반적으로 사용되는 중심 위치에 대한 기술통계량은 sample mean(평균)입니다.

Mean은 산술적으로 가장 균형이 맞추어지는 점입니다.

또한, Median(중앙값)은 순서대로 정렬된 데이터의 가운데 점입니다.

​이 값은 순위가 매겨진 점수에서도 적절하며, 한쪽으로 치우친 데이터에서도 적절한 값입니다.

Mode(최빈값)는 데이터에서 가장 빈번하게 발생하는 값입니다.

​이 값은 명목형 자료에서 가장 적절한 통계량이며, 하나의 분포에서 여러 개의 mode가 존재할 수 있습니다.

2) Percentiles(백분위수)

 

p112_2.png

 

Percentiles(백분위수)은 데이터 값의 주어진 비율보다 큰 데이터의 위치를 나타내는 값입니다.

일반적으로 사용되는 percentiles는 제 25 백분위수 50 백분위수 75 백분위수 입니다.

제 25 백분위수는 제 1사분위수(first quartile)라고도 하며데이터의 데이터를 거의 균등한 관찰값 수를 포함하는 4개의 균등한 부분으로 분할할 때하위 25%를 포함하는 데이터의 위치를 나타내는 값입니다.

또한,  50 백분위수는 제 2사분위수라고도 하며, median(중앙값)과 같은 값을 갖습니다.

마지막으로 제 75 백분위수는 제 3사분위수(third quartile)라고도 하며하위 75%를 포함하는 데이터의 위치를 나타내는 값입니다.​​

3) 분포의 퍼진 정도: Dispersion 

 

p112_3.png

 

변동을 측정하는 다른 방법은 coefficient of variation(CV: 변동계수)라고 하며,p112_4.png로 계산합니다.

 

데이터가 outliers(이상점)을 포함하고 있거나 변수가 순서형 변수인 경우에 분포가 치우친 형태로 나타날 수 있습니다.

​이러한 경우 interquartile range(사분위 범위)를 사용하는 것이 데이터 값의 중간 50%를 반영하기 때문에 데이터의 퍼진 정도를 더 잘 반영할 수 있습니다.

[ PROC MEANS ]

 

p112_5.png

 

SAS에서 PROC MEANS 프로시저를 사용하여, 데이터의 기술통계량 값을 계산할 수 있습니다.

​​

CLASS 문은 데이터 값을 subgroup으로 결합한 기준 변수를 지정합니다.

이 변수는 수치형이나 문자형 변수 모두 가능하며연속형 값을 가질 수도 있습니다.

하지만 일반적으로 변수의 level을 구분하는 이산형 값을 갖는 경우가 많습니다.

데이터가 class에 지정한 변수로 정렬되어있을 필요는 없습니다.

VAR 문장은 기술통계량을 계산하기를 원하는 수치형 변수를 지정합니다.

만약 VAR문장에 아무런 변수를 지정하지 않으면 모든 수치형 변수에 관하여 기술통계량을 출력합니다.

예를들어,

 

p112_6.jpg

 

 위와 같은 코딩을 시행하면,

 

p112_7.jpg

 

PROC MEANS 프로시저를 시행하여 데이터의 기술통계량 값을 얻게 됩니다. 

 

p112_8.jpg

 

앞서 언급했던 위치와 퍼진 정도에 대한 통계량인 평균과 표준편차 값을 얻을 수 있으며, 최소값과 최댓값을 사용하여 범위를 계산할 수 있습니다.

읽어주셔서 감사합니다.

다음 시간에는 분포의 표현 첫번째 시간으로 연속형 변수의 분포를 살펴보는 방법과 정규분포에 대해 공부해보도록 하겠습니다.

  

Version history
Last update:
‎06-15-2020 10:16 PM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags