범위(Range)와 사분위수(Quartile)

범위(Range)와 사분위수(Quartile)

 

평균은 데이터의 중심이 어디쯤에 있는지 알려 주지만 데이터가 어떤 식으로 변화하는지에 대해서는 알려주지 않는다. 점수가 평균을 중심으로 어떻게 분포되어 있는지 살펴봄으로써 데이터를 구분할 수 있다.

 

아래 3개의 도표는 모두 동일한 평균값과 중앙값, 최빈값을 가지고 있지만 데이터분포는 다르다.

점수 7 8 9 10 11 12 13
도수 1 1 2 2 2 1 1

 

점수 7 9 10 11 13
도수 1 2 4 2 1

 

점수 3 6 7 10 11 13 30
도수 2 1 2 3 1 1 1

 

 

이러한 경우 범위를 계산하여 구분할 수 있다. 범위(Range)는 데이터가 얼마나 많은 숫자 값을 포함하고 있는지를 알려준다. 범위를 찾으려면 데이터 집합에서 가장 큰 수에서 가장 작은 수를 뺀다. 가장 큰 값은 상한(upper bound), 가장 작은 값은 하한(lower bound)라한다.

 

범위는 데이터 집합의 분포를 간단하게 측정하는 방법이지만 그 범위 안에서 값들이 분포된 방식을 측정하는 가장 좋은 방법은 아니다. 범위는 데이터의 극단적인 값들을 이용해서 계산하기 때문에 데이터가 이상치를 가지고 있다면 상한값과 하한값 사이에 어떤 일이 있는지 나타내지 않기 때문에 범위를 이용한 값은 잘못된 정보를 제공할 수도 있다.

 

범위의 정의 자체가 이상치를 포함하기 때문에 이상치들에 대한 효과를 상쇄할 수 있는 방법이 필요하다. 이러한 방법 중 하나가 이상치를 무시하는 미니범위(mini range)를 살펴보는 것이다. 즉 데이터 전체의 범위를 측정하는 대신 이상치를 포함하지 않는 부분적인 범위를 측정 할 수 있다.

 

미니범위를 구성하는 방법에는 데이터 중심 근처에 있는 값들을 이용하는 방법이 있다. 데이터를 통일한 크기의 조각으로 나누어 중앙값을 사용한다. 이는 데이터의 중심에 분포하는 50%의 데이터만을 포함하기 때문에 이상치가 무시된다.

 

값이 가장 작은 사분위수는 하한 사분위수(lower quartile) 혹은 일사분위수(Q1)이라고 하고, 가장 큰 사분위수는 상한 사분위수(upper quartile) 혹은 삼사분위수(Q3)라고 한다. 가운데 있는 사분위수(Q2)는 데이터를 절반으로 나누므로 중앙값에 대한다. 사분위수 두 개사이에 존재하는 범위를 사분범위(interquartile range, IQR)이라고 한다.

 

 

사분위수 외에도 데이터를 분할하는 방식에는 데이터 집합을 퍼센트를 이용해서 분할하는 백분위수(percentiles), 조각을 열 개로 나누는 십분위수(deciles)도 있다. 백분위수는 흔히 사용되지는 않지만 벤치마킹을 하거나 등수나 위치를 정할 때 유용하다. 백분위수는 어떤 값이 다른 값들에 비해 얼마나 높은지 결정할 때 사용된다.

 

백분위수 참고 자료 : http://mba-lectures.com/statistics/descriptive-statistics/245/percentiles.html

 

2015-07-02 / 강성욱 / http://sqlmvp.kr / http://sqlangeles.com

 

통계학, 사분위수, 백분위수, 범위, Statistics, Range, Quartile, Percentile, 평균값, 이상치, sqlmvp, SQL Angeles

 

Leave a Reply