중앙값(median)과 최빈값(mode)

중앙값(median)과 최빈값(mode)

 

지난 포스트에서 일부 극한값 때문에 평균값이 무너지는 현상이 발생하여 이상치와 편향을 확인하여 극단적인 값으로 인한 평균이 무너지는 구간을 파악할 수 있었다.

 

편향된 데이터와 이상치 때문에 왜곡된 정보가 제공된다면 전형적인 값을 파악하기 위해 중앙값과 최빈값을 이용해야 한다.

 

중앙값(median)이란 무엇인가?

중앙값은 데이터를 나열하였을 때(오름차순) 가운데 있는 값을 뜻한다.

데이터가 홀수면 가운데 값이 중앙값이 된다.

19 18 20 20 20 21 21 100 102

 

데이터가 짝수면 가운데 있는 두수의 평균값이 중앙값이 된다.

18 20 20 20 21 21 100 102
20.5

 

 

아래와 같은 데이터가 있을 때 평균값, 편향, 중앙값에 대해서 알아보자.

 

[오른쪽 편향]
1 2 3 4 5 6 7 8
도수 4 6 4 4 3 2 1 1

 

  • 데이터 개수 : 25개 (데이터를 한 줄로 나열해본다.)
  • 평균값 : 3.44 ((4+12+12+16+15+12+7+8)/25)
  • 중앙값 : 3

 

데이터를 그래프로 그려보면 다음과 같이 오른쪽으로 편향되어 나타나며 평균값은 중앙값의 오른쪽(높음)에 위치한다.

 

 

[왼쪽 편향]
1 4 6 8 9 10 11 12
도수 1 1 2 3 4 4 5 5

 

  • 데이터 개수 : 25개 (데이터를 한 줄로 나열해본다.)
  • 평균값 : 9.28 ((1+4+12+24+36+40+55+60)/25)
  • 중앙값 : 10

 

데이터를 그래프로 그려보면 다음과 같이 왼쪽으로 편향되어 나타나며 평균값은 중앙값의 왼쪽(낮음)에 위치한다.

 

이처럼 중앙값을 사용하면 이상치로 인한 편향된 데이터에서 평균값이 높은지 낮은지 판별할 수 있다. 중앙값으로도 왜곡이 발생할 경우 최빈값을 이용할 수 있다.

예를 들어 아래와 같은 데이터가 있을 때 중앙값은 16.5가 된다. 데이터에 2 또는 31이 추가되면 중앙값은 2 또는 31이 된다.

1 2 2 2 31 32 32 32

16.5

 

최빈값(mode)이란 무엇인가?

최빈값은 데이터 집합에서 가장 많이 나타나서 도수가 가장 높은 값을 뜻한다. 최빈값이 하나 이상일 수도 있다. 어느 집합이 두 개의 최빈값을 가지고 있다면 이봉(bimodal)이라고 한다.

 

아래와 같은 데이터는 전체를 대표할 수 있는 값이 존재하지 않는다. 대신 각 종류의 데이터 집합에 대한 최빈값이 무엇인지 알 수 있다. 데이터에서는 두 개의 최빈값(2, 32)이 존재한다

1 2 3 31 32 33
도수 3 4 2 2 4 2

 

최빈값은 수치적 데이터만을 위해 사용되는 것은 아니다. 범주적 데이터를 위해서도 사용될 수 있으며 범주적 데이터를 위해 사용할 수 있는 유일한 평균값이다. 최빈값은 범주적 데이터를 다룰때 가장 흔히 사용하는 범주 중 하나이다.

 

게임으로 돌아와서 동접지표 분석할 때 평균 플레이 타임에 대한 왜곡에 대해서 설명하였다. 이상치와 편향으로 통계적 오류를 최소화 할 수 있었지만 1인당 플레이 시간에 대한 범주가 고르지 못하다면 최빈값등을 이용해서 각 범주를 대표할 수 있는 값을 함께 분석해보면 좋을 듯 하다.

 

2015-06-18 / 강성욱 / http://sqlmvp.kr / http://sqlangeles.com

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석, sqlmvp, SQL Angeles

 

Leave a Reply