이상치(Outlier)와 편향(Skew)

이상치(Outlier)와 편향(Skew)

 

지난 포스트에서 “특정 헤비한 유저로 인한 통계 수치가 무너지지 않았는지 살펴보아야 한다. 평균은 항상 전체대비 나타내기 때문에 일부 이상치 때문에 무너지는 경우가 많기 때문이다.”라고 하였다.

 

이상치(Outlier)때문에 평균이 무너지는 경우가 어떤 뜻인지 알아보자.

 

이상치는 극단치, 이상점이라고 쓰이기도 하며 그 의미는 각 변수의 분포에서 비정상적으로 극단값을 갖는 경우나 비현실적 변수값들을 뜻한다. 즉 극단적적인 값을 이상치라고 한다. 예를 들어 아래와 같은 히스토그램의 평균값은 약 51.3의 값을 나타낸다. 대부분의 분포는 44~50 사이에 존재하지만 72에 있는 값도 무시할 수는 없다. 전형적인 분포에 비해 지나치게 높은 값이 존재하면서 평균값이 상승하면서 왜곡이 된다.

 

데이터에 포함된 이상치 때문에 평균값이 상승(또는 하락)된 현상을 보이면 데이터가 편향(skew)되었다고 한다. 편향된 데이터는 크게 3가지가 있다.

편향 설명
왼쪽으로 편향 : 이상치들의 꼬리가 왼쪽으로 길게 나타나며 평균값을 왼쪽으로 잡아끈다. 이런 상황에서는 평균값이 대부분의 값보다 낮다.
좌우 대칭 데이터 : 이상적인 경우 데이터가 좌우 대칭을 형성한다. 데이터가 좌우 대칭이면 평균값은 가운데 위치한다. 좌우에 형성되는 차트의 모양이 중앙을 중심으로 동일하다.
오른쪽 편향 : 이상치들의 꼬리가 오른쪽으로 길게 나타나며 평균값을 오른쪽으로 잡아끈다. 이런 상황에서는 평균값이 대부분의 값보다 높다.

 

이게 게임으로 돌아와서 하루동안 게임을 이용한 유저들의 1인 평균 플레이타임(TS)을 살펴보자. DAU가 1,000명이고 TS가 2시간이라고 하였을 때 평균값인 TS를 보면 꽤 괜찮은 지표일 수 있다. 하지만 분명 1000명에는 1분 이하의 플레이유저, 3시간 이상 플레이 유저, 23시간 이상 플레이 유저가 등 다양하게 모두 섞여있다. 결국 데이터의 분포에 따라 평균값은 왜곡될 수 밖에 없다. 이런 경우 평균값 외에 편향을 확인하여 극단적인 값으로 인한 평균값이 무너지는 구간을 잘 파악해야할 필요가 있다.

 

편향된 데이터와 이상치 때문에 왜곡된 정보가 제공된다면 전형적인 값이 무엇인지 파악하기 위해 중앙값등을 사용할 수 있다.

 

 

2015-06-16 / 강성욱 / http://sqlmvp.kr / http://sqlangeles.com

 

게임마케팅, 게임용어, 마케팅 용어, 게임기획, 게임 분석, 게임이야기, 마케팅이야기, 게임분석, 기획자를 위한 게임 분석, 데이터분석, 데이터분석가, 게임분석가, 매출분석, 아이템분석, sqlmvp, SQL Angeles

 

Leave a Reply

%d bloggers like this: