728x90

어떤 값들의 대표값으로 자주 사용되는 평균값이 있습니다.

우리가 평균에 대해서 이야기를 할때는 가장 대표성이 있는 중요한 값이라고 생각을 하는 것입니다.

데이터의 일부 임은 분명하지만 평균에 지나치게 영향을 주어 대표성을 훼손시키는 데이터를 이상치(Outliers)라고 합니다.

 

보통 이 값은 최상위와 최하위에 분포되어 있기 때문에 이 값을 제외하고 평균을 구하고는 합니다.

엑셀에는 너무 먼 수를 제외하고 평균을 구하는 함수로 TRIMMEAN 함수를 제공합니다.

 

TRIMMEAN(array, percent) : 값들의 집합인 "array"에서 최상값과 최하값부터 각각 "percent"만큼을 제외하고 평균을 계산합니다.

 

  • array : 평균을 구하려는 데이터들입니다. 배열이나 셀 범위 혹은 값을 직접 입력할 수 있습니다.
  • percent : 계산에서 제외할 요소의 %입니다. 0 ~ 1 사이에 숫자로 범위에서 벗어나면 #NUM! 에러를 반환합니다. 전체 수량이 20개인데 "percent"가 0.2인 경우에는 가장 큰 값 10% - 2개와 가장 작은값 10% - 2개를 빼고 계산합니다.
  • 만일 제외해야 하는 갯수가 1개 이하로 계산될 경우에는 전체의 평균을 구합니다.

 

320x100

 

 

<사용예시 1>

 

가령, 한 학급의 시험 점수를 고려해보겠습니다.

대부분 학생들이 비슷한 범위의 점수를 받았지만, 몇몇 학생들이 극단적으로 높거나 낮은 점수를 받았다고 가정해봅시다.

이 경우, 이러한 극단적인 점수를 이상치로 간주하고 최상위와 최하위를 제외하고 평균을 구한다면,

이상치로 인한 왜곡을 줄일 수 있습니다. 이렇게 하면 대부분의 학생들의 평균 점수에 대한 뚜렷한 감을 얻을 수 있습니다.

 

이상치 제외하고 평균구하기

 

이렇게 이상치를 제외할 경우에 장점은,

특별히 뛰어나거나 부족한 학생 때문에, 전체 성적대를 잘못 파악하는 경우를 막을 수 있습니다.

시험난이도를 설정하거나 할 때 유용하게 사용되겠죠.

 

 

<사용예시 2>

 

스포츠에서도 많이 사용되고는 합니다.

여러 명의 심판이 선수의 점수를 매기는 경우에 유독 잘 나오거나 못나오는 "취향을 타는 경우" 혹은,

자신이 싫어하는 인상, 집단에 소속된 경우등으로 "편파판정"을 막는 경우입니다.

큰 경기에서 최대점과 최소점을 제외하고 평균을 내는 경우가 많습니다.

 

스포츠 경기 심사의 예

 

위는 10명의 심판이 체점한 평균을 구하는 방식입니다.

특정한 한 심판이 너무 높은 점수를 줘서 평균을 조정하는 것을 막는 효과가 있습니다.

이 방법은 데이터가 정규분포를 따르지 않고 크게 이상하면 이상할 수록 큰 효과가 있습니다.

 

 

 

반응형

+ Recent posts