728x90

데이터에는 평균이 중요한 경우가 많습니다.

수학적으로는 몰라도 그것만으로 우리가 생각하는 중심을 결정할 수 없는 경우가 많습니다.

평균, 중위, 최빈을 알면 분석할 때 보다 정확하게 정보를 해석할 수 있습니다.

엑셀의 도움말에서는 이렇게 설명하네요.

 

◾ AVERAGE(평균) :  산술 평균이며 여러 수를 더한 다음 더한 수의 개수로 나누어 계산됩니다. 예를 들어 2, 3, 3, 5, 7, 10의 평균은 30을 6으로 나눈 5입니다.
◾ MEDIAN(중앙값) : 숫자 그룹의 중간 수입니다. 즉, 숫자의 절반에는 중위보다 큰 값이 있으며, 숫자의 절반에는 중위보다 작은 값이 있습니다. 예를 들어 2, 3, 3, 5, 7 및 10의 중위는 4입니다.
◾ MODE(최빈값) : 숫자 그룹에서 가장 많이 나타나는 숫자입니다. 예를 들어 2, 3, 3, 5, 7, 10의 최빈값은 3입니다.

 

계속해서 평균, 중위, 최빈 값을 알아보는 함수를 정리하겠습니다.

 

 

 

1. 중위값 구하기(MEDIAN)

 

MEDIAN(number1, [number2], ...) : 범위 혹은 숫자들의 중위값을 구합니다.

 

  • 중위값은 많은 수 중에서 순위가 중간인 것을 이야기합니다.
    숫자의 절반은 중위보다 크고 나머지 반은 중위보다 작아집니다.
    {1,2,3,4,5,100,108,120,123} → 중위값은 5
    이 값은 편측으로 크거나 작은 값이 있어도 영향을 받지 않습니다.
    한쪽으로 기울기 쉬운 DATA의 중심을 파악하는데 유용합니다.
  • 떨어져 있는 서로 다른 범위나 숫자를 하나하나 입력할 경우 255개의 목록을 입력할 수 있습니다.
  • 수들이 짝수개 일 경우에는 중간에 오는 두 수의 평균 - (A+B)/2을 반환합니다.
  • 텍스트, 논리, 빈칸은 무시하고 연산하며 0은 계산합니다.

 

2. 최빈값 구하기(MODE)

 

모드 함수는 지금도 사용할 수 있지만 최근 버전에는 MODE.MULT와 MODE.SNGL로 나누어 있습니다.

 

MODE.SNGL(number1,[number2],...) : 데이터의 최빈값을 구합니다. 예전의 MODE와 같습니다.

 

  • 최빈값은 가장 자주나오는 값입니다. 모든 수가 똑같은 빈도를 가지면 #N/A 오류가 발생합니다.
    가장 자주 마주칠 것이라고 기대할 수 있는 DATA를 구합니다.
  • 떨어져 있는 서로 다른 범위나 숫자를 하나하나 입력할 경우 255개의 목록을 입력할 수 있습니다.
  • 텍스트, 논리, 빈칸은 무시하고 연산하며 0은 계산합니다.
  •  

MODE.MULT((number1,[number2],...) : 배열이나 데이터 범위에서 빈도수가 가장 높은 값의 세로 배열을 반환합니다.

 

설명이 어려운데요. 쉽게 말하면, 최빈값이 여러 개일 경우 전부 찾아 배열형식 보관합니다.

배열은 index를 통해서 원하는 수를 찾을 수 있습니다.

아래 예시를 보겠습니다. 목록(B2:B11) - {1, 1, 2, 2, 3, 3, 4, 5, 6, 7}, 1, 2, 3이 똑같이 2개씩 들어 있습니다.

 

함수
=INDEX(MODE.MULT(B2:B11),1) 1
=INDEX(MODE.MULT(B2:B11),2) 2
=INDEX(MODE.MULT(B2:B11),3) 3

 

즉 모든 최빈값이 저장되고 INDEX를 통해서 하나씩 꺼낼 수 있습니다.

 

 

320x100

 

 

3. 평균값 구하기

 

AVERAGE(number1, [number2], ...) : DATA들의 평균을 구합니다.

 

우리가 흔히 알고 있는 가장 평범한 평균입니다.

 

평균을 구한다는 것 자체는 매우 단순합니다. 그래도 평균차제가 많이 사용하니 자주쓰는 함수입니다.

그래서 그런지 여기에는 편리한 파생함수가 몇개 있습니다.

 

AVERAGEA(number1, [number2], ...) : DATA들의 산술평균을 구합니다.

 

평균하고 수식은 같은데 텍스트를 처리하는 방식이 다릅니다.

텍스트와 0을 똑같이 계산합니다.

AVERAGE는 텍스트가 있으면 없는걸로 계산을 하는데 여기는 0으로 치니 값에 영향을 줍니다.

 

 

AVERAGEIF(range, criteria, [average_range]) : 조건을 만족하는 값들의 평균을 구합니다.

 

  • range : 조건을 검사할 범위입니다.
  • criteria : 조건입니다. 특정값이랑 같거나 논리연산자를 사용해서 설정할 수 있습니다.
  • average_range : 평균을 계산하는 데 사용할 실제 셀 집합입니다. 지정하지 않으면 range가 사용됩니다.

 

조건을 정해서 평균을 구하는 것입니다.

SUM이나 COUNT에도 if 파생함수가 있고 사용법이 거의 비슷합니다.

검사할 range에서 사과를 찾아서 같은 열의 숫자를 대상으로 평균을 구합니다.

 

 

AVERAGEIFS(average_range, criteria_range1, criteria1, [criteria_range2, criteria2], ...) : 조건을 만족하는 값들의 평균을 구하는데 여러가지 조건을 입력할 수 있습니다.

 

  • average_range : 평균을 계산할 숫자들의 범위입니다.
  • criteria_range1, criteria_range2, … : 조건을 검사할 값들의 범위입니다. criteria_range1은 필수 요소이고, 이후의 criteria_range는 선택 요소입니다. 1개는 필수이고 이후 128개까지 입력할 수 있습니다.
  • criteria1, criteria2, ... : 조건입니다. 검사할 범위에 있는 값들을 하나씩 검사합니다. criteria1은 필수 요소이고, 이후의 criteria는 선택 요소입니다. 숫자, 식, 셀 참조 또는 텍스트 형식의 128개 이하의 평균을 구할 셀을 정의합니다. 

 

AVERAGEIF 함수의 확장판입니다. 여러개의 조건을 넣을 수 있습니다.

아래에 보면 2월 6일 이전에 사과, A등급의 평균 갯수를 구합니다.

 

 

중위값, 최빈값, 평균값이 모두 일치하는 상태를 정상분포라고 합니다.

이들이 멀어지는 모양이나 정도를 보고 DATA를 분석할 수 있습니다.

예를 들어 아래는 경력 1년 이하 사회 초년생의 연봉수준입니다.(고용노동부)

중위값인 2,800만원이니 예로 3,000만원은 높은 수준을 받는다고 생각해도 되겠습니다.

하지만 평균은 3,300만원이니 좋은 조건에 일자리를 구한다면 많이 올릴 수 있다는 뜻입니다.

혹은 상위 25%가 많은 연봉을 독차지 한다고 해석하기도 할 것입니다.

경력 1년 미만의 평균연봉

 

반응형

+ Recent posts