728x90
목록

1. VAR 함수 : VAR, VAR.S, VARP, VAR.P, VARA

2. 분산의 의미

3. 분산과 표준편차, 어떻게 다른가

 

분산은 표준편차의 전단계에 있는 개념으로 DATA의 퍼짐 그자체를 나타냅니다.

하지만 표준편차가 좀 더 사용하는 경우가 많다고 생각하여 먼저 포스팅 했었습니다.

모집단과 표본집단의 표준편차와 표준편차를 구하는 STDEV 함수에 대한 링크입니다.

(EXCEL 모집단과 표본집단의 표준편차의 구해보기(STDEV 함수들))

이번에는 분산을 구하는 함수, 분산의 의미, 분산과 표준편차에 대해서 순서대로 집어 보겠습니다.

 

320x100

 

 

1. VAR 함수 : VAR, VAR.S, VARP, VAR.P, VARA

 

VAR(number1,[number2],...) : 데이터의 분산을 예측합니다. 이 함수는 데이터의 표본집단 집단을 표본으로 간주합니다. 즉 표본집단의 분산을 구하는 함수입니다.

VAR함수와 VAR.S 함수는 사용법, 의미가 완전히 같습니다.

 

표본집단의 분산

 

VARP(number1,[number2],...) : 데이터의 분산을 계산합니다. 이 함수는 데이터의 모집단으로 사용합니다.

VARP 함수와 VAR.P 함수는 같습니다.

 

모집단의 분산

 

  • 모집단은 입력한 데이터를 전체라고 보는 방식이라 계산이라고 표현했습니다.
  • 표본집단은 입력한 데이터가 전체의 일부라고 가정하는 방식이라 예측하는 것이 됩니다.
  • 모집단과 표본집단의 설명 : 모집단과 표본집단의 표준편차의 의미와 산포 분석하고 활용하기
    STDEV 로 설명하기는 했지만 이해하는데는 크게 어렵지 않을 것 같습니다.

 

 

 

2. 분산의 의미

 

자연계에서 관측되는 많은 데이터들은 불규칙한 범주를 가집니다.

평균을 구해서 대표값을 삼을 수 있는데 이 때 평균 근처에 값들이 몰려 있는 것과 아닌 것이 중요합니다.

이 평균과의 차이를 분산이라고 합니다. 데이터들이 평균 근처 혹은 멀리 퍼져있는 자연의 상태를 산포라고 합니다.

 

데이터의 분산

 

표에서 화살표로 표시된 평균과의 값 차이는 클수록 평균을 믿기가 어려운 상태가 됩니다.

같은 상황이라도 결과가 다른 "재현성이 떨어지는 경우"입니다.

또 상황이 연속될 때 각 경우의 관측값 - 데이터의 "산포가 넓다"라고 표현하기도 합니다.

이걸 공식으로 나타낼때는 +편차와 -편차가 서로 상쇄하여 데이터의 오류가 나지 않도록 제곱합니다.

모집단의 분산

 

 

3. 분산과 표준편차, 어떻게 다른가

 

표준편차는 분산에 제곱근을 취한 형태입니다.

 

분산과 표준편차

 

직관적인 데이터의 분산이 중요하다는 것은 쉽게 이해되지만 왜 제곱근을 붙이나 하실 수도 있습니다.

이유는 단순한데 분산에서는 + 편차와 - 편차를 동등한 해석하려 데이터에 제곱을 합니다.

이 것까지는 좋은데 이때 예를들어 길이(단위 : ㎜)의 분산이 단위가 면적(단위 : ㎟)가 됩니다.

단순한 한두개 값들은 단위가 차이가 나도 금새 직관적으로 알 수 있지만 반복해서 사용하면 오류가 생깁니다.

그래서 표준편차로 제곱근을 취해 다시 길이(단위 : ㎜)로 단위를 맞춥니다.

어떤 사람들은 이런 작업을 "차원을 맞춘다"라고도 표현하더라고요. 

 

직관적인 분산이 쉬워 보이실 수도 있지만, 논문을 작성하거나, 대규모 자료를 만드실 때 차원이 꼬일 수 있습니다.

우선적으로 표준편차를 사용할 것을 추천합니다.

반응형

+ Recent posts