728x90
목차

1. 표준오차(Sampling Error)의 뜻

2. 표준오차 계산하기

3. 표본오차 - 못 쓰는 데이터란

 

현대인들은 통계라는 지표를 이용해 살아갑니다.

국가나 대기업의 전문가들이 운영하는 거창한 규모의 통계학부터, 동내 과일가계 아저씨가 자신의 경험으로 이번달 매출이 얼마일꺼라고 예상하는 것까지 모두 통계입니다.

이렇게 자주 사용하는 통계는 만능일 것 같지만 오차라는 문제가 있습니다.

그런 오차조차 예상하려는 노력으로 표준오차라는 개념이 있습니다.

표준오차에 대해서 알아보고 어떻게 계산하는지, 어떻게 사용하는지 알아보겠습니다.

 

320x100

 

1. 표준오차(Sampling Error)의 뜻

 

  • 통계의 대상이 되는 모든 집단을 조사하지 못하고 일부만 조사했을 때 (샘플링 했을때), 조사한 표본을 분석해서 전체를 예상한 오차입니다.
  • 조사한 대상이 많을 수록, 조사한 대상의 표준편차가 작을 수록 정밀해 집니다.
  • 모집단 = 전체집단, 표본집단 = 모집단의 일부로 조사당한 집단
  • 오차란 "전체집단 = 모집단의 평균"과 "조사한 일부집단 = 표본집단의 평균"의 차이입니다.

 

표준오차의 의미

 

통계학에서 이 오차를 계산하는 공식이 있습니다.

"오차를 계산한다"는 것은 "이번 조사가 이 정도 불확실 하다"라고 보면 됩니다.

 

공식

 

표준편차를 시료의 개수에 제곱근으로 나눈 공식입니다.
편차가 넓은 집단은 자료를 모을 때도 오차가 커지고, 조사한 집단의 수가 많으면 오차가 작아집니다.
그런 면에서는 합리적인 공식이라고 볼 수 있습니다.
엑셀에서는 별도의 함수는 없고, "표준편차 / 표본수"로 직접 계산해야 합니다.

=STDEV.S(범위) / SQRT(COUNT(범위))

 

 

 

2. 표준오차 계산하기

 

전체가 1000개가 있을 때 50개만 조사했다고 하겠습니다.

모집단의 평균과 표본집단의 오차는 아래 그림처럼 됩니다.

보통 모집단을 모르니까 평소에는 주황색 그래프만 얻을 수 있습니다.

 

모집단과 표본집단

 

조사한 표본집단의 데이터만으로 표준오차를 계산할 수 있고, "0.126"이 나옵니다.

이 때 실제로 (모집단의 평균 -0.051) - (표본집단의 평균 0.093) = 0.144 입니다.

모집단의 평균을 모른다고해도 표준오차를 계산해서 예상한 것과 거의 비슷합니다.

 

모집단과 포본집단의 차이

 

아래 표 처럼 또 다시 이렇게 50개씩 조사를 매달 했다고 합니다.

그때마다 조사 데이터가 달라지지만, 어느정도 오차 내에서 분포하고 있는 것이 보이시나요?

매번 평균은 달라져도 표준오차는 유사한 수준이고, 모집단과의 차이가 일정 수준이내에 머무릅니다.

이런 상태는 전제적으로 큰 변화가 없는 안정된 상태로 볼 수 있습니다.

 

조사를 추가로

 

 

3. 표본오차 - 못 쓰는 데이터란

 

단순하기는 하지만 어느 정도 활용하는 방법을 설명했습니다.

표본 오차를 사용하면 다 알 수 없는 모집단이 있을 때, 샘플링 조사했을때 정밀도를 알 수 있습니다.

특히 조사를 반복했을때 유의미한 변동폭이 생겼는지 파악하기에 좋습니다.

 

여러번 조사하기

 

그런데 여기서 설명드리고 싶은건 "못 쓰는 통계데이터"에 관해서 입니다.

언제 표준 오차를 사용할 수 있고 없고를 아는 것이 더 중요하기 때문입니다.

아래 상황을 보겠습니다. 전체 모집단 5,300개에서 100개씩 샘플링 한 결과입니다.

5번 실행한 결과를 아래 표로 정리했습니다.

 

5번 조사한 결과

 

데이터의 표준 오차는 3~7 정도 수준이지만 "실 평균과의 차이"가 크게 발생한 데다가 매번 양상이 크게 바뀝니다.

이런 데이터는 위험합니다. 모집단도 모르고 1~2회차의 데이터를 뽑았을 때는 잘못된 의사 판단을 내리기 쉽습니다.

의도하지 않고 랜덤하게 뽑았는데도 그렇습니다. 원인을 확인해 보겠습니다.

 

 

① 전체집단의 분포가 표준 정규분포 모델을 상당히 크게 넘어설때

 

일단 모집단의 분포를 보겠습니다.

평균이 123이지만 Min은 0이고 MAX가 1,113입니다. 이건 min 대비 max가 너무 큽니다.

실제로 분포를 봐도 아래처럼 큰 값으로 쭉 발생하는 것을 볼 수 있습니다.

이런 경우에 저 300을 넘어가는 큰 집단이 표본집단에 포함 되고 말고의 차이가 너무 커집니다.

정규 분포의 좌우 대칭이 깨져서 표준오차가 쓸모가 없어지는 케이스 입니다.

 

비대칭 분포

 

그런데 문제는 우리는 보통 모집단의 산포를 모른다는 것입니다.

 

② 표본집단의 산포를 봅니다.

 

표본집단을 조사했을때 산포의 모양을 볼 필요가 있습니다.

위 예시의 첫번째 조사시 산포인데 굉장히 불규칙합니다.

이런 산포에서는 미래의 값을 예상할 수 있을 꺼라 기대하는 것이 불가능합니다.

즉, 조사 데이터가 정규분포 통계가 적용하기 어려운 경우 통계 데이터를 적용이 어렵습니다.

 

정규분포 통계가 적용이 불가능한 그래프

 


이렇게 표본오차와 그 계산법, 활용도에 대해서 알아봤습니다.

특히 현장에서 통계를 사용하다보면 힘든 상황에 자주 마주합니다.

그럴 때는 통계데이터가 이렇게 나오는 이유를 파악하고, 보조지표를 설정하기도 합니다.

예를 들어 조사를 할때마다 뽑을 때 날씨가 크게 변해 응답자의 답변이 변했다던가,

강가에 있는 건축물과 산에 있는 건축물의 데이터를 같은 카테고리에 포함하지 않았는지를 점검하는 것입니다.

 

그래도 가장 중요한 것은 이 데이터를 사용할 것인지 결정해야 합니다.

데이터가 나오면 기계적으로 적용해서 의사판단을 하는 경우가 너무 많습니다.

의사결정에 대한 데이터는 디테일이 중요합니다.

통계값의 불확실도를 파악하고 또 쓸만한 값인지 볼 줄 알아야 재대로 된 결정이 나옵니다.

 

 

 

반응형

+ Recent posts