728x90
목차

1. 모집단, 표본집단 왜 나누어야 하죠?

2. 표준편차의 활용

3. 표본집단의 표준편차(n-1 방식)의 의미

4. 표본집단의 표준편차(n-1 방식)의 한계와 극복하기

 
 
표준편차의 뜻과 계산에 대해서 지난번에 포스팅 했습니다.
표준편차는 의미는 쉽지만 사용함에 있어 설명을 추가로 필요합니다.
표준편차의 의미와 계산하는 방법은 아래링크를 참고하세요.

 

EXCEL 모집단과 부분집단의 표준편차의 구해보기(STDEV 함수들)

현실에서 데이터는 이론과는 다르게 여러가지 영향을 받아서 분포를 가집니다. 이런 DATA의 분포를 정확하게 분석하는 방법에 대해 설명드리고자 합니다. 1. 표준편차의 뜻 아래 A와 B 그래프로

toast-story.tistory.com

 
오늘은 모집단과 표본집단에 대해서 좀 더 자세히 알아보고 그 활용을 알아보고자 합니다.
두 개의 표준편차 공식이 달라 모집단의 표준편차 계산방식은 (n 방식), 표본집단은 (n-1 방식)이라고 설명하겠습니다.
 

모집단과 표본집단 표준편차 공식

※ 이번 포스팅은 이론적인 면도 있지만 제 경험과 의견을 기반으로 함을 미리 알려드립니다.
 

 
 

1. 모집단, 표본집단 왜 나누어야 하죠?

 
모집단은 대상의 모든 데이터이고 표본집단은 데이터의 일부만 조사한 경우입니다.
따라서 표본집단은 모집단의 안에 포함된다고 볼 수 있겠네요.

모집단의 경우에는 데이터를 전수조사한 경우입니다. 모집단이 보통 같지만 오히려 표본집단을 많이 씁니다.
왜냐면 모든 사건이 일어났는데 분석하는 건 늦었을 때가 많기 때문이죠. (그래도 어느정도는 사용합니다.)
비교적 표본집단의 데이터만 얻게 되는 경우가 더 많습니다.
 

  1.  모집단 전체의 데이터를 얻기에는 너무 많고 조사하는데 시간이 많이 필요한 경우
      예) 한국인 모두의 설문조사
  2.  데이터가 시간에 의해 발생하는데 미래의 데이터를 미리 측정할 수 없는 경우
      예) 수요일의 사당역 이용자수 - 다음주 수요일이 항상 존재함으로 지금까지 데이터를 전부라고 할 수 없습니다.
  3.  데이터를 측정하는데 시료가 파괴되는경우
      예) 휴대폰 새로운 모델 액정의 파열강도 - 시료를 전부 검사하고 나면 사용할 다른 시료를 만들어야 합니다.

 
가만 생각해보면 거의 모든 경우에는 모집단 이란 건 없는 거나 다름없죠.
미래에 생길 일까지 포함하면 전부 측정하는 것은 불가능합니다.
그래서 표본집단을 분석하는게 도움이 됩니다.
 
 

2. 표준편차의 활용

 
아래의 그래프에서 A는 산포가 넓고, B는 산포가 좁습니다.
그래프 안의 빨간 점선이 기준일 때  A그래프의 산포군에서는 점선을 넘는 데이터가 발생하고,
B 그래프에서 가망이 없어 보입니다.(확율이 너무 낮아서 0이나 다름 없든지)
 

 
표준편차를 알면 과거 시점 혹은 다른 곳에서 측정한 데이터를 기반으로 사건이 일어날 확율을 미리 예상 할 수 있습니다.
정규분포에서는 표준편차의 3배가 넘어는 경우 0.3%이하 표준편차의 6배가 넘는 일은 0.0004% 이하로 떨어진다고 합니다.
산포의 모양이 정규분포만 있는건 아니지만 대략적으로 표준편차의 배수로 예상할 수 있습니다.
 

320x100

 
 

3. 표본집단의 표준편차(n-1 방식)의 의미

 
모집단의 표준편차(n방식)은 사전적인 의미 그대로 입니다.
중요한건 표본집단의 표준편차인데요. 수학적인 증명은 하지 않고 설명만 드리겠습니다.
 

  1. 아래 그림처럼 커다란 모집단에서 표본집단을 한번 측정한다고 하겠습니다.
  2. 만일 이 표본집단을 여러번 측정한다면 모집단의 크기에 점점 가까워집니다.
  3. 이 상황을 수학적으로 전개하면 표본집단을 무수히 측정했을때 그 값은 n-1 방식에 수렴합니다.
    (적은 수로 실험해도 반복하면 표준편차는n-1방식에 접근합니다.)

 

n-1 방식

 
"n-1 방식 - 표본집단 표준편차는 집단의 일부로 전체 표준편차를 예상한 것"입니다.
 

즉, 표본집단의 표준편차 공식으로 우리는 아직 측정하지 않은 다른 데이터가 존재할 확율을 구할 수 있습니다.
제품이라면 기대성능의 확율, 선거의 후보당선이나 주식의 변화를 예상하는데 사용됩니다.
(공정의 식스시그마, 주식의 볼린저 밴드 등에서 사용되는 기법입니다.)
 
 

 4. 표본집단의 표준편차(n-1 방식)의 한계와 극복하기

 
툭하면 일기예보는 안맞고 아무리 전문가라도 주식은 다 틀립니다.
이제 표준편차라는 강력한 도구가 있는데 어째서 한계가 있을까를 알아야 합니다.
예측은 예측일 뿐이라는 편안한 표현으로 넘기지 말고 원인을 공부해서 대책을 세워 봅시다.
 
① 데이터가 집단을 대표할 수 없을때
 
예를 들어 출퇴근 시간에 대해서 조사를 해 보겠다고 하겠습니다.
하기를 보면 표본집단이 하나의 요소(교통수단) 쏠려 전혀 집단을 대표하지를 못합니다.
 

중심이 치우친 신뢰성이 없는 데이터

 
② 극복하기 위해 데이터의 대표성을 확보하기
 
이런 경우에는 데이터를 조사할 때 오른쪽처럼 되도록 강제로 유도할 필요가 있습니다.
유도하려면 인자를 잘 알고 있어야 할 것입니다.
자동차를 타는 사람과 자건거를 타는 사람들을 똑같은 수로 모으면 데이터의 대표성이 향상됩니다.
 

중심을 확보하여 적은 수로도 신뢰성 있는 데이터

 
③ 데이터는 결국 많을 수록 믿을 만합니다.
 
위는 극단적이고 살짝 현실적으로 생각해 보겠습니다.
보통의 경우 현상이란 통제가 어려운 인자 여러개가 작용한 결과입니다.
따라서 우리는 표본집단이 충분히 제어되는지 알기 어렵습니다.
그럴때는 오른쪽 처럼 많이 조사 집단을 크게 하는 것이 답이 될때가 많습니다.
무식하다고 생각하실지 모르지만 이런 경우에는 양으로 밀어 붙이는게 현장에서 가장 잘 쓰는 방법입니다.
 

조사의 횟수를 늘리는 것이 결국 답

 
④ 표준편차를 사용할 수 없을 때 - 데이터가 불연속 적일때
 
인자의 데이터가 불연속 적인 경우가 있습니다.
이런 경우에는 표준편차의 적용이 어렵습니다.
 

이런걸 예상해서 미리 준비하기는 어렵습니다

예를 들어 습도는 어느이상 포화되면 이슬이 맺이게 됩니다.
정밀한 화학 실험에서는 포화 전후가 완전히 다른 양상을 보이게 될 것입니다.
그 외에도 일반적인 사물이 깨지는 현상, 얼거나 기화되어 상이 변할 때 등등 연속적이지 않은 현상이 있습니다.
사실 이런 경우에도 여러가지 해결방안이 있습니다.
구간을 나누거나 다른 지표를 사용해서 대체 하거나 하는 방법으로 컨트롤 합니다.
이건 여러분야에서 연구됩니다. 주식에서  갑작스러운 적대적 M&A, 날씨에서는 가까운 곳에서
화산 폭발처럼 갑작스러운 현상들을 예측하려 노력하는 사람들이 있습니다.
불연속적인 데이터를 관리하는 정규적이지도 않고 요령과 감이 필요하며 내용도 너무 깁니다.
다음에 기회가 된다면 소개하고 싶네요.
 
⑤ 표준편차를 사용할 수 없을 때 - 예상을 뛰어 넘을 때
 
예상을 뛰어넘을 때라고 말할수도 있고 비선형성이 너무 심할때 라고 표현할 수 있습니다.
현실에서는 정규분포에서 벗어난 인자가 그 동안 관측되지 않았지만 오늘 처음 일어난 인자가 존재합니다.
그 인자가 너무 비선형적이라면 예측이 지극히 어렵습니다.
아래 그래프의 빨간 박스영역을 관측하고 그 외의 영역을 예상하는 건 거의 불가능 할 것입니다.

이런 경우도 이론만 따지면 수학적으로는 대응이 가능합니다.
하지만 현실적으로 예상해서 움직이기가 어려운 케이스라고 볼수 있습니다.
(시물레이션 모델이 우수하다면 알아낼지도 모르죠.)
 
 

4. 데이터는 얼마나 확보를 해야 하나요?

 
우리는 산포와 예측에 대해 고민하보면 결국 이 질문에 도달합니다.
통계학적으로 n>=30개 이면 유의미한 데이터를 얻을 수 있다고 합니다.
하지만 현실적으로 여러 인자들에 의해 표본집단에 대해 보장을 할 수 없어 30개로 부족합니다.
그렇다고 무작정 많이 하라는 것은 아닙니다. 가능한 인자를 제어하는 게 중요합니다.
예로 기계(인자)가 여러 대 일 경우 3대 이상을, 다수의 사람들이 만드는 패턴이라면 최소 주말과 평일을 나누어서 데이터를 수집해야 합니다.
최대한 다양한 데이터를 얻는 것이 미래의 사고를 예방할 수 있습니다.
 
그러나 도무지 비용적인 한계가 있는 경우가 있습니다.
그럴 때는 이론과 모델링을 통해서 피해를 최소화하며 검증해야 하겠죠.
가능하기는 하지만 통계를 통해 미래를 예측하는 것은 어렵습니다. 저 역시 현실의 비용과 시간한계속에서 시험의 양과 인자를 제어하는 건 항상 시행착오가 있습니다.
 


여기까지  표준편차의 통계적인 활용과 한계에 대해서 설명드렸습니다.
늘 안타까운게 기술 개발 현장에서 개인적은 생각은 교육을 많이 받는 사무직 직원들은 정말 통계값을 잘 활용하지만,
비교적 현장 관리자들은 공식만 보고 겁을 먹고 공부도 잘 하지 않는 것 같습니다.
현실적으로 통계학이론으로 한계가 있는 점은 많지만 그래도 잘 알고 활용한다면 강력한 툴이됩니다.
한 사람이라도 도움이 되기를 바라며 포스팅 해 보았습니다.
 

반응형

+ Recent posts