728x90

시간에 따라 변화하는 다양한 데이터를 분석해서 미래를 예측하려는 것을 시계열 예측이라고 합니다.

이 과거의 DATA가 가지고 있는 수준(Leve))과  추세(Trend), 계절성(Seasonality)을 통해 미래 정보를 예상하는 것이 지수 평활법(Exponential Smoothing)입니다.

 

지난번에 포스팅의 내용을 한번 더 말하고 넘어가겠습니다.

이 지수평활법은 현재시점 t에서 k 번째 미래를 예상하기 위해서 아래와 같은 기법을 사용합니다.

 

 

1. 지수평활법의 종류와 정의

 

지수평활법은 최근에 일어난 일에 대해 가중치를 줘 계산하는 방식입니다.

단순한 개념으로 설명하는 일반식은 이 형태가 됩니다.

좀 더 개념을 확실히 정리하기 위해 다른 표현 방법을 사용하면 아래와 같아집니다.

 

단순지수평활법 : 수준만을 고려하여 값을 구합니다.

( Ft : 미래값, Lt : 수준(Level), t, k : 시점 )

 

이중지수 평활법 : 데이터의 수준과 추세를 같이 사용합니다.

( Ft : 미래값, Lt : 수준(Level), Tt : 추세(Trend), t, k : 시점 )

 

삼중지수평활법 : 데이터의 수준, 추세에 계절성까지 생각합니다.

( Ft : 미래값, Lt : 수준(Level), Tt : 추세(Trend), S_t : 계절성(Seasonality), t, k : 시점 )

 

 

 

2. 감쇠하는 가산적 모델 At (Damped Additive) - 추세(Tt : Trend)의 변화

 

감쇠하는 가산적 모델은 추세의 변화에 대한 이야기입니다.

데이터를 분석하는 많은 분들에서 어떤 현상이 일어나는데, 데이터의 추세가 줄어든다는 것입니다.

 

 

 

자연계에서 예를 들면 떨어지는 물질이 가속이 줄어들다 특정 속도에 머물거나,

습기가 올라가다가 어느순간부터 점점 줄어들다 멈추는 현상이 있기 시작했습니다.

"포화"라고 부르는 이 현상을 설명하기 위해 감쇠 모델이 사용되게 됩니다.

(자연에서는 선형이 아닌 경우가 더 많습니다.)

이 모델에서는 감쇠상수 Ø가 추가됩니다.

 

< 이중지수평활법의 감쇠계수 적용 >

 

DATA가 계절성이 없이 어떤 추세만을 가질 땐 이중지수평활법을 사용합니다.

그리고 감쇠가 되는 경우 감쇠상수 Ø를 적용한 식을 아래와 같습니다.

 

식에 Ø항이 추가되었습니다.

 

측정과 예측

 

위의 그래프는 감쇠를 적용하기 전후를 보는 것입니다.

하늘색의 실선은 관측데이터주황색의 데이터는 일반적인 이중지수평활법입니다.

감쇠를 적용한 회색실선은 그래프가 포화되는 것 처럼 움직입니다.

 

 


< 삼중지수평활법의 감쇠계수 적용 >

 

계절성을 입력한다면 수식이 좀 더 복잡해지죠.

수식적으로 서술하면 아래와 같이 계산할 수 있습니다.

 

식에 Ø가 추가했습니다.

 

감쇠를 적용한 삼중지수 평활법

 

위의 그래프는 감쇠를 적용하기 전후를 보는 것입니다.

하늘색의 실선은 관측데이터고 주황색의 데이터는 일반적인 삼중지수평활법입니다.

감쇠를 적용한 회색실선은 그래프로 증가하는 폭이 줄어드는 것을 알 수 있습니다.

 


 

< 지수평활법과 ETS 관련 포스팅 > 

 

01. 시계열 분석에서 미래를 예측하는 이동평균법(SMA), 지수평활법(ES)으로 미래값을 예상하고 풀어보기

02. 지수평활법으로 데이터를 분석할 때 계절성과 주기를 파악하는 방법(Exponential Smoothing의 Seasonality)

03. 시계열 예측에서 지수평활법의 기본 모델(Additive)과와 확장 형태인 감쇠 (Damped) 모델들의 정의 - 현재글

04. 시계열 예측에서 계절성에 따른 추세가 변하는 승법적 모델과(Multiplicative Model), 감쇠하는 승법적 모델(Damped Multiplicative Model)

05. 상황에 맞게 지수평활법과 ETS 모델(Exponential Triple Smoothing)을 사용해서 시계열 예측을 수행하기

06. 지수평활법에서는 사용하는 계수(α, β, γ)를 최소제곱법으로 구하는 방법(엑셀 VBA 구하기)

07. 엑셀(EXCEL)로 지수평활법의 ETS 모델을 사용하는 FORECAST.ETS 함수와 파생함수인 SEASONALITY / STAT 함수

08. 엑셀(EXCEL)의 FORECAST.ETS 함수의 오차를 계산하는 CONFINT 함수(지수평활법을 사용하는 미래 예측 함수) 

 

 

 

 

 

반응형
728x90
목록

1. 계절성(Seasonality)과 주기(Frequency)

2. 주기(Frequency) 알아내는 방법

3. 이동평균법으로 최적 주기 구하기

 

 

지난번에 과거 결과를 사용해서 미래 데이터를 예상하는 분석법인 지수평활법이 살펴보았습니다.

수준(Level = Lt)과 추세(Trend = Tt), 그리고 계절성(Seasonality = St) 이라고 부르는 수를 계산하여 구합니다.

이때 사용하는 수준(Lt), 추세(Tt), 계절성(St)은 아래와 같이 계산합니다.

 

공식입니다.

(xt : 측정값, m : 계절성의 주기, α/β/γ : 상수)

 

1. 계절성(Seasonality)과 주기(Frequency)

 

계절성이란 어떤 데이터가 나타내는 주기성을 이야기합니다.

현실에서 관측하는 대부분의 데이터는 시원하게 올라가지 않고 어떤 모습을 가지면서 이동합니다.

전체의 추세와 관련없이 반복되는 패턴을 가지는 성질을 계절성이라고 합니다.

 

계절성을 가지는 데이터

 

과학적으로 데이터를 분석할 때는 인자에 따른 주기를 파악하는 것이 중요합니다.

그럼 주기를 확인하는 방법을 알아보겠습니다.

 

 

2. 주기(Frequency) 알아내는 방법

 

① 그냥 데이터 보고 알아내기

 

좀 어이없을 수 있지만 가장 직관적인 방법은 데이터를 시각화하여 주기를 찾는 것입니다. 

그래프로 만들어서 데이터의 반복 패턴을 시각적으로 확인할 수 있습니다.

어설프게 수학식을 돌리는 것 보다는 사람이 보고 주기가 있는지 혹은 불규칙한지 파악하는게 좋습니다.

 

그래프 만들어서 보기

 

위의 그래프는 확실한 주기가 나타납니다.

어떤 분석 방법보다는 연구자가 "데이터를 어떤 방법으로든 시각화해서 확인"하는 것이 가장 중요합니다.

 

 

 

② 자기상관함수(Autocorrelation Function : ACF)

 

주기가 있는 데이터에서는 미래의 데이터와 과거의 데이터가 모양이 비슷합니다.

즉 상관관계가 있다는 것이죠.

 

앞과 뒤에 비슷한 구간이 있습니다.

 

자기상관함수

 

공식은 t시점의 데이터와 t+k 시점의 데이터의 관계를 나타내는 것입니다.

즉, 데이터 스스로의 상관관계를 계산하여 주기를 구하는 방법입니다.

직접 계산하기는 어렵지만, Python 등으로 솔루션이 나와 있고 솔루션을 사용해서 계산할 수 있습니다.

 

 

③ 푸리에 변환(Fourier transform)

 

푸리에 변환은 입력된 값들을 주파수를 가지는 주기함수로 나타내는 것 함수입니다.

다양한 주파수를 같은 값에 적용할 수 있는 특성때문에 신호를 사용하는 모든 분야에서 응용됩니다.

주기를 가지는 가장 간단한 솔루션인 삼각함수를 사용합니다.

 

공식

 

공식을 직관적으로 알기는 어렵지만, 원리를 잘 알려주는 그림이 있어 가지고 왔습니다.

(출처 : NAVER 수학백과, https://terms.naver.com/entry.naver?docId=4125498&cid=60207&categoryId=60207 )

푸리에 변환

 

위의 그림을 보면 원본데이터(검정선)을 다양한 주파수(빨강,파랑,초록,주황,회색)으로 나누고 그 합으로 나타냅니다.

복잡한 형태의 데이터를 특정 주기(=주파수)로 변환할 수 있는데 이 성질을 이용하면 최적의 주기도 구 할 수 있습니다.

그 외에도 정말 많은 방법으로 사용할 수 있는 변환입니다.(나중에 시간내서 꼭 별도 포스팅 하고 싶습니다.)

이것 역시 사람이 풀려면 힘들고 Python, matlap등 많은 정규 솔루션이 있어 사용할 수 있습니다.

 

 

3. 이동평균법으로 최적 주기 구하기

 

이 방법은 정규화 된 방식은 아닙니다. 그냥 요령에 가까운데요.

얼추 맞는 내용이니 참고만 하시길 바랍니다.

원본을 기준으로 데이터의 이동평균을 구하는데 이때 이동평균의 구하는 범위를 변경합니다.(n = 5, 12, 20)

 

이동평균으로 변경하기

 

위의 그래프처럼 원본 그래프를 n = 5, 12, 20으로 변경해가면서 이동평균을 구합니다.

이동평균의 그래프를 보면 5, 12, 20으로 가면서 데이터가 변하는 것을 볼 수 있습니다.

이때 가장 선형에 가까운 것이 이 데이터의 주기입니다.

계절성이 완벽하면 이평선이 직선이 될 것입니다.

즉 이 경우는 n = 12가 됩니다.

 


 

< 지수평활법과 ETS 관련 포스팅 > 

 

01. 시계열 분석에서 미래를 예측하는 이동평균법(SMA), 지수평활법(ES)으로 미래값을 예상하고 풀어보기

02. 지수평활법으로 데이터를 분석할 때 계절성과 주기를 파악하는 방법(Exponential Smoothing의 Seasonality) - 현재글

03. 시계열 예측에서 지수평활법의 기본 모델(Additive)과와 확장 형태인 감쇠 (Damped) 모델들의 정의

04. 시계열 예측에서 계절성에 따른 추세가 변하는 승법적 모델과(Multiplicative Model), 감쇠하는 승법적 모델(Damped Multiplicative Model)

05. 상황에 맞게 지수평활법과 ETS 모델(Exponential Triple Smoothing)을 사용해서 시계열 예측을 수행하기

06. 지수평활법에서는 사용하는 계수(α, β, γ)를 최소제곱법으로 구하는 방법(엑셀 VBA 구하기)

07. 엑셀(EXCEL)로 지수평활법의 ETS 모델을 사용하는 FORECAST.ETS 함수와 파생함수인 SEASONALITY / STAT 함수

08. 엑셀(EXCEL)의 FORECAST.ETS 함수의 오차를 계산하는 CONFINT 함수(지수평활법을 사용하는 미래 예측 함수) 

 

 

 

반응형
728x90
목차

1. 단순이동평균법(Simple Moving Average, SMA)

2. 지수이동평균(Exponential Moving Average, EMA)

3. 지수평활법 (Exponential Smoothing, ES)

4. 예시 DATA 분석결과

 

 

요즘 주식, ETF등 과거에 비해 여러가지 지표를 보는 사람들이 많아졌습니다.

돈도 결국은 숫자이기 때문에 숫자에 대해서 잘 알아야 합니다.

시간에 대한 흐름에 따라 데이터의 흐름을 파악하는 방법인 이동평균과 지수평활법의 기본형식을 알아 보겠습니다.

 

 

1. 단순이동평균법(Simple Moving Average, SMA)

 

데이터가 있다고 할 때 가장 기본적인 지표는 이동평균입니다.

가장 널리 쓰이는 단순이동평균은 정말 심플하게 데이터의 평균을 구합니다.

아래 예를 보겠습니다.

 

가격의 이동평균

 

표를 보면 가격의 DATA는 직접 측정한 결과입니다.

이동평균은 과거의 데이터를 포함한 몇개(n)의 구간의 평균입니다.

위의 경우에는 3개의 구간을 이용하여 이동 평균을 계산했습니다.

 

 

주식에서는 이동평균의 n 값을 변경하면서 5일선, 20일선등등 여러가지 이동평균을 늘여놓고 분석하고는 합니다.

주로 느린 지표인 장기이동평균과, 빠른지표인 단기이동평균을 조합해서 분석하는 방식입니다.

포탈 사이트에서 흔히 볼 수 있는 아래의 그래프의 선으로 된 것들이 이동 평균선입니다.

 

데이터와 이동평균

 

 

 

2. 지수이동평균(Exponential Moving Average, EMA)

 

단순이동평균법 역시 추세를 파악하기에 좋은 방법입니다.

오래된 데이터가 영향을 강하게 미쳐서 추세를 파악하기 어려운 경우가 있습니다.

이럴 때 최근에 데이터에 "가중치"를 가하는 방식을 사용합니다.

빠르게 변하는 데이터를 반영하기에 유리한 수단입니다.

 

 

EMA0(초기값)은 단순이동평균 값과 같습니다.

α는 가중치를 나타내는 계수로 평활상수라고 합니다.

평활상수 α는 지수이동평균의 주기로 보통 2/(n+1)으로 설정하며 숫자가 크면 민감하고 작으면 둔감합니다.

 

 

가격을 분석한 그래프

 

위의 그래프는 급등하는 주식의 그래프입니다.

EMA의 값을 0.5로 올려서 민감하게 만들었을 때 단순 이동평균에 비해서 데이터를 더 빨리 반영하는 것을 보여줍니다.

이동평균선 특유의 지지선도 파악하면서 보다 빨리 반영되는 지표를 만들 수 있습니다.

 

 

3. 지수평활법 (Exponential Smoothing, ES)

 

이동평균법은 추세를 잘 보여주기는 하지만 미래 DATA의 예상을 하는 분석은 아닙니다.

지수평활법은 과거일 수록 감소하는 가중치를 적용하여 미래 DATA를 예상하려는 시도입니다.

지수평균이동과 단순지수평활법 (Simple Exponential Smoothing)은 똑같습니다.

여기서 미래값을 추측하는 이중지수평활법 (Double Exponential Smoothing), 삼중지수평활법 (Triple Exponential Smoothing)을 이 파생됩니다.

이번 포스팅에서는 이 지수평활법들의 기본형과 개념을 소개하겠습니다.

 

단순지수평활법 (Simple Exponential Smoothing)은 기본형은 지수이동평균과 똑같습니다.

똑같습니다.

(α = 계수, t = 시점/시간, x = 실제 관측 DATA)

 

 

< 이중지수평활법 (Double Exponential Smoothing, DES)  >

 

이름대로 두 개의 데이터를 조합해서 계산합니다.

수준(Level = Lt)추세(Trend = Tt) 라고 부르는 두 개의 값입니다.

 

수준과 추세

  • α, β는 평활상수입니다.
    값은 0에서 1사이의 값을 입력해도 되지만 α(0.1~0.3), β(0.01~0.3)을 추천합니다.
  • Lt의 초기값 : 과거 데이터의 첫 번째 값을 초기 수준(x0)으로 설정합니다.
  • Tt의 초기값 : 관찰된 데이터의 변화율(x1 - x0)로 설정합니다.
  • Ft 값은 미래 DATA를 추측한 값입니다.

 

 

F 값은 "시점 t에서 k 번째 이후의 예상값"이 됩니다.

마지막 Lt와 Tt 값을 기반으로 k 시점의 값을 예상합니다.

위 식의 F 값이 바로 k 번째 이후의 예상한 값이 됩니다.

 

 

 

< 삼중지수평활법 (Triple Exponential Smoothing, TES) >

 

예상대로 이번에는 세 개의 데이터를 조합해서 계산을 합니다.

수준(Level = Lt)추세(Trend = Tt)에다가 계절성(Seasonality = St)이 추가되었습니다.

계절성은 DATA가 특정 주기로 비슷한 양상을 보일 때의 주기가 됩니다.

 

수준, 주기, 계절성

 

  • α, β, γ는 평활상수입니다.
    값은 0에서 1사이의 값을 입력해도 되지만 α(0.1~0.3), β(0.01~0.3), γ(0.01~0.3)을 추천합니다.
  • m은 계절성의 주기입니다. 연단위 데이터는 12가 될 것이고 시간단위면 24가 됩니다.
    데이터의 특성에 의해서 사용자가 정해주는 값입니다.
  • Lt의 초기값 : 과거 데이터의 첫 번째 값을 초기 수준(x0)으로 설정합니다.
  • Tt의 초기값 : 관찰된 데이터의 변화율(x1 - x0)로 설정합니다.
  • St의 초기값 : 주로 (xi - L0)로 하는 경우가 많습니다.
  • 이 데이터를 기반으로 계산하는 Ft 값은 아래와 같습니다.

 

F 값은 "시점 t에서 k 번째 이후의 예상값"이 됩니다.

 

 

4. 예시 DATA 분석결과

 

아래와 같이 예상 그래프를 만들었습니다.

검은색 선이 실제 DATA이고 각 방식으로 계산한 값입니다.

표의 오른쪽은 실제 DATA인 검은 선이 없고 예측값만 있는 상태입니다.

 

분석결과

 

검은 선이 있는 동안 데이터를 잘 반영하고 있지만, 미래의 예상이 방식에 따라 조금 다릅니다.

노란선인 이중지수평활법 (Double Exponential Smoothing)은 계속 떨어지는 것으로 예상한 반면,

하늘색인 삼중지수평활법 (Triple Exponential Smoothing)은 다시 올라오는 반등을 예상했습니다.

계절성을 반영하느나 마느냐의 차이로 보입니다.

 

예시에 사용한 값 테이블

 


 

미래예측은 분야나 데이터의 특성, 외부 이슈 등등을 분석하여 필요한 계수값을 튜닝해야 합니다.

일반론적인 방법이 있기는 하지만 역시 미래예측은 감각이 중요하다고 여겨집니다.

오늘 포스팅에서 사용한 예시는 어디까지나 각각의 방식을 가장 잘 보여주는 기본형이라고 보시면 됩니다.

 

< 지수평활법과 ETS 관련 포스팅 > 

 

01. 시계열 분석에서 미래를 예측하는 이동평균법(SMA), 지수평활법(ES)으로 미래값을 예상하고 풀어보기- 현재글

02. 지수평활법으로 데이터를 분석할 때 계절성과 주기를 파악하는 방법(Exponential Smoothing의 Seasonality)

03. 시계열 예측에서 지수평활법의 기본 모델(Additive)과와 확장 형태인 감쇠 (Damped) 모델들의 정의

04. 시계열 예측에서 계절성에 따른 추세가 변하는 승법적 모델과(Multiplicative Model), 감쇠하는 승법적 모델(Damped Multiplicative Model)

05. 상황에 맞게 지수평활법과 ETS 모델(Exponential Triple Smoothing)을 사용해서 시계열 예측을 수행하기

06. 지수평활법에서는 사용하는 계수(α, β, γ)를 최소제곱법으로 구하는 방법(엑셀 VBA 구하기)

07. 엑셀(EXCEL)로 지수평활법의 ETS 모델을 사용하는 FORECAST.ETS 함수와 파생함수인 SEASONALITY / STAT 함수

08. 엑셀(EXCEL)의 FORECAST.ETS 함수의 오차를 계산하는 CONFINT 함수(지수평활법을 사용하는 미래 예측 함수) 

 

 

 

 

반응형
728x90

행렬의 의미와 몇가지 특별한 행렬에 대해서는 포스팅을 해두었습니다.

수학에서 수를 2차원으로 전개하는 방법인 행렬(MATRIX)와 특별한 행렬들(단위행렬, 역행렬, 전치행렬)

 

 

행렬을 이용하면 같은 속성을 가지는 수를 모아서 배열해서 볼 수 있습니다.

이렇게 배열한 후에 한번에 연산하는 방법에 대해서 알아보겠습니다.

 

① 행렬의 덧셈과 뺄셈

 

덧셈과 뺄셈은 그냥 똑같이 계산하면 됩니다.

다만 행렬의 크기가 같아야 합니다.

(A+B)mn  = [Amn + Bmn]

 

행렬의 덧샘

 

 

② 실수곱(스칼라 곱)

 

행렬에 실수를 곱하는 것을 스칼라 곱이라고도 합니다.

이경우도 행렬의 모든 구성요소에 똑같은 숫자가 곱해지면 됨으로 어렵지 않습니다.

 

k · A  = [k · Amn]

 

행렬의 실수곱

 

 

③ 행렬곱의 곱

 

행렬끼리 곱할때는 규칙이 있습니다.

많은 수학의 공식중에서도 상당히 혼돈이 생기는 구성으로 학생때는 더듬거리면서 공부한 기억이 있습니다.

 

우선  곱셈의 앞에 있는 행렬의 "열"과 뒤에 있는 행렬의 "행"이 같아야 합니다.

이렇게 연산된 결과는 앞에 있는 행렬의 "행"과 뒤에 있는 행렬의 "열"이 됩니다.

 

Amn x Bnl = ABml

 

그리고 앞에 있는 행의 구성과 열의 구성이 곱해서 더해집니다.

말로하면 어렵고 손으로 쓰면서 봐야 이해가 됩니다.

예를 들어,

 

간단한 행렬만해도 상당히 길어집니다.

2 * 3의 행렬과 3 * 2이 곱해져서 2 * 2 행렬이 된 것을 볼 수 있습니다.

행렬곱의 각 요소를 나타낼 수도 있습니다.

 

 


 

행렬의 곱은 복잡해보이지만 백터연산, 좌표계연산등 다양한 분야에서 쓰입니다.

실제로 적용이 많이 되는 공식임으로 설사 수식을 일일히 사용하지 않아도 이 참에 알고 있는게 좋습니다.

 

반응형
728x90

행렬(Matrix)은 숫자들을 직사각형 모양으로 배열한 상태를 말합니다.

이렇게 숫자들을 배열함으로 인해 여러가지 수들을 규칙적/구조적으로 연산할 수 있습니다.

수학에서는 행렬을 사용해서 이차원적으로 배열한 숫자를 다루는 분야에는 대표적으로 선형대수학이 있습니다.

그리고 여러 개의 숫자를 사용하는 특성은 물리학, 생물학등 거의 모든 분야의 과학과 공학에서 유용하게 응용됩니다.

 

행렬의 구성

 

행렬은 가로 줄인 행(Row)과 세로 줄인 열(Column)로 구성됩니다.

행은 수평 방향으로 배열된 숫자들의 모음이며, 열은 수직 방향으로 배열된 숫자들의 모음입니다.

그러니까 가로줄의 갯수가 행이고 세로줄의 수가 열입니다.

직사각형모양임으로 모든 숫자가 자신의 행과 열을 가지고 있고 주소처럼 사용할 수 있습니다.

(예 : 3행의 2열)

행렬을 표기할 때도 (행)(열)을 사용합니다. 5X4 행렬은 A54로 표기됩니다.

 

320x100

 

행렬은 자유도가 높은 배열이라 여러가지로 만들 수 있습니다.

그래도 몇가지 특정한 행렬구성에는 이름이 붙기도 하는데 그것들을 알아보겠습니다.

 

① 정사각행렬(Square Matrix) :

 

행의 수와 열의 수가 같은 행렬입니다.

특별한 수식을 수행할 때 정사각행렬을 사용해야 할 때가 있습니다.

아래 소개되는 행렬은 모두 정사각행렬을 기준으로 합니다.

 

 

② 단위행렬(identity matrix) : 

 

정사각행렬의 대각성분만 1이고 나머지는 0인 행렬입니다.

행렬곱을 수행할 똑같은 행렬을 반환합니다.

I1, I2, In과 같이 표기합니다.

 

5x5 단위행렬

 

 

③ 역행렬(Inverse Matrix) : 

 

곱했을때 단위행렬이 되는 행렬을 말합니다.

역행렬이 존재하지 않는 경우도 있습니다.

 

b는 a의 역행렬

 

 

③ 전치 행렬(Tanspose) :

 

정사각행렬이 A가 있을 때 대각성분을 기준으로 대칭인 행렬입니다.

A = AT 라고 표기합니다.

 

전치 행렬

 

 

④ 영행렬 (Zero Matrix) : 

 

모든 구성요소가 0인 행렬을 의미합니다.

 

 

 

반응형
728x90

정규분포는 자연계에 존재하는 각종 현상의 산포를 가장 잘 보여주는 지표라고들 부릅니다.

x = 값, μ = 평균, σ = 표준편차 일때 정규분포 함수 그래프의 공식은 아래와 같습니다.

 

정규분포 함수

 

정규분포 함수를 적분하면 확률(확률밀도)를 구할 수 있습니다.

확률을 풀이하는 여러가지 해 중에 유용한 것이 확률밀도함수와 누적분포함수입니다.

그 정의에 대해서 알아보면,


확률 밀도 함수(確率密度函數, probability density function : pdf)는 확률 변수의 분포를 나타내는 함수로, 정규분포함수 f(x)와 구간 [a, b]에 대해서 확률 변수 P가 구간에 포함될 확률 P(a≤X≤b)는

가 됩니다. 이때, 누적분포함수(累積分布函數, cumulative distribution function : cdf)

가 됩니다.

 

(출처 : 위키백과)


 

이 공식은 개념을 설명하기 위한 것이고 밀도 함수에 대한 다른 해석도 많습니다.

그 의미는 하나이기 때문에 좀 쉬운 공식을 찾아 가져와서 설명했고 좋은 개념입니다.

그래도 공식만으로는 알기 어려울테니 풀어서 추가로 더 설명드리겠습니다.

 

① 확률밀도함수(Probability Density Function)

 

확률밀도함수는 a와 b사이의 확률이고 보통은 아주 좁은 구간 혹은 순간의 확률을 이야기합니다.

아래 그림으로 보면 아래 -1일 때 확률 밀도는 0.24197이 됩니다.

확률밀도함수는 엄밀한 정의로는 미분가능한 연속적인 구성에서만 정의되는 개념입니다.

 

확율밀도함수 P

 

이렇게 일상에서 확률이라고 말하는 것은 보통 확률 밀도 값입니다.

확률밀도함수는 확률분포함수와 많이 닳은 개념입니다.

 

잠깐 확률분포함수 이야기를 하겠습니다. 사건이 비연속적인 분포를 이산확률분포라고 합니다.

이산확률분포에서 확률값 = 확률분포함수이고, 일상에서는 자주 사용이 됩니다.

예1) 동전을 5번 던져서 3번 앞면이 나올 확률(밀도함수값)은 0.3125(31.25%)입니다.

예2) 동전을 5번 던져서 3번 혹은 4번 앞면이 나올 확률은 0.46875(46.87%)입니다.

확율밀도함수는 이것에 연속 개념이 추가된 것이라고 보면 좀 이해하기 쉬울 것입니다.

 

 

320x100

 

 

② 누적분포함수(Cumulative Distribution Function)

 

분포에서 특정값보다 작거나 같은 값들의 범위를 의미합니다.

아래 예를 보면 C(-1) = -1 이하의 모든 범위 : -∞ ~ -1의 면적이 됩니다.

 

누적분포함수 = 값보다 작은 모든 영역의 면적

 

 

누적분포함수를 연산하여 다양한 경우의 수를 뽑을 수 있기 때문에 수학적인 영역에서 자주 사용됩니다.

정규분포는 평균을 기준으로 좌우대칭이고 전체 면적을 다 합치면 1(100%)가 되는 특성이 있습니다.

때문에 C(-1) : -1보다 작을 확률을 알면, 1보다 큰 확률과 같습니다.

또 1(100%)에서 C(-1)를 빼면 -1보다 큰 영역의 면적(확률)과 같습니다.

응용하기 좋아서 통계학의 확률론 뿐만아니라 다양한 곳에서 등장하는 개념입니다.

 

반응형
728x90
곡선은 점이 평면상이나 공간 내를 연속적으로 움직일 때 생기는 선이다. 
"곡선"은 연속곡선을 뜻한다.
(출처 : 두산백과)

 

사전에서 곡선의 의미는 좀 어렵습니다. 정의 대로라면 직선은 곡선에 포함됨니다.

일반 적으로는 두 점을 끊김 없이 연속된 선을 이용해서(미분가능할 때) 연결 할 때,

변곡이 없이 최단거리로 연결하는 것을 직선이라고 하고, 변곡이 있으면 곡선이라고 합니다.

 

 

 

변곡이 있는 곡선의 모든 구성이 한개의 중심을 가진 원 위에 있을 때는 구면, 아니면 비구면이라고 표현합니다.

원은 중심의 한점을 기준으로 거리가 같은 점들의 집합을 말합니다. 

두 점을 이어주는 구면을 포함한 원의 일부를 "부채꼴(circular sector)"이라고 합니다.

부채꼴의 성분엔는 곡선인 "호(arc)"가 있고 일부 성분을 연결한 직선인 "현(chord)" 그리고 중심각 θ가 있습니다.

 

부채꼴

 

호와 현, 부채꼴의 모양에 대한 몇가지 공식에 대해서 알아 보겠습니다.

거의 모든 특성을 반지름과 중심각으로 정리할 수 있습니다.

r = 반지름, θr = 중심각(라디안 단위)

공식의 각도는 라디안 단위라서 360분법의 각도를 사용한다면 π/180을 곱해줘야 합니다.

 

<<공식들>>

 

ᆞ호의 길이

 

ᆞ부채꼴의 둘레

 

ᆞ부채꼴의 넓이

 

ᆞ현의 길이

 

 

ᆞ현의 높이

 

 

ᆞ현과 호가 만드는 도형의 둘레(이 부분을 "활꼴 - segment of a circle "이라고 합니다.)

 

 

ᆞ활꼴의 넓이

 

 

 

320x100

 

반응형
728x90

숫자는 인류의 발명한 개념 중 가장 위대한 것이 아닌가 합니다.

현대에도 가장 많이 사용하는 십진법에는 0~9까지 숫자에 자리수를 사용해서 수를 표현합니다.

진수체계에서는 수가 늘어나면 자리수를 늘려 계속 늘어날 수 있어 무한이라는 개념을 제공합니다.

 

1. 진수의 개념

 

십진수로 적어서  67,543이라는 큰 수가 있다고 하겠습니다.

자리수로 나누면 60,000 + 7,000 + 500 + 40 + 3로 나타낼 수 있습니다.

숫자들의 순서는 같지만 자리수에 따라 크기가 달라지는 시스템입니다.

10의 지수를 이용해서 아래처럼 표기할 수도 있습니다.

 

십진수

 

8진수의 경우에는 0 ~ 7까지 표기한 후에 자리수가 올라가게 됩니다.

16진수는 0 ~ 15까지 표기하고 자리수가 올라가게 됩니다.

16진수 같은 경우 10이 넘어도 숫자표기가 이어져야하여 알파벳을 많이 사용합니다.

 

 

위에 67,543은 16진수로 나타내면 10,7D7이 됩니다.

 

16진수로 표시하기

 

 

2. 진수를 변환하는 방법

 

진수의 변환을 위해서는 조금 복잡한 절차가 필요합니다.

7,762를 8진수와 16진수로 변환해 보겠습니다.

 

① 8진수로 변환하기

 

먼저 자리수를 구합니다.

7,762는 8^4보다는 크고 8^5보다 작으니까 5자리 수입니다.

 

(자리수 구하기)
7,762 > 8^2 = 64
7,762 > 8^3 = 512
7,762 > 8^4 = 4,096
7,762 < 8^5 = 32,768

 

그리고나서는 숫자를 8^4 → 8^3 → 8^2 → 8^1 순서로 분해하면 됩니다.

큰수로 나누고 나머지로 다시 나눕니다.

 

(변환하기)
7,762 ÷ 8^4 = 1(몫) | 3,666(나머지)
3,666(나머지) ÷ 8^3 = 7(몫) | 82(나머지)
82 (나머지) ÷ 8^2 = 1(몫) | 18 (나머지)
18 (나머지) ÷ 8^1 = 2(몫) | 2 (나머지)

(십진수) 7,762는 (8진수) 17,122가 됩니다.

 

 

 

② 16진수로 변환하기

 

먼저 자리수를 구합니다.

7,762는 16^3보다는 크고 16^4보다 작으니까 4자리 수입니다.

 

(자리수 구하기)
7,762 > 16^2 = 256
7,762 > 16^3 = 4,096
7,762 < 16^4 = 65,536

 

 

그리고나서는 숫자를 16^3 → 16^2 → 16^1 순서로 분해하면 됩니다.

큰수로 나누고 나머지로 다시 나눕니다.

 

(변환하기)
7,762 ÷ 16^3 = 1(몫) | 3,666(나머지)
3,666(나머지) ÷ 16^2 = E(몫) | 82(나머지)
82 (나머지) ÷ 16^1 = 5(몫) | 2 (나머지)

(십진수) 7,762는 (16진수) 1E52가 됩니다.

 

 

320x100

 

 

3. 진수체계의 사용

 

항상 십진수만 쓰지는 않는데요.

과거 아시아에서는 나머지가 많은 60진법을 사용해서 무역을 했다고 합니다.

현대에 살아가는 우리도 생각보다 다양한 진수를 사용하고 있습니다.

 

  • 2진수 (Binary System): 0과 1 두 개의 숫자만 사용하는 체계입니다. 컴퓨터에서 데이터를 표현하는 데 주로 사용됩니다. 예를 들어, 101은 1 * 2^2 + 0 * 2^1 + 1 * 2^0로 표현됩니다.
  • 8진수 (Octal System): 0부터 7까지의 숫자를 사용하는 기수 체계입니다. 주로 컴퓨터 프로그래밍에서 사용되었지만 현재는 비교적 덜 사용됩니다.
  • 16진수 (Hexadecimal System): 0부터 9까지의 숫자와 A부터 F까지의 여섯 개의 알파벳을 사용하여 숫자를 표현합니다. 프로그래밍이나 회로 설계, 색상표현등 여러분야에서 자주 사용됩니다.
  • 24진수(24 decimal System) : 하루는 24시간으로 표현합니다. 이 경우에는 알파벳을 사용하지 않고 십진법과 동일하게 표기하며 36시간의 경우 1일 12시간으로 자연스럽게 사용합니다.
  • 60진수(Sexagesimal) : 대표적으로 분과 초를 나타내는 단위로 시간과 각도에서 사용됩니다. 이 경우에는 알파벳을 사용하지 않고 십진법과 동일하게 표기합니다.

 

 

 

 

반응형
728x90

어떤 사건이 있을 때 일어날 수 있는 상황이 n 가지라고 할때 가능한 모든 조합을 경우의 수라고 합니다.

몇가지 상황만 조합만 해도 숫자가 커지기 때문에 일일히 세는 것이 불가능합니다.

이런 경우의 수를 합리적으로 계산하기 위해서 계승이라는 개념이 도입됩니다.

계승은 영어표기인 팩토리얼(Factorial)이라고 부르는 경우가 많습니다.

 

 

1. 계승, 팩토리얼(Factorial)의 의미

 

계승, 팩토리얼(factorial)은 자연수에서 수를 해아려 나가면서 곱하는 개념입니다.

자연수 n이 있을때 1에서 n까지 모든 자연수를 곱하는 것입니다.

 

5! = 5 x 4 x 3 x 2 x 1 = 120

 

그리고 0은 자연수가 아니지만 0! = 1로 정의되어있습니다.

곱해지는 개념이라서 수가 늘어날 경우에는 아주 큰 값이 됩니다.

정식으로 나타내는 기호는 파이(Π)를 사용해서 아래와 같이 나타냅니다.

 

펙토리얼의 정의

 

수에 따른 팩토리얼의 값을 기하급수적으로 늘어납니다.

 

0! = 1

1! = 1

2! = 2 x 1 = 2

3! = 3 x 2 x 1 = 6

...

7! = 7 x 6 x 5 x 4 x 3 x 2 x 1 = 5,040

8! = 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 40,320

9! = 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 362,880

 

1, 2, 3 순서로 계산하지 않고 5, 4, 3 ... 처럼 꺼꾸로 들어오는게 좋습니다.

계승의 사용 될때는 큰 수부터 시작해서 들어옵니다.

또 다중계승 같이 복잡한 개념을 이해하기 편합니다.

아래는 다중계승 중 2씩 감소하는 이중계승입니다.

 

이중계승식

 

하지만 고등학교 수학등에서는 5! = 1 x 2 x 3 x 4 x 5 순으로 정렬하기도 합니다.

계승 자체가 확율 통계에서 많이 사용되는 함수고 후반부에 다루어지다 보니 이런 점이 오래 가는 것 같아요.

후반부 과목들도 비중을 두고 검토해 주었으면 하네요.

 

 

320x100

 

 

2. 계승, 팩토리얼(Factorial)의 의미

 

계승은 현실에서 경우에 수에 해당합니다.

 

① 순서가 있는 중복이 허용되지 않는 경우가 있을 때 총 발생가능한 경우의 수

 

경우의 수는 n개 상황 있을 때 모든 조합 가능한 상황의 숫자를 이야기하는 것입니다.

이 경우 n개의 경우가 있을때 r번 뽑는 경우는 아래와 같이 됩니다.

경우의 수

 

순서가 5장의 카드중에 2장을 뽑는 경우 (4, 3)과 (3,4)를 다른 것으로 보는 경우입니다.

예시로 "10명 중에서 1등 2등 3등이 나오는 경우의 수" 같은 것이 있습니다.

 

 

② 순서에 상관없이 중복이 허용되지 않는 경우에는 아래와 같이 서술됩니다.

 

n이라는 조합에서 k번을 얻어낼 때 가능한 경우의 수입니다.

중복 불가 경우의 수

 

순서가 5장의 카드중에 2장을 뽑는 경우 (4, 3)과 (3,4)를 같은 것으로 보는 경우입니다.

예시로 "10장 중에서 4장을 뽑는 경우의 수" 같은 것이 있습니다.

 

 

③ 중복이 허용되는 경우의 수는 아래와 같이 나타냅니다.

 

이 때는 중복조합이라고 부릅니다.(순서는 신경쓰지 않습니다.)

 

중복조합

 

 

예로 7개 중에 4개를 뽑는 경우를 계산해 보겠습니다.

 

 

① 순서가 있고 중복이 허용 안 되는 경우

 

② 순서가 없고 중복이 허용되지 않는 경우

 

③ 순서가 없고 중복이 허용되는 경우

 

 

 

반응형
728x90

순서대로 나열해서 규칙을 가지는 숫자들을 수열이라고 합니다.

이 중 가장 대표적인 것은 등차수열과 등비수열입니다.

(등차수열과 등비수열의 개념)

수열이 사용되는 가장 쉬운 예가 바로 우리가 은행에 저축할 때입니다.

 

320x100

 

1. 저축 예금(한번만 돈을 넣고 이자를 붙이는 방식)

 

이자를 받기 위해 은행에 돈을 맡기는 행위를 말합니다.

만기를 정하지 않고 그냥 돈을 맡기고 언제든지 찾는 예금을 보통예금이라고 하고,

만기를 정하고 일정 시일에 한번씩 혹은 만기시 딱 한번 이자가 붙는 경우 저축예금이라고 합니다.

저축예금의 이자를 정하는 방법은 보통 단리와 복리가 있습니다.

 

① 단리예금

 

기간 중 이자가 한번 정해지만 처음부터 끝까지 변하지 않는 경우입니다.

이자는 그냥 시간에 비례합니다. 처음에 입금한 금액이 초기비용이 되고 이자가 공차가 됩니다. 

이런 단리 예금은 이자가 공차인 등차 수열이라고 할 수 있습니다.

 

단리예금의 비용변화

 

예상하기 쉽게 증가하고 가장 많은 은행 예금이 이와 같은 형태를 가집니다.

 

 

② 복리예금

 

원금에 직전 기간의 이자까지 적용되는 방식입니다.

원금이 계속 늘어나서 이자가 지수적으로 증가합니다.(이자 자체는 몇 %라고 고정이지만 액수가 늘어납니다.)

이런 단리 예금은 이자가 공비인 등비 수열이라고 할 수 있습니다.

 

복리 저축의 가격 변화

 

이런 복리예금은 시간이 지날 수록 지수적으로 상승합니다.

선택할 수 있다면 복리를 가지는 쪽이 좋지만 리스크가 있는 상품이 아니라면 복리는 잘 하지 않습니다.

예전에는 많았다고 하는데 참 아쉽네요.

 

 

2. 적금(남입액을 누적시키는 방식)

 

예금은 금액을 처음 한번만 저축하고 그 다음부터는 이자만 발생합니다.

하지만 적금은 금액을 계속 입금하는 방식입니다.

보통은 0원에서 한달마다 얼마씩 입금하지만, 처음에 목돈을 넣고 그 이후에 얼마씩 입금하는 방식도 있습니다.

 

① 단리적금

 

적금에서 단리는 입금한 금액에만 이자가 붙는 것입니다.(이자에는 이자가 붙지 않음)

그래서 이자가 일단 점점 커지기는 하지만 그건 어디까지나 원금에 증가에 따릅니다.

 

단리 적금에 금액

 

그런에 적금이 좀 어려운게 첫달에 초기비용과 납입금을 둘다 내느냐 이자는 선불이냐 후불이냐에 따라 조금 변합니다.

이게 혼돈을 줄 수 있는데요. 일일히 다 걱정할 필요는 없습니다.

등차수열과 같은 원리라는 것만 알고 나머지는 계산기에게 맡깁시다.

(등차수열에서 기간별 납입금만 더해졌네요.)

 

 

② 복리적금

 

적금이 복리로 적용되면 상승률이 꽤 높습니다.

또 원금이 계속 느니까 저축속도는 빠릅니다. 사회 초년생이 가장 쉽게 초기자금을 모으는 방법입니다.

이 경우 매월 납입금이 등차수열의 공차로 이자는 등비수열의 공비로 볼 수 있습니다.

즉, 등차수열을 포함하는 등비수열이 됩니다. 좀 복잡한데 아래 공식으로 정리할 수 있습니다.

 

복리 적금 증가율

 

 

 

반응형

+ Recent posts