Statistics

적률생성함수(Moment Generating Function)

GGYUNS 2023. 3. 5. 17:09

이거 왜 쓰니?

 

 

확률 분포들을 공부하다보면 항상 등장하지만 눈으로만 훑고 넘어가는 개념이 바로 '적률생성함수(mgf, Moment Generating Function)'입니다. 확률질량함수(pmf, Probability Mass function) 또는 확률밀도함수(pdf, Probability Density Function)를 공부하고 평균과 분산의 식을 본 다음 등장하곤 하죠. \(M_X(t)=E(e^{tX})\)라는 식과 함께 '그렇구나~'하고 넘어가서 제대로 그 뜻을 짚고 넘어가지 않는 경우가 많습니다. 사전지식을 많이 요하기도 하고 식이 너무 복잡하게 생겼기 때문일 겁니다. 하지만 통계학에서 상당히 중요하게 쓰이는 개념입니다. 어떤 확률변수의 분포를 알고 싶을 때, mgf를 구해봄으로써 분포를 정확하게 알 수 있기 때문입니다.

 

1. 적률(모멘트, moment)의 정의

먼저 물리학에서는 모멘트(=돌림힘(Torque)=회전력)를 어떤 점(또는 축)을 중심으로 회전하려고 하는 힘으로 정의합니다. '어떤 물리량(대표적으로 질량)과 그 물리량이 있는 곳까지 수직거리'으로 계산하는데, 값이 커질수록 뭔가가 회전하도록 하는데 필요한 힘이 더 많이 필요하다고 이해하면 되겠습니다. 엄청 큰 츄파춥스 막대사탕을 들고 있다고 상상해볼까요? 사탕의 알이 볼링공만한데(=질량이 일정), 막대가 짧을 때보다 막대가 길 때(=수직거리 증가) 내가 사탕 알을 들고 회전하기 위해 필요한 힘이 훨씬 많이 들 것입니다.

 

이때 이 개념으로 '무게중심'을 구할 수 있습니다. 아래와 같은 지렛대가 있다고 생각해봅시다. 원점을 기준으로 각 물체의 위치가 \(x_i\)이고 질량이 \(m_i\)입니다. 지렛대의 받침점을 어떻게 구할 수 있을까요? 바로 무게중심을 구하는 식으로 구할 수 있습니다.

무게중심 \(G\)을 구하는 식은 다음과 같습니다. 

$$G = \frac{\sum_{i=1}^{5}m_ix_i}{\sum_{i=1}^{5}m_i}$$

이때 살짝 생각의 전환을 해서, 지렛대 위에 질량이 '분포'해 있다고 생각해볼까요? 질량을 '확률'이라고 생각해보면, 위의 그림은 이산확률분포가 되고, 무게중심을 구하는 식은 기댓값을 구하는 식이 된답니다. 

$$G = \frac{\sum_{i=1}^{5}p_ix_i}{\sum_{i=1}^{5}p_i}=\sum_{i=1}^{5}p_ix_i=E(X)=\mu$$

이렇게 모멘트는 확률(질량)이 어떻게 분포하는지 잘 설명해줍니다.

 

한편, 수학과 통계학에서는 원점에 대한 \(k\)차 적률(\(k>0\)) \(\mu'_k\)확률변수 \(X^k\)의 평균으로 정의합니다. 수식은 이렇습니다.

$$\mu'_k=E(X^k)= \left \{
 \begin{array}{cc} \displaystyle \sum_{k}^{}x^kf(x)\qquad (discrete) \\[10pt] \displaystyle \int_{-\infty}^{\infty} x^kf(x)dx \qquad (continuous)
\end{array} \right.$$

이때 \(k=1\)이면 \(E(X^1)=E(X)\)이 되므로 '평균'이 되는 것을 알 수 있습니다. 따라서 1차적률은 평균을 뜻합니다.

 

2. 적률생성함수(mgf)

적률생성함수 \(M_X(t)\)의 정의는 이러합니다.

$$M_X(t)=E(e^{tX})=\left \{ \begin{array}{cc} \displaystyle \sum_{x}^{} e^{tx}f(x) \qquad (discrete) \\[10pt] \displaystyle \int_{-\infty}^{\infty} e^{tx}f(x)dt \qquad (continuous) \end{array} \right.$$

mgf는 \(x\)가 아니라 \(t\)에 대한 함수입니다! 이때 \(t\)는 위의 모멘트에서도 필요한 (거리 계산을 위한) 어떤 위치를 뜻합니다.

이름 그대로 '적률을 만들어내는' 함수이기 때문에 이렇게 이름이 붙은 것이라고 하네요. 어떻게 적률을 생성해내는 것일까요? mgf를 급수 전개한 후, 미분해서 얻어낼 수 있답니다. 미분하면 신기하게도 모든 차수의 적률을 얻을 수 있습니다. 각 차수 적률의 의미는 조금 뒤에 살펴보도록 하겠습니다.


 ▼ Proof

 

(1) 기댓값 꼴 안에 있는 모양을 매클로린 급수로 전개하면 이렇습니다.

 

\(e^{tx}=1+tx+\frac{{tx}^2}{2!}+\frac{{tx}^3}{3!}+\cdots+\frac{{tx}^n}{n!}+\cdots\)

 

(2) 이때 양변에 기댓값 형태를 씌워준 후, \(t\)에 대한 식으로 정리해줍니다.

 

\(M_X(t)=E(e^{tX})=E(1+tX+\frac{(tX)^2}{2!}+\frac{(tX)^3}{3!}+\cdots+\frac{(tX)^n}{n!}+\cdots)\)

\(=1+tE(X)+\frac{t^2}{2!}E(X^2)+\frac{t^3}{3!}E(X^3)+\cdots+\frac{t^n}{n!}E(X^n)+\cdots\)

\(=1+\mu_1t+\frac{\mu_2}{2!}t^2+\frac{\mu_3}{3!}t^3+\cdots+\frac{\mu_n}{n!}t^n+\cdots\)

 

(3) 이제 양변을 \(t\)에 대해서 미분해보겠습니다.

 

1차미분 : \(\frac{d}{dt}M_X(t)={M_X}^{(1)}(t)=\mu_1+\mu_2t+\frac{\mu_3}{2!}t^2+\cdots+\frac{\mu_n}{(n-1)!}t^{n-1}+\cdots\)

2차미분 : \(\frac{d^2}{dt^2}M_X(t)={M_X}^{(2)}(t)=\mu_2+\mu_3t+\frac{\mu_4}{2!}t^2+\cdots+\frac{\mu_n}{(n-2)!}t^{n-2}+\cdots\)

 

(4) \(t=0\)을 대입하면, 원점에 대한 \(k\)차 적률을 구할 수 있습니다.

 

1차적률 = \( {M_X}^{(1)}(0)=\mu'_1=E(X) \)

2차적률 = \( {M_X}^{(2)}(0)=\mu'_2=E(X^2)\)

\( \cdots \)


3. 평균, 분산, 왜도(Skewness), 첨도(Kurtosis)

사실은 우리가 원점에 대한 \(k\)차 적률 \(\mu'_k\)를 지금까지 따져보았고, 일반적인 적률의 모양새는 이렇습니다.

$$\mu'_k=E((X-c)^k))$$

\(c=0\)일 때, '원점'에 대한 \(k\)차 적률이라고 불렀던 것이죠.

 

이때 \(c\)자리에 평균 \(\mu\)를 넣은 것을 \(k\)차 중심 적률 \(\mu_k\)로 정의합니다. 수식을 써보면 이렇습니다.

$$\mu_k=E((X-\mu)^k))$$

 

그리고 이 중심적률을 표준편차의 \(k\)제곱으로 나누면 \(k\)차 표준화 적률 \(\widetilde{\mu_k}\)가 됩니다. 수식은 이렇습니다.

$$\widetilde{\mu_k}=\frac{\mu_k}{\sigma^k}$$

 

이 개념들로, 어떤 확률분포에 대한 정보인 평균, 분산, 왜도, 첨도를 정확하게 알아낼 수 있습니다.

 

   1   

1차 적률 = 평균 = \(\mu'=\mu=E(X)\)

 

   2   

2차 적률 = \(\mu'_2=E(X^2)\)

2차 중심적률 = 분산 = \(\mu_2=E[(X-\mu)^2]=Var(X)\)

 

 

   3   

3차 적률 = \(\mu'_3=E(X^3)\)

3차 중심적률 = \(\mu_3=E((X-\mu)^3)\)

3차 표준화적률 = 왜도 = \(\widetilde{\mu_3}=\frac{E[(X-\mu)^3]}{\sigma^3}=\gamma_1\)

(Fisher's moment coefficient of skewness)

왜도(Skewness)란 비대칭의 정도를 나타내는 지표입니다. 데이터가 어느 쪽으로 몰려있는지 판단하는 기준이 되죠. 정규분포나 t분포처럼 평균을 중심으로 완전히 대칭인 분포는 왜도가 0이고, 오른쪽으로 긴 꼬리를 갖는 경우 왜도가 양수가 되고 왼쪽으로 긴 꼬리를 갖는 경우 왜도가 음수가 됩니다.
출처 : https://en.wikipedia.org/wiki/Skewness#/media/File:Relationship_between_mean_and_median_under_different_skewness.png

 

   4   

4차 적률 = \(\mu'_4=E(X^4)\)

4차 중심적률 = \(\mu_4=E((X-\mu)^4)\)

4차 표준화적률 = 첨도 = \(\widetilde{\mu_4}=\frac{E[(X-\mu)^4]}{\sigma^4}=Kurt(X)\)

첨도(Kurtosis)란 뾰족한 정도를 나타내는 지표입니다. 데이터가 얼마나 몰려있는지 판단하는 기준이 됩니다. 첨도가 항상 3이 되는 정규분포를 기준으로, 보통 첨도가 3보다 높으면 많이 뾰족하다(leptokurtic)고 판단하고 첨도가 3보다 낮으면 꽤 완만하다(platykurtic)고 표현합니다. 
출처 : https://www.vosesoftware.com/riskwiki/Kurtosis%28K%29.php

 

따라서 적률생성함수를 통해 구해낸 적률은 분포를 결정짓는 정보들을 뜻하겠습니다.

특히 이 적률생성함수는 어떤 확률변수의 분포를 유일하고 완전하게 결정합니다(unique and completely determine). 따라서 보통 어떤 확률변수의 분포를 알고 싶다고 한다면, 그것의 적률생성함수를 구해서 이미 구해진 여러 분포들의 적률생성함수와 비교하여 분포의 종류와 평균 및 분산을 알아낼 수 있습니다.

 

 

분포별 적률생성함수

 

 

어떤 분포의 pmf 또는 pdf를 알면, 적률생성함수을 구하고 미분을 여러 번 해서 평균과 분산을 알아낼 수 있습니다. 더불어 내가 원하는 확률변수(파생변수)의 분포와 평균, 분산도 알아낼 수 있죠. 대표적으로 정규분포포아송분포에 대해 살펴보겠습니다. (코시분포는 적률생성함수가 정의되지 않습니다.)

 

1. Normal Distribution

어떤 연속확률변수 \(X\)가  \(X \sim N(\mu,\sigma^2)\)이면, \(X\)의 확률밀도함수(pdf of \(X\))는 아래와 같습니다.

$$f(x)=\frac{1}{\sqrt{2\pi\sigma}}exp(-\frac{1}{2}(\frac{x-\mu}{\sigma})^2)$$

이때 적률생성함수를 구해서 평균과 분산이 각각 \(\mu\)와 \(\sigma^2\)이 맞는지도 확인해보겠습니다.


▼ Proof 

 

\(M_X(t)=E(e^{tX}) \)

 

\(= \displaystyle \int_{-\infty}^{\infty} e^{tx}f(x)dt\)

 

\(= \displaystyle \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi\sigma}} exp(-\frac{x^2-2\mu x+\mu^2 -2\sigma^2 tx}{2\sigma^2})dt\)

 

\(= \displaystyle \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi\sigma}} exp(-\frac{1}{2} \cdot \frac{x^2 - 2(\mu + \sigma^{2}t)x + (\mu+ \sigma^{2}t)^2 - (\mu+ \sigma^{2}t)^2 + \mu^2}{\sigma^2} )dt\)

 

\(= \displaystyle \int_{-\infty}{\infty} \frac{1}{\sqrt{2\pi\sigma}} exp(-\frac{1}{2} \cdot \frac{ (x-(\mu+\sigma^{2}t))^2 }{\sigma^2}) \cdot exp(\mu t + \frac{\sigma^2}{2} t^2)dt\)

 

\(= e^{\mu t + \frac{1}{2}\sigma t^2} \displaystyle \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi\sigma}} e^{-\frac{1}{2} (\frac{x-(\mu+\sigma^{2}t)}{\sigma})^2}dt\)

 

 이때 적분기호 뒷부분인 \( \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}(\frac{x-(\mu+\sigma^{2}t)}{\sigma})^2}\) 부분은 평균이 \(\mu+\sigma^{2}t\)이고 분산이 \(\sigma^2\)인 정규분포의 pdf가 되므로, 이것을 전적분하면 1이 됩니다. 따라서 우변에는 적분기호 앞부분만 남네요.

 

$$\therefore M_X(t) = e^{\mu t+\frac{1}{2}\sigma^{2}t^2}$$

 

이제 평균과 분산을 구해보겠습니다. 지수함수의 미분법을 이용하면 되겠군요. \(t\)에 대해 미분하면 되겠습니다.

 

1차적률 = \(M_X^{'}(0)= \left. e^{\mu t+\frac{1}{2}\sigma^{2}t^2} \cdot (\mu+\sigma^{2}t) \right|_{t=0} = \mu=E(X)\)

 

2차적률 = \(M_X^{''}(0)= \left. e^{\mu t+\frac{1}{2}\sigma^2{2}t^2} \cdot (\mu+\sigma^{2}t)+e^{\mu t+\frac{1}{2} \sigma^{2}t^2}\cdot \sigma^2 \right|_{t=0} = \mu^2 + \sigma^2\)

\(\therefore Var(X) = (\mu^2 + \sigma^2) - \mu^2 = E(X^2) - [E(X)]^2 = \sigma^2\)


 

2. Poisson Distribution

어떤 이산확률변수 \(X\)가  \(X \sim Poi(\lambda)\)이면, \(X\)의 확률질량함수(pmf of \(X\))는 아래와 같습니다.

$$f(x)=\frac{e^{-\lambda}\lambda^x}{x!}$$

이때 적률생성함수를 구해서 평균과 분산이 왜 \(\lambda\)로 같은지 확인해보겠습니다.


▼ Proof 

 

\(M_X(t)=E(e^{tX}) \)

 

\(= \displaystyle \sum_{x=0}^{\infty} e^{tx}f(x)dt\)

 

\(= \displaystyle \sum_{x=0}^{\infty} e^{tx}\cdot \frac{e^{-\lambda}\lambda^x}{x!}\)

 

\(= \displaystyle e^{-\lambda} \sum_{x=0}^{\infty} \frac{(e^t \cdot \lambda)^x}{x!}\)

 

이때 시그마 기호 부분이 매클로린 급수 형태임을 알 수 있습니다.

 

$$\therefore M_X(t) = e^{-\lambda}\cdot e^{e^t \lambda}=e^{\lambda(e^t-1)}$$

 

이제 평균과 분산을 구해보겠습니다. 역시 지수함수의 미분법을 이용하면 되겠군요. \(t\)에 대해 미분하면 되겠습니다.

 

1차적률 = \(M_X^{'}(0)= \left. e^{\lambda(e^t-1)}\cdot \lambda(e^t-1) \right|_{t=0} = \lambda=E(X)\)

 

2차적률 = \(M_X^{''}(0)= \left. \lambda \cdot e^{\lambda(e^t-1)+t} \right|_{t=0} = \lambda(\lambda+1)\)

\(\therefore Var(X) = (\lambda^2+\lambda) - \lambda^2 = E(X^2) - [E(X)]^2 = \lambda\)


 

 

추정량(estimator)의 분포를 알아내기

 

 

적률생성함수가 유용한 이유는, 이러한 특성을 활용해서 다양한 형태의 파생변수 \(Y=u(X_1,X_2, \cdots,X_n)\)에 대한 평균과 분산을 알아낼 수 있기 때문입니다. 예를 들어볼까요?

 

Q. 서로 독립인 확률변수 \(X_i \sim N(\mu_i, \sigma_i^2) \quad (i=1,2,3)\)에 대하여, 확률변수 \(Y=2X_1-X_2+X_3\)의 평균과 분산을 구하여라.

Solution) 확률변수 \(Y\)의 적률생성함수를 확인해보겠습니다.

\(M_Y(t)=E(e^{tY})=E(e^{t(2X_1-X_2+X_3)})\)

\(=E(e^{t\cdot 2X_1}) - E(e^{tX_2}) + E(e^{tX_3})\) (서로 독립이므로)

이때 \(E(2X_1)=2E(X_1)=\mu_1, Var(2X_1)=4Var(X_1)=4\sigma_1^2\) 이므로(이것도 사실 적률생성함수로 증명할 수 있습니다.)

\(M_Y(t)= exp((2\mu_1-\mu_2+\mu_3)t+\frac{1}{2}(4\sigma_1^2+\sigma_2^2+\sigma_3^2)t^2)\)

구한 수식이 정규분포의 적률생성함수 형태이므로, 확률변수 Y는 평균이 \(2\mu_1-\mu_2+\mu_3\)이고 분산이 \(4\sigma_1^2+\sigma_2^2+\sigma_3^2\)인 정규분포를 따릅니다.

 

통계학에서 통계적 추론이란 모집단의 특성을 알아내기 위해 점추정량을 구하거나 신뢰구간을 구하는 '추정'과, 귀무가설과 대립가설을 세우는 '검정'을 하는 것을 뜻합니다. 이때 점추정량을 만들어내기 위해 여러 가지 시도를 할 수 있겠죠. 이때 이 점추정량 역시 새로운 확률변수입니다. 예컨대  우리가 흔히 보는 표본평균 \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\)도 새로운 확률변수입니다. \(\max(X_1,X_2,X_3)\) 같은 형태도 새로운 확률변수이고, 위의 예제와 같이 서로 사칙연산을 해서 확률변수를 새롭게 만들 수도 있을 것입니다. 이때 적률생성함수는 이렇게 만들어진 확률변수들의 분포가 어떤 분포인지 결정해주므로 매우 유용합니다.

 

 

요약 및 용어정리

 

  • 통계학에서 적률(moment)은 확률분포에 대한 정보를 제공한다.
  • 1차적률 = 평균, 2차중심적률 = 분산, 3차표준화적률 = 왜도, 4차표준화적률 = 첨도
  • 적률생성함수(moment generating function)는 어떤 확률변수의 분포를 유일하고(unique) 완전하게(complete) 결정한다.
  • 적률생성함수를 구해서 파생변수에 대한 정보를 알아내고 새롭게 만들어낸 추정량(estimator)의 분포를 알아낼 수 있다.

 

 

Reference

 

Hogg et.al. (2020). Introduction to Mathematical Statistics(8th Global ed.). London: Pearson.

연세대학교 응용통계학과 이명숙 교수님 강의(미분적분학)

연세대학교 응용통계학과 김일문 교수님 강의(수리통계학(2))

연세대학교 응용통계학과 강승호 교수님 강의(이론통계학(1))

 

 

[통계학] 2.3 분산, 모멘트 생성 함수 Variance, Moment Generating Functions

랜덤 변수의 분포를 나타내는 지표로서 평균은 랜덤 변수의 대표적인 값을 의미한다. 이에 더해, 랜덤 변수가 대표값으로부터 얼마나 떨어져 있냐는 것도 중요한 지표가 된다. 이러한 역할을 해

elementary-physics.tistory.com

 

[확률과 통계] 45. 적률과 적률생성함수, Moment & Moment-Generating Function

이번 포스팅에서는 '적률생성함수'를 알아보려고 합니다. 적률생성함수는 확률통계학에서 매우 중요하게 다...

blog.naver.com