개요
저번 포스트에서는 열에 대한 개념을 물리적인 접근을 통해 익혔습니다. 앞으로는 점점 통계적인 개념들을 도입해가며 열역학적인 현상들을 배우게 될 텐데, 그러한 방향성에 있어서 확률을 다루는 것은 굉장히 중요합니다. 미시 상태의 입자들은 random 한 움직임을 지닌다고 가정을 하고, 이러한 무작위적인 거동은 확률에 의해서 기술되기 때문입니다. 이 책의 흐름을 따라가보면 그리 어려운 내용을 다루지 않습니다. 고등학교 수준의 <확률과 통계>에서도 충분히 익힐 수 있는 개념들입니다. 그나마 제 생각에 차별점을 가지는 부분은 고등학교 수준에서는 적분할 수 없는 함수를 이제는 적분하여야 하는 문제인데, 그것은 가우스 적분(Gaussian distribution)입니다. 대학수학을 배운 사람이면 충분히 이해할 수 있죠.
확률이라는 개념을 수학적으로 다루기 전에, 여담으로써 그 발전과정을 소개 드리고자 합니다. 우리 인생은 굉장한 불확실함으로 가득 차 있습니다. 당장 제가 5분 뒤에 어떤 일을 겪게 될지는 아무도 모릅니다. 너무도 복잡한 계에 놓여있는 일을 분석해야 하기 때문입니다. 예를 들면 당장 배가 아프다는 현상조차도 왜 일어나는지 분석하려면 다양한 요인들을 고려해야 합니다. 오늘 먹은 아침, 혹은 점심. 중간에 챙겨 먹었던 비타민 약의 유통기한이라던가, 행복했지만 결론적으로 고통스러웠던 전날의 과음 같은 것들이 있죠. 이런 것들이 쌓이고 쌓여서 서로에게 영향을 미치게 되면 우리는 더 이상 어떤 요인에 의해서 결과(event)가 발생했다고 해석할 수 없게 됩니다.
하지만 한 가지의 요인이 얼마나 영향을 미치는지에 대한 확률을 논할 수는 있습니다. 그리고 각각의 확률들을 엮어서 다시 또 다른 확률을 만들 수 있죠. 그래서 확률은 무의미하지 않고, 알고 있으면 아무것도 모르는 것보다 훨씬 유리한 상태에 놓이게 됩니다. 조금 더 고급지고 수학적인 용어를 사용해서 말하자면, 확률은 불확실성을 정량화하기 때문에 유용하고 강력한 도구입니다.
확률에 대한 이론은 프랑스의 수학자 페르마(Pierre de Fermat)와 파스칼(Blaise Pascal)에 의해 도박사가 제기한 문제에서 출발하였습니다. 당시 이들의 아이디어가 완벽하진 않았지만 이후 네덜란드의 물리학자 호이겐스(Christian Huygens)에 의해 정리되어 확률 교과서가 출판되었고, 이때 호이겐스는 기대 수명을 예측하는 데 있어서 확률을 이용하였습니다.
이때는 고전역학이 물리학을 지배하던 시대였고, 따라서 모든 결과는 완벽한 지식(초기 조건)만 있으면 예측이 가능하다고 생각했습니다. 하지만 아까도 말했듯 많은 요소가 작용하는 복잡한 계에서는 모든 것을 알 수 없었고, '이러한 한계에서 확률을 도입하는 것은 유용하다'고만 여겨졌던 것이죠. 결국 인간이 가진 기술의 한계 때문에 어쩔 수 없이 확률을 도입하고, 더 발전되어 있을 미래에는 완벽한 예측이 가능할 것이다는 믿음이 있었을 것입니다. 하지만 그것을 깨버리는 것이 20세기의 양자역학이었습니다.
굳이 인간 기술력의 한계가 아니었더라도 양자세계에서는 순수하게 확률적인 결과만을 제시할 수 있다는 점에서 확률 이론은 더욱 더 각광받게 됩니다. 열물리학 역시도 미시 세계의 입자들이 구성하는 조밀한 계가 거시적인 형태로 발현되는 현상을 다루는 학문입니다. 이들은 굉장히 많은 숫자의 입자로 이루어져 있으며, 이 경우는 확률에 의한 예측이 대부분 정확합니다. 결국 전체의 원자들, 혹은 분자 같은 구성 요소가 모여서 만들어내는 기여에 관심이 있는 것이니까요. 어느정도 확통을 배워야 하는 이유가 체감이 되시나요? 이제 그럼 긴말않고 시작해 보겠습니다.
확률(Probability)
확률을 정의해보겠습니다. 확률은 쉽게 말해서 사건이 일어날 가능성을 수치화한 값을 의미합니다.
확률(Probability)은 어떤 사건(event)이 일어날 가능성을 의미한다. 확률은 오직 0부터 1 사이의 값만을 가진다.
따라서 일어날 가능성이 전혀 없는 사건은 0의 확률을 가지고, 무조건 일어날 사건은 1의 확률을 가진다.
그래서 전혀 일어나지 않는 사건의 확률은 0입니다. 반대로 무조건 일어날 사건의 확률은 1이죠. 이러한 정의에 따라, 우리는 하나의 계가 만들어 낼 수 있는 사건이 여러가지일 때, 각각의 사건들에 대한 확률을 구할 수 있습니다.
모든 사건이 일어날 수 있는 확률은 무조건 1이다.
$$ \large{\therefore \sum\limits_{i}{P_i} = 1} $$
($ \large{P_1, P_2, ...}$는 각 i번째 사건이 일어날 확률을 의미)
그리고 이것들을 모두 합해서, 일어날 수 있는 모든 경우의 해당하는 확률은 당연히 1이 되어야 합니다. 여기까지는 굉장히 간단한 복습이라고 생각하시면 됩니다. 이해하기 어려운 부분은 없네요. 그러면 조금 더 어려운 주제로 넘어가 보겠습니다.
이산 확률 변수(discrete random variable)
우리 주변에서 찾을 수 있는 대부분의 사건들을 생각해봅니다. 가장 간단한 예시로는 주사위 굴리기가 확률을 논할 수 있는 표준적인 모델일 것입니다. 주사위의 각 눈금은 1부터 6까지의 정수입니다. 그리고 각각의 눈금은 서로 1만큼의 간격을 가지고 있죠. 이러한 경우, 각각의 눈금이 $1/6$의 확률을 가지는 확률 변수가 됩니다. 그런데 1만큼의 간격을 가지고 있는, 불연속적인 변수이기에 이것을 이산 확률 변수(discrete random variable)이라고 부릅니다.
어떠한 변수에 의해서 사건의 확률이 결정된다면 그 변수를 확률 변수(Random variable)라고 한다.
만약 확률 변수가 불연속적인 값을 가진다면 이산 확률 변수(Discrete random variable)라고 한다.이산 확률 변수의 예시는 주사위의 눈금이나, 한 가정 내의 자녀의 수 등이 될 수 있다.
또 다른 예시는 한 가정 내에 있는 아이의 수도 될 수 있습니다. 한국 내 가정의 평균 아이의 수는 2.4명 일 수 있으나, 실제로는 무조건 정수를 가져야 하죠? 그러니까 이러한 변수도 이산 확률 변수가 되는 것입니다. 방금 이 상황을 설명하면서 평균이라는 개념이 등장했습니다. 평균도 한 번 정의해볼까요?
평균(mean) 혹은 기댓값(expectation value)는 다음과 같이 정의된다.
$$\large{\left<x\right>=\sum\limits_{i}{x_iP_i}}$$
평균(mean)이라는 말도 맞지만, 확률론에서는 기댓값(expectation value)라는 표현도 사용합니다. 복수 표기가 가능하니까, 둘 다 같은 의미로 해석하시면 됩니다. 평균은, 확률 변수와 그 확률 변수에 대응되는 확률을 곱해서 모든 index에 대한 값을 더하면 됩니다. 위에 표기되어 있는 수식은 확률 변수 $x$에 대한 기댓값입니다. 굳이 (~)에 대한 기댓값이라고 언급한 이유는, 다른 확률 변수에 대한 기댓값도 구할 수 있기 때문입니다. 기존의 확률 변수 $x$에 의존하는, 새로운 확률 변수 $f(x)$라는 함수의 기댓값을 알아봅시다.
$f(x)$라는 함수의 기댓값은 다음과 같이 정의할 수 있다.
$$\large{<f(x)>=\sum\limits_{i}{f(x_i)P_i}}$$
$$\large{\therefore{\left<x^2\right>=\sum\limits_{i}{{x_i}^2P_i}}}$$
아까는 $x$의 기댓값을 구하기 위해서는 $x$와 확률을 곱한 후 모두 합했는데, 이번에도 동일한 구조를 가짐을 확인할 수 있습니다. $f(x)$와 확률을 곱해주면 되네요. 이렇게 해서 $x^2$의 기댓값도 구할 수 있습니다.
간단한 예제를 만들어서 풀어봅시다. 어떤 확률 변수 $x$가 $0, 1, 2$ 이렇게 3가지가 존재한다고 합시다. 그리고 각각의 사건이 발생할 확률은 $1/2, 1/4, 1/4$ 입니다. 이 때 $x$의 기댓값과 $x^2$의 기댓값을 구해보면 다음과 같습니다.
확률변수가 $0, 1, 2$인 상황에서 각각의 확률 변수에 대한 사건이 발생할 확률이 $\large{\frac{1}{2}, \frac{1}{4}, \frac{1}{4}}$이라고 하자. 이때 $x$와 $x^2$의 기댓값을 구해보면 다음과 같다.
$$\large{\left<x\right>=\sum\limits_{x=0}^{2}xP(x)=0\times\frac{1}{2}+1\times\frac{1}{4}+2\times\frac{1}{4}=\frac{1}{4}} \\\large{\left<x^2\right>=\sum\limits_{x=0}^{2}x^2P(x)=0^2\times\frac{1}{2}+1^2\times\frac{1}{4}+2^2\times\frac{1}{4}=\frac{5}{4}}$$
연속 확률 분포(continuous random distribution)
이산 확률 변수는 불연속적인 확률 변수를 말한다는 것을 의미했습니다. 그렇다면 이번엔 연속적인 확률 변수를 고려할 수 있습니다. 예를 들면, $0\,m$(원점)부터 $1\,m$ 까지의 영역에서 빗방울이 떨어지는 것을 관측한다고 해봅시다. 이 때 $1\,m$ 간격의 구간에서 빗방울이 떨어지는 위치를 확률 변수 $x$라고 하면, $0$부터 $1$까지의 실수 영역을 논할 수 있습니다. 이러한 경우가 연속 확률 변수(continuous random variable)입니다. 그리고 이러한 변수가 따르는 분포가 바로 연속 확률 분포(continuous random distribution)입니다.
확률 변수가 연속적인 경우, 이러한 확률 변수를 연속 확률 변수(Continuous random variable)라고 한다.
연속 확률 변수가 따르는 분포를 연속 확률 분포(Continuous random distribution)라고 하고, 일반적으로 $\large{\rho(x)}$로 표기한다.
연속 확률 분포 역시도 확률의 정의를 따르기 때문에, 전체 구간에 대해 적분을 취하면 다음을 만족한다.
$$\large{\int_{x_{min}}^{x_{max}}\rho(x)dx=1}$$
연속적인 함수를 다루다보니, $\Sigma$(sum)로는 확률을 논하기 힘듭니다. 그래서 $\int$(적분)을 도입합니다. 확률 변수의 양끝 사이의 영역을 적분 구간으로 잡고, 확률 밀도(연속 확률 변수)를 적분해주면 $1$이 나와야 합니다. 모든 사건에 대한 확률이니까요.
연속 확률 분포에서의 기댓값은 다음과 같이 구할 수 있다.
$$ \large{ \left<x\right>=\int{x\rho(x)}dx \\ \left<x^2\right>=\int{x^2\rho(x)dx}}$$
기댓값의 표현도 이산 확률 변수와 크게 다르지 않음을 확인할 수 있습니다. 그저 합 기호가 적분 기호로 바뀌었을 뿐입니다.
선형 변환(linear transform)
기댓값에 대한 설명을 하면서 $x$가 아닌 $x^2$에 대한 기댓값을 구해보았습니다. 이것처럼 우리는 처음 정한 확률 변수를 선형 변환하면서 두 번째 무작위 변수를 찾아낼 수 있습니다. 유용한 확률 변수는 다양할테니까요. 선형 변환에 대한 개념은 선형대수학에서 다루는 내용이기 때문에 깊게 언급하지는 않겠습니다. 확률 변수에 대한 기댓값이 선형적이라는 사실만 알고 계시면 됩니다.
선형 변환(Linear transform)
기존의 확률 변수 $\large{x}$에 의존하는 다음과 같은 확률 변수 $\large{f(x)}$를 고려하자.
$$\large{f(x)=y=ax+b}$$
그러면 $\large{y}$의 기댓값은
$$\large{\left<y\right>=\left<ax+b\right>=\sum\limits_{i}{(ax_i+b)P(x_i)}\\= a\sum\limits_{i}{x_iP(x_i)}+b\sum\limits_{i}{P(x_i)}\\=a\left<x\right>+b}$$
그래서 몇 배를 취한 확률변수의 기댓값이라도 결국 기댓값의 몇 배가 된다는 결과를 안겨줍니다(이상한 말 같이 보이지만 천천히 보면 이해가 됩니다). 합 기호에서도 성립하니까, 당연히 적분을 해야하는 연속 확률 변수에게도 적용되는 내용이겠죠?
연속 확률 변수도 동일하게 적용할 수 있다.
$$\large{\left<y\right>=\left<ax+b\right>=\int{(ax+b)\rho(x)dx} = a\int{x\rho(x)dx} + b\int{\rho(x)} =a\left<x\right>+b}$$
분산(variance)
분산이라는 개념도 확률과 통계에서 다루기 때문에 어렵지 않게 다룰 수 있을 것입니다. 확률 변수를 평균으로 빼주면 남는 것이 바로 편차(deviation)입니다. 평균으로부터 떨어진 거리를 의미하죠. 하지만 각 데이터마다 편차는 모두 다릅니다. 그러니까 왠지 편차도 평균을 취해주고 싶어지네요. 한 번 해봅시다.
편차(deviation)
$$\large{x-\left<x\right>}$$
여기서 편차의 정의에 따른 $\large{x-\left<x\right>}$를 $\large{d}$라고 한다면, $\large{d}$의 평균은 다음과 같이 구할 수 있다.
$$\large{{\left<x-\left<x\right>\right>=\left<x\right>-\left<x\right>=0}}$$
이런, 편차의 기댓값을 구해보니까 0이 나옵니다. 당연한 결과입니다. 결국 모든 데이터의 중간값이 평균인데, 그 중간값과 떨어진 거리를 다시 평균하면 당연히 0이 나오겠죠. 그래서 우리가 주목해야 할 점은, 편차를 제곱해보는 겁니다.
복소수가 아닌 실수를 제곱하면 무조건 양수를 얻는다.
어차피 편차 값은 실수이기 때문에 제곱하면 무조건 양수가 됩니다. 그러면 이 새로운 확률 변수가 뭔가 의미를 부여할 것 같네요. 그래서 우리는 편차의 제곱을 분산(variance)이라고 합니다. 데이터가 퍼져있는 분포도를 나타내는 좋은 수치가 됩니다.
분산(varience)
$$\large{V(x)=\sigma_{x}^{2}=\left<(x-\left<x\right>)^2\right>}$$
하지만 당연하게도 우리는 양수를 얻으려고 제곱을 취했기 때문에 그 양이 뻥튀기가 되어버렸습니다. 우리가 느끼는 체감 상 편차와는 거리가 있는 편이죠. 그래서 다시 양의 제곱근을 취한 것을 표준 편차(standard deviation)이라고 하고, $\sigma$를 사용하여 표기합니다.
표준편차의 정의
$$\large{\sigma_x=\sqrt{\left<\left(x-\left<x\right>\right)^2\right>}}$$
이러한 정의를 이용하여, 표준 편차를 다른 관계식으로 표현할 수 있습니다.
$$\large{ \begin{align} \sigma_{x}^{2} &= \left<\left(x-\left<x\right>\right)^2\right>= \left<x^2-2x \left<x\right>+\left<x\right>^2\right>\\
& = \left<x^2\right>-2\left<x\right>\left<x\right>+\left<x\right>^2 \\
&= \textcolor{orange}{\left<x^2 \right>-\left<x\right>^2} \end{align}}$$
해석해보자면 분산(표준편차의 제곱)은 확률 변수의 제곱에 대한 기댓값 $\left<x^2\right>$에서 확률 변수의 기댓값의 제곱${x}^2$을 뺀 양인 $\large{\textcolor{orange}{\left<x^2\right>-\left<x\right>^2}}$이 된다는 것입니다. 이러한 관계식은 매우 유용하기 때문에 기억해두면 좋습니다.
선형 변환과 분산(Linear transform and variance)
바로 저번 포스트에서, 표준편차의 정의를 제곱 평균과 평균 제곱의 차로 구한다고 했었습니다. 다시 돌아가서, 기본적인 기댓값의 선형 변환을 했으니 이번엔 확률 변수의 분산(variance)을 선형 변환 해봅시다. 새로운 확률 변수를 $y$라고 두고, $y = ax + b$ 꼴이라고 가정하면, $y$의 기댓값은 다음과 같습니다.
$$\large{\left<y\right>=a\left<x\right>+b}$$
이 때 분산의 정의(${σ_y}^2=<y^2>-{y}^2$)를 적용하기 위해서, $<y^2>$ 값을 구해줍시다.
$$\large{\begin{align} \left<y^2\right>&=\left<\left(ax+b\right)\right> \\
& = \left<a^2x^2 + 2abx + b^2\right> \\
& = a^2 \left<x^2\right>+2ab\left<x\right>+b^2 \end{align}}$$
이렇게 $<y^2>$를 구했으니, 분산의 정의에 대입하여 그 차를 구합시다. 그 결과는 다음과 같습니다.
위에서 언급했듯, 분산은 $\sigma_{y}^{2} = \left<y^2\right>-\left<y\right>^2 $을 만족하므로,
$$ \large{ \begin{align} \sigma_{y}^{2}&=[a^2 \left<x^2\right>+2ab\left<x\right>+b^2]-[a^2 \left<x\right>^2+2ab\left<x\right>+b^2] \\
&=a^2\left(\left<x^2\right>-\left<x\right>^2\right) \\
&= a^2 \sigma_{x}^{2}
\end{align}}$$
따라서
$\large{\therefore \textcolor{orange}{\sigma_y = a\sigma_x}} \rightarrow$ 결국 표준 편차는 b에 의존하지 않음을 알 수 있다.
새로운 변수 $y$에 대한 표준편차가, $x$의 표준편차에 비해 $a$ 배 더 큰 것을 알 수 있습니다. 아까 $y$를 확률변수 $x$의 평균을 $a$배하고 $b$를 더한 것으로 정했으므로, 표준편차가 $a$ 배 커지는 것은 이러한 연산이 선형적이기 때문입니다.
또한 $b$ 값은 사라지게 되었는데요, 이는 표준편차가 $b$에 의존하지 않기 때문이죠. $b$는 위치를 결정하는 값이 되는 것인데, 분산의 정의는 '편차의 제곱', 즉 데이터의 분포도를 의미하므로 절대적인 위치가 중요하지 않습니다. $b$는 shift(평행 이동)의 개념이므로 편차와는 관련이 없음을 알 수 있었습니다.
독립 변수(Independent random variable)
고등학교 수학 중에서 <확률과 통계>를 배우다 보면, 독립 시행이라는 개념이 등장합니다. 가장 만만하고 쉬운 예시가 여러 개의 주사위를 굴리거나 혹은 하나의 주사위를 여러 번 굴리는 경우입니다. 이 때 주사위 한 개를 굴리는 시행이 추후에 진행할 시행에 대해서 전혀 영향을 미치지 않죠? (물론 물리적으로 따지기 시작하면 주사위 굴림으로 인한 바닥의 진동이라던가, 주사위가 구르면서 마찰로 인해 깎여나가는 현상들을 논할 수 있겠지만, 그러한 일은 무시하도록 합시다.)
두 사건 사이의 연관성이 없는 경우, 각각의 확률 변수 $\large{u}$와 $\large{v}$를 독립 확률 변수(Independent random variable)라고 한다.
이러한 시행을 독립 시행(independent random trial)이라고 부릅니다. 그리고 주사위가 가리키는 눈금은 독립 변수(independent random variable)라고 부릅니다. 이 때 독립 변수를 불연속인 경우와 연속인 경우로 나눌 수 있습니다. 주사위와 같은 예시는 독립 변수가 불연속 함수인 경우입니다. 주사위 눈금은 오직 1부터 6까지의 자연수만 나오니까요.
만약 어떤 공에 힘을 가해 굴러간 거리를 확률 변수 x로 잡는 시행이 있다고 합시다. 이 때 필연적인 실험적 오차가 존재할 것입니다. 그래서 매번 똑같은 힘을 가한다고 생각하지만 결과값은 미묘하게 다릅니다. 이런 경우, 공의 중심(center of mass)이 위치하는 $x$ 값은 실수 구간에 존재하므로 연속적입니다. 이러한 경우는 연속함수가 됩니다.
불연속인 함수의 경우, 각각의 시행이 확률변수 $u$와 $v$를 가질 경우에 대한 확률을 두 확률변수가 가질 확률을 서로 곱해주면 됩니다. 연속적인 함수의 경우라면, $u$가 $u + du$와 $v$가 $v + dv$ 사이에 존재할 확률은 다음의 곱으로 나타낼 수 있습니다.
$$\large{P(u,v)=P(u)P(v){\overset{\mbox{If the u and v are continuous function}}{\longrightarrow}}P(u)duP(v)dv}$$
이러한 독립적인 시행이 유의미하게 다루어지는 이유는, u와 v의 곱의 평균값이 각각의 확률변수들의 평균에 대한 곱으로 나타낼 수 있기 때문입니다. 이렇게 말이죠.
$$ \large{\begin{align} \therefore \left<uv\right>& = \iint{uvP(u)P(v)dudv} \\
& = \int{uP(u)du \int{vP(v)dv}} \\
& = \textcolor{orange}{\left<u\right>\left<v\right>}
\end{align}}$$
이러한 성질들을 이용해서, 다양한 분야에 적용시킬 수 있는데요. 뜬금 없지만 n개의 독립적인 무작위 변수를 생각해봅시다. 이것을 $X_i$라고 하고, 각각의 확률변수가 가지는 평균은 $\left<X\right>$로 동일하고, 분산도 ${σ_x}^2$로 동일하다고 합시다. 그 때 $n$ 개의 확률 변수를 모두 더한 것을 $Y$라는 새로운 확률 변수라고 놓고, 이것의 평균과 분산을 구해보죠.
먼저 $Y$의 평균은 각 확률변수들의 평균을 더한 것이 됩니다. 그러니까 총 $n$ 개의 $$를 더한 것이 됩니다. 따라서,
그리고 분산의 정의에 따라, 이번엔 $<Y^2>$을 구해야하는데, 먼저 $Y^2$부터 구해보죠. $Y$는 $n$ 개의 합으로 나타나니까 합 기호를 써서 간단하게 나타내 보겠습니다.
$Y$를 sum의 형태로 나타내고, sum에 제곱을 걸어줍니다. 이 때 제곱을 걸어준 후 같은 index를 사용하면 dummy index로 겹치게 되니까, 임의로 서로 다른 index로 나누어 줍니다. 저같은 경우는 $i$와 $j$를 사용했습니다(이러한 이유는 경우의 수를 나누기 위해서임).
그러면 index가 같은 경우($i=j$)와 다른 경우($i \neq j$)로 나눌 수 있습니다. 경우의 수를 생각해보면,$ i=j $인 경우 더하는 항의 갯수는 n개입니다. 그리고 나머지의 경우($i \neq j$)는 전체 가능 조합 수 $n^2$에서 index가 같은 경우를 뺀 경우의 수이므로 $n^2-n$개가 됩니다.
우리가 구해야 하는 것은 제곱의 평균이므로, 우리가 구한 결과에 평균<>을 걸어줍니다. 그리고 $<{X_i}^2>$는 분산의 정의(${\sigma_{x}}^2=<{X_i}^2>-{<X_i>}^2$)를 이용하여 다시 정리해줍니다.
그렇게 대입하고 정리하면, 결과는 $n$ 배의 분산과 $n^2$ 배의 평균 제곱의 합이 나옵니다. 아까 구한 $2$와 빼주게 되면 확률변수 $Y$의 분산은 다음과 같이 정리됩니다.
그리고 표준편차의 제곱이 분산이므로, 표준편차는 X의 표준편차보다 $\sqrt{n}$ 배 커집니다. 그런데 여기서 주목하여야 할 점은, 평균은 $n$배로 불어나지만 표준편차는 $\sqrt{n}$ 배 늘어난다는 점입니다. 그래서 표준편차를 $n$으로 나누어 주면 이 값은 $\frac{1}{\sqrt{n}}$에 비례하게 됩니다. 즉, 시행 횟수 $n$이 늘어날수록 시행 횟수에 대한 표준편차가 작아진다는 것인데요. 이걸 조금 직관적으로 돌려말하자면, '같은 시행을 반복할수록 더욱 밀집된 데이터를 얻을 수 있다'는 것 입니다. 이러한 결과들은 다양한 곳에서 사용되고 있습니다.
첫 번째 사례는 실험 측정입니다. 매번 독립적인 오차를 가진 실험을 진행하면(거의 모든 실험이 다양한 이유로 오차를 가집니다. 이 중에서 실험자가 제어할 수 없는 무작위적인 오차=체계적 오차를 고려합니다) 여러 번 반복해서 실험할수록 얻은 데이터가 평균에 가깝게 얻어진다는 것입니다. 그래서 보통 실험을 단 한 번만 하는 경우는 거의 없죠. 여러 번 반복하면서 정확도를 높이는 것입니다.
두 번째 사례는 막걷기(random walk) 개념입니다. 이것을 설명하기 위한 간단한 예시로는 만취 상태로 걷는 사람입니다. 이 술꾼이 원점에서부터 시작하여, 일정 시간이 지날 때마다 자신의 보폭 $L$만큼 앞으로 가거나 뒤로 갈 수 있다고 합시다. 앞/뒤 이동에 대한 확률은 정확히 절반씩으로 동일하다고 가정합니다. 이 때 확률이 동일하므로 이 사람이 $n$ 번의 trial 이후 이동한 변위 벡터 $X$의 평균은 당연히 0입니다. 그렇다면 전혀 이동하지 않는다는게 평균값이라는 것인데, 이것으로는 확인되지 않는 정보를 제곱평균제곱근(rms) 길이로써 알려줄 수 있습니다. 이 사람이 이동한 변위는 $0$이지만, $n$ 번의 시도 동안 이동하는 거리는 다음과 같습니다.
$n$ 번의 시도를 거치면, 첫 번째 걸음에 비해 $\frac{n}{2}$만큼 더 이동한 꼴이 됩니다. 이러한 결과는 아인슈타인이 밝혀낸 브라운 운동을 설명하는데 아주 유용한 결과가 될 것 입니다. 이것은 추후에 언급하도록 하겠습니다.
이항 분포(Binomial distribution)
독립 시행에 조금 더 조건을 가해봅시다. 독립 시행은 확률 변수가 불연속적인 경우이자, 이전의 결과 이후의 결과에 영향을 미치지 않는 시행이었습니다.
여기서 어떤 사건이 일어날 수 있는 경우의 수가 2가지이면, 이러한 시도를 베르누이 시도(Bernoulli trial)라고 합니다. 그리고 베르누이 시도를 통하여 발생하는 확률 분포를 이항 분포(Binomial distribution)라고 합니다. 예를 들어 동전 던지기라는 event를 생각해봅니다. 앞면이 나오면 성공, 뒷면이 나오면 실패를 한다고 합시다. 그래서 성공을 $1$, 실패를 $0$으로 하는 확률 변수 $x$를 생각하고, 이것의 평균과 제곱평균을 확인해봅시다.
둘 다 $p$를 가집니다. 그리고 분산은 $p(1-p)$로 나타납니다. 그리고 n번의 동전 던지기를 한다고 가정했을 때, 그 중 $k$번의 성공을 할 수 있는 경우의 수는 $ _nC_k$개 입니다. 그리고 그 확률은 $pk(1-p)n-k$ 가 됩니다. 그래서 이것을 서로 곱하고 k index를 $n$까지 더해주게 되면, 바로 모든 경우에 대한 확률(=1)이 됩니다. 이것이 1이 되는지는, 이항 정리(binomial theorem)을 이용하여 간단하게 증명할 수 있습니다.
조금 더 나아가서, 이번엔 성공횟수 $k$에 대한 평균 $$과 제곱 평균 $<k^2>$을 구해보겠습니다.
$n$번의 베르누이 시행이 발생했을 때 $ = np$임을 확인할 수 있습니다. 제곱 평균의 경우는 다음과 같습니다.
평균보다 조금 증명 과정이 깁니다. 결론적으로 $ = n^2p^2 - np^2 + np$임을 얻을 수 있었습니다. 마지막으로 분산의 정의를 이용하여 서로의 차를 구해줍니다. 그러면
분산 값은 $np(1-p)$가 됩니다! 이것의 제곱근을 취하면 표준 편차가 되겠죠. 여기서 표준편차를 평균($=$)로 나누어주면, 비대역폭(fractional width)이 됩니다. 비대역폭은 '평균에 대한 표준 편차'로 해석할 수 있습니다. 평균의 크기에 비해 얼마나 넓게 분포하냐를 보여주는데, 이 개념이 실험이나 통계적 해석에 많이 쓰이는 이유는 분포함수의 개형을 결정하기 때문입니다. sharp한 그래프는 데이터가 얼마나 명확하게 측정이 되었는가 증명해줄 수 있는 중요한 조건이 됩니다.
'물리학 > 열&통계물리학' 카테고리의 다른 글
6. 압력(Pressure) (0) | 2024.08.23 |
---|---|
5. 맥스웰-볼츠만 분포(Maxwell-Boltzmann Distribution) (0) | 2024.08.23 |
4. 온도와 볼츠만 인자(Temperature and Boltzmann factor) (0) | 2024.08.23 |
2. 열(Heat) (0) | 2024.08.20 |
1. Introduction (0) | 2024.08.15 |