본문 바로가기

카테고리 없음

수학 - Central Limit Theorem과 z-score

이번에 다룰 내용은 이전에 다뤘던 확률과 통계에서 더욱 확장된 개념으로

Central Limit Theorem과 z-score에 대해서 다루도록 하겠습니다.

Central Limit Theorem는 한국어로는 중심 극한 정리라 부릅니다.

이 정리는 독립적이고 동일하게 분포된 무작위 표본의 평균이, 표본의 크기가 충분히 큰 경우에,

가까운 정규분포를 따른다는 통계학의 기본 정리입니다. 

용어가 복잡하고 익숙하지 않아 이러한 설명으로는 이해가 어렵습니다.

이해를 돕기위해 예시를 하나 가져오겠습니다.

 

어떠한 학교에 10000명의 학생이 있습니다.

이 학생들의 키를 우리가 알지 못합니다.

여기서 CLT를 사용하여 학생들의 평균 키를 유추할 수 있습니다.

먼저 10명의 학생을 무작위로 선별합니다. 

그 후 그 10명의 학생들의 키의 평균을 측정합니다.

이 방식을 100번 반복합니다. 

그러면 우리는 10명의 키로 구한 평균값을 100개 가지게 됩니다.

이 값은 정규 분포의 형태를 띄게 되며 대부분의 평균값이 실제 평균값 주변에 모여있게 됩니다.

 

이러한 방식은 실제 표본의 숫자가 너무 많아 측정이 불가하거나 모든 표본을 측정하기엔 파괴적인 경우에 효과적입니다.

효율성에서도 뛰어나며 신뢰도가 뛰어납니다.

다만 그 신뢰성을 높히기위해선 모집단의 표본이 충분히 필요합니다.

위의 예시에서는 100번을 반복해 시도하였으나 보통 30번 정도를 충분한 표본으로 측정합니다.

 

그렇다면 우리가 측정한 표본이 표본의 평균과 얼마나 차이가 있는 값인지 어떻게 알 수 있을까요.

그것을 측정하는 수치가 z-score 입니다. 

이러한 공식을 사용하며 는 관측값, 는 평균, 는 표준편차입니다. 

이 값은 0에 가까울수록 평균에 가까운 값이며 ± 3안에 99%의 데이터가 들어가 있습니다.

즉 z 값의 절대값이 클수록 평균과 차이가 많이 나는 값임을 의미합니다.

 

이러한 개념을 이용하여 문제를 풀어보겠습니다.

A dice is continuously rolled 59 times. What is the probability that the total sum of all rolls does not exceed 225?

주사위를 59번 연속하여 굴려서 그 총 합이 225를 넘지 않을 확률을 구하시오 라는 문제입니다.

 

주사위의 평균은 (1+2+3+4+5+6) / 6 인 3.5입니다.

분산은 [ (1-3.5)^2 + (2-3.5)^2 + (3-3.5)^2 + (4-3.5)^2 + (5-3.5)^2 + (6-3.5)^2] / 6 입니다.

대략 2.92의 값입니다.

이 값에 시행횟수를 곱한뒤 제곱근을 씌우면 표준 편차를 구할 수 있습니다.

이 문제에서 주의해야할 부분은 histogram correction입니다.

한국어로 히스토그램 교정이라 하는 이 부분은 이산 확률 변수를 연속 확률 변수로 근사할 때 사용되며,

구체적으로는 목표하는 값에 0.5를 더하거나 빼서 연속 확률 분포에 더 잘 맞도록 조정하는 방법입니다.

즉, 225가 아니라 225.5를 기준으로 사용하여 확률을 계산합니다.

 

계산해보면 대략 ( 225.5 - 3.5 * 59) / sqrt( 2.92 * 59 ) = 1.4475586 이란 값이 나오게됩니다.

이 값을  z-table에 대입해보면 그 값에 따른 누적 확률치를 알 수 있습니다.

 

여기서 1.4475586에 맞는 값을 찾으면 대략적으로 0.9251에서 0.9265, 즉 

92.51%에서 92.65% 사이의 값임을 알 수 있습니다.

즉 주사위를 59번 굴려서 225를 넘지 않을 확률은 약 92.55%정도라는것을 알 수 있습니다.

 

또 다른 문제를 풀어보겠습니다. 

A dice is continuously rolled until the total sum of all rolls exceeds 175. 

What is the probability that at least 50 rolls are necessary?

주사위를 연속해서 굴려 그 총합이 175가 넘을때까지 굴리려면 최소 50번 이상을 굴려야 할 확률을 구하시오.

 

이 문제는 처음 봤을땐 어렵게 보일 수 있으나 사실 위의 문제와 동일한 문제입니다.

주사위의 총합이 175가 될때까지 굴린다라는 것은 그 이전의 시행에서 175를 넘지 않았다라는 의미이고

50번이 필요한지를 묻고 있기 때문에 49번째의 시행에서 175를 넘지않는다면 필연적으로 175를 넘기위해선 

50번째의 시행이 필요하게 되기때문에 그 경우를 계산해주면 됩니다.

말을 바꾸고 보니 위에 문제와 숫자만 다르고 동일한 문제가 되었습니다.

이전 문제와 동일한 방식으로 문제를 풀면 약 63%라는 결과가 나오게 됩니다.

 

이러한 문제는 사실 우리의 생활에서 쉽게 생각해 볼 수 있는 케이스이지만

확률을 쉽게 계산하지는 못하는 어려움이 있는 문제였습니다.

이러한 방식을 통해서 더 정확한 확률을 측정해 볼 수 있습니다.