중심극한정리(Central Limit Theorem) — 정의·실험·용도

중심극한정리란?

표본 크기가 충분히 크면, 모집단 분포가 무엇이든 표본 평균의 분포는 정규분포에 근접한다는 이론이다.

표본 크기 n이 커질수록 표본 평균의 분포가 정규분포로 그림 1. sample mean distribution (n이 커질수록)

임의의 분포에서 X를 추출해도 표본 크기 $n$이 커질수록 표본 평균의 분포는 정규분포에 가까워진다. 이 표본 평균의 분포는 다음과 같이 표현된다.

$$\bar{X} \sim N\!\left(\mu,\ \dfrac{\sigma^2}{n}\right)$$ 수식 1. 표본 평균의 분포

모집단으로부터 샘플링 그림 2. 모집단으로부터 샘플링

샘플링 횟수를 $M$, 한 번에 뽑는 크기(표본 개수)를 $N$이라 하자. $M=500$으로 고정하고 $N=1, 30, 300, 3000$으로 늘려가며 5가지 분포에서 샘플링했다.

실험한 분포 5가지

  1. 균일(Uniform)
  2. 가우시안(Gaussian)
  3. F 분포
  4. 카이제곱(chi-squared)
  5. 베르누이(Bernoulli)

CLT 실험

M=500, N=1 일 때 그림 3. M=500, N=1

$N=1$일 때 균일·F·베르누이는 가우시안과 크게 다르다. (카이제곱은 비교적 유사, 가우시안은 당연히 정규.)

N=30 (M=500) 그림 4. N=30 (M=500)

$N=30$이 되자 균일·F·베르누이도 서서히 가우시안 형태로 변한다.

표본 크기 30의 의미 — 표본 크기 30 이상이면 어떤 모양의 분포에서 샘플링해도 표본 평균은 정규분포로 수렴하는 경향을 보인다.

N=300 (M=500) 그림 5. N=300 (M=500)

N=3000 (M=500) 그림 6. N=3000 (M=500)

$N$이 더 커질수록 정규분포에 더 정교하게 맞아간다.

그래서 CLT는 어디에 쓰이나?

중심극한정리의 용도 그림 7. 중심극한정리의 용도

통계학의 중요한 목표 하나는 집단의 대표값인 평균을 추정하는 것이다. 실제로 관심 대상의 분포 형태는 모르는 경우가 대부분인데, CLT는 표본 크기 $N$이 커질수록 표본 평균이 정규분포에 가까워진다는 사실을 알려줘 분석에 큰 희망을 준다. $N$을 충분히 키우면 표본 평균이 정규분포를 따르고, 이를 통해 모수 추정·신뢰구간 설정이 가능하다. 단, 모집단 표준편차 $\sigma$를 모르면 정규분포 대신 t분포를 쓴다.

t분포와 z(정규)분포 사이의 관계 그림 8. t분포와 z(정규)분포 사이의 관계

t분포는 표본 표준편차 기반이라 표본 정보만으로 그릴 수 있다. 자유도(df)가 커질수록 Z분포에 가까워져, df=30(약 $N=31$)이면 거의 같아진다. 그래서 평균 검정에서 $n>30$이면 t분포·정규분포 어느 쪽을 써도 무방하고, 30 미만이면 비모수 검정이 권장된다.

결론

$N$이 30 이상이면 표본 평균의 분포는 CLT에 의해 정규분포에 가까워지지만, 실제 Z분포를 알 수 없어 t분포를 쓴다. $N \geq 30$이면 t분포도 정규분포에 가까우므로 t분포를 써도 문제없다. 즉 표본이 작을 땐 정규성 가정이 중요하지만, 커질수록 CLT 덕에 t분포로도 충분하다.


참고 문헌

  1. 통계학 기본(입문) — 자유아카데미 (전공서적)

📦 이 글은 제가 운영하던 티스토리 블로그에서 옮겨온(migration) 글입니다. 원문: taehyuklee.tistory.com/25

이 글 공유𝕏f

댓글