중심극한정리(Central Limit Theorem) — 정의·실험·용도
중심극한정리란?
표본 크기가 충분히 크면, 모집단 분포가 무엇이든 표본 평균의 분포는 정규분포에 근접한다는 이론이다.
그림 1. sample mean distribution (n이 커질수록)
임의의 분포에서 X를 추출해도 표본 크기 $n$이 커질수록 표본 평균의 분포는 정규분포에 가까워진다. 이 표본 평균의 분포는 다음과 같이 표현된다.
$$\bar{X} \sim N\!\left(\mu,\ \dfrac{\sigma^2}{n}\right)$$ 수식 1. 표본 평균의 분포
그림 2. 모집단으로부터 샘플링
샘플링 횟수를 $M$, 한 번에 뽑는 크기(표본 개수)를 $N$이라 하자. $M=500$으로 고정하고 $N=1, 30, 300, 3000$으로 늘려가며 5가지 분포에서 샘플링했다.
실험한 분포 5가지
- 균일(Uniform)
- 가우시안(Gaussian)
- F 분포
- 카이제곱(chi-squared)
- 베르누이(Bernoulli)
CLT 실험
그림 3. M=500, N=1
$N=1$일 때 균일·F·베르누이는 가우시안과 크게 다르다. (카이제곱은 비교적 유사, 가우시안은 당연히 정규.)
그림 4. N=30 (M=500)
$N=30$이 되자 균일·F·베르누이도 서서히 가우시안 형태로 변한다.
표본 크기 30의 의미 — 표본 크기 30 이상이면 어떤 모양의 분포에서 샘플링해도 표본 평균은 정규분포로 수렴하는 경향을 보인다.
그림 5. N=300 (M=500)
그림 6. N=3000 (M=500)
$N$이 더 커질수록 정규분포에 더 정교하게 맞아간다.
그래서 CLT는 어디에 쓰이나?
그림 7. 중심극한정리의 용도
통계학의 중요한 목표 하나는 집단의 대표값인 평균을 추정하는 것이다. 실제로 관심 대상의 분포 형태는 모르는 경우가 대부분인데, CLT는 표본 크기 $N$이 커질수록 표본 평균이 정규분포에 가까워진다는 사실을 알려줘 분석에 큰 희망을 준다. $N$을 충분히 키우면 표본 평균이 정규분포를 따르고, 이를 통해 모수 추정·신뢰구간 설정이 가능하다. 단, 모집단 표준편차 $\sigma$를 모르면 정규분포 대신 t분포를 쓴다.
그림 8. t분포와 z(정규)분포 사이의 관계
t분포는 표본 표준편차 기반이라 표본 정보만으로 그릴 수 있다. 자유도(df)가 커질수록 Z분포에 가까워져, df=30(약 $N=31$)이면 거의 같아진다. 그래서 평균 검정에서 $n>30$이면 t분포·정규분포 어느 쪽을 써도 무방하고, 30 미만이면 비모수 검정이 권장된다.
결론
$N$이 30 이상이면 표본 평균의 분포는 CLT에 의해 정규분포에 가까워지지만, 실제 Z분포를 알 수 없어 t분포를 쓴다. $N \geq 30$이면 t분포도 정규분포에 가까우므로 t분포를 써도 문제없다. 즉 표본이 작을 땐 정규성 가정이 중요하지만, 커질수록 CLT 덕에 t분포로도 충분하다.
참고 문헌
- 통계학 기본(입문) — 자유아카데미 (전공서적)
📦 이 글은 제가 운영하던 티스토리 블로그에서 옮겨온(migration) 글입니다. 원문: taehyuklee.tistory.com/25
댓글