평균치 검정 — t검정 (One / Two: Student's·Welch's / Paired)

목차

  1. 평균치 검정의 당위성 (왜 필요한가? feat 불확실성/변동성)
  2. 평균치 검정의 정의·이해
  3. 가정 (정규성, 등분산성)
  4. 종류 및 계산 예시

서론 — 의문에서 출발

두 집단의 평균을 비교해 수치가 다르다고 정말 다른 걸까? 단순 변동성(불확실성) 때문에 표본 평균이 다를 수도 있는 것 아닌가? 이 의문을 이해해야 평균치 검정, 나아가 가설검정을 이해할 수 있다.

독립된 두 집단 (평균과 분산은 같다) 그림 1. 독립된 두 집단 (평균과 분산은 같다)

1번·2번 약 효과를 비교하려 동일 체질 집단에 각각 투여했다고 하자. 실제로 두 약의 평균 효과·분산은 같다. 그런데 표본을 뽑아 관찰하니 1번 평균은 ①, 2번 평균은 ②에 나왔다. 표본 평균이 다르다고 효과가 다르다 결론지을 수 있을까? 아니다. 효과는 같은데 변동성 때문에 평균이 다르게 나온 경우다.

유의수준 5% — 3번 약물 예시 추가 그림 2. 유의수준 5% : 3번 약물 예시 추가

따라서 특정 평균이 단순 변동성에 의한 일반적(95%) 결과인지, 변동성을 넘은 극단(5%) 결과인지 판단하는 것이 평균 검정의 핵심이다. 그림2에 X3 분포를 추가했다. 직관적으로 X1·X2 평균은 같다고, X3 평균은 다르다고 볼 수 있다.

$$\bar{X}_1 \sim (\mu_1,\ \mathrm{std}_1) \qquad \bar{X}_2 \sim (\mu_2,\ \mathrm{std}_2)$$

$$\Downarrow$$

$$\bar{X}_1 - \bar{X}_2 \sim (0,\ \mathrm{std}_{\text{combined}})$$

세 분포를 다 펼쳐 두 집단 평균이 같은지 판단하긴 어렵기에, 검정통계량으로 평균을 비교하는 게 '평균치 검정'이다.

(여담) "3번 분포 표본이 1·2번의 95% 안에 들어오면?" 반대로 "1·2번이 실제 같은데 우연히 5%에서 발견되면?" — 이 의문이 들었다면 1종·2종 오류를 이해할 준비가 된 것. (이 글 주제는 아니므로 생략)

본론

1. 평균치 검정이란?

두 집단의 평균이 통계적으로 유의미하게 같은지/다른지 판단하는 기법.

2. 가정

가정은 그 위에 이론이 성립한다는 의미다. 충족 여부에 따라 쓰는 기법이 달라진다.

2.1 정규성 가정

t검정은 모집단이 정규분포를 따른다는 가정하에 수행된다. 특히 표본이 작을 때 중요하다.

자유도(df)가 커질수록 t분포는 Z분포에 가까워진다 참고 — 표본 크기(df)가 커질수록 t분포는 Z분포에 근접 (df=30이면 거의 Z분포)

  • 표본이 충분히 크면($n>30$) 중심극한정리로 표본평균이 정규분포에 가까워져, 모집단이 완벽한 정규성을 안 따라도 t검정을 쓸 수 있다.

Q. CLT로 표본평균이 정규분포를 따르는데 왜 Z분포 대신 t분포를 쓰나요?
A. 자유도가 커지면 어차피 t→Z이고, Z분포를 쓰려면 모집단 표준편차를 알아야 하는데 우리는 모른다.

데이터가 적고 정규성을 안 따르면 비모수 검정(Mann-Whitney U, Wilcoxon 부호순위 등)을 쓴다.

2.2 등분산성 가정

독립표본 t검정(Two Sample)에만 해당한다. 서로 독립인 두 집단의 평균 차이를 비교하기 때문. (One Sample은 기준값과 비교라 등분산 체크 불가, Paired는 같은 집단의 두 측정값이라 불필요.)

Q. 분산이 다른 걸 알고도 Two Sample t-test를 하면?
A. 예: 신약 실험군의 분산이 매우 크다면, 평균 차이가 유의미해도 개별 환자 간 효과 차이가 크다는 뜻 — 누군가에겐 효과 없거나 악화될 수 있어 신뢰성·일관성이 떨어진다.

3. 종류

3.1 일표본 t검정 (One Sample)

  • 목적: 한 표본 평균이 특정 기준값과 유의미하게 다른지
  • 예시: 신약 투약 후 혈압이 기준(120)과 다른지
환자 투약 후 혈압 (mmHg)
1 118
2 121
3 119
4 117
5 120

$$t = \dfrac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

표본 평균이 기준 평균과의 차이가 0에서 멀수록 다르고, 0에 가까울수록 같다. 표준편차로 나눠 표준화한다. 이 통계량은 t분포를 따른다.

$$t = \dfrac{\bar{x} - \mu_0}{s / \sqrt{n}} = \dfrac{119 - 120}{1.58 / \sqrt{5}} = -1.41$$ One Sample t-test t-value 계산 결과

One Sample 가설검정 (t분포) 그림 3. One Sample t-test 가설 검정 (t분포)

자유도 4인 t분포에서 p-value를 계산. 같냐 다르냐 판단이라 양측검정(각 측 유의수준 0.025). t-value −1.41 이하 영역의 p-value는 0.2313 > 0.025 → 귀무가설 기각 불가 = 유의미한 차이 없음(채택).

3.2 독립표본 t검정 (Two Sample)

  • 목적: 독립인 두 집단 평균이 유의미하게 다른지
  • 예시: 약물 복용/미복용 집단의 평균 혈압 비교
환자 집단 투약 후 혈압
1 복용 115
2 복용 118
3 복용 116
4 미복용 122
5 미복용 124

두 집단이 등분산일 때와 아닐 때로 나뉜다.

a) 등분산 만족 — Student's t-test (Pooled)

$$t = \dfrac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}}, \qquad s_p = \sqrt{\dfrac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}}$$

$$t = \dfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{s_p^2\left(\dfrac{1}{n_1} + \dfrac{1}{n_2}\right)}} = \dfrac{116.23 - 123}{\sqrt{2.223\left(\dfrac{1}{3} + \dfrac{1}{2}\right)}} \approx -4.91$$ Student's t-test t-value 계산 결과

Student's t-test 가설검정 (t분포) 그림 4. Student's t-test 가설 검정 (t분포)

t-value −4.91 이하 영역 p-value 0.0162 < 0.025 → 귀무가설 기각, 대립가설 채택(두 집단 평균이 다름).

b) 등분산 불만족 — Welch's t-test

$$t = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}}$$

$$t = \dfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}} = \dfrac{116.33 - 123}{\sqrt{\dfrac{2.33385}{3} + \dfrac{2}{2}}} \approx \dfrac{-6.67}{1.3334} \approx -5.00$$ Welch's t-test t-value 계산 결과

Welch's t-test 가설검정 그림 5. Welch's t-test

t-value −6.47 이하 영역 p-value 0.0137 < 0.025 → 귀무가설 기각, 대립가설 채택.

3.3 대응표본 t검정 (Paired Sample)

  • 목적: 동일 집단의 대응하는 두 측정값의 평균 차이 비교
  • 예시: 약물 투여 전후 혈압 변화 (공정 전후·임상 전후·PT 전후 등)
환자 투약 전 투약 후
1 130 120
2 128 119
3 135 125
4 132 123
5 129 121

$$t = \dfrac{\bar{d}}{s_d / \sqrt{n}}$$

$$\begin{aligned} D_i &= [\,130-120,\ 128-119,\ 135-125,\ 132-123,\ 129-121\,] = [\,10,\ 9,\ 10,\ 9,\ 8\,] \\[6pt] \bar{D} &= \dfrac{10 + 9 + 10 + 9 + 8}{5} = 9.2 \\[6pt] s_D &= \sqrt{\dfrac{(10-9.2)^2 + (9-9.2)^2 + (10-9.2)^2 + (9-9.2)^2 + (8-9.2)^2}{5 - 1}} \approx 0.84 \\[6pt] t &= \dfrac{\bar{D}}{s_D / \sqrt{n}} = \dfrac{9.2}{0.84 / \sqrt{5}} \approx 24.5 \end{aligned}$$ Paired Sample t-test t-value 계산 과정 및 결과

대응되는 표본들의 차이값($D_i$)으로 평균·분산을 구한다.

Paired t-test 가설검정 그림 6. Paired t-test

t-value 24.50 이상 영역 p-value ≈ 0 < 0.025 → 귀무가설 기각, 대립가설 채택(전후 평균이 다름).

맺음말

평균치 검정은 두 집단 평균 차이가 단순 변동성 때문인지, 실제 차이인지 판단하는 기법이다. 가정(정규성·등분산성)과 종류별 계산을 예시로 살펴봤다.


참고 문헌

  1. 통계학 기본(입문) — 자유아카데미 (전공서적)
  2. 자료분석 개론 — 수업 자료
  3. Wikipedia — Welch's t-test / Student's t-test

📦 이 글은 제가 운영하던 티스토리 블로그에서 옮겨온(migration) 글입니다. 원문: taehyuklee.tistory.com/24

이 글 공유𝕏f

댓글