가설검정 이해 — 검정통계량·귀무가설·대립가설·p-value·유의수준·임계값 정리

통계를 공부하면서 가설검정 용어들(귀무가설·대립가설·검정통계량·p-value·유의수준·임계값)이 따로 놀길래, 예시 하나로 전부 연결해서 정리한 글이다. 그림은 직접 그렸다.

글의 목표

  1. 가설검정이 무엇인지 직관적으로 이해
  2. 검정통계량이 왜 도입되었는지와 그 의미 파악
  3. 귀무가설·대립가설의 정확한 정의
  4. p-value·유의수준·임계값의 정확한 개념
  5. 위 용어들이 가설검정에서 어떻게 매핑·사용되는지

가설검정이란?

모집단에 대한 어떤 주장을 세우고, 표본을 관찰하여 그 주장이 맞는지 틀린지 판단하는 방법

말 그대로 "가설"을 "검정"하는 것이다. 직관적인 그림으로 나타내보자.

가설검정 개념 — 모집단에서 표본을 추출해 가설을 판단 그림 1. 모집단(평균 $\mu$)에서 30명을 추출 → 표본평균 $\bar{X}=68$ 로 "평균 나이가 70" 가설을 판단

본론 — 평균치 검정 예시

기본 스토리

한 집단의 평균 나이가 약 70세라고 가정하자. 모집단 전체를 조사할 수는 없으니 30명의 표본을 추출해 표본평균을 계산했더니 68이 나왔다.

(Q1) 표본이 가설과 맞지 않으면 가설이 틀린 것인가?

아니다. 같은 절차를 반복해도 결과가 달라지는 변동성(분산) 이 존재하기 때문에, 표본평균이 68이라고 해서 "모평균은 70이 아니다"라고 단정할 수 없다.

(Q2) 그럼 표본으로 가설을 어떻게 검증할 것인가? — 검정통계량

검정통계량 — 표본평균 같은 표본 데이터를 이용해 모집단에 대한 가설을 검증하기 위해 계산하는 수치 지표

평균 가설의 검정통계량은 다음과 같이 정의된다.

$$t = \dfrac{\bar{X} - \mu_0}{\,s / \sqrt{n}\,}$$

  • 표본평균에서 가설평균을 뺀 값을 분자로 둔다 → 가설평균과 차이가 없으면 0, 있으면 0에서 멀어진다.
  • 가설평균과의 거리를 수치로 측정하는 값이다.

(Q3) 그럼 불확실성·변동성(분산)은 어디에 쓰이는가? — 분포

검정통계량은 t분포(스튜던트 분포) 를 따른다.

t분포(스튜던트 분포) 곡선 그림 3. 검정통계량이 따르는 t분포

이 분포의 특성을 통해 판단한다.

  • 중앙 근처(높은 확률) : 표본평균과 가설평균의 차이가 작음 → 가설을 지지
  • 양 끝(낮은 확률) : 차이가 큼 → 가설에 반함

가설검정의 의미

여러 표본의 검정통계량이 분포 위 어디에 떨어지는지 그림 4. 표본마다 검정통계량이 분포의 어디에 위치하는지에 따라 채택/기각

극단적인 확률 영역에서 발견된 표본은 해당 모집단에서 거의 나올 수 없으므로, 이런 표본이 관측되면 가설을 기각한다. 반대로 일반적인 확률 범위에서 발견되면 가설을 채택한다.

가설검정 용어 정의

아래 그림 하나에 모든 용어가 들어있다. 이걸 기준으로 하나씩 정의한다.

가설검정 용어 종합 — 검정통계량, 기각역/채택역, 임계값, 유의수준 그림 5. 가설검정 용어 종합 가시화

1. 귀무가설 ($H_0$)

모집단에 대해 세운 가설. 예: "평균 나이가 70일 것이다"

2. 유의수준 ($\alpha$)

어떤 가설을 채택하거나 기각할 기준이 되는 확률

  • 유의수준의 확률 영역에서 검정통계량이 발견되면 가설을 기각한다.
  • 분야마다 다르다 — 자연과학은 보통 0.01, 인문·사회과학은 0.05.
  • 0.05이면 양 끝 5% 극한 영역에서 기각, 가운데 95% 범위에서 채택.

3. 기각역 (Critical Region)

가설이 기각되는 확률 영역(범위).

4. 채택역 (Acceptance Region)

가설이 채택되는 확률 영역(범위).

5. 임계값 (Critical Value)

유의수준 영역의 경계가 되는 검정통계량($t$) 값

표본의 검정통계량이 임계값을 넘어서는지로 채택/기각을 판단한다.

  • 검정통계량이 기각역에 있으면 → 기각
  • 검정통계량이 채택역에 있으면 → 채택

6. p-value

귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률

p-value가 유의수준보다 작아 기각되는 경우 그림 6. p-value < 유의수준 → 기각역 → 가설 기각

p-value가 유의수준보다 커서 채택되는 경우 그림 7. p-value > 유의수준 → 채택역 → 가설 채택

  • p-value < 유의수준 → 기각역에 존재 → 가설 기각
  • p-value > 유의수준 → 채택역에 존재 → 가설 채택

7. 대립가설 ($H_1$)

귀무가설을 기각함으로써 반증되어 받아들여지는 가설

양측 — 평균이 70이 아니다:

$$H_0:\ \mu = 70 \quad\Longleftrightarrow\quad H_1:\ \mu \neq 70$$

단측 — 평균이 70보다 크다 / 작다:

$$H_1:\ \mu > 70 \quad\text{or}\quad \mu < 70$$

  • 양측: "평균이 70이 아니다"
  • 단측: "평균이 70보다 크다" 또는 "70보다 작다"

대립가설의 형태에 따라 양측검정/단측검정이 결정되고, p-value 계산 방법도 달라진다.

오류 유형

오류 상황 확률
1종 오류 (Type I) 실제로 $H_0$ 가 참인데 기각 $\alpha$ (보통 5%)
2종 오류 (Type II) 실제로 $H_1$ 이 참인데 $H_0$ 채택 $\beta$

참고 — 실제 스튜던트 분포

위 그림들은 직관을 위해 단순화했고, 실제 t분포(자유도별)는 다음과 같다.

자유도별 실제 스튜던트 t분포 곡선 (출처: JMP/SAS 문서)
그림 8. 자유도에 따른 실제 스튜던트 t분포 (출처: JMP SAS 문서)

결론 요약

가설검정 전체 프로세스 요약 그림 9. 가설검정 요약

가설검정 프로세스

  1. 모집단에 대한 가설(귀무가설) 설정
  2. 가설을 평가할 검정통계량 정의 및 분포 파악
  3. 표본 추출 후 검정통계량 계산
  4. 검정통계량이 분포 내 일반적 95% 범위에 속하면 채택, 5% 극한 영역에 속하면 기각

채택/기각 판정 두 가지

  1. 검정통계량 방법 — 임계값과 비교
  2. p-value 방법 — 유의수준과 비교

주의

  • 1종 오류·2종 오류의 가능성을 항상 고려
  • 양측검정/단측검정에 따라 해석 방식이 달라짐

📦 이 글은 제가 운영하던 티스토리 블로그에서 옮겨온(migration) 글입니다. 원문: taehyuklee.tistory.com/15

이 글 공유𝕏f

댓글