가설검정 이해 — 검정통계량·귀무가설·대립가설·p-value·유의수준·임계값 정리
통계를 공부하면서 가설검정 용어들(귀무가설·대립가설·검정통계량·p-value·유의수준·임계값)이 따로 놀길래, 예시 하나로 전부 연결해서 정리한 글이다. 그림은 직접 그렸다.
글의 목표
- 가설검정이 무엇인지 직관적으로 이해
- 검정통계량이 왜 도입되었는지와 그 의미 파악
- 귀무가설·대립가설의 정확한 정의
- p-value·유의수준·임계값의 정확한 개념
- 위 용어들이 가설검정에서 어떻게 매핑·사용되는지
가설검정이란?
모집단에 대한 어떤 주장을 세우고, 표본을 관찰하여 그 주장이 맞는지 틀린지 판단하는 방법
말 그대로 "가설"을 "검정"하는 것이다. 직관적인 그림으로 나타내보자.
그림 1. 모집단(평균 $\mu$)에서 30명을 추출 → 표본평균 $\bar{X}=68$ 로 "평균 나이가 70" 가설을 판단
본론 — 평균치 검정 예시
기본 스토리
한 집단의 평균 나이가 약 70세라고 가정하자. 모집단 전체를 조사할 수는 없으니 30명의 표본을 추출해 표본평균을 계산했더니 68이 나왔다.
(Q1) 표본이 가설과 맞지 않으면 가설이 틀린 것인가?
아니다. 같은 절차를 반복해도 결과가 달라지는 변동성(분산) 이 존재하기 때문에, 표본평균이 68이라고 해서 "모평균은 70이 아니다"라고 단정할 수 없다.
(Q2) 그럼 표본으로 가설을 어떻게 검증할 것인가? — 검정통계량
검정통계량 — 표본평균 같은 표본 데이터를 이용해 모집단에 대한 가설을 검증하기 위해 계산하는 수치 지표
평균 가설의 검정통계량은 다음과 같이 정의된다.
$$t = \dfrac{\bar{X} - \mu_0}{\,s / \sqrt{n}\,}$$
- 표본평균에서 가설평균을 뺀 값을 분자로 둔다 → 가설평균과 차이가 없으면 0, 있으면 0에서 멀어진다.
- 즉 가설평균과의 거리를 수치로 측정하는 값이다.
(Q3) 그럼 불확실성·변동성(분산)은 어디에 쓰이는가? — 분포
검정통계량은 t분포(스튜던트 분포) 를 따른다.
그림 3. 검정통계량이 따르는 t분포
이 분포의 특성을 통해 판단한다.
- 중앙 근처(높은 확률) : 표본평균과 가설평균의 차이가 작음 → 가설을 지지
- 양 끝(낮은 확률) : 차이가 큼 → 가설에 반함
가설검정의 의미
그림 4. 표본마다 검정통계량이 분포의 어디에 위치하는지에 따라 채택/기각
극단적인 확률 영역에서 발견된 표본은 해당 모집단에서 거의 나올 수 없으므로, 이런 표본이 관측되면 가설을 기각한다. 반대로 일반적인 확률 범위에서 발견되면 가설을 채택한다.
가설검정 용어 정의
아래 그림 하나에 모든 용어가 들어있다. 이걸 기준으로 하나씩 정의한다.
그림 5. 가설검정 용어 종합 가시화
1. 귀무가설 ($H_0$)
모집단에 대해 세운 가설. 예: "평균 나이가 70일 것이다"
2. 유의수준 ($\alpha$)
어떤 가설을 채택하거나 기각할 기준이 되는 확률
- 유의수준의 확률 영역에서 검정통계량이 발견되면 가설을 기각한다.
- 분야마다 다르다 — 자연과학은 보통 0.01, 인문·사회과학은 0.05.
- 0.05이면 양 끝 5% 극한 영역에서 기각, 가운데 95% 범위에서 채택.
3. 기각역 (Critical Region)
가설이 기각되는 확률 영역(범위).
4. 채택역 (Acceptance Region)
가설이 채택되는 확률 영역(범위).
5. 임계값 (Critical Value)
유의수준 영역의 경계가 되는 검정통계량($t$) 값
표본의 검정통계량이 임계값을 넘어서는지로 채택/기각을 판단한다.
- 검정통계량이 기각역에 있으면 → 기각
- 검정통계량이 채택역에 있으면 → 채택
6. p-value
귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률
그림 6. p-value < 유의수준 → 기각역 → 가설 기각
그림 7. p-value > 유의수준 → 채택역 → 가설 채택
- p-value < 유의수준 → 기각역에 존재 → 가설 기각
- p-value > 유의수준 → 채택역에 존재 → 가설 채택
7. 대립가설 ($H_1$)
귀무가설을 기각함으로써 반증되어 받아들여지는 가설
양측 — 평균이 70이 아니다:
$$H_0:\ \mu = 70 \quad\Longleftrightarrow\quad H_1:\ \mu \neq 70$$
단측 — 평균이 70보다 크다 / 작다:
$$H_1:\ \mu > 70 \quad\text{or}\quad \mu < 70$$
- 양측: "평균이 70이 아니다"
- 단측: "평균이 70보다 크다" 또는 "70보다 작다"
대립가설의 형태에 따라 양측검정/단측검정이 결정되고, p-value 계산 방법도 달라진다.
오류 유형
| 오류 | 상황 | 확률 |
|---|---|---|
| 1종 오류 (Type I) | 실제로 $H_0$ 가 참인데 기각 | $\alpha$ (보통 5%) |
| 2종 오류 (Type II) | 실제로 $H_1$ 이 참인데 $H_0$ 채택 | $\beta$ |
참고 — 실제 스튜던트 분포
위 그림들은 직관을 위해 단순화했고, 실제 t분포(자유도별)는 다음과 같다.
결론 요약
그림 9. 가설검정 요약
가설검정 프로세스
- 모집단에 대한 가설(귀무가설) 설정
- 가설을 평가할 검정통계량 정의 및 분포 파악
- 표본 추출 후 검정통계량 계산
- 검정통계량이 분포 내 일반적 95% 범위에 속하면 채택, 5% 극한 영역에 속하면 기각
채택/기각 판정 두 가지
- 검정통계량 방법 — 임계값과 비교
- p-value 방법 — 유의수준과 비교
주의
- 1종 오류·2종 오류의 가능성을 항상 고려
- 양측검정/단측검정에 따라 해석 방식이 달라짐
📦 이 글은 제가 운영하던 티스토리 블로그에서 옮겨온(migration) 글입니다. 원문: taehyuklee.tistory.com/15
댓글