자유도(Degree of Freedom)란 — 모분산 추정에서 n-1로 나누는 이유

모수통계학에서의 모분산 추정자유도를 정리한다. 읽고 나면 이해할 포인트:

  1. 자유도의 개념
  2. 표본의 모분산 추정량에서 n-1로 나누는 이유 - 과소추정량 관점: 편향을 보정하기 위함 - 자유도 관점: 분산의 본질적 의미 이해

본론

$$s^2 = \dfrac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$ 식 1. 표본 분산 추정

$$\sigma^2 = \dfrac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$$ 식 2. 모분산

분산/표준편차는 직관적으로 이렇게 해석된다.

  • 0) 불확실성 정도를 표현하기 위함 — 같은 시행마다 불확실성으로 다른 결과가 나오는 것을 수치화
  • 1) 평균으로부터 각 데이터의 평균 거리 — 평균값에서 데이터들이 얼마나 떨어졌는지를 거리로 표현
  • 2) 표본 평균에 대한 정밀도·설명력

분산이 '거리의 평균'이라는 직관에 앞서, 불확실성을 정량화하기 위한 기초 통계량임을 기억하자. 자세한 배경은 불확실성·변동성·분산 글 참고.

1. 왜 n-1로 나누는가?

편차·분산은 물리적으로 거리(distance) 개념인데, 표본분산의 분산 추정은 $n$이 아니라 $n-1$로 나눈다. 왜?

Answer) 단순히 표본 내부 데이터가 평균에서 떨어진 거리만 보려면 $n$으로 나누는 게 맞지만, 이 수식은 표본으로 모집단을 추정하는 추정량이다. 표본 자체 통계량보다 모수를 얼마나 잘 추정하느냐가 중요하다.

2. n으로 나누면 무엇이 문제인가?

Answer) 편향 추정, 정확히는 과소추정이 발생한다. 즉 실제 모분산보다 작게 추정된다.

3. 왜 과소추정이 일어나는가?

모집단으로부터 표본 추출 — 밀집 구간이 더 많이 반영됨 그림 1. 모집단으로부터 표본 추출

모집단에서 밀도가 높은 "Interval 1" 구간이 더 자주 샘플링되므로, 샘플링된 분포는 밀집 구간을 더 많이 반영해 모집단보다 조밀해진다. 결국 표본 그대로 $n$으로 나눠 분산을 구하면 과소추정으로 이어진다. 그래서 $n-1$로 나눠 보정한다.

$n$이 무한히 커지면 표본이 모집단에 가까워져 $n-1$ ≈ $n$이라 차이가 거의 없지만, $n$이 작을 때는 $-1$의 영향이 커진다. 즉 작은 표본에서 보정이 의미 있다.

4. 수학적으로 증명되었는가?

$$\begin{aligned} &E\big[(X_1-\bar{X})^2 + (X_2-\bar{X})^2 + (X_3-\bar{X})^2 + \cdots + (X_n-\bar{X})^2\big] \\[4pt] &= E\big[X_1^2 + X_2^2 + X_3^2 + \cdots + X_n^2 - 2(X_1 + X_2 + X_3 + \cdots + X_n)\bar{X} + n\bar{X}^2\big] \\[4pt] &= E[X_1^2] + E[X_2^2] + E[X_3^2] + \cdots + E[X_n^2] - 2n\bar{X} + n\bar{X} \\[4pt] &= E[X_1^2] + E[X_2^2] + E[X_3^2] + \cdots + E[X_n^2] - n\bar{X} \\[4pt] &= n(\mu^2 + \sigma^2) - n\!\left(\mu^2 + \dfrac{\sigma^2}{n}\right) = n\sigma^2 - \sigma^2 = \sigma^2(n-1) \\[6pt] &\Rightarrow\ \sigma^2(n-1) = E\big[(X_1-\bar{X})^2 + (X_2-\bar{X})^2 + (X_3-\bar{X})^2 + \cdots + (X_n-\bar{X})^2\big] \\[6pt] &\Rightarrow\ \sigma^2 = E\!\left[\dfrac{(X_1-\bar{X})^2 + (X_2-\bar{X})^2 + (X_3-\bar{X})^2 + \cdots + (X_n-\bar{X})^2}{n-1}\right] \end{aligned}$$ 그림 2. 모분산 추정량의 분모가 $n-1$임을 유도 (final eqn)

보조 식 (1)·(2):

$$\bar{X} = \dfrac{X_1 + X_2 + \cdots + X_n}{n} \;\Rightarrow\; n\bar{X} = X_1 + X_2 + \cdots + X_n \quad (1)$$

$$\mathrm{VAR}(X) = \sigma^2 = E[(X-\mu)^2] = E(X^2) - 2\mu E(X) + \mu^2 = E(X^2) - \mu^2 \;\Rightarrow\; E(X^2) = \mu^2 + \sigma^2 \quad (2)$$

위와 같이 직관뿐 아니라 수학적으로도 $n-1$ 보정이 증명되어 있다.

5. 자유도란 무엇인가?

"어떤 추정값을 계산할 때 실제로 독립적으로 변동할 수 있는 데이터 포인트의 수"

모집단에서 표본 5개를 뽑고 표본 평균이 20이라 하자.

  • $X_1$~$X_4$ : 모집단에서 자유롭게(독립적으로) 샘플링된다.
  • $X_5$ : 표본 평균이 20이라는 제약 때문에 나머지 값에 따라 자동으로 고정된다.

예) $X_1=25, X_2=10, X_3=15, X_4=40$이면 평균 20을 맞추려 $X_5=10$으로 고정. 즉 마지막 하나는 자유롭게 결정될 수 없다.

일반화: $n$개 중 $n-1$개는 자유롭게 추출되고 마지막 하나는 평균 제약으로 결정된다. 독립적으로 변동 가능한 수 $n-1$, 이것이 자유도다.

(여담) 기계공학에서도 x·y·z 3축 운동이면 DOF=3, x축이 제한되면 DOF=2다. 자유도의 본질은 변화 가능한 요소의 개수.

6. 분산에서 자유도의 의미는? (본질)

Answer) 표본 평균은 이미 정해져 있다고 보면, 변동성이 있는 건 $n-1$개뿐이다. $n-1$개만 모집단에서 랜덤 추출 가능하고 나머지 하나는 고정되어 모집단 분포를 따르지 않는다.

n-1개의 변동성 포인트 그림 4. n-1개의 변동성 포인트

그래서 전체 데이터의 변동성을 표현하는 $(x_i - \bar{x})^2$(각 데이터에서 표본평균을 뺀 제곱) 합을, 변동성을 띠는 데이터 수 $n-1$로 나누면 대표값인 분산이 나온다. 이것이 분산을 '평균 거리' 이전에 불확실성 관점에서 본질적으로 보는 시각이다.

모집단은 이미 exact한 값으로 모수를 계산(추정 아님)하므로 확률이 없다. 반면 표본은 아직 확률이 존재하므로 자유도가 존재한다.


참고 자료

  1. 12 Math — YouTube
  2. 통계학 입문 — 자유아카데미 (전공서적)
  3. 학교 수업 자료 — 자료분석개론

📦 이 글은 제가 운영하던 티스토리 블로그에서 옮겨온(migration) 글입니다. 원문: taehyuklee.tistory.com/14

이 글 공유𝕏f

댓글