불확실성·변동성·분산 — 확률의 본질로 이해하기
이 글의 목표는 확률의 본질을 불확실성·변동성·분산 개념으로 설명하는 것이다. 대학 통계학 수업에서 깊게 고민했던 내용을 정리했다.
1. 불확실성이란?
같은 수행을 하더라도 통제할 수 없는 변인 때문에 계속 다른 결과가 나오게 하는 근본 원인이다. (확률이 존재할 수 있게 하는 근본 원인이라 볼 수 있다.)
예를 들어, 종이비행기를 똑같은 힘·방향으로 10번 날린다고 그 비행기가 10번 모두 같은 지점에 떨어질까? 아니다. 바람처럼 통제할 수 없는 변수가 들어가 결과는 계속 달라진다.
2. 변동성이란?
여기서 변동성 개념이 나온다. 수행할 때마다 결과가 달라질 수 있는 성질로, 표본의 각 데이터 포인트($X_1, X_2, \dots$)마다 적용된다.
그림 1. 변동성을 설명하기 위한 그림
각 데이터 포인트를 샘플링할 때, 모든 포인트는 모집단에서 랜덤 샘플링되므로(불확실성) $X_1$이 3이 될 수도, 5가, 10이, 심지어 극단적으로 100000이 될 수도 있다. 이 성질을 변동성이라 부른다.
3. 분산이란?
불확실성·변동성을 수학적으로 표현하려면, 집단을 대표하는 값인 기댓값(평균)을 기준으로 각 데이터가 떨어진 정도를 계산해 평균내면 된다. 이것이 분산이고, '평균 거리'의 개념이 된다.
분산을 왜 이런 수식으로 정의했을까?
$$s^2 = \dfrac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2 \qquad\qquad \sigma^2 = \dfrac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$$ 표본 분산($s^2$) · 모분산($\sigma^2$)
그림 2. 분산이 불확실성을 대표하는 통계량인 이유
평균은 집단을 대표하는 값이다. 하지만 각 데이터가 평균에서 멀리 떨어질수록 평균의 설명력은 줄고, 즉 불확실성이 늘어난다.
그림 2의 (a)는 평균이 $X_1$~$X_5$ 근처에 있어 평균으로 대부분을 설명할 수 있지만, (b)는 데이터가 평균에서 멀어 평균만으로 설명하기 어렵다. (a)는 불확실성이 낮아 평균을 대표값으로 써도 무리가 없고, (b)는 불확실성이 높아 대표값으로 쓰기 무리가 있다.
즉 불확실성을 평균으로부터 튀는 정도 = 평균으로부터의 거리로 표현해 정량화할 수 있다. 분산이 높을수록 같은 수행에서 튀는 정도가 커, 평균과 동떨어진 엉뚱한 데이터가 나올 가능성이 높다.
요약
- 불확실성 — 우리가 통제할 수 없는 변인/원인
- 변동성 — 불확실성에 의해 수행할 때마다 결과가 달라지는 성질
- 분산 — 불확실성/변동성을 수학적으로 수치화한 통계량
참고 자료
- 통계학 입문 — 자유아카데미 (전공서적)
- 학교 수업 자료 — 자료분석개론
📦 이 글은 제가 운영하던 티스토리 블로그에서 옮겨온(migration) 글입니다. 원문: taehyuklee.tistory.com/13
댓글