눈앞에서 보는 이항분포와 정규분포: 갈튼 보드 원리와 숨겨진 확률의 비밀

갈튼보드를 아시나요? 혹시 낯선 분이라면, 제 말로 된 설명보다 아래의 짧은 유튜브 영상 하나를 보시는 게 가장 빠를 겁니다. 핀 사이로 구슬들이 ‘콩콩콩’ 튕기며 바닥에 종 모양으로 쌓이는 모습을 한눈에 볼 수 있는데요. 짧지만 생각보다 꽤 재미있고 흥미롭습니다.

통계학과 건물에 가면 갈튼 보드(Galton board)가 거의 한 대씩 있는 것도 묘한 전통처럼 느껴집니다. 핀들이 빼곡하게 박혀 있고, 위에서 구슬을 떨어뜨리면 “콩콩콩” 튕기면서 아래 통에 종 모양으로 쌓이죠.

블로그 글을 작성함에 있어서 최대한 정확한 정보를 제공하고자 노력하고 있습니다만, 간혹 오류가 있을 수 있습니다. 발견시 댓글 달아주시면 정정하겠습니다. 블로그의 링크들을 통하여 구매하시면 소정의 커미션이 슬통에 들어옵니다.

image

한 번이면 우연, 반복이면 가정(모형) 점검, 모든 설명을 지웠는데도 반복되면… (상상 속) 코스믹 호러.

참고로 저도 통계학 석사할 때 하나 사서 가지고 있습니다.
책에서 보던 “이항분포 → 정규근사”가 눈앞에서 재현되는 게 은근히 감동적입니다.

그런데 갈튼 보드를 보다 보면 이런 질문을 던져볼 수 있습니다.

“만약 구슬이 양쪽 끝에만 떨어진다면, 그건 어떤 의미일까?”
“그리고 그런 일이 반복해서 일어난다면, 그건 어떤 의미일까?”

이 글은 그 질문에 대한 ‘통계학적’ 답을, 가능한 한 대중분들도 쉽고 재미있게 이해해 보실 수 있도록 쉽게 정리해 본 것입니다.

(참고로 아래에서 P()P(\cdot)“사건 \cdot 가 일어날 확률”이라는 뜻으로 쓰겠습니다.)

1) 갈튼 보드는 왜 ‘이항분포’를 눈앞에서 보여줄까?

갈튼 보드의 핵심은 단순합니다.

  • 구슬이 핀에 부딪힐 때마다 왼쪽 또는 오른쪽으로 튕긴다.
  • 그 선택이 여러 번 누적되면, 마지막에 떨어지는 위치가 결정된다.

여기서부터는 현실을 잠깐 단순화해서 “모형”으로 생각해 봅시다.

  • 구슬이 방향을 “결정”하는 기회가 총 nn번 있다.
  • 매번 왼쪽/오른쪽으로 갈 확률이 정확히 12\frac{1}{2}​씩이다(완전 대칭).
  • 각 단계는 서로 영향을 주지 않는다(독립).
    즉, “아까 왼쪽 갔다고 다음도 왼쪽 갈 확률이 달라지지 않는다”는 가정이다.

이때 “오른쪽으로 간 횟수”를 XX라고 하면, XX는 다음과 같은 이항 분포를 따르게 됩니다.XBinomial ⁣(n,12).X \sim \mathrm{Binomial}\!\left(n,\frac{1}{2}\right).

직관적 해석

갈튼 보드에서 구슬이 오른쪽으로 간 횟수는 ‘동전을 nn번 던졌을 때 앞면이 나온 횟수’와 같은 분포다.

그리고 nn번 중 정확히 kk번 오른쪽으로 갈 확률은 다음과 같습니다.P(X=k)=(nk)(12)n,k=0,1,,n.P(X=k) = \binom{n}{k}\left(\frac{1}{2}\right)^n, \qquad k=0,1,\dots,n.

직관적 해석

nn번 중 kk번 오른쪽으로 가는 경우의 수( (nk)\binom{n}{k})에, 각 경우가 일어날 확률 (12)n(\frac{1}{2})^n을 곱한 것.

구슬을 많이 떨어뜨리면 가운데가 두껍고 양쪽이 얇아지는 종 모양이 나타나는 이유가 여기 있습니다.
(그리고 nn이 커질수록 이 종 모양은 점점 ‘정규분포 같은 느낌’으로 보입니다.)

2) “양쪽 끝”은 얼마나 드문 사건일까?

갈튼 보드에서 “양쪽 끝”은 사실상 이런 사건입니다.

  • 맨 왼쪽 끝: k=0k=0 (매번 왼쪽만 감)
  • 맨 오른쪽 끝: k=nk=n (매번 오른쪽만 감)

즉, 동전을 nn번 던졌는데 전부 같은 면만 나온 것과 같은 것이죠.

image 1

여기서 직접 구슬 한 개가 양끝 중 하나로 갈 확률을 계산해보겠습니다.P ⁣(X{0,n})=P(X=0)+P(X=n)=2(12)n=21n.P\!\bigl(X\in\{0,n\}\bigr) = P(X=0)+P(X=n) = 2\left(\frac{1}{2}\right)^n = 2^{\,1-n}.

직관적 해석

한쪽 끝으로 갈 확률이 (12)n(\frac12)^n이므로, 양쪽 끝으로 갈 확률은 그것의 두 배 21n2^{1-n} 가 됩니다.

이 ‘끝으로 갈 확률’을 앞으로는 헷갈리지 않게 rr이라고 부르겠습니다.r:=P ⁣(X{0,n})=21n.r := P\!\bigl(X\in\{0,n\}\bigr)=2^{\,1-n}.

예를 들어 n=12n=12면 일 때 확률 r은 아래와 같습니다.r=2112=211=120480.000488.r = 2^{\,1-12}=2^{-11}=\frac{1}{2048}\approx 0.000488.

0.0488%0.0488\%. 아주 드물지만, ‘언젠가 한 번쯤’은 볼 수도 있는 수준.

여기까지는 상식적인 이야기죠. 확률이 0이 아니면, 아주 가끔은 사건이 일어날테니. 🙂

3) 진짜 문제는 “반복”이다

여기서 재미있는 상상을 해 보겠습니다.

  • 구슬을 여러 개 떨어뜨렸는데
  • 가운데는 거의 비고
  • 양쪽 끝에만 쌓인다

여기서부터는 확률이 정말 극단적으로 낮아 집니다.

3-1) “모든 구슬이 양끝으로만” 간다면

(또 한 번의 이상적 상황으로) 구슬들 사이가 역시 서로 독립이라고 가정해 봅시다.
그러면 구슬 mm개가 전부 양끝으로만 갈 확률은rm=(21n)m=2m(1n).r^m = \left(2^{\,1-n}\right)^m = 2^{\,m(1-n)}.

직관적 해석

특정 사건이 발생할 확률 rr이라면, 그 사건이 mm번 연속으로 일어날 확률은 rmr^m이 됩니다.

예를 들어 n=12n=12이라고 가정해봅시다. 그러면 구슬 30개가 전부 양끝으로만 갈 확률은 다음과 같이 계산 가능합니다.(12048)30=21130=23301099.34.\left(\frac{1}{2048}\right)^{30} = 2^{-11\cdot 30} = 2^{-330} \approx 10^{-99.34}.

위 식에 r=12048r=\frac{1}{2048}이고, m=30m=30을 대입한 결과죠. 참고로 109910^{-99} 는 소수점 아래에 0이 98개 붙은 것입니다.

이 확률은 한국 로또 6/45 1등 확률(약 1.23×1071.23\times10^{-7})보다 2.7×10922.7\times10^{92}배 더 낮습니다!

이쯤 되면 “그냥 정말 드문 일”이 아니라, 현실에서 관측되면 먼저 모형부터 의심해야 하는 수준이 되는 것입니다.

통계학 언어로 말해보면:

통계 추론 과정
  1. 귀무가설 H0H_0​: “각 단계는 12\frac{1}{2}로, 독립적으로 튕긴다.”
  2. 관측: “mm개가 전부 양끝으로만 갔다.”
  3. 결론: H0H_0​ 하에서는 거의 불가능한 데이터이므로 H0H_0을​ 기각(reject)한다.

여기서 “기각”은 거창한 말이 아닙니다. 쉽게 생각 해서 이런 뜻입니다.

상황을 설명하기 위해 가정을 세웠는데,
그것과 맞지 않는 현상이 관측된다면, 가정(모형)이 틀렸을 확률이 크다.

3-2) 중요한 구분: 단순 편향만으로 ‘양끝만’이 되진 않는다

여기서 자주 생기는 오해가 하나 있습니다.

보드가 살짝 기울었거나, 왼쪽/오른쪽 확률이 12\frac12​가 아니면
양끝에만 쌓일 수도 있지 않나?

이 점에 대해서 한번 체크 해 보겠습니다.

일단, “한 단계에서 오른쪽으로 갈 확률”을 qq라고 해 보겠습니다.
대칭이면 q=12q=\frac12고, 기울어지거나 시작점이 어긋나면 q12q\neq\frac12일 수 있습니다.

직관적 해석

보통 q12q\neq\frac12 같은 단순 편향은 결과를 “양끝”으로 밀어내기보다는, 종 모양을 한쪽”으로 밀어버리게 됩니다.

즉, 그래프의 모양이 봉우리가 하나인 단봉(unimodal) 형태가 유지되는 경우가 많죠.

4) 반복되는 이상현상이 나오면, 현실에서는 뭘 의심해야 할까

데이터가 이상하면 통계학자는 “자연 현상”이 아니라 “장치와 가정”을 먼저 의심해야 합니다. 갈튼 보드는 특히나 그렇습니다. 자 이제 하나씩 의심해야 할 부분들을 체크 해 보겠습니다.

4-1) 대칭이 깨졌다: q=12q=\frac12 가정이 무너짐

  • 보드가 미세하게 기울어져 있다
  • 시작점이 중앙이 아니다
  • 핀 배열이 완전 대칭이 아니다
  • 마찰·탄성·정전기 같은 물리적 요소가 특정 방향으로 누적된다

이 경우는 대개 한쪽으로 치우친 종 모양이 나온다.

4-2) 독립이 깨졌다: “레일 효과(기억)”가 생김

이항분포 모델의 핵심 가정은 “각 튕김이 독립”이라는 것이었습니다.
그런데 현실에서는 독립이 생각보다 쉽게 깨질 수 도 있습니다.

예를 들면 이런 느낌입니다.

  • 구슬이 어떤 핀을 맞는 순간 미세한 스핀/궤적이 생겨, 이후에도 비슷한 방식으로 튕긴다.
  • 어느 쪽으로 조금이라도 흐름이 잡히면, 그 흐름이 다음 충돌에서 더 커지는 양의 피드백이 생긴다.

비주얼 하게 표현해 본다면:

image 2
  1. 처음에 아주 작은 우연으로 왼쪽으로 살짝 치우쳤는데, 그 치우침이 다음 단계에서 더 커지고, 또 더 커져서…
  2. 마치 보드 안에 “왼쪽 레일 / 오른쪽 레일” 같은 보이지 않는 홈이 생긴 것처럼 움직이는 상황이다.
  3. 이게 생기면 가운데는 비고 양끝이 두꺼운 쌍봉 모양도 충분히 가능해진다.

즉, 갈튼 보드는 “랜덤을 보여주는 장난감”인 동시에

내가 믿고 있던 가정(대칭, 독립)이 진짜 성립하는지
아주 직관적으로 드러내는 가정 탐지기

가 될 수 있다는 것입니다!

4-3) 사실은 두 세계가 섞였다: 혼합(mixture)

이런 상황도 생각해 볼 수 있습니다. 겉보기엔 같은 구슬을 떨어뜨리는 것 같아도 실제로는

  • 구슬 표면 상태가 조금 다르거나
  • 무게가 미세하게 다르거나
  • 출발 순간의 스핀/속도가 다르거나
  • 사람이 놓는 방식이 매번 다르거나

…등의 이유로, 각 구슬이 따르는 “실질 확률”이 같지 않을 수 있습니다.

image 3

이런 차이가 쌓이면 결과가 단일한 종 모양이 아니라,
마치 두 봉우리가 섞인 것처럼 보이는 패턴이 나올수도 있습니다.
(통계에서 혼합모형이 등장하는 이유가 딱 이런 직관입니다.)

5) 그런데… 모든 의심점들을 체크 하고 확인했는데도 반복된다면?

여기서부터는 진지한 실험 보고서가 아니라 일종의 사고실험입니다.

  • 보드는 완벽히 수평
  • 시작점도 정확히 중앙
  • 핀도 완전 대칭
  • 마찰/탄성/정전기 같은 편향도 최대한 제거
  • 독립을 깨뜨릴 만한 구조도 제거

그런데도 구슬이 계속 양끝에만 쌓인다?

그때는 통계학적으로 할 말이 점점 줄어듭니다. 즉,
“우연”이라는 말은 숫자에서 탈락했고, “편향”이라는 말도 더는 통하지 않습니다.

그건 데이터가 이상한 게 아니라, 우리가 세계를 이해하는 방식. 즉, 확률이라는 언어가 흔들리는 느낌입니다.

그래서 저는 이런 순간을(농담 반, 상상 반으로) 이렇게 부르고 싶네요.

코스믹 호러. 🙂

확률이라는 언어가 세계를 요약해 준다고 믿었는데,
그 언어가 계속 틀리는 우주.
법칙이 아니라 예외가 반복되는 우주.
종 모양이 아니라 양끝으로 찢어진 모양이 “정상”인 우주.

갈튼 보드가 통계 장난감이 아니라 “현실의 균열을 감지하는 탐지기”가 되는 이야기.
단편 공포영화 소재로도 꽤 그럴듯합니다.

PD-LABEL
갈튼 보드

확률 이항 분포기 교육 수업 분포모델 교구

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

galton board

결론: 갈튼 보드가 주는 통계학적 감각

정리하면 이렇습니다.

  • 한 번 양끝으로 간다
    → “드문 일도 일어난다.”
  • 계속 양끝으로 간다
    → “대칭(q=12q=\frac12)이나 독립 같은 가정이 깨졌거나, 숨은 구조가 있다.”
  • 모든 설명을 지웠는데도 계속된다
    → “그때는… (상상 속) 코스믹 호러다.”

통계학은 결국 “우연처럼 보이는 것들 속에서 구조를 찾아내는 학문”이고,
가끔은 그 과정이 무섭도록 철학적으로 느껴질 때가 있습니다.

갈튼 보드는 그것을 손바닥만 한 크기로 보여줍니다.
구슬이 어디로 떨어졌는지보다 더 중요한 건, 그 결과가 내 가정과 얼마나 충돌하느냐입니다.


당신이 좋아할 만한 콘텐츠

by Google Adsense


관련 글 보기