Monty Hall Problem
미국에서 오랫동안 인기를 얻었던 'Let's Make a Deal'이라는 프로그램은, 진행자 Monty Hall(1921~2017)이 어떤 참가자에게 1,2,3번이 매겨진 장막 중 한 개를 고르게 하여 현금 또는 자동차를 상품으로 주거나 당나귀, 돼지, 염소 등 '꽝' 상품을 주는 30분짜리 TV 게임쇼였습니다. 1975년에 미국의 통계학자인 Steve Selvin(1941~)은 이 프로그램에서 영감을 얻어 아래와 같은 유명한 문제(Monty Hall Problem)를 만들어냅니다.
Suppose you're on a game show, and you're given the choice of three doors: Behind one door is a car; behind the others, goats. You pick a door, say No. 1, and the host, who knows what's behind the doors, opens another door, say No. 3, which has a goat. He then says to you, "Do you want to pick door No. 2?" Is it to your advantage to switch your choice?
참가자가 한 개의 문을 골랐는데 진행자가 염소가 숨어있는 한 개의 문을 공개했을 때, 참가자가 기존의 선택을 고수할 것인지, 선택을 바꿀 것인지가 중요한 쟁점이 됩니다. 어차피 선택지는 2개가 남았으니 확률은 50:50인걸까요? 1990년에 미국의 칼럼니스트 Marilyn vos Savant는 잡지 Parade에서 "선택을 바꾸는 것이 참가자에게 유리하다"는 논증을 제시하면서 이 문제가 대중화되기 시작했습니다. 문제처럼 참가자가 1번 문을 골랐을 때, 자동차가 어느 문 뒤에 있는지 경우를 나누어 살펴보았을 때 1번 문에 머물러있는 것보다 다른 문으로 옮겨갈 때 자동차를 고를 경우의 수가 많아진다는 것이었죠. 참가자가 1번 문을 고르고, 진행자가 1번 문이 아닌 문 중 염소가 있는 문을 공개했을 때 참가자가 자동차를 가져가는 경우의 수를 따져보면 아래의 표와 같습니다.
1번 문 뒤에: | 2번 문 뒤에: | 3번 문 뒤에: | 1번 문 고수 | 선택 변경 |
자동차 | 염소 | 염소 | Win | Lose |
염소 | 자동차 | 염소 | Lose | Win |
염소 | 염소 | 자동차 | Lose | Win |
실제로 vos Savant이 위의 해결책을 제시한 후 1만건에 달하는 항의를 받았다고 하네요. 바꿔도 되고 바꾸지 않아도 된다는 내용이거나, 바꾸지 않아야 한다는 내용이었겠죠. 그러나 대부분 문제의 가정사항을 제대로 파악하지 못한 채로 항의한 내용들이었기에 추후에 모두 잘못된 내용으로 밝혀졌답니다.
처음 보면 헷갈리는 이 문제는, 오늘 다룰 <베이지안 학파>의 시작이 되는 조건부 확률과 베이즈 정리로 쉽게 해결할 수 있습니다. "참가자가 한 개의 문을 골랐는데 진행자가 염소가 숨어있는 한 개의 문을 공개했다"는 가정사항이 전제된 후 확률을 계산해야 하기 때문입니다. 아래의 그림에서도 알 수 있듯이 참가자가 처음의 선택을 고수했을 때 자동차를 가져갈 확률은 1/6 + 1/6 = 1/3이지만, 선택을 바꿨을 때 자동차를 가져갈 확률은 1/3 + 1/3 = 2/3이 됩니다.
Bayesian의 태동
** 지난번 글과 통시적으로 연결되는 내용들이 많아서, 지난번 글을 먼저 읽어주시면 좋습니다.
통계학의 본질탐구(2) 철학적 기원
영국의 정치 산술학(Political Arithmetic) 네덜란드의 외교관이었던 Ludwig Huyghens(네덜란드어: Lodewijck Huygens)는 1669년에 물리학자이자 그의 형이었던 Christian Huyghens(네덜란드어: Christiaan Huygens)에게 편
ggyuns-archive.tistory.com
1. Thomas Bayes & Richard Price
영국의 목사였던 Thomas Bayes(1701~1761)는 그의 말년에 당시 크게 관심받지 못하던 확률 이론에 주목했습니다. '과거에 어떤 사건이 몇 번이 일어났는지/일어나지 않았는지에 대해 안다면, 미래에 그 사건이 발생할 확률은 어떻게 알 수 있을까?'라는 생각을 했다고 하네요. 그리고 공 2개로 하는 아래의 사고(思考) 실험으로 (일단) 먼저 추측 - 정보 수집 - 추측 개선을 반복하는 사고 체계(오늘날의 'Bayesian Framework')를 구축하게 됩니다.
실험 : 첫 번째로 떨어뜨린 공이 어디에 떨어졌는지 알아맞히기
1. Bayes가 조수에게 자신의 등 뒤의 테이블에 첫 번째 공(1번 공)을 떨어뜨리라고 시킨다.
2. 조수가 다른 공(2번 공)을 떨어뜨리도록 한 후, 그 공이 1번 공의 왼쪽에 떨어졌는지 오른쪽에 떨어졌는지 보고하도록 한다.
3. 조수가 2번 공을 다시 떨어뜨리도록 한 후, 그 공이 1번 공의 왼쪽에 떨어졌는지 오른쪽에 떨어졌는지 보고하도록 한다.
... (반복) ...
2번 단계에서 조수가 2번 공이 1번 공보다 왼쪽에 떨어졌다고 보고하면, 1번 공의 착지 가능성이 있는 위치는 2번 공이 착지한 부분의 오른쪽으로 줄어들 것입니다.
3번 단계에서 조수가 2번 공이 1번 공보다 오른쪽에 떨어졌다고 보고하면, 1번 공의 착지 가능성이 있는 위치는 2번 공이 2번 단계에서 착지한 부분의 오른쪽과, 2번 공이 3번 단계에서 착지한 부분의 왼쪽으로 더 좁아지겠죠?
이렇게 2번 공을 계속 던지고 착지한 위치를 Bayes에게 알려주는 행위를 무한 반복하다보면, Bayes는 1번 공이 떨어졌을 가능성이 있는 영역을 좁혀갈 수 있습니다. 추측한 사실에 조수가 알려준 새로운 정보를 더해 새로운 추측 사실을 만들어가는 것이죠.
그의 생각들은 안타깝게도 그가 1761년 사망하면서 세상에 드러나지 못할 뻔했으나, 그의 친구였던 Richard Price가 위와 같은 내용이 적힌 원고들을 발견하고 정리하여 An Essay towards solving a Problem in the Doctrine of Chances(1763)를 발간합니다. 제목에 등장하는 the Doctrine of Chances는 아래에서도 알 수 있듯이 1756년에 프랑스 출신의 영국 수학자인 Abraham de Moivre의 저서(개정 3판임, 초판은 1718년에 출간되었고 개정 2판은 1733년에 출간됨)입니다. 도박사들이 많이 애용했던 책이라고도 하는데, 이쯤 되면 도박 덕분에 확률과 통계 개념이 탄생했다고 봐도 무방하겠습니다. 확률 이론에 관한 세계 최초의 저서도 지난번 글에서 소개한 <주사위도박이론>이니까요.
de Moivre는 위 저서에서 (나중에 명명되는) 이항분포의 정규 근사(드무아브르-라플라스의 정리, 중심극한정리의 특수한 경우)를 최초로 증명해냅니다(사실 증명은 1733년에 했고 계속 연구해나가다가 위 저서에서 확정). 이때 이항분포의 바탕이 되는 '성공과 실패'(=베르누이 시행)개념에 Bayes가 주목하여, 아래의 문제를 상정하고 여러 가지 명제(Proposition)를 증명하기 시작합니다.
그리고 마지막에, 지금까지 관찰된 시행 횟수(n) 중 성공(k)과 실패(n-k) 횟수가 주어졌을 때 (성공 확률 p 의) "조건부확률"분포를 아래와 같이 밝혀냅니다. 참고로 오늘날에는 이 확률 p가 0과 1 사이의 임의의 숫자로 정의되지만, 당시 Bayes는 p를 불확실한 양(an uncertain quantity)라고 가정했습니다.
아시는 분들은 익숙하실 것 같은데, 이 식이 바로 베타 분포의 확률밀도함수가 됩니다.
이때, 베타 분포를 밝혀내기까지의 과정 중 명제 3,4,5번에 조건부 확률 및 베이즈 정리를 암시하는 내용이 아래와 같이 등장합니다.
전후 맥락 없이 위의 내용을 보면 좀 헷갈릴 수도 있을 것 같네요. 위의 two subsequent event를 각각 A,B라고 해서 현대의 수식으로 좀 더 쉽게 표현하면 이렇습니다.
사실 Bayes는 이 수식 자체의 증명보다는, 앞서 상정한 문제와 같이 어떤 추론을 해결하기 위한 방법에 대해 고민한 것으로 보입니다. 그래서 Bayes가 정말로 오늘날 일컫는 'Bayesian'이 맞는지는 불분명하다고 하네요. 그러나 우연하게도 동시대에 이러한 아이디어를 고민하고 있던 수학자가 있었습니다. 바로 Laplace입니다.
2. Pierre-Simon, marquis de Laplace
지난번 글에서 확률의 고전적 정의를 제시한 사람으로 등장하기도 한 Laplace는 사실 고전확률론(1812)을 발표하기 한참 전부터 Bayes가 갖고 있던 문제의식을 갖고 있었습니다. 천문학자이기도 한 그가 살던 18세기는 이른바 과학 혁명(16~17세기) 이후의 시기였습니다. 그래서 유럽에는 관측치(데이터)들이 넘쳐났는데, 학자들은 어떤 최상의 관측치만 찾아낼 뿐 그 많은 데이터를 처리하여 새로운 원리나 원칙을 발견하는 데에는 미진했다고 합니다. 이때 Laplace는 확률 이론이 이 문제를 해결해줄 것이라고 믿었고, 1774년에 Memoir on Inverse Probability(1774)를 출간하면서 독자적으로 연구한 (오늘날의) 베이지안 방법을 대중화했습니다. 여기서 역확률(inverse probability)이란, 아직 관찰되지 않은 변수의 확률분포를 일컫는 옛 용어입니다. 결과(=표본)의 원인(=모수)을 추론하는 것이 당시 제일의 관심 분야였기 때문에, 거꾸로 거슬러간다는 의미에서 '역'이라는 용어를 붙인 것 같네요.
Laplace는 이 책에서 균일한 사전 분포(원인에 해당하는 사건의 확률이 모두 같은 상황)의 베이즈 정리를 이렇게 제시합니다.
If an event can be produced by a number n of different causes, then the probabilities of these causes given the event are to each other as the probabilities of the event given the causes, and the probability of the existence of each of these is equal to the probability of the event given that cause, divided by the sum of all the probabilities of the event given each of these causes.
책에는 말로만 표현되어 있는데, 수식으로 표현하면 어떨까요? n개의 원인을 C라고 하고, 알고 있는 결과(관심있는 사건)를 E라고 하면 아래와 같이 표현할 수 있습니다.
원인이 되는 사건의 확률이 모두 1/n으로 같은 상황입니다. 여기서 신기한 것은, 결과에 따른 어떤 원인사건의 확률을 원인사건에 따른 결과의 확률들로 계산할 수 있다는 점입니다. Laplace는 그가 발견한 이러한 사실들을 약 40년 동안 연구하면서 이 원리를 활용하고 확장합니다. Richard Price가 1763년에 이러한 아이디어를 정리하여 발표하지 않았다면, 오늘날의 베이즈 정리는 '라플라스 정리'라고 널리 알려졌을 지도 모릅니다.
** 참고1 : 천문학자이기도 한 그는 이 책에서 세 시점에 관측된 어떤 사건이 실제로 일어난 시간(t)을 어떻게 알아낼 것인지에 대한 방법도 제시했습니다. 관측치의 시점이 실제 시간 t로부터 x만큼 차이가 날 확률(f(x))이 어떤 곡선의 분포를 보임을 밝혀냈는데, 이것이 바로 오늘날의 '라플라스 분포(이중지수분포)'입니다.
** 참고2 : 독일의 수학자 Gauss는 그의 저서 The Theory of the Motion of heavenly Bodies Moving about the Sun in Conic Sections(1809)에서 Laplace가 밝혀낸 베이즈 정리를 이용하여 '행성궤도에 관한 미지의 방정식과 직접적인 관측치 사이의 오차'가 발생할 확률이 어떤 곡선의 분포를 보임을 밝혀냅니다. 이것이 바로 오늘날의 '정규분포(가우시안 분포)'입니다.
- 이 부분은 향후 정규분포에 관한 글에서 더 자세히 다루려고 합니다:)
중심극한정리(Central Limit Theorem)
중심극한정리(CLT)란 표본의 개수가 많아질수록 표본평균의 분포는 정규분포에 수렴한다는 정리입니다. 표본집단의 분포를 모르더라도, 표본을 많이 수집하면 표본평균은 결국 정규분포가 된다는 뜻이기에 매우 혁신적이고 오늘날 통계학에서 빼놓을 수 없는 중요한 내용이죠. 그리고 중심극한정리는 이제부터 이야기할 <빈도주의 학파>가 오랫동안 통계학의 주류 학파가 되도록 하는 뼈대가 됩니다. 중심극한정리와 정규분포의 구체적인 내용에 대해서는 나중에 자세히 살펴보도록 합시다.
프랑스 출신 영국 수학자 Abraham de Moivre가 '이항분포의 정규 근사'(중심극한정리의 특수한 경우)를 최초로 증명해냈다는 내용을 기억하시나요? de Moivre는 이전의 Huyghens 및 Bernoulli의 연구를 공부하고 계승했기에, 어떤 시행의 성공과 실패를 따지거나 동전의 앞면/뒷면 같이 도박에 연관된 확률계산에 관심이 많았습니다. 그러다 1733년에 위와 같이 Approximatio ad Summam Terminorum Binomii (a + b)^n in Seriem expansi(1733)이라는 비공개 기사를 발표하는데 여기에 바로 이 내용이 담겨있었습니다. 그러나 이런 그의 업적은 당시에 크게 주목받지 못했는데, 왜냐하면 그가 영국에서 '프랑스 출신 개신교인(위그노)'이었기 때문입니다. 당시 프랑스 왕 루이 14세는 본인이 독실한 로마 가톨릭 교도였기에, 1685년에 위그노의 개신교 실천 권리를 박탈하는 '퐁텐블로 칙령'를 발표하고 왕 직속의 승마기병대(용기병, Dragonnades)를 동원하여 위그노들을 박해했습니다. 그래서 위그노였던 de Moivre는 21세에 영국으로 망명을 신청하고 계속 영국에서 살게 되는데, 평생 이방인으로 취급받고 한 번도 대학교수에 임용되지 못했다고 합니다.
**참고 : de Moivre의 1733년 기사는 1729년에 영국의 수학자 James Stirling과 이항 확장 내 중간 항 계수의 계산에 관한 편지를 받고 작성되었습니다. 이때 Stirling이 바로 매우 큰 계승(factorial)을 구할 때 사용하는 '스털링 공식'을 만든 사람입니다.
잊혀질 뻔 했던 중심극한정리는 Laplace 덕분에 (앞에 있었던) Memoir on Inverse Probability(1774)에서 다시 언급이 되고, 오랜 연구 끝에 고전확률론(1812)에서 '이항분포의 정규 근사'(중심극한정리의 특수한 경우)를 발표합니다. de Moivre와는 별개로 진행된 연구였다고 하네요. 당시 Laplace가 명망이 두텁고 유명했는지, Laplace의 발견에는 많은 학자들이 관심을 갖기 시작합니다.
원래 Laplace는 베이즈 정리를 발견하면서 많은 양의 관측치를 사용하여 추론해나가는 접근 방식(Bayesian)을 선호했습니다. 그런데 중심극한정리를 발견하고, 이를 통해 평소 하던대로 많이 관찰(Frequentist)해두면 중심극한정리를 통해 결국 Bayesian 방식과 동일한 결과를 생성하는 경향이 있음을 곧 깨닫게 됩니다(물론 시간이 지나서 두 방식이 매우 다르다는 것이 밝혀집니다). 그래서 세계 최초의 Bayesian이었던 Laplace는 Frequentist로 전향하여 여생을 보냈다고 하네요.
**참고 : 오늘날 우리가 잘 알고 있는 중심극한정리는 1901년에 러시아의 수학자 Aleksandr Lyapunov가 일반적으로 확장하여 정리된 것입니다.
Bayesian의 쇠퇴와 중흥
Laplace가 중심극한정리를 발견하면서, 데이터를 많이 수집하면 쉽게 경향성을 파악할 수 있다는 인식이 널리 퍼지기 시작했습니다. 그래서 프랑스 정부 관료들은 콜레라 감염 환자 수, 말에 치여 죽은 프로이센 장교의 수 등 온갖 데이터를 방대하게 수집하는 데에 집중했고, 점차 과학에서 주관적인 것을 허용할 수 없다는 암묵적 합의가 이루어졌습니다.
그러다보니 확률을 주관적 믿음이라고 바라보는 Bayesian 관점이 이론가 입장에서는 배척해야 할 접근방식으로 굳어졌고, 그런 전통은 20세기까지 이어졌습니다.
그러나 실무를 담당하는 사람들 사이에서는 여전히 Bayesian 방법이 계속 진화하고 있었습니다. 특히 제2차 세계대전을 겪으면서 Bayesian 방법이 아주 유용하다는 것이 증명되기 시작했는데, 이 부분부터는 바로 다음의 글에서 살펴보도록 하겠습니다.
Reference
Bayes, Thomas; Richard Price (1763). An Essay towards solving a Problem in the Doctrine of Chances. By the late Rev. Mr. Bayes, F. R. S. communicated by Mr. Price, in a letter to John Canton, A. M. F. R. S.
Daw, R. H., & Pearson, E. S. (1972). Studies in the History of Probability and Statistics. XXX. Abraham De Moivre’s 1733 Derivation of the Normal Curve: A Bibliographical Note. Biometrika, 59(3), 677–680. https://doi.org/10.2307/2334818
Fornacon-Wood et al. (2022). Understanding the Differences Between Bayesian and Frequentist Statistics. Int J Radiation Oncol Biol Phys, 112(5), 1076−1082.
연세대학교 응용통계학과 김철응 교수님 강의(통계방법론)
연세대학교 응용통계학과 박재우 교수님 강의(베이즈통계)
강의 11) 1772-1774 라플라스의 중심극한정리(Central Limit Theorem)
1. 라플라스는 가난한 부모 밑에서 태어났다. 그는 수학적 능력이 뛰어나서 일찍이 좋은 교사직을 얻었고, 정치적인 기회주의자로서 프랑스 혁명의 불확실한 기간 동안 정권을 잡는 어떤 정당에
yschoi.pusan.ac.kr
On the Origin of "Frequentist" Statistics
Efron and Hastie note that the "frequentist" term "seems to have been suggested by Neyman as a statistical analogue of Richard von Mises' f...
fxdiebold.blogspot.com
A History of Bayes' Theorem - LessWrong
> Sometime during the 1740s, the Reverend Thomas Bayes made the ingenious discovery that bears his name but then mysteriously abandoned it. It was rediscovered independently by a different and far mo…
www.lesswrong.com
'Statistics' 카테고리의 다른 글
확률분포 조감도 1 (베르누이분포, 이항분포, 초기하분포, 다항분포, 포아송분포) (1) | 2023.05.04 |
---|---|
적률생성함수(Moment Generating Function) (0) | 2023.03.05 |
통계학의 본질탐구(4) Frequentist & Bayesian 2 (0) | 2023.02.18 |
통계학의 본질탐구(2) 철학적 기원 (1) | 2023.01.30 |
통계학의 본질탐구(1) communication, Myth & Truth, Inspiration, necessity (0) | 2023.01.23 |
댓글