통계분석, 머신러닝을 이용한 데이터 분석

신은 주사위 놀이를 하지 않는다

04 Sep 2016

image alt text

이 책을 읽으며 작년에 집을 구하다 겪은 해프닝이 떠올랐다. 그 때 세 가지 사건이 있었는데 의미심장한 관련성이 느껴져서 혹시나 하는 마음에 로또를 샀었다. 세 가지 사건은 1) 이사할 집을 찾아보러 골목을 지나다가 새똥에 맞았고, 마음에 드는 곳을 찾았는데, 2) 건물 이름이 내 이름과 똑같았고, 3) 지번이 그 당시에 살던 집과 같았다. 우편물 마다 “신영빌딩 00호 허신영”이라고 적혀있음 어떨까 상상하면서, 그 곳으로 당장 이사해야 할 것 같았다. 나는 이 날의 사건이 신기해서 그 집의 지번을 조합하여 로또를 샀었다. 이 책을 읽고 나니 그 사건들은 확률은 낮지만 있을 법한 일이란 생각이 든다.

그 사건을 우연의 다섯 가지 법칙으로 설명해보려 한다.

“반드시 일어난다”

내가 우연을 생각할 때 간과했던 것이 드물지만 반드시 일어난다는 것이다. 새로 이사 갈 집의 지번이 이전 집과 일치하는 것은 드물지만 반드시 일어날 수 있다. 대한민국에 지번 주소가 총 몇 개인지 찾아봤다. 2012년 기준으로 전국에 5,977,141개의 주소가 있었다. 그 중 지번이 117인 곳은 전국에 25,391 군데, 서울은 2,420 군데가 있었다. 그러니 나는 서울 어디로 이사하든지 약 0.0004 의 확률로 같은 지번을 볼 수 있었을 것이다.

“아주 많은 기회가 있으면, 아무리 드문 일도 일어날 가능성이 높다.”

서울에는 비둘기가 참 많은데, 2009년 기준으로 35,000마리가 있다고 한다. 지금은 개체수가 더 늘었을지 줄었을지는 모르겠다. 우리들 옆에서 자주 걸어 다니기도 하지만, 우리들 위에서 새똥을 싸서 누구를 맞출 수도…있을 것이다.

로또 번호를 고를 때, 117의 숫자를 붙였다 더했다 곱했다 하며 만들었다. 그게 몇 회차 추첨였는지 정확히 기억은 안 나지만, 내가 조합한 번호들이 1등과 많이 겹쳤었다. 조금만 더 맞았으면! 하고 아쉬워했다. 만약 내가 1등을 했다면, 주변 사람들에게 지금 사는 집과 지번이 같은 곳으로 이사 가라는 궤변을 늘어놓았을지도 모르겠다.

“분포 모양을 한 곡선에서 다른 곡선으로 조금만 바꿔도 믿기 어려울 정도로 작았던 확률이 익숙한 사건들의 확률만큼 커질 수 있다. 당신이 탈 열차가 연착할 확률, 연필을 떨어트릴 확률, 소나기를 맞고 감기에 걸릴 확률..”

낯선 동네에서 난데없이 새똥을 맞자 당황했다. 그 지역 주민이 되면 새똥을 맞는 일이 잦을까 걱정이었다…… 그때 같이 있었던 공인중개사가 “내가 이 동네 오래 살았는데, 새똥 맞은 사람 처음 봐요” 라고 한 말로 미루어 보아 분명 흔한 일은 아닌 것 같았다.

그러나 새똥은 그냥 하늘에서 떨어지지 않는다. 보통은 새가 어딘가에 앉아 있을 때 떨어진다. 오래된 주택가는 전신주 사이 전선이 복잡하게 얽혀 있는데, 골목을 가로지르는 전선은 비둘기들이 앉아있기 알맞은 곳이다. 단순히 비둘기가 많다는 가정만 있는 것 보다 비둘기가 앉아있기 좋은 장소가 골목마다 많이 있다면 지나가던 내가 새똥을 맞을 확률이 아주 많이 올라가리라 생각한다.

“충분함의 법칙을 따르면 충분히 유사한 사건들은 동일하다고 간주된다.”

그 로또 번호에 충분함의 법칙을 적용하면 어떨까. 내가 고른 5개 세트를 모두 모아서 1등 번호랑 맞는지 본다면, 나는 일확천금을 벌었을 수도 있다. 물론 1등은 그렇게 추첨 하지 않지만..

통계가 직관적이지 않은 분야라는 저자의 말에 십분 동감한다. 그럼에도 이 책은 수식 하나 없이 다양한 일화들로 우연에 대해 설명하고 있다. 그래서 나도 직관을 기르고 싶어서 재미 삼아 내 일화에 빗대어 보았다.

comments powered by Disqus