K가 1에 가까운 정규분포가 왜 자연스러운지 증명해보라는 분이 있어서 제 나름 한번 설명해 보고자 합니다.
평균이 1에 가까운 정규분포가 자연스럽다라는 건 통계적으로 가장 사실에 가까운 합리적인 가설입니다. 물론 다른 데이터를 이용해서 비교분석 한다면 더 명확히 증명할 수 있지만 말이죠. 영화에도 나왔지만 저만의 말로 바꾸어 다시 설명하자면 예를 들어 주머니에 1000개의 빨간 구슬과 500개의 파란 구슬이 들어 있을 때 4% (60개)의 구슬을 랜덤으로 뽑았을 때 뽑은 두 구슬의 비율이 2대 1에 가까울 거라는 것은 합리적인 가설일 것입니다. 그분은 지금 이 상식적인 가설을 증명하라고 하고 있습니다.
마찬가지로 분류기 기계가 득표율에 가까운 비율로 표를 미분류 했어야 한다는 것도 합리적인 가설입니다. 이것을 이해하기 위해 여기서 가장 중요한 것은 실제로 미분류 된 표중에 무효표의 비율이 아주 적다는 것이죠. 대부분의 표가 정상적인 표라는 거지요. 다시 말해 만약 분류기가 정상적으로 (사실은 에러로 또는 실수로) 무효표가 아닌 양쪽의 정상표를 실수로 미분류 표로 분류했다면 (마치 주머니에서 구슬을 뽑는 것 처럼) 분류된 표의 비율도 전체 표의 비율에 가까워야 한다는 것입니다. 그런데 양쪽의 비율이 너무 많이 차이가 난다는 거죠.
뭐 박근혜 지지자들이 노인이 많아서 그렇다는 둥의 주장은 이미 영화에서 말했듯이 일정한 패턴이나 영속성이 없어서 통계적으로 무의미 하다고 말하고 있는 것은 아시리라 봅니다.
물론 정확한 증명을 위해서는 다른 년도의 선거 결과를 함께 비교분석하는 것이 제일 좋지요. 하지만 K값이 1에서 먼 1.5에 수렴하는 로그 정규분포를 보이고 있는 것을 의심하는 것은 합리적인 주장이라고 생각합니다.