옵션 |
|
여기 두 명의 프로게이머가 있습니다.
편의상 제 고등학교 선배인 임요환 선수와 그의 라이벌이며 영원한 2인자였던 홍진호 선수의 이름을 빌려오도록 하겠습니다. (이후의 내용은 전부 허구이며 저는 두 선수 모두 좋아합니다. ㅎㅎ)
과거 어느 한 해에 총 세번의 스타리그 대회가 있었다고 합시다.
첫번째 대회의 결과
임요환선수의 승률은 80%, 홍진호 선수의 승률은 70%를 기록하였습니다.
두번째 대회의 결과
임요환선수의 승률은 70%, 홍진호 선수의 승률은 60%를 기록하였습니다.
세번째 대회의 결과
임요환선수의 승률은 90%, 홍진호 선수의 승률은 80%를 기록하였습니다.
세 번의 대회 모두 임요환 선수의 승률이 홍진호 선수의 승률보다 좋았던 겁니다.
그리고 다가온 연말.
세 번의 대회를 합산하여 최고의 승률을 기록한 MVP 선수를 시상하는 자리에서
홍진호 선수가 임요환 선수를 제치고 수상을 합니다!
...이런 일이 일어날 수 있는 걸까요?
네 놀랍게도 이런 일은 당연히 일어날 수 있습니다.^^
통계학적으로도,
특히 사회과학과 의학계에서 매우 중요하게 다뤄지는 유명한 역설이기도 한
'심슨의 역설' 이 바로 이러한 현상을 설명하는 것입니다.
영국의 통계학자인 에드워드 심슨은
1951년에 발표한 논문에서 이러한 현상에 대해 집중 조명했습니다.
이 논문을 통해 이런 현상은 널리 알려졌으며
1972년 통계학자 블리쓰는 그를 기려 이를 '심슨의 역설'이라 명명 하였습니다.
자 그럼 위에서 든 예시를 이제부터 여러분들이 납득이 되도록 설명해 보겠습니다.
아래의 표를 보세요.
| 임요환 선수 | 홍진호 선수 | ||||
출전한 | 이긴 횟수 | 승률 | 출전한 | 이긴 횟수 | 승률 | |
첫 번째 대회 | 40번 | 32회 | 80% | 40번 | 28회 | 70% |
두 번째 대회 | 100번 | 70회 | 70% | 10번 | 6회 | 60% |
세 번째 대회 | 10번 | 9회 | 90% | 100번 | 80회 | 80% |
합산 결과 | 150번 | 111회 | 74% | 150번 | 114회 | 76% |
결국 이 역설이 발생하는 핵심 포인트는
각 통계의 대상이 되는 표본 크기의 차이입니다.
비록 임요환 선수가 모든 경기에서 높은 승률을 기록했지만
그 와중에 가장 낮은 승률(70%)을 거둔 대회의 표본크기는 100번으로 제일 큽니다.
반면 가장 높은 승률(90%)을 거둔 대회의 표본크기는 고작 10번밖에 안되고요.
반대로 홍진호 선수는
가장 높은 승률(80%)을 거둔 대회의 표본크기가 100번으로 제일 크고,
가장 낮은 승률(60%)을 거둔 대회의 표본크기는 가장 작은 10번밖에 안됩니다.
이러한 표본크기의 차이는 승률의 비중을 다르게 하고,
결과적으로 합산된 통계에 마치 직관을 깨부수는 듯한 역설을 가져오게 되는 것입니다.
뉴스나 각종 언론매체에서
이러한 심슨의 역설을 교묘히 이용하여 사람들을 선동하는 것을 심심찮게 볼 수 있습니다.
여러분들은 통계자료로 이뤄진 주장들을 대할 때,
늘 이러한 현혹에 넘어가지 않도록
더 많이 배우고 늘 비판적인 시각을 견지하는 사람들이 되도록 합시다. ^^
반응이 좋다면 다음에 또 이러한 수학의 재밌는 소재를 갖고 와 글을 쓰도록 하겠습니다. ^^