개인적으로 더 플랜은 저열한 음모론이라고 생각하고,
미래에 최소한 이런 자정 작용은 있었다는 말을 남기고 싶어서 글을 남깁니다.
(과게의 많은 분들이 고생한 것을 생각하며 글을 남갑니다.)
더 플랜을 옹호하는 사람들에게 대략적인 패턴이 있다고 보고 이걸 정리해서 반박하겠습니다.
1. 미분류율이 너무 높으니 조작의 증거이다.
2. 정규 분포는 조작의 증거이다.
3. k값은 1.0이어야 하고, 1.5 발생확률은 너무 낮다.
4. 노인 비율과 k값은 상관이 없다라고 파파이스에서 증명했다.
5. 그냥 기계를 안 쓰면 되잖아
6. (심화) 왜 전남은 k값이 1.0을 넘는가?
7. (심화) 의도는 좋은거 아니냐?
시작하겠습니다.
--------------------------------------------------
1. 미분류율이 너무 높으니 조작의 증거이다?
먼저 precision, recall의 개념을 이해하셔야 합니다.
정확도에는 precision이란 용어를 사용한다. recall은 대상 물체들을 빠뜨리지 않고 얼마나 잘 잡아내는지를 나타내고 precision은 검출된 결과가 얼마나 정확한지 즉, 검출 결과들 중 실제 물체가 얼마나 포함되어 있는지를 나타낸다. ... 일반적으로 알고리즘의 검출율(recall)과 정확도(precision)는 서로 반비례 관계를 가진다. 알고리즘의 파라미터를 조절해 검출율을 높이면 오검출(false alarms)이 증가하고 반대로 오검출을 줄이기 위해 조건을 강화하면 검출율(recall)이 떨어진다.
출처: http://darkpgmr.tistory.com/162 [다크 프로그래머]
먼저 질문을 해보겠습니다. 많은 사람들이 투표는 중요하기 때문에 시간이 오래 걸리더라도, 정확하게 해야된다고 합니다. 저도 동의합니다. 그럼 여기서 정확하게 할려고 할 때, precision(정확도)을 높이는게 맞습니까? recall(검출률)을 높이는게 맞습니까?
답부터 말하면 precision(정확도를) 올리는게 맞습니다. 분류기를 통해 분류된 표에 잘못 분류된 표가 있으면 안 되기 때문에 정확도를 올리는게 맞습니다.
그럼 여기서 미분류율은 뭘 말하는 걸까요? 미분류율은 (1 - recall)입니다. 다시 말해서 미분류율이 높다는 말은 recall(검출율)이 낮다는 말입니다. 여기서 검출율이 낮다는 말의 뜻은 뭘까요? 위에 발췌한 글을 다시 읽어보겠습니다.
일반적으로 알고리즘의 검출율(recall)과 정확도(precision)는 서로 반비례 관계를 가진다.
다시 말해 높은 정확도를 위해서는 검출율이 희생되는 경우도 있습니다.
이를 정리하면
1> 투표 분류를 정확하게 하기를 원한다
2> 투표 분류를 정확하게 하기 위해 정확도(precision)를 올린다. 그래야 분류된 표에 잘못 분류된 표나 무효표가 들어가지 않기 때문이다.
3> 정확도를 올리기 위해서는 검출율(recall)을 희생해도 된다. 왜냐하면 미분류된 표는 사람이 직접 자기 분류하면 되기 때문이다.
그리고 만약 누군가 미분류율이 높다고 문제라고 하시는 분은 이 말을 하고 있는 겁니다.
1) 미분류율을 낮추고 싶다(검출율을 올리고 싶다) -> 정확도를 희생하더라도 검출율을 높여서 빨리 일을 끝내고 싶다.(선관위라면 이해를 하겠습니다. 빨리 퇴근하고 싶을 수도 있겠죠)
2) 혹시라도 몰라서 일단 미분류되었을 표를 분류기를 믿고 분류를 시키겠다. 사람 손과 눈보다 분류기(정확도를 더 낮게 세팅된 분류기)를 더 믿겠다.
추가> 멀쩡한 표도 미분류하고 있다 문제가 있는거 아니냐?
아직도 이해가 안 되셨을 분을 위해 극단적인 예를 들죠. 기계가 모든 표를 전부 미분류표로 바꿔서 100% 미분류율을 가집니다. 그러면 여기서 문제가 생기나요? 음모론자들이 원하는 대로 기계를 제외한 완전한 수개표를 하잖아요. 오히려 원하시는 거 아닙니까? 선관위 직원 말고 싫어하실 이유 가지신 분 있나요?
여기까지 말했으면 이해하셨을 껄로 생각됩니다. 넘어가겠습니다.
--------------------------------------------------
2. 정규 분포는 조작의 증거이다?
동전 던지기를 하겠습니다. 1000번 던지기를 해서 몇 번 앞면이 나오는지 기록을 하겠습니다. 이걸 무수히 한다고 해보죠. 그 분포 모양은 무엇이죠? 교과서를 떠올려 보죠.
그건 정규 분포입니다. (중심 극한 정리를 언급하지는 않지만, 내용은 언급합니다. 인문계생도 알 내용입니다.)
어떤 조작을 하지 않고, 그냥 동전 던지기를 한다고 했을 때 정규 분포가 나오는 건 자연스러운 현상입니다.
주장 : 조작을 하면 정규 분포가 나온다.
반론 : 동전 던지기를 조작하지 않고 던졌는데, 정규 분포가 나왔다. -> 반론 완료!
따로 증명하지 않고 읽어볼 글 올리겠습니다.
http://rpubs.com/Statdoc/204929
--------------------------------------------------
3. k값은 1.0이어야 하고, 1.5발생확률은 너무 낮다.
왜 k값이 1.0이 나와야 하죠?
k값이 1.0의 의미는 후보 A(박근혜)와 후보 B(문재인)의 지지자들의 미분류율이 같다는 겁니다.
제가 먼저 물어보겠습니다. k값이 1.0이 당연하다는 분들은 두 후보의 미분류율이 같다는 걸 어떻게 당연하다고 생각하시는 겁니까?
제가 더 플랜 옹호자들의 글을 봤을 때 크게 2가지 패턴입니다.
1. 무작위로 사람을 뽑은 형태이기 때문에 1.0이 당연하다
2. 박후보에게 지지했던 사람이 특별히 미분류율이 높을 필요가 없다.
반론해보겠습니다.
1) 무작위로 사람을 뽑은 형태이기 때문에 1.0이 당연하다
일단 연령별로 봤을 때 무작위가 아닙니다. 100%사실로 생각해도 될 정도로 연령대가 높은 사람은 박후보에게 투표를 했고, 낮은 사람은 문후보를 지지했습니다.
19대 대선을 볼까요?
홍준표를 지지하는 사람과 문후보를 지지하는 사람의 연령 구성이 동일한가요? 아니라는 건 명백합니다. 1은 너무 당연히 틀린 말입니다.
2) 박후보에게 지지했던 사람이 특별히 미분류율이 높을 필요가 없다.
여기서 이제 노인 가설을 이야기해보겠습니다.
노인 가설은 크게 2파트로 구성됩니다.
1. 노인들은 미분류율이 높다.
2. 박후보에게 투표한 사람 중에 노인이 많다.
1)에 의해서 박후보를 지지하는 사람중에 노인이 많다는 걸 알수 있습니다. 그럼 노인들이 미분류율이 높다는 걸 증명하면, 박후보를 지지했던 사람이 미분류율이 높다는 걸 증명할 수 있습니다.
이 과정은 어떻게 증명하면 될까요?
A 지역이 노인이 더 많은 지역이고, B는 반대라면, 이 때 A의 미분류율이 높고, B는 낮다면, 우리는 노인이 더 많으면 미분류율이 올라간다는 것을 알수 있습니다.
이를 고급진 방법으로 분석하는게 회귀분석같은 통계기법입니다.
이 방법을 사용한 결과는 아래에 있습니다
결론을 말하면 노인의 비율이 올라가면, 미분류율은 올라갑니다.
제가 말했습니다. 노인 가설은 2파트로 구성되어 있다.
1. 노인들은 미분류율이 높다.
2. 박후보에게 투표한 사람 중에 노인이 많다.
2는 18대 대선에서 당연한 사실입니다. 문제는 1이였는데, 통계 분석 결과 1은 매우 옳다. 노인 가설을 반론하는 방법은 아주 쉽습니다. 1,2 중 하나라도 반론하면 됩니다. 과게에서 수도 없이 한 말입니다. 2는 어차피 반론을 못하니 1을 반론해봐라. 그럼 노인 가설을 바로 버리겠다.
k값을 음모론이라고 생각하는 이유는 간단합니다. 왜냐하면 노인들의 미분류율이 높다라는 걸 반론하지 못하기 때문입니다.
--------------------------------------------------
4. 노인 비율과 k값은 상관이 없다라고 파파이스에서 증명했다.
제가 말했습니다. 노인 가설을 반론하는 방법은 간단하다.
노인가설-1. 노인들은 미분류율이 높다.
노인가설-2. 박후보에게 투표한 사람 중에 노인이 많다.
이 둘중 하나라도 반론하면 된다. 그런데 파파이스에서 이 둘중 하나라도 반론했나요? 아니요 전혀 안 했습니다. 그들이 한 건
파파이스-반론. 노인 비율이 올라갔는데, k값이 꼭 올라가지는 않더라입니다. (더 정확하게는 k값이 높은 지역의 노인 비율이 높지 않다고 했습니다.)
뭔가 이상하죠. 저는 노인가설-1,2 중 하나만 반론하면 된다고 했는데, 파파이스는 다른 말을 합니다. 둘 중 한명의 말이 틀리겠죠?
노인 가설대로 데이터를 예상해봅시다. 노인들의 미분류율은 동일합니다. 박후보하고 문후보 지지자 노인들의 미분류율은 특별히 다를 이유는 없다고 생각합니다. 문제는 각 후보 지지자들의 연령 구성의 차이입니다.
노인들이 젊은이보다 박후보를 지지할수록 k값은 커집니다. 왜냐하면 박후보의 지지자들의 미분류율이 올라가야 k값이 높아지기 때문이죠.
반대로 노인들이 젊은이보다 특별히 박후보를 지지하지 않으면 어떻게 될까요? 그러면 k는 1에 근접하게 됩니다.
제가 노인가설-2. 박후보에게 투표한 사람 중에 노인이 많다.를 말하면서, 모든 지역이라는 말을 붙이지 않았습니다. 언뜻 생각하면 노인이 많은 지역들은 전부 박후보의 지지율이 높을 것 같지만 실상은 다릅니다.
왜냐하면 전국에서 노인 비율이 가장 높지만, 박 후보의 지지율은 처참한 곳이 있습니다. 그 지역은 젊은이보다야 박후보를 지지하지만 노인들의 지지율도 처참한 곳이 있습니다.
그곳은 광주, 전남, 전북입니다.
전남은 노인 비율이 매우 높지만, 박 후보의 지지율은 처참합니다. 그런데 이걸 고려하지 않고, 노인 비율과 k값을 바로 분석한다???? 노인들이 박후보를 지지하지 않는 지역은 k값이 높지 않습니다. 파파이스의 동영상을 직접 보시면 알껍니다. 전남의 k값이 전체적으로 낮다는 걸 보실 수 있으실 껍니다.
파파이스의 분석 절차는 논리상 당연히 잘못된 분석방법이죠.
k값을 결정하는 요인은 나이보다 지역, 더 정확하게는 연령별 후보 지지율입니다.
--------------------------------------------------
5. 그냥 기계를 안 쓰면 되잖아
지금 논란 중인 기계는 개표기가 아니라 분류기입니다. 사람들이 착각하는게 지금 하는 게 이미 수개표입니다. 분류기는 도와줄 뿐이죠.
그리고 지금 이시기에 개표방법을 바꾸는게 말이 안 됩니다. 그렇게 개표방법을 바꾸고 싶었다면 미리 문제제기를 했어야 맞습니다. 선관위도 현재 선거 끝나면 재검표를 하자고 했습니다. 이게 만약 1년전에 문제제기를 했다면 어떻게 됐을까요? 벌써 재검표를 했고, 문제가 있었다면 전부 고쳤을 겁니다.
그리고 손으로 먼저하고 분류기를 사용한다? 분류기를 먼저 사용하고 사람이 하면 사람이 훑어보는데 시간이 절약되고 실수할 여지가 줄어들겠죠? 그런데 이걸 반대로 하면 어떤 메리트가 생기나요? 오히려 최종 개표를 사람이 아닌 분류기가 하기 때문에 수개표가 아니게 되는거 아닌가요?
--------------------------------------------
6. (심화) 왜 전남은 k값이 1.0을 넘는가?
5처럼 설명을 해줬을 경우, 몇몇의 경우 왜 전남이 1.0이 넘냐는 질문을 하는 경우가 있습니다. 그건 전남의 노인들이 박후보를 다른 지역보다는 적게 하는건 사실입니다. 하지만 전남의 젊은이보다는 많이 하는 것도 사실입니다.
만약 전남의 젊은이가 박후보를 많이 지지했다면 1.0보다 적게나올 가능성은 존재합니다.
--------------------------------------------
7. (심화) 의도는 좋은거 아니냐?
문제는 틀린건 틀렸다는 겁니다.
저는 전남에서 30년 가까이 살면서 가장 어이없어 하는 소리가 5.18민주화운동 북한 개입설입니다. 일종의 음모론이죠. 저는 개인적으로 독일처럼 이런 사안에 대한 처벌 법률이 빨리 제정되어야 한다고 봅니다. 이런 의미없는 음모론으로 선동하는건 매우 잘못되었다고 보기 때문입니다.
하나 물어보고 싶습니다. 더 플랜이 5.18 북한 개입설보다 얼마나 더 사실에 근거해서 문제를 제기하였나요? 저는 별반 차이가 없다고 봅니다.
-----------------------------------------------
대략 왠만한 더 플랜 옹호 패턴에 대해서는 글을 적은 것 같습니다.
전문적인 더 플랜 반박 글은 dacoon님의 글을 보시면 될 것 같습니다. (통계 지식이 있으신 분 한정)
간단하게 요약하면
1. 노인 가설을 반론하고 싶으면 1> 노인의 미분류율이 높다 2> 박후보 지지자 중 노인이 많다 중 하나라도 반론하시면 됩니다.
2. 더 플랜은 노인 가설을 반론하지 못 했다.
3. 가장 중요한 건 무엇이 진실인가이다.
반박하고 싶으면, 노인들의 미분류율이 젊은이와 차이가 나지 않는다만 증명하시면 됩니다. 그 밖에 궁금한거 있으시면 댓글 달아주시면 좋겠습니다.
그리고 이 의견에 찬성을 안 하시면 비공감을 누르시 마시고, 댓글을 다세요.