제 생각은 저렇게 부등호로 놓고볼수나 있느냐 입니다. => 저 부등호를 말로 풀어서 설명하면, "2012년에 K가 1.5인게 자연스런 현상일수도 있고, 1이어야 하는데 조작된 것일 수도 있지만 지금까지 새누리당이 한 일들을 보았을 때 나는 K 값이 원래 평균이 1일 가능성이 높다고 생각해." 라는 의미입니다. 무게를 두지 않는다고 하셨지만, 1.5인 것이 2012 대선의 특징이라고 생각하신다면 부등호 방향을 더플랜과는 반대로 보고 계신 것이지요.
"저 비율이 그전 두해에는 1/1이 정상이여야하니 2012년은 비정상이고 그래서 이 수치를 보니 택시가 운행을 덜한것이다!" => 물론 이전 두해의 정보만으로 판단하면 곤란합니다. 그렇게 때문에 더플랜이 K 수치를 조작의 근거로 제시할 때에 조작 시도가 있었을 만한 다른 사실들을 함께 제공하는 것이구요. 근거들이 독립적으로 '개표조작 의혹'을 지지하는 것이라고 오해할 수 있지만, 근거들 간에도 연관성이 깊습니다. 예를 들어 국정원이 핸드폰 해킹 프로그램을 구매했다는 사실은 국정원이 개표기를 해킹할 개연성도 함께 높여줍니다. 그리고 우리 자신은 여기에 개인적인 지식과 경험을 더해서 1.5가 맞나, 1이 맞나 판단을 합니다. 그렇기 때문에 개개인이 부등호 방향을 결정하는데 있어서는 제가 관여할 수 없습니다. 할수있는 거라곤 본문처럼 본인의 부등호 방향과 주장하는 방향이 달라지지 않도록 해달라는 당부를 드리는 정도인듯 합니다.
"임의의 두 후보를 뽑았을 때, 각 후보의 지지자라도, 불량 기표를 할 확률이 서로 같다." 라는 가정 자체가 "정황적 증거로 보았을 때, E(k) = 1이다."와 동치입니다. 저 가정이 "정황적 증거들"을 바탕으로 E[k]=1이 되도록 만든 Prior니까요.
P(E[k] == 1.5) << P(E[k] == 1) 라는 사실을 주장하는겁니다. => 네 맞습니다. 정확히는 Marginal이 아닌 posterior, P(E[k] == 1.5|정보) << P(E[k] == 1|정보) 입니다. 이때 Marginal에서의 대소관계는 아무도 모르기 때문에 우리는 posterior에서 판단해야 합니다. 그리고 저 대소관계를 인정한다면 '의혹이 있다'는 결론이 나옵니다. 따라서 (비록 대소관계는 주장하지 않으셨다고 말씀하셨지만), dacoon님이 '의혹을 제기하기에 부족하다' 라고 말씀하시는건 두 posterior 간의 차이가 충분히 크지 않거나 부등호의 방향이 반대라고 생각하시는 것이겠지요. 본문에도 적었지만, 그렇게 생각하신다면 dacoon님의 입장에선 의혹을 제기하시는게 옳은 선택이라는데 저도 동의합니다.
더플랜에 회의적인 많은 분들이 "분류표와 미분류표의 성질은 원래 다르다"고 생각하시는 것 같습니다. 그러나 더플랜 영화에서 1:10:40 부분에 나오는 내용을 보시면 "다르지 않을 수도 있다"는 것을 알 수 있습니다. 해당 부분에선 관악(16대:노무현), 노원(17대:이명박), 수지(17대:이명박) 세 지역의 과거 K 값이 1에 가깝다는 내용이 나옵니다. 적어도 17대 대선인 노원과 수지 지역은 같은 새누리 정권이고, 5년 전의 결과이므로 정당 별 지지자의 분포가 크게 변치 않았을 것이라고 추측할 수 있습니다. 따라서 K=1.5가 각 정당의 지지자 분포 차이로 인한 것이었다면 과거의 K 값 역시 1.5에 가까운 숫자여야 정상입니다.
비록 과거 자료가 파기되어서 3개 지역의 결과 밖에 볼 수 없지만, 이 사례 만으로도 K=1.5 라는 값에 의문을 품기엔 충분하다고 생각합니다. 경험에 비추어 봤을 때 그럴 만한 집단이니까요..
classification 문제는 (semi-supervised learning 등의 방법을 쓰기도 하지만) 대부분 supervised learning 인게 맞습니다. 모델을 학습시킬 때 label의 존재여부를 기준으로 supervised / unsupervised를 나누는 것이기 때문에 한 학습과정 안에 있는 한 모델 안에서 "특정 hidden layer 까지는 supervised, 뒷부분은 unsupervised" 이런식으로 이야기하지는 않습니다. (학습과정을 분리해서 일부를 unsupervised 방식으로 먼저 학습시킨 다음에 다시 supervised 방식으로 학습시키기도 하지만 이 경우를 말씀하신건 아닌 것 같네요.) 글쓰신분이 스스로의 언어로 새로 정리하시다보니 용어의 혼동이 있으셨던 것 같네요.
그리고 supervised learning 뿐만 아니라 unsupervised learning도 (딥러닝 포함) 머신러닝의 큰 축을 차지합니다. Unsupervised learning의 대표적인 예로 최근 몇년간 가장 핫한 연구분야인 Generative adversarial networks 등을 들 수 있습니다.
집으로 돌아가는 길에 지는 햇살에 마음을 맡기고 나는 너의 일을 떠올리며 수많은 생각에 슬퍼진다 우리는 단지 내일의 일도 지금은 알수가 없으니까 그저 너의 등을 감싸 안으며 다 잘될 거라고 말할 수밖에 더 해 줄 수 있는 일이 있을 것만 같아 초조해져 무거운 너의 어깨와 기나긴 하루하루가 안타까워 내일은 정말 좋은 일이 너에게 생겼으면 좋겠어 너에겐 자격이 있으니까 이제 짐을 벗고 행복해지길 나는 간절하게 소원해 본다
이 세상은 너와 나에게도 잔인하고 두려운 곳이니까 언제라도 여기로 돌아와 집이 잇잖아 내가 있잖아 내일은 정말 좋은 일이 우리를 기다려 주기를 새로운 태양이 떠오르기를 가장 간절하게 바라던 일이 이뤄지기를 난 기도해 본다