전 우선 K값의 원인이 기계적 특성이라고 생각했습니다.
그래서 이번 대선도 1번 후보의 미분류비율이 상대적으로 높을것으로 예상했는데 빗나갔죠.
지금 자료들을 보면 연령별 요소가 더 큰 원인인것 같은데 문제는 더플랜팀이 그 부분을 검증 했었죠. 개표소별로 평균 연령을 계산해서 줄지어 보았으나 인과관계가 발생하지 않았다.
그래서 제가 생각한 원인은 두 가지 입니다.
1. 각각의 개표소의 표가 충분히 크지 않아서 모집단의 특성을 정확히 반영하지 않고있다.
하지만 위 원인은 좀 수긍하기가 힘든게 개별 개표소의 투표용지는 만 표 이상으로 그 정도면 충분히 크기 때문에 모집단과 거의 완벽한 유사성이 있어야 한다고 생각합니다.
2. 분류기가 완벽하게 동일하지 않기 때문에 개별 개표소의 결과는 전체 결과와 다르게 나올 수 있다.
전 이 두번째 원인이 좀 더 크다고 생각하는데요. 즉, 이 땐 개별 개표소의 결과값을 하나의 결과로 보고 샘플이 250개 정도 되는 상황을 가정해야한다는거죠. 그래도 샘플이 250개 정도되면 충분히 커서 모집단과의 경향성이 상당히 유사해야한다고 생각합니다만 그렇지 않은걸보니 뭔가 다른 이유가 있는가 싶기도 하고.
혹 다른 원인이 있을수 있을까요?