여론조사를 보면서 많이들 하시는 말씀이
유선 응답 비율이 높을수록, 그리고 응답률이 높을수록 안철수 후보에게 유리한 경향을 보인다는 말씀을 많이 하셨습니다.
실제로 그래프와 숫자를 보면 그런 경향이 보이는 것 같긴 하지만
이게 칵테일파티 효과는 아닌지 궁금해서 실제로 그래프를 그려보기로 했습니다.
여기서 유선조사비율과 응답률이 모호한 것은 선거관리위원회 여론조사결과 등록현황
먼저 데이터를 직접 보겠습니다.
(구글 스프레드시트를 활용해서 좀 깔끔하지 않을 수 있습니다.)
격차 = 문재인 - 안철수 로 계산했습니다. 이후 차트는 모두 동일합니다.
더 많은 데이터를 넣고 싶었으나
4월 4일 이전에는 안철수 후보의 지지율이 거의 대부분의 여론조사에서 30%를 밑돌아서 후보간 격차가 컸습니다.
이에 지지율이 급등한 이후인 4월 4일을 기점으로 이후의 모든 공표된 여론조사를 넣었습니다.
실제로 그래프를 보시죠.
먼저 유선조사 비율에 따른 후보간 격차 입니다.
데이터 점들이 오른쪽 아래로 내려가는 경향을 뚜렷하게 확인할 수 있습니다.
유선조사비율이 30% 를 넘어서면 후보간 격차가 5%p 이상으로는 거의 나오지 않는 것을 확인할 수 있습니다.
반면에 유선조사비율이 10%대 이하면 후보간 격차가 거의 대부분 5%p 이상 (한 데이터 포인트를 제외하곤 모두) 나는 것을 확인할 수 있습니다.
이에 많이들 말씀하셨던 유선조사 비율은 여론조사 결과에 상당히 영향을 미치는 것을 확인하실 수 있습니다.
그렇다면 응답률에 따른 후보간 격차는 어떨까요.
응답률이 높을 수록 (샘플이 된 표본을 사용할 것으로 추측되므로) 후보간 격차가 작을 것이다. 라는 것이 세간의 가설이었습니다.
응답률이 20%가 넘어가면 분명 후보간 격차가 다른 표본보다 적게 나는 것을 확인할 수는 있습니다만,
응답률 10~15% 대는 분명한 경향이 있다고 결론내리기엔 애매합니다.
분명 응답률이 15% 이하에서 후보간 격차가 크게 발생하는 것을 볼 수 있지만, 격차가 작거나 안철수 후보가 유리하게 나온 결과도 해당 구간에 존재하기 때문입니다.
가설 자체가 '샘플링 된 데이터를 쓸 것이다' 이기 때문에 경향성을 찾으려면 훨씬 많은 데이터를 필요로 할 것으로 보입니다.
실제 여론조사에서 응답률이 높지만 샘플링을 하지 않았을 수 있고, 낮은 응답률에서도 샘플링을 했을 수도 있기 때문입니다.
결론:
1. 유선조사 비율에 따른 후보간 유/불리는 제법 확실한 경향성을 보인다. 즉, 유선조사 비율이 높을 수록 안철수 후보에게 유리하게 나타남.
2. 응답률에 따른 후보간 유/불리는 섣불리 결론 내릴 수 없다.
이상입니다.
데이터 오류 제보, 데이터에 대한 토의 환영합니다.