똑같이 인구가 200명인 두 지역구가 있습니다. A지역은 고령화 지역이라 200명 중 150명이 고령층이라고 합시다. B 지역은 200명 중 10명만 고령층이라 합시다.
고령층은 70%가 박 지지자이고 나머지 연령대는 50대 50이라 가정하고, 고령층이 미분류표를 더 많이 만든다는 연령가설을 극단적으로 받아들여 고령층의 미분류 확률이 100%라 가정해봅시다.
A는 K=1.2564입니다.
B는 K=2.4705입니다.
즉, 연령가설을 극단적으로 받아들이더라도 K값이 평균 연령이 더 낮은 선거구인 B에서 더 높게 나올 수 있다는 걸 알 수 있습니다.
정리하자면 k값과 평균연령간에 상관관계가 없다는건 연령가설의 반박이 될 수 없습니다. 왜냐하면 연령가설을 받아 들여도 k값과 평균연령이 상관 없게 나올 수 있거든요.
k값을 러프하게 생각하면 어차피 박 지지율 + 문 지지율 = 1에 가깝기 때문에 문 지지율을 종속 변수로 볼 수 있고 따라서 변수를 박 지지율 하나로 압축할 수 있습니다. 따라서 변형된 k값은 (미분류표의 박 지지율) / (총 박 지지율)로 만들 수 있습니다. 이 값은 원래 K값에 루트를 취한것과 비슷하게 되겠네요.
연령가설을 받아들이면 K값이 나타내는건 그 개표구의 전체 표심과 고령층 표심간의 괴리도입니다. k = (고령층의 박 지지율)/(전연령층의 박 지지율)이 되는 셈이죠. 따라서 연령가설이 맞다면 다음과 같은 경향이 나타날 것입니다.
전체 민심이 고령층과 크게 다르지 않은 지역 : 영남, 호남의 K값이 1에 가깝다.
전체적인 정치성향이 특별히 없다고 여겨지는 지역 : 고령층 비율이 낮으면 K값이 커지게 되는 경향이 나타날 것이다. (음의 상관관계. 왜냐면 고령층 비율이 낮으면 전체 표심과의 괴리도는 커지게 되기 때문)
추가로 K는 로그정규분포를 따릅니다. 왜냐면 정규분포를 정규분포로 나눈 값이기 때문이죠. 10:90 = 0.1111, 50:50 = 1, 90:10 = 9지만 로그를 취하면, -0.95, 0, 0.95가 됩니다. 로그를 취하면 나눗셈이 빼기가 되면서 정규분포끼리 더하고 뺀 것도 정규분포이므로 정규분포가 됩니다.
각 개표구의 지지율은 확률변수의 부분평균이고 부분평균이 이루는 집단은 모평균을 중심으로 한 정규분포가 된다는 점을 생각하면 K값이 로그정규분포를 이룬다는건 당연합니다.