"더플랜"은 K값, 그리고 해킹 시연으로 이어지는 논리 전개의 시작을 "미분류가 너무 많다"라는 데서 시작합니다. 그런데 미분류가 '너무' 많다는 것은 '얼마나' 많은 것일까요? 1%? 2%? 3%?<br><br>여기에 대해서 여러 분들이 '쉽게' 설명하시려고 노력하셨으니 저는 이 문제가 '교과서'에 어떻게 나오는지 살펴보겠습니다. 참고로 할 교과서는 크리스토퍼 비숍이 쓴 "패턴 인식과 기계 학습(Pattern Recognition and Machine Learning)"입니다. 이하 '비숍책'이라고 하겠습니다. 비숍책은 지난 10여년간 패턴 인식 및 기계 학습 분야에서 표준적인 교과서에 가까운 자리를 차지해왔습니다. 예를 들면 미국에서는 <a target="_blank" href="http://cs.stanford.edu/~ermon/cs228/index.html" target="_blank">스탠포드</a>, <a target="_blank" href="http://www.seas.harvard.edu/courses/cs281/files/syllabus.pdf" target="_blank">하버드</a>, 국내에서는 <a target="_blank" href="https://bi.snu.ac.kr/~scai/Courses/ML2015f/ML2015.html" target="_blank">서울대</a> 등이 이 책을 교과서로 수업합니다.<br><br>미분류의 개념은 거의 800쪽에 달하는 비숍책에서 시작하자마자 바로 1장부터 나옵니다. 다음은 42쪽 1장 5.3절에서 스캔한 대목입니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494683960291ea42a551c4f3bb88d3266d3d1ac9d__w982__h666__f185592__Ym201705.png" alt="미분류.png" style="border:medium none;" class="chimg_photo" width="800" height="543" filesize="185592"></div><br>여기서 1.5.3 절이 설명하는 Reject option이 바로 '미분류'입니다. 노란색으로 줄쳐놓은 것과 같이 어려운 케이스의 경우에는 기계가 판단하는 것을 피하고 인간 전문가에게 맡기는 것이 전체적인 오류를 줄일 수 있다는 것이죠.<br><br>재밌는 것은 더플랜 논문에서는 아래 그림과 같이 "오직 무효표만 미분류되어야 한다"라고 하면서 교과서와 전혀 말을 하고 있습니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494685091d319447abd7047cb8dfbb5eadc702afb__w841__h88__f18938__Ym201705.png" alt="더플랜논문오류1.png" style="border:medium none;" class="chimg_photo" width="800" height="84" filesize="18938"></div><br>물론 더플랜 논문의 저자들은 통계 유관 전공자이기는 합니다. 그러나 전공자라고 해서 모든 분야를 다 아는 것은 아니고, 특히 학문 세계에서는 세부 전공이 조금만 달라지면 잘 모르는 것도 당연한 일입니다. 즉, 한 분야의 교수나 박사들이 다른 분야의 교과서 1장 수준의 이야기도 모르는 것이 그렇게 이상한 일은 아닌 것이죠. 프로필을 보니 더플랜 논문의 저자인 전희경, 신화신 등은 보건, 환경 쪽의 통계를 다루는 분들인 것 같더군요. 그렇다면 기계가 이미지를 어떻게 처리해야 하는가 하는 문제는 잘 모를 수도 있습니다. 참고로 비숍 책은 주로 컴퓨터 공학과 대학원에서 교과서로 씁니다. <br><br>어쨌든 다시 교과서, 비숍책으로 돌아옵시다. 미분류에 대해 설명하는 대목을 보면 어디에도 미분류가 3%면 높다느니 낮다느니 하는 식의 설명은 없습니다. 원리는 이렇습니다. 기계는 항상 가장 확률이 높은 선택을 합니다. 그런데 이렇게 하면 1번 표일 확률이 51%만 되어도 1번으로 분류하게 됩니다. 이건 좀 이상하죠. 그래서 일정한 기준, 즉 본문에서 θ(쎄타)라고 표시한 수치를 정해서 가장 높은 확률이 이 수치보다 낮으면 미분류로 보냅니다. 예를 들어 θ(쎄타)가 99.99%라고 하면 1번으로 기표되었을 확률이 99.98%인 경우에도 미분류로 보낸다는 것이죠.<br><br>그럼 이 θ(쎄타)는 어떻게 정해야 하느냐. 마지막 문단이 그것을 설명하고 있습니다. 미분류 자체가 일으키는 '손실'을 고려해서 가장 '기대 손실'을 줄일 수 있는 수준으로 정하라는 것이죠. 여기서 손실은 여러 가지로 생각해볼 수 있습니다. 개표의 경우 심사집계부까지 거쳐도 끝까지 잘못 집계되는 표의 수 같은 것을 손실이라고 볼 수도 있겠네요.<br><br>그런데 1.5.3절은 여기서 끝납니다. 구체적으로 θ(쎄타)를 구하는 방법은 나오지 않아요. 여기서 공대생들이라면 뒷목잡을 만한 부분이 하나 있습니다. 그것은 바로...<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/149468641470dfef6dbeaf4f0ca165f02ef1762737__w1040__h222__f74002__Ym201705.png" alt="연습문제.png" style="border:medium none;" class="chimg_photo" width="800" height="171" filesize="74002"></div><br>θ(쎄타)를 구하는 것은 연습문제로 남겨두었습니다. 하아.. 잠깐 눈물 좀 닦고 이야기를 계속 이어 가도록 하지요.<br><br>어쨌든 연습문제는 쉽게 말하면 이렇습니다. 혼표가 일으키는 손실을 1이라고 했을 때, 미분류가 일으키는 손실을 λ(람다)라고 하면 θ(쎄타)는 어떻게 계산되느냐 이런 것이죠. 어떻게 계산될까요? 다행스럽게도 이 문제는 풀이가 있습니다. (문제 앞에 WWW 표시가 있으면 인터넷에서 풀이를 확인할 수 있다는 뜻입니다) 풀이는 아래와 같습니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/14946866743e15f1a3b69d4adaab49583ec8f8717f__w1095__h405__f58074__Ym201705.png" alt="답1.png" style="border:medium none;" class="chimg_photo" width="800" height="296" filesize="58074"></div> <div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494686679956413f0527143cca659a51c49ac4922__w1083__h186__f49768__Ym201705.png" alt="답2.png" style="border:medium none;" class="chimg_photo" width="800" height="137" filesize="49768"></div><br>뭐 과정은 생략하고 결론만 보면 θ(쎄타)는 1 - λ(람다)로 정할 때 기대 손실을 최소화할 수 있다는군요. 그리고 λ(람다)는 혼표가 일으키는 손실을 1이라고 했을 때 미분류가 일으키는 손실이므로 다시 말하면 (미분류에 의한 손실)/(혼표에 의한 손실)로 다시 계산할 수 있습니다. <br><br>즉, 1 - (미분류에 의한 손실)/(혼표에 의한 손실)을 기준으로 그보다 확률이 낮으면 미분류 하는 게 전체적인 손실을 줄일 수 있다는 것입니다. 여기서 실제 미분류의 비율까지 구하려면 좀 더 계산이 필요합니다. 어쨌든 그건 생략하고..<br><br>다시 처음의 이야기로 돌아와 봅시다. 더플랜에서 김어준은 미분류가 3%인 것은 '너무 많다'고 말합니다. 그러나 교과서는 미분류가 몇 %인 것이 많다 또는 적다라는 식으로 설명하지 않습니다. 미분류에 의한 손실과 혼표에 의한 손실을 고려하여 '최적' 비율을 결정할 수 있다고 설명하지요. 두 가지의 손실이 얼마냐에 따라 미분류는 3%가 최적일 수도 있고 30%가 최적일 수도 있습니다.<br><br>즉, "3%는 너무 많다" 같은 더플랜 식의 논법은 교과서 수준의 이해조차 결여한 잘못된 것입니다.<br><br><br>