미분류는 얼마나 많으면 많은 것인가?

오유인페이지

개인차단 상태

코그니토님의
개인페이지입니다

가입 : 12-06-28

방문 : 224회

닉네임변경 이력

일반게시판
베스트게시판
베스트오브베스트
댓글목록

회원차단

회원차단해제

게시물ID : humorbest_1435016

작성자 : 코그니토★

추천 : 38

IP : 39.117.***.59

댓글 : 69개

베스트 등록시간 : 2017/05/14 02:49:13

원글작성시간 : 2017/05/14 00:06:36

http://todayhumor.com/?humorbest_1435016

모바일

미분류는 얼마나 많으면 많은 것인가?

"더플랜"은 K값, 그리고 해킹 시연으로 이어지는 논리 전개의 시작을 "미분류가 너무 많다"라는 데서 시작합니다. 그런데 미분류가 '너무' 많다는 것은 '얼마나' 많은 것일까요? 1%? 2%? 3%?<br><br>여기에 대해서 여러 분들이 '쉽게' 설명하시려고 노력하셨으니 저는 이 문제가 '교과서'에 어떻게 나오는지 살펴보겠습니다. 참고로 할 교과서는 크리스토퍼 비숍이 쓴 "패턴 인식과 기계 학습(Pattern Recognition and Machine Learning)"입니다. 이하 '비숍책'이라고 하겠습니다. 비숍책은 지난 10여년간 패턴 인식 및 기계 학습 분야에서 표준적인 교과서에 가까운 자리를 차지해왔습니다. 예를 들면 미국에서는 <a target="_blank" href="http://cs.stanford.edu/~ermon/cs228/index.html" target="_blank">스탠포드</a>, <a target="_blank" href="http://www.seas.harvard.edu/courses/cs281/files/syllabus.pdf" target="_blank">하버드</a>, 국내에서는 <a target="_blank" href="https://bi.snu.ac.kr/~scai/Courses/ML2015f/ML2015.html" target="_blank">서울대</a> 등이 이 책을 교과서로 수업합니다.<br><br>미분류의 개념은 거의 800쪽에 달하는 비숍책에서 시작하자마자 바로 1장부터 나옵니다. 다음은 42쪽 1장 5.3절에서 스캔한 대목입니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494683960291ea42a551c4f3bb88d3266d3d1ac9d__w982__h666__f185592__Ym201705.png" alt="미분류.png" style="border:medium none;" class="chimg_photo" width="800" height="543" filesize="185592"></div><br>여기서 1.5.3 절이 설명하는 Reject option이 바로 '미분류'입니다. 노란색으로 줄쳐놓은 것과 같이 어려운 케이스의 경우에는 기계가 판단하는 것을 피하고 인간 전문가에게 맡기는 것이 전체적인 오류를 줄일 수 있다는 것이죠.<br><br>재밌는 것은 더플랜 논문에서는 아래 그림과 같이 "오직 무효표만 미분류되어야 한다"라고 하면서 교과서와 전혀 말을 하고 있습니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494685091d319447abd7047cb8dfbb5eadc702afb__w841__h88__f18938__Ym201705.png" alt="더플랜논문오류1.png" style="border:medium none;" class="chimg_photo" width="800" height="84" filesize="18938"></div><br>물론 더플랜 논문의 저자들은 통계 유관 전공자이기는 합니다. 그러나 전공자라고 해서 모든 분야를 다 아는 것은 아니고, 특히 학문 세계에서는 세부 전공이 조금만 달라지면 잘 모르는 것도 당연한 일입니다. 즉, 한 분야의 교수나 박사들이 다른 분야의 교과서 1장 수준의 이야기도 모르는 것이 그렇게 이상한 일은 아닌 것이죠. 프로필을 보니 더플랜 논문의 저자인 전희경, 신화신 등은 보건, 환경 쪽의 통계를 다루는 분들인 것 같더군요. 그렇다면 기계가 이미지를 어떻게 처리해야 하는가 하는 문제는 잘 모를 수도 있습니다. 참고로 비숍 책은 주로 컴퓨터 공학과 대학원에서 교과서로 씁니다. <br><br>어쨌든 다시 교과서, 비숍책으로 돌아옵시다. 미분류에 대해 설명하는 대목을 보면 어디에도 미분류가 3%면 높다느니 낮다느니 하는 식의 설명은 없습니다. 원리는 이렇습니다. 기계는 항상 가장 확률이 높은 선택을 합니다. 그런데 이렇게 하면 1번 표일 확률이 51%만 되어도 1번으로 분류하게 됩니다. 이건 좀 이상하죠. 그래서 일정한 기준, 즉 본문에서 θ(쎄타)라고 표시한 수치를 정해서 가장 높은 확률이 이 수치보다 낮으면 미분류로 보냅니다. 예를 들어 θ(쎄타)가 99.99%라고 하면 1번으로 기표되었을 확률이 99.98%인 경우에도 미분류로 보낸다는 것이죠.<br><br>그럼 이 θ(쎄타)는 어떻게 정해야 하느냐. 마지막 문단이 그것을 설명하고 있습니다. 미분류 자체가 일으키는 '손실'을 고려해서 가장 '기대 손실'을 줄일 수 있는 수준으로 정하라는 것이죠. 여기서 손실은 여러 가지로 생각해볼 수 있습니다. 개표의 경우 심사집계부까지 거쳐도 끝까지 잘못 집계되는 표의 수 같은 것을 손실이라고 볼 수도 있겠네요.<br><br>그런데 1.5.3절은 여기서 끝납니다. 구체적으로 θ(쎄타)를 구하는 방법은 나오지 않아요. 여기서 공대생들이라면 뒷목잡을 만한 부분이 하나 있습니다. 그것은 바로...<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/149468641470dfef6dbeaf4f0ca165f02ef1762737__w1040__h222__f74002__Ym201705.png" alt="연습문제.png" style="border:medium none;" class="chimg_photo" width="800" height="171" filesize="74002"></div><br>θ(쎄타)를 구하는 것은 연습문제로 남겨두었습니다. 하아.. 잠깐 눈물 좀 닦고 이야기를 계속 이어 가도록 하지요.<br><br>어쨌든 연습문제는 쉽게 말하면 이렇습니다. 혼표가 일으키는 손실을 1이라고 했을 때, 미분류가 일으키는 손실을 λ(람다)라고 하면 θ(쎄타)는 어떻게 계산되느냐 이런 것이죠. 어떻게 계산될까요? 다행스럽게도 이 문제는 풀이가 있습니다. (문제 앞에 WWW 표시가 있으면 인터넷에서 풀이를 확인할 수 있다는 뜻입니다) 풀이는 아래와 같습니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/14946866743e15f1a3b69d4adaab49583ec8f8717f__w1095__h405__f58074__Ym201705.png" alt="답1.png" style="border:medium none;" class="chimg_photo" width="800" height="296" filesize="58074"></div> <div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494686679956413f0527143cca659a51c49ac4922__w1083__h186__f49768__Ym201705.png" alt="답2.png" style="border:medium none;" class="chimg_photo" width="800" height="137" filesize="49768"></div><br>뭐 과정은 생략하고 결론만 보면 θ(쎄타)는 1 - λ(람다)로 정할 때 기대 손실을 최소화할 수 있다는군요. 그리고 λ(람다)는 혼표가 일으키는 손실을 1이라고 했을 때 미분류가 일으키는 손실이므로 다시 말하면 (미분류에 의한 손실)/(혼표에 의한 손실)로 다시 계산할 수 있습니다. <br><br>즉, 1 - (미분류에 의한 손실)/(혼표에 의한 손실)을 기준으로 그보다 확률이 낮으면 미분류 하는 게 전체적인 손실을 줄일 수 있다는 것입니다. 여기서 실제 미분류의 비율까지 구하려면 좀 더 계산이 필요합니다. 어쨌든 그건 생략하고..<br><br>다시 처음의 이야기로 돌아와 봅시다. 더플랜에서 김어준은 미분류가 3%인 것은 '너무 많다'고 말합니다. 그러나 교과서는 미분류가 몇 %인 것이 많다 또는 적다라는 식으로 설명하지 않습니다. 미분류에 의한 손실과 혼표에 의한 손실을 고려하여 '최적' 비율을 결정할 수 있다고 설명하지요. 두 가지의 손실이 얼마냐에 따라 미분류는 3%가 최적일 수도 있고 30%가 최적일 수도 있습니다.<br><br>즉, "3%는 너무 많다" 같은 더플랜 식의 논법은 교과서 수준의 이해조차 결여한 잘못된 것입니다.<br><br><br>

이 게시물을 추천한 분들의 목록입니다.

[1] 2017/05/14 00:08:54 162.158.***.107 등껍질 167702
[2] 2017/05/14 00:22:33 124.5.***.143 쇼타와팬티4 171930
[3] 2017/05/14 00:22:52 218.146.***.4 Limeade 545908
[4] 2017/05/14 00:44:19 121.167.***.242 남극곰 731263
[5] 2017/05/14 00:54:44 61.109.***.140 S.Guri 5374
[6] 2017/05/14 01:04:03 210.178.***.231 김윤슬 745923
[7] 2017/05/14 01:14:04 180.224.***.181 루비슈 559693
[8] 2017/05/14 01:25:46 221.162.***.216 John_Nase 749484
[9] 2017/05/14 02:38:31 119.67.***.160 アンノウン 480599
[10] 2017/05/14 02:49:13 1.11.***.14 Young.K 25347

푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
(단,비공감수가 추천수의 1/3 초과시 해당없음)

죄송합니다. 댓글 작성은 회원만 가능합니다.

번호

제 목

이름

날짜

조회

분류	게시판
베스트	베스트오브베스트 베스트 오늘의베스트
유머	유머자료 유머글
이야기	자유 고민 연애 결혼생활 좋은글 자랑 공포 멘붕 사이다 꿈 똥 군대 밀리터리 미스터리 술한잔 오늘있잖아요 투표인증 새해
이슈	시사 시사아카이브 사회면 사건사고
생활	패션 패션착샷 아동패션착샷 뷰티 인테리어 DIY 요리 커피&차 육아 법률 동물 책 지식 취업정보 식물 다이어트 의료 영어 맛집 추천사이트 해외직구
취미	사진 사진강좌 카메라 만화 애니메이션 포니 자전거 자동차 여행 바이크 민물낚시 바다낚시 장난감 그림판
학술	경제 역사 예술 과학 철학 심리학
방송연예	연예 음악 음악찾기 악기 음향기기 영화 다큐멘터리 국내드라마 해외드라마 예능 팟케스트
방송프로그램	무한도전 더지니어스 개그콘서트 런닝맨 나가수
디지털	컴퓨터 프로그래머 IT 안티바이러스 애플 안드로이드 스마트폰 윈도우폰 심비안
스포츠	스포츠 축구 야구 농구 바둑
야구팀	삼성 두산 NC 넥센 한화 SK 기아 롯데 LG KT 메이저리그 일본프로야구리그
게임1	플래시게임 게임토론방 엑스박스 플레이스테이션 닌텐도 모바일게임
게임2	던전앤파이터 롤 마비노기 마비노기영웅전 하스스톤 히어로즈오브더스톰 gta5 디아블로 디아블로2 피파온라인2 피파온라인3 워크래프트 월드오브워크래프트 밀리언아서 월드오브탱크 블레이드앤소울 검은사막 스타크래프트 스타크래프트2 베틀필드3 마인크래프트 데이즈 문명 서든어택 테라 아이온 심시티5 프리스타일풋볼 스페셜포스 사이퍼즈 도타2 메이플스토리1 메이플스토리2 오버워치 오버워치그룹모집 포켓몬고 파이널판타지14 배틀그라운드
기타	종교 단어장 자료창고
운영	공지사항 오유운영 게시판신청 보류
임시게시판	메르스 세월호 원전사고 2016리오올림픽 2018평창올림픽 코로나19 2020도쿄올림픽