모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 오유인페이지
    개인차단 상태
    코그니토님의
    개인페이지입니다
    가입 : 12-06-28
    방문 : 224회
    닉네임변경 이력
    회원차단
    회원차단해제
    게시물ID : humorbest_1435016
    작성자 : 코그니토
    추천 : 38
    조회수 : 3338
    IP : 39.117.***.59
    댓글 : 69개
    베스트 등록시간 : 2017/05/14 02:49:13
    원글작성시간 : 2017/05/14 00:06:36
    http://todayhumor.com/?humorbest_1435016 모바일
    미분류는 얼마나 많으면 많은 것인가?
    "더플랜"은 K값, 그리고 해킹 시연으로 이어지는 논리 전개의 시작을 "미분류가 너무 많다"라는 데서 시작합니다. 그런데 미분류가 '너무' 많다는 것은 '얼마나' 많은 것일까요? 1%? 2%? 3%?<br><br>여기에 대해서 여러 분들이 '쉽게' 설명하시려고 노력하셨으니 저는 이 문제가 '교과서'에 어떻게 나오는지 살펴보겠습니다. 참고로 할 교과서는 크리스토퍼 비숍이 쓴 "패턴 인식과 기계 학습(Pattern Recognition and Machine Learning)"입니다. 이하 '비숍책'이라고 하겠습니다. 비숍책은 지난 10여년간 패턴 인식 및 기계 학습 분야에서 표준적인 교과서에 가까운 자리를 차지해왔습니다. 예를 들면 미국에서는 <a target="_blank" href="http://cs.stanford.edu/~ermon/cs228/index.html" target="_blank">스탠포드</a>, <a target="_blank" href="http://www.seas.harvard.edu/courses/cs281/files/syllabus.pdf" target="_blank">하버드</a>, 국내에서는 <a target="_blank" href="https://bi.snu.ac.kr/~scai/Courses/ML2015f/ML2015.html" target="_blank">서울대</a> 등이 이 책을 교과서로 수업합니다.<br><br>미분류의 개념은 거의 800쪽에 달하는 비숍책에서 시작하자마자 바로 1장부터 나옵니다. 다음은 42쪽 1장 5.3절에서 스캔한 대목입니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494683960291ea42a551c4f3bb88d3266d3d1ac9d__w982__h666__f185592__Ym201705.png" alt="미분류.png" style="border:medium none;" class="chimg_photo" width="800" height="543" filesize="185592"></div><br>여기서 1.5.3 절이 설명하는 Reject option이 바로 '미분류'입니다. 노란색으로 줄쳐놓은 것과 같이 어려운 케이스의 경우에는 기계가 판단하는 것을 피하고 인간 전문가에게 맡기는 것이 전체적인 오류를 줄일 수 있다는 것이죠.<br><br>재밌는 것은 더플랜 논문에서는 아래 그림과 같이 "오직 무효표만 미분류되어야 한다"라고 하면서 교과서와 전혀 말을 하고 있습니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494685091d319447abd7047cb8dfbb5eadc702afb__w841__h88__f18938__Ym201705.png" alt="더플랜논문오류1.png" style="border:medium none;" class="chimg_photo" width="800" height="84" filesize="18938"></div><br>물론 더플랜 논문의 저자들은 통계 유관 전공자이기는 합니다. 그러나 전공자라고 해서 모든 분야를 다 아는 것은 아니고, 특히 학문 세계에서는 세부 전공이 조금만 달라지면 잘 모르는 것도 당연한 일입니다. 즉, 한 분야의 교수나 박사들이 다른 분야의 교과서 1장 수준의 이야기도 모르는 것이 그렇게 이상한 일은 아닌 것이죠. 프로필을 보니 더플랜 논문의 저자인 전희경, 신화신 등은 보건, 환경 쪽의 통계를 다루는 분들인 것 같더군요. 그렇다면 기계가 이미지를 어떻게 처리해야 하는가 하는 문제는 잘 모를 수도 있습니다. 참고로 비숍 책은 주로 컴퓨터 공학과 대학원에서 교과서로 씁니다. <br><br>어쨌든 다시 교과서, 비숍책으로 돌아옵시다. 미분류에 대해 설명하는 대목을 보면 어디에도 미분류가 3%면 높다느니 낮다느니 하는 식의 설명은 없습니다. 원리는 이렇습니다. 기계는 항상 가장 확률이 높은 선택을 합니다. 그런데 이렇게 하면 1번 표일 확률이 51%만 되어도 1번으로 분류하게 됩니다. 이건 좀 이상하죠. 그래서 일정한 기준, 즉 본문에서 θ(쎄타)라고 표시한 수치를 정해서 가장 높은 확률이 이 수치보다 낮으면 미분류로 보냅니다. 예를 들어 θ(쎄타)가 99.99%라고 하면 1번으로 기표되었을 확률이 99.98%인 경우에도 미분류로 보낸다는 것이죠.<br><br>그럼 이 θ(쎄타)는 어떻게 정해야 하느냐. 마지막 문단이 그것을 설명하고 있습니다. 미분류 자체가 일으키는 '손실'을 고려해서 가장 '기대 손실'을 줄일 수 있는 수준으로 정하라는 것이죠. 여기서 손실은 여러 가지로 생각해볼 수 있습니다. 개표의 경우 심사집계부까지 거쳐도 끝까지 잘못 집계되는 표의 수 같은 것을 손실이라고 볼 수도 있겠네요.<br><br>그런데 1.5.3절은 여기서 끝납니다. 구체적으로 θ(쎄타)를 구하는 방법은 나오지 않아요. 여기서 공대생들이라면 뒷목잡을 만한 부분이 하나 있습니다. 그것은 바로...<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/149468641470dfef6dbeaf4f0ca165f02ef1762737__w1040__h222__f74002__Ym201705.png" alt="연습문제.png" style="border:medium none;" class="chimg_photo" width="800" height="171" filesize="74002"></div><br>θ(쎄타)를 구하는 것은 연습문제로 남겨두었습니다. 하아.. 잠깐 눈물 좀 닦고 이야기를 계속 이어 가도록 하지요.<br><br>어쨌든 연습문제는 쉽게 말하면 이렇습니다. 혼표가 일으키는 손실을 1이라고 했을 때, 미분류가 일으키는 손실을 λ(람다)라고 하면 θ(쎄타)는 어떻게 계산되느냐 이런 것이죠. 어떻게 계산될까요? 다행스럽게도 이 문제는 풀이가 있습니다. (문제 앞에 WWW 표시가 있으면 인터넷에서 풀이를 확인할 수 있다는 뜻입니다) 풀이는 아래와 같습니다.<br><br><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/14946866743e15f1a3b69d4adaab49583ec8f8717f__w1095__h405__f58074__Ym201705.png" alt="답1.png" style="border:medium none;" class="chimg_photo" width="800" height="296" filesize="58074"></div> <div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201705/1494686679956413f0527143cca659a51c49ac4922__w1083__h186__f49768__Ym201705.png" alt="답2.png" style="border:medium none;" class="chimg_photo" width="800" height="137" filesize="49768"></div><br>뭐 과정은 생략하고 결론만 보면 θ(쎄타)는 1 - λ(람다)로 정할 때 기대 손실을 최소화할 수 있다는군요. 그리고 λ(람다)는 혼표가 일으키는 손실을 1이라고 했을 때 미분류가 일으키는 손실이므로 다시 말하면 (미분류에 의한 손실)/(혼표에 의한 손실)로 다시 계산할 수 있습니다. <br><br>즉, 1 - (미분류에 의한 손실)/(혼표에 의한 손실)을 기준으로 그보다 확률이 낮으면 미분류 하는 게 전체적인 손실을 줄일 수 있다는 것입니다. 여기서 실제 미분류의 비율까지 구하려면 좀 더 계산이 필요합니다. 어쨌든 그건 생략하고..<br><br>다시 처음의 이야기로 돌아와 봅시다. 더플랜에서 김어준은 미분류가 3%인 것은 '너무 많다'고 말합니다. 그러나 교과서는 미분류가 몇 %인 것이 많다 또는 적다라는 식으로 설명하지 않습니다. 미분류에 의한 손실과 혼표에 의한 손실을 고려하여 '최적' 비율을 결정할 수 있다고 설명하지요. 두 가지의 손실이 얼마냐에 따라 미분류는 3%가 최적일 수도 있고 30%가 최적일 수도 있습니다.<br><br>즉, "3%는 너무 많다" 같은 더플랜 식의 논법은 교과서 수준의 이해조차 결여한 잘못된 것입니다.<br><br><br>

    이 게시물을 추천한 분들의 목록입니다.
    [1] 2017/05/14 00:08:54  162.158.***.107  등껍질  167702
    [2] 2017/05/14 00:22:33  124.5.***.143  쇼타와팬티4  171930
    [3] 2017/05/14 00:22:52  218.146.***.4  Limeade  545908
    [4] 2017/05/14 00:44:19  121.167.***.242  남극곰  731263
    [5] 2017/05/14 00:54:44  61.109.***.140  S.Guri  5374
    [6] 2017/05/14 01:04:03  210.178.***.231  김윤슬  745923
    [7] 2017/05/14 01:14:04  180.224.***.181  루비슈  559693
    [8] 2017/05/14 01:25:46  221.162.***.216  John_Nase  749484
    [9] 2017/05/14 02:38:31  119.67.***.160  アンノウン  480599
    [10] 2017/05/14 02:49:13  1.11.***.14  Young.K  25347
    푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
    (단,비공감수가 추천수의 1/3 초과시 해당없음)

    죄송합니다. 댓글 작성은 회원만 가능합니다.

    번호 제 목 이름 날짜 조회 추천
    미분류는 얼마나 많으면 많은 것인가? [69] 코그니토 17/05/14 02:49 3338 38
    무한도전 동영상, 게스트, 특집 완전정리 [3] 아이추판다 12/09/27 10:46 5231 59
    [1]
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈