모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 게시물ID : science_63747
    작성자 : 코그니토
    추천 : 12
    조회수 : 893
    IP : 39.117.***.59
    댓글 : 69개
    등록시간 : 2017/05/14 00:06:36
    http://todayhumor.com/?science_63747 모바일
    미분류는 얼마나 많으면 많은 것인가?
    "더플랜"은 K값, 그리고 해킹 시연으로 이어지는 논리 전개의 시작을 "미분류가 너무 많다"라는 데서 시작합니다. 그런데 미분류가 '너무' 많다는 것은 '얼마나' 많은 것일까요? 1%? 2%? 3%?

    여기에 대해서 여러 분들이 '쉽게' 설명하시려고 노력하셨으니 저는 이 문제가 '교과서'에 어떻게 나오는지 살펴보겠습니다. 참고로 할 교과서는 크리스토퍼 비숍이 쓴 "패턴 인식과 기계 학습(Pattern Recognition and Machine Learning)"입니다. 이하 '비숍책'이라고 하겠습니다. 비숍책은 지난 10여년간 패턴 인식 및 기계 학습 분야에서 표준적인 교과서에 가까운 자리를 차지해왔습니다. 예를 들면 미국에서는 스탠포드, 하버드, 국내에서는 서울대 등이 이 책을 교과서로 수업합니다.

    미분류의 개념은 거의 800쪽에 달하는 비숍책에서 시작하자마자 바로 1장부터 나옵니다. 다음은 42쪽 1장 5.3절에서 스캔한 대목입니다.

    미분류.png

    여기서 1.5.3 절이 설명하는 Reject option이 바로 '미분류'입니다. 노란색으로 줄쳐놓은 것과 같이 어려운 케이스의 경우에는 기계가 판단하는 것을 피하고 인간 전문가에게 맡기는 것이 전체적인 오류를 줄일 수 있다는 것이죠.

    재밌는 것은 더플랜 논문에서는 아래 그림과 같이 "오직 무효표만 미분류되어야 한다"라고 하면서 교과서와 전혀 말을 하고 있습니다.

    더플랜논문오류1.png

    물론 더플랜 논문의 저자들은 통계 유관 전공자이기는 합니다. 그러나 전공자라고 해서 모든 분야를 다 아는 것은 아니고, 특히 학문 세계에서는 세부 전공이 조금만 달라지면 잘 모르는 것도 당연한 일입니다. 즉, 한 분야의 교수나 박사들이 다른 분야의 교과서 1장 수준의 이야기도 모르는 것이 그렇게 이상한 일은 아닌 것이죠. 프로필을 보니 더플랜 논문의 저자인 전희경, 신화신 등은 보건, 환경 쪽의 통계를 다루는 분들인 것 같더군요. 그렇다면 기계가 이미지를 어떻게 처리해야 하는가 하는 문제는 잘 모를 수도 있습니다. 참고로 비숍 책은 주로 컴퓨터 공학과 대학원에서 교과서로 씁니다.

    어쨌든 다시 교과서, 비숍책으로 돌아옵시다. 미분류에 대해 설명하는 대목을 보면 어디에도 미분류가 3%면 높다느니 낮다느니 하는 식의 설명은 없습니다. 원리는 이렇습니다. 기계는 항상 가장 확률이 높은 선택을 합니다. 그런데 이렇게 하면 1번 표일 확률이 51%만 되어도 1번으로 분류하게 됩니다. 이건 좀 이상하죠. 그래서 일정한 기준, 즉 본문에서 θ(쎄타)라고 표시한 수치를 정해서 가장 높은 확률이 이 수치보다 낮으면 미분류로 보냅니다. 예를 들어 θ(쎄타)가 99.99%라고 하면 1번으로 기표되었을 확률이 99.98%인 경우에도 미분류로 보낸다는 것이죠.

    그럼 이 θ(쎄타)는 어떻게 정해야 하느냐. 마지막 문단이 그것을 설명하고 있습니다. 미분류 자체가 일으키는 '손실'을 고려해서 가장 '기대 손실'을 줄일 수 있는 수준으로 정하라는 것이죠. 여기서 손실은 여러 가지로 생각해볼 수 있습니다. 개표의 경우 심사집계부까지 거쳐도 끝까지 잘못 집계되는 표의 수 같은 것을 손실이라고 볼 수도 있겠네요.

    그런데 1.5.3절은 여기서 끝납니다. 구체적으로 θ(쎄타)를 구하는 방법은 나오지 않아요. 여기서 공대생들이라면 뒷목잡을 만한 부분이 하나 있습니다. 그것은 바로...

    연습문제.png

    θ(쎄타)를 구하는 것은 연습문제로 남겨두었습니다. 하아.. 잠깐 눈물 좀 닦고 이야기를 계속 이어 가도록 하지요.

    어쨌든 연습문제는 쉽게 말하면 이렇습니다. 혼표가 일으키는 손실을 1이라고 했을 때, 미분류가 일으키는 손실을 λ(람다)라고 하면 θ(쎄타)는 어떻게 계산되느냐 이런 것이죠. 어떻게 계산될까요? 다행스럽게도 이 문제는 풀이가 있습니다. (문제 앞에 WWW 표시가 있으면 인터넷에서 풀이를 확인할 수 있다는 뜻입니다) 풀이는 아래와 같습니다.

    답1.png
    답2.png

    뭐 과정은 생략하고 결론만 보면 θ(쎄타)는 1 - λ(람다)로 정할 때 기대 손실을 최소화할 수 있다는군요. 그리고 λ(람다)는 혼표가 일으키는 손실을 1이라고 했을 때 미분류가 일으키는 손실이므로 다시 말하면 (미분류에 의한 손실)/(혼표에 의한 손실)로 다시 계산할 수 있습니다.

    즉, 1 - (미분류에 의한 손실)/(혼표에 의한 손실)을 기준으로 그보다 확률이 낮으면 미분류 하는 게 전체적인 손실을 줄일 수 있다는 것입니다. 여기서 실제 미분류의 비율까지 구하려면 좀 더 계산이 필요합니다. 어쨌든 그건 생략하고..

    다시 처음의 이야기로 돌아와 봅시다. 더플랜에서 김어준은 미분류가 3%인 것은 '너무 많다'고 말합니다. 그러나 교과서는 미분류가 몇 %인 것이 많다 또는 적다라는 식으로 설명하지 않습니다. 미분류에 의한 손실과 혼표에 의한 손실을 고려하여 '최적' 비율을 결정할 수 있다고 설명하지요. 두 가지의 손실이 얼마냐에 따라 미분류는 3%가 최적일 수도 있고 30%가 최적일 수도 있습니다.

    즉, "3%는 너무 많다" 같은 더플랜 식의 논법은 교과서 수준의 이해조차 결여한 잘못된 것입니다.



    이 게시물을 추천한 분들의 목록입니다.
    [1] 2017/05/14 00:08:54  162.158.***.107  등껍질  167702
    [2] 2017/05/14 00:22:33  124.5.***.143  쇼타와팬티4  171930
    [3] 2017/05/14 00:22:52  218.146.***.4  Limeade  545908
    [4] 2017/05/14 00:44:19  121.167.***.242  남극곰  731263
    [5] 2017/05/14 00:54:44  61.109.***.140  S.Guri  5374
    [6] 2017/05/14 01:04:03  210.178.***.231  김윤슬  745923
    [7] 2017/05/14 01:14:04  180.224.***.181  루비슈  559693
    [8] 2017/05/14 01:25:46  221.162.***.216  John_Nase  749484
    [9] 2017/05/14 02:38:31  119.67.***.160  アンノウン  480599
    [10] 2017/05/14 02:49:13  1.11.***.14  Young.K  25347
    푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
    (단,비공감수가 추천수의 1/3 초과시 해당없음)

    죄송합니다. 댓글 작성은 회원만 가능합니다.

    번호 제 목 이름 날짜 조회 추천
    63776
    답글요정의 수학 질문 (급수) [9] 창작글본인삭제금지 Rekiel 17/05/15 15:46 401 0
    63775
    18대 대선 역누적 미스테리 - 2012년 12월 20일 01-04시 [16] (/ㅇ_ㅇ)/ 17/05/15 15:02 1676 12
    63774
    질문) 통계학 분산에 대해서 질문하고자 합니다. [2] 본인삭제금지 RaniyDay 17/05/15 13:35 422 0
    63772
    더 플랜 관련해서 질문드려요.. [18] 창작글 비누꽉다리ㅠ 17/05/15 10:55 593 0
    63767
    인도네시아에서 발견된 고래 사체 [18] RedPain 17/05/15 09:07 1101 11
    63766
    개표 방식은 앞으로 변화할 것인가? [59] 본인삭제금지 애로도사 17/05/15 08:51 700 0/15
    63764
    상대성이론에 대해 궁금한것 하나 [3] 본인삭제금지 으윽 17/05/15 05:49 553 0
    63763
    논거가 완벽하면 참이지만 모두 옳은 것은 아니다. [54] 본인삭제금지 애로도사 17/05/15 03:06 763 0/16
    63762
    이런거 질문해도 되는지 모르겠지만 술마시고 소변보면 본인삭제금지외부펌금지 Afterglow 17/05/15 02:29 493 0
    63760
    과게에 써도 되는건지 모르겠습니다(본삭금) [8] 본인삭제금지 Lucia 17/05/14 22:25 588 0
    63759
    국립연/정출연은 돈 버는 연구를 하면 안됩니다... [10] tearsINrain 17/05/14 21:58 905 10
    63757
    b-w균 오렌지맛 17/05/14 19:03 628 0
    63756
    (수학/통계) 분포도의 다양성을 구하는 방법을 알고 싶습니다만... ㅠㅠ [6] 오늘하루쾌똥 17/05/14 17:21 281 0
    63753
    더플랜은 기적입니다. [34] 마제소바 17/05/14 10:13 1154 19
    63749
    군게 다음은 과게인가... [19] q꾼p 17/05/14 08:12 660 12
    63748
    닉언죄) S.Guri 님 정중한 사과 부탁드립니다. [46] 베스트금지베오베금지본인삭제금지 애로도사 17/05/14 03:00 1230 8/25
    미분류는 얼마나 많으면 많은 것인가? [69] 코그니토 17/05/14 00:06 894 12
    63746
    별이란 무엇인가?? 본격 이과 멘붕 글... [36] 고소한호빵맨 17/05/13 18:34 1331 11
    63744
    K값이 1이 아닌 eu [10] 딥군 17/05/13 12:41 1066 5
    63742
    '0.2를 1번 곱하라' 라는 문장을 식으로 풀면 어떻게 되나요? [16] 본인삭제금지 오징이 17/05/13 12:13 721 0
    63741
    말로만 하니까 쉬워보이시나봐요? [31] Melodie 17/05/13 11:30 1210 10
    63740
    은하속 별들은 어떻게 뱅글뱅글 도나요? [8] 가슴이좋아 17/05/13 06:24 766 1
    63739
    데자뷰? q꾼p 17/05/13 06:00 305 2
    63738
    힉스입자 vs M이론 [8] 본인삭제금지 싸펑피펑? 17/05/13 04:02 899 0
    63734
    우리 스트레스 받지 말고 재밌는 이야기 해양 [3] 역사를기록하자 17/05/13 02:27 360 0
    63732
    같은 표 뭉치를 돌릴 때 마다 미분류표 갯수가 달랐다. [19] アンノウン 17/05/13 01:39 925 11
    63731
    k값을 아직까지 이야기해야 하다니.. [10] 스톤골렘 17/05/13 01:35 631 2
    63730
    와우 글과 댓글을 읽다보니 충격에 휩싸였어요 [25] wsxasdesz 17/05/13 01:19 673 1/15
    63729
    기기해킹으로 개표조작한 트릭을 얘기해보세요 음모론 신봉자분들 [45] 김윤슬 17/05/13 01:07 620 13
    63727
    아니 진심 궁금해서 그런데요 [18] wsxasdesz 17/05/13 00:33 574 0/12
    [◀이전10개] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [다음10개▶]
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈