모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 게시물ID : programmer_10144
    작성자 : SIGPIPE
    추천 : 2
    조회수 : 397
    IP : 125.186.***.31
    댓글 : 3개
    등록시간 : 2015/05/16 22:14:11
    http://todayhumor.com/?programmer_10144 모바일
    (재업) 오유에서의 여론조작 방지를 위한 시스템 개선 제안
    // ----------------------------------------------------------------------
    //
    // 자유게시판에 올렸다가 묻혀서 여기에 다시 올립니다. 여기 맞..겠죠? 
    //
    // ----------------------------------------------------------------------




    안녕하세요. 지나가던 개발자입니다.

    이 글에서는 오유에서의 여론조작 방지를 위한 기술적 개선에 대해 제안하고자 합니다.
    제가 제안 드릴 방법은 구글 기술력의 핵심이기도 한 데이터 기반 알고리즘입니다.
    물론 방법론이 같다는 것이구요 저는 내공이 아직 많이 부족하기 때문에 방법론을 실제로 구현하는 데에는 많은 어려움이 있을 것 같습니다만 아무튼 제안해봅니다.

    <배경지식 - 데이터 기반 알고리즘>
    알고리즘이란 문제를 해결하는 절차를 체계적으로 기술해 놓은 것을 말합니다. 예를 들어 추천을 10개 받으면 베스트 게시판으로 복사된다, 신고를 몇개 이상 받으면 보류게시판으로 이동된다. 이런 것도 다 알고리즘입니다. 알고리즘은 우선 통찰(insight)을 통해 아이디어를 얻고 이를 구현(implementation)하고 이후에 지속적으로 개선(improvement)하는 과정을 거쳐 만들어집니다. 아이디어는 단순하지만 구현이 쉽지 않은 경우도 있고 그 반대의 경우도 있습니다. 데이터 기반 알고리즘이란 알고리즘을 만드는 모든 과정에서 근거로 삼는 것이 데이터라는 의미입니다. 데이터를 분석해서 통찰을 얻어 구현하고 데이터를 보고 알고리즘을 개선해 나가는 것이죠. 보다 자세히 말씀드리면 아래와 같은 과정이 됩니다.

    1. 통찰(insight)을 통한 아이디어 도출
       오유의 글들을 훑어봤더니 이런 패턴을 보이는 사람은 분탕종자인 것 같다.
       이런 패턴을 보이는 사람은 일베X인 것 같다
       이런 글은 베스트로 갈만한 글인데 다른 이유 때문에 못 간 것 같다

       대개는 이렇게 자신의 경험을 바탕으로 아이디어를 도출하게 됩니다.
       혹은 여러사람이 의견을 자유롭게 내는 브레인스토밍이나.. 기타 등등 여러 방법이 있을 수 있겠죠.
       이런 글이 바로 많은 사람들의 아이디어를 모으기 위한 글이라 할 수 있습니다.

    2. 데이터 분석(data analyzing)
       아이디어가 맞는지 아닌지는 오로지 데이터로만 검증합니다.
       기본적으로 분석 대상이 되는 모든 데이터를 살펴보는 것이 맞습니다만 경우에 따라서는 표본을 추출하여 분석하기도 합니다.
       
       예를 들면 지난 1년간 올라온 모든(혹은 베스트, 베오베) 글들을 분석 대상으로 삼을 수 있습니다.
       데이터 분석 작업은 양이 너무 많기 때문에 일일히 하나씩 눈으로 확인할 수 없고 기계(컴퓨터)를 통해서 하게 됩니다.
       그 분석의 틀로 1번에서 얻은 아이디어를 사용하게 되는 것이지요.

       데이터 분석 결과가 나의 통찰과 일치하지 않을 수 있습니다. 왜냐면 내가 경험한 것이 전체 데이터를 대표할 수 있는 표본이 아닌 경우도 있기 때문이에요. 데이터 분석 작업은 통찰과 실제의 데이터가 일치하는지, 일치하지 않으면 왜 일치하지 않는지 등등을 밝혀내는 작업이라 할 수 있습니다.

    3. 구현(implementation)
       데이터를 통해 맞다고 입증된 아이디어를 실제로 구현합니다.
       아이디어에 따라서는 구현이 아얘 불가능하거나 많은 시간, 노력, 돈이 필요하여 현실적으로 구현이 불가능할 수도 있습니다.
       알고리즘을 구현하는데에는 정말 많은 것들을 고려해야 합니다. 시간, 노력, 돈, 서버성능, 유지보수 비용..

    4. 실험(expreriment)
       구현한 알고리즘이 의도한 대로 동작하는지 실험을 통해 검증하는 단계입니다.
       반복적인 실험을 통해 알고리즘을 더욱 정교하게 다듬게 됩니다.
       실험은 테스터들끼리만 진행할 수도 있고 그것이 의미가 없는 경우는 실제 서비스에 적용하여 전체 유저를 대상으로 진행할 수도 있습니다.
       경우에 따라서는 실험을 한다는 사실을 밝히는 것이 실험결과에 영향을 미칠 수 있기 때문에 그럴 경우는 유저가 모르게 비밀리(?)에 진행하기도 합니다. 
       실험과정에서는 평가(evaluation)를 지속적으로 하게 됩니다. 이 알고리즘이 맞는가? 퀄리티가 어느정도인가? 에 대해 평가하는 것인데요, 여러가지 기준이 있을 수 있지만 정확도(precision)과 커버리지(coverage) 이 두개의 기준이 많이 사용됩니다. 정확도 95%이상, 커버리지 90% 이상 과 같은 구체적 목표를 가지고 실험을 진행하면서 계속 알고리즘을 다듬게 됩니다.


       여론조작 여부를 판단하는 알고리즘이라면 이렇게 됩니다.

       전체 조작 글 수(A): 120

       알고리즘이 조작이라고 판단했으나 틀린 경우(B): 10

       알고리즘이 조작이라고 판단했고 옳은 경우(C): 90
       
       

       커버리지: (B+C)/A = (10+90)/120 = 83%
       
       정확도: C/(B+C) = 90/(10+90) = 90%

       

    5. 개선(improvement)
       오랜 기간 테스트를 거쳐 완성된 알고리즘이라 할지라도 세상은 참으로 변화무쌍하기 때문에 시간이 지나면 맞지 않는 알고리즘이 될 수 있습니다.
       또는 전에는 인지하지 못했던 알고리즘 자체의 헛점이 발견되기도 하지요.
       이 때문에 지속적인 모니터링과 개선을 하게 됩니다. 물론 모두 데이터를 기반으로 합니다.


    <오유에서의 여론 조작 방지를 위한 제안>
    본론입니다. 현재 오유는 추천수 10을 받은 게시물은 베스트 게시판으로 복사되고 추천수 100을 받은 게시물은 베오베 게시판으로 복사됩니다.
    신고수가 일정이상(정확한 숫자는 잘 모르겠네요) 누적되면 보류게시판으로 이동하는 것으로 알고 있습니다.
    문제는 이 시스템을 악용해서 자신이 원하는 내용의 글을 추천조작으로 베스트/베오베로 이동시키거나 자신이 원하지 않는 내용의 글을 베스트/베오베에서 끌어내리는 일이 종종 발생한다는 점입니다.

    1. 핵심은 알고리즘의 판단기준을 count 가 아니라 ratio(비율) 로 하자는 것입니다. 혹은 ratio를 기본으로 하되 count로 보완하자는 것입니다.
    예를들어 비공감이 50개가 되면 베오베로 못간다고 합시다. 50이라는 숫자는 베오베로 못가게 하기에 적합한 숫자일까요? 추천이 500이고 비공감이50인 글이 베오베로 못가는 것이 맞을까요? 50은 어떤 기준에서 정해진 숫자인가요?
    예를 들어 베오베에 가려면 추천이 100개 있어야 하고 비공감수가 추천수의 절반이하가 되어야 한다. 이런식으로 하자는 것입니다.
    그렇다면 그 '절반' 이라는 것은 무슨 기준으로 정해지는 걸까요? 이것은 실험을 통해 알아내야 합니다.
    실험에서 여론조작 여부에 대한 판단은 최종적으로 사람이 하게 됩니다. 절반이 맞는지 (예를들어)3분의1이 맞는지는 모두 일정 기간동안 시스템에 적용해보고 알고리즘이 판단한 결과가 정말로 맞는지, 정확도가 어느정도 되는지를 확인하고 정해야 합니다.
    그렇다면 count만 사용하되 그 값을 실험을 통해 알아내면 되지 않느냐 라고 하실 수 있지만 제 통찰로는 아닌 것 같습니다. 사람수에 따라 다르게 적용하는게 맞는 것 같아요.

    또한 추천수 비공감수로만 할 것이 아니라 아래의 요소들을 근거로 삼는것이 좋을 것 같습니다.

    조회수 - 3종류로 분류
      1) 스크랩한 글을 다시보기 한 경우
      2) 링크를 타고 직접접근한 경우
      3) 글 목록에서 보고 클릭한 경우
    추천수
    비공감수
    목록노출수 - 페이지가 넘어가면 사용자에게 노출되는 횟수가 줄어들어 조회수가 떨어질 수 있습니다. 조회수 대신 목록노출수 대비 조회수로 보는 것도 좋을 것 같습니다.
    댓글수
    스크랩수

    조회수 대비 추천수, 목록노출 수 대비 추천수 등등 여러가지 기준이 있을 수 있습니다. 이 기준들 중 어떤 것이 유효할 지는 실제 데이터를 분석해봐야 알 수 있겠죠.

    2. 여론조작 감지 알고리즘은 위음성(false negative)은 허용하나 위양성(false positive)는 허용해서는 안된다.
    위음성(false negative)은 아니라고(negative) 판단했는데 그게 잘못된(false) 경우를 말합니다. 
    위양성(false positive)는 맞다고(positive) 판단했는데 그게 잘못된(false) 경우를 말합니다.

    위음성은 허용하나 위양성은 허용해서는 안된다는 말은
    여론조작 감지 알고리즘에 의해 여론조작글이 아니라고 판단된 글이 사실은 여론조작글인 경우는 허용하나
    여론조작 감지 알고리즘에 의해 여론조작글이라고 판단된 글이 사실은 여론조작글이 아닌 경우는 없어야 한다는 뜻입니다.

    쉽게 말해 억울한 사람이 나와서는 안된다는 것입니다.
    저는 법에 대해서는 잘 모르지만 법에서 무죄/유죄 판정을 할 때에도 위와 같은 원칙을 사용하는 것으로 알고 있습니다.
    범죄자는 나중에 다시 잡을 수 있지만 억울한 누명을 쓴 사람의 인생은 되돌릴 수 없기 때문이지요.

    법도 알고리즘도 완벽에 가깝게 판정을 할 수 있으면 정말로 좋겠지만 여러모로 힘들기 때문에 위와 같은 원칙이 필요한 것 같습니다.



    <맺으며>
    제가 제안해드린 내용은 러프한 스캐치이구요, 저도 사실 데이터분석 쪽으로 경험이 별로 없기 때문에 이 아이디어의 구현난이도는 정확히 짐작하기 어렵지만 못할 것은 아니라는 생각이 듭니다. 일간워스트를 만드신 분이 온라인 어뷰징 감지 쪽으로 일가견이 있으신 것으로 보이는데요, 그 분의 도움을 요청하는 것도 좋을 것 같습니다. 긴 글 읽어주셔서 감사하구요 왠지 묻힐 것 같아 좀 걱정인데 좋은 글이라는 생각을 하셨다면 다른 분들도 보실 수 있게 추천 부탁드립니다(꾸벅)

    p.s. 개인적인 일로 많이 바쁘지만 혹시 바보님이 원하신다면 주말을 반납하고 얼마든지 도와드릴 의향이 있습니다.
    출처 원글: http://www.todayhumor.co.kr/board/view.php?table=freeboard&no=850767&s_no=850767&kind=search&search_table_name=freeboard&page=1&keyfield=subject&keyword=%EB%B0%A9%EC%A7%80

    이 게시물을 추천한 분들의 목록입니다.
    [1] 2015/05/17 10:57:13  118.37.***.207  kosi  439167
    [2] 2015/05/17 12:23:31  183.102.***.88  타입온  290146
    푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
    (단,비공감수가 추천수의 1/3 초과시 해당없음)

    죄송합니다. 댓글 작성은 회원만 가능합니다.

    번호 제 목 이름 날짜 조회 추천
    23459
    C++ 입문전 초보자입니다. Qt / wxWidgets / FLTK 어떤 [6] OMG! 24/12/07 00:28 426 0
    23458
    [KOCCA] 2024 게임콘텐츠 제작지원 이용자평가 체험단모집 장파랑 24/11/26 16:56 499 0
    23457
    [한국콘텐츠진흥원] 2024 게임콘텐츠 제작지원 이용자평가 이용자 모집 장파랑 24/11/18 14:02 513 0
    23456
    [한국콘텐츠진흥원] 2024 게임콘텐츠 제작지원 이용자평가 이용자 모집 장파랑 24/10/28 18:24 955 0
    23455
    논문 읽는 사람들을 위한 문서 번역 서비스 rWhale 24/10/10 13:06 1248 2
    23453
    로또번호 [2] 까망사투리 24/09/19 11:10 1712 2
    23452
    AI와 함께가는 코딩 업계 [1] 펌글 우가가 24/09/02 22:19 2092 9
    23451
    Switch문 도배된 2100줄 짜리 함수 [3] 펌글 우가가 24/08/26 22:37 1969 4
    23450
    개인정보 수집 없는 이미지 리사이즈 사라밍 24/08/23 20:31 1449 0
    23449
    디자인 패턴의 템플릿 메소드 패턴 실무 적용 사례 써니썬 24/08/23 16:47 1459 1
    23448
    TMDB API Key 얻을 때 동의하게 되는 면책 및 포기 조항 우가가 24/08/18 16:07 1470 1
    23447
    펌) 아무튼 개쩌는 번역기를 국내기술로 개발완료 했다는 소식 [1] 펌글 우가가 24/08/15 17:30 1733 2
    23446
    쿠팡 가격 변동 추적 알림 서비스 피드백 요청 (제발) 창작글펌글 애오옹 24/08/10 14:30 1644 0
    23445
    넥사크로 17.1 관련 [2] 본인삭제금지 나르하나 24/08/01 12:30 1670 0
    23444
    개밯자 의자에 머리받침 없어 [1] 까망사투리 24/07/25 13:32 2008 1
    23443
    안드로이드 EditText 리스너 연동 문의드립니다. - 해결됨 [1] 창작글 상사꽃 24/07/01 17:47 1948 2
    23442
    펌) 파이어폭스 엔진이 신인 이유 [1] 펌글 우가가 24/06/30 23:25 2527 2
    23441
    예전에는 함수 하나에 대한 기능에 고민을 많이 했는데.. ssonacy 24/05/21 09:45 2309 0
    23440
    c++ 에서 DB 쿼리문처럼 사용할 방법이 있을까요? [8] 상사꽃 24/05/19 11:10 2454 0
    23439
    쉬운 배터리 알림 창작글 언젠가아자 24/05/14 10:47 2596 0
    23438
    아후 서터레스 [1] NeoGenius 24/04/02 17:52 2292 1
    23436
    로또 [3] 까망사투리 24/03/11 15:53 2938 4
    23434
    copilot 기업유료버전 intelliJ에 붙여서 쓰고있는데 지리네요 안녕월드 24/02/22 00:15 2965 0
    23433
    코딩마을 대나무숲 [6] cocoa 24/02/20 14:50 3128 5
    23432
    (질문) 프로그래머분들은 싱글PC게임 레벨제한 풀수 있죠?? [23] 본인삭제금지 할배궁디Lv2 24/02/13 13:36 3134 1
    23431
    Freemium NeoGenius 24/02/13 13:23 2584 0
    23429
    부산에서 프로그래머 구인하는데 연봉 6천에서 8천 작은건가 [3] 폴팡 24/02/04 20:50 3451 1
    23427
    chatgpt? bard? [3] 별빛러브 24/01/25 06:24 2727 0
    23426
    Next.js로 만들어봤어요~ [2] 창작글 sonnim 24/01/24 12:52 2942 3
    23425
    Spring Boot 공부하기 - 한국투자증권 오픈API 호출 옐로우황 24/01/21 17:51 2972 1
    [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [다음10개▶]
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈