모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 오유인페이지
    개인차단 상태
    도루라님의
    개인페이지입니다
    가입 : 17-02-28
    방문 : 497회
    닉네임변경 이력
    회원차단
    회원차단해제
     

    도루라님의 댓글입니다.
    번호 제목 댓글날짜 추천/비공감 삭제
    46 원 게시글이 삭제되었습니다. [새창] 2017-05-08 05:31:09 2/13 삭제
    그리고 답변 안할 수 있다고 미리 도망칠 밑밥을 까셨네요.

    저는 일단 정리해서 이렇게 얘기하겠습니다. 더플랜에 요구하는 반만큼만 엄격하게 분석해보시라고요.
    제가 도저히 트집잡을 수 없을 만큼 엄격한 방식으로 검증해주세요.
    제가 제발 당신을 믿을 수 있도록 해주세요.
    45 원 게시글이 삭제되었습니다. [새창] 2017-05-08 05:23:59 4/11 삭제
    일단 제가 K값과 노년인구비율 사이에 선형관계를 가정하라고 한 적이 없고요.

    Cross validation (CV)의 목적이 model selection이라니 이 것은 도대체 어디 책에서 나오는 말인가요.
    근본적인 목적은 바로 모델의 generalization error 를 잘 측정하는 것이죠. CV를 파라메터 튜닝이나 모델 셀렉션에 활용할 때는 이 error를 줄여나가는 방향으로 하는 거고요. training error와 generalization error의 차이점은 알고계시죠?
    모델이 얼마나 현실을 잘 반영하는 모델이냐 평가하는 가장 중요한 기준이 바로 이 generalization error라고 할 수 있죠.
    그래서 좋은 기계학습 관련 논문들을 보면 이 generalization error을 엄격하게 측정하기 위해 상당한 노력을 기울이죠.
    이미 모델 구축 방식을 정했다고 test data와 training data를 나누는게 의미없다니 기계학습 관련 전공자로써 솔직히 어이가 없네요.
    혹시 대학 다니시면 관련 연구실에 찾아가서 "예측모델 방식 정했는데 훈련데이터 테스트데이터 구분 안해도 되죠?" 하고 물어보세요 꼭.

    그리고 코드를 안 본 건 제 불찰이 맞기는 하다만, 이미 본문만 봐도 큰 헛점이 눈에 띄어서 굳이 코드까지 안 본 거고요.
    근데 엄밀하게 박미분류율은 (미분류박)/(분류박+미분류박)이죠. 용어를 선정할 때는 독자가 최대한 덜 헷갈리도록 해야죠.
    하여튼 이 것만 봐도 당신이 상당히 대충하고 있다는 게 느껴지고요.
    데이터는 100표가 다르던 10표가 다르던 어쨋든 다르잖아요. 그렇다면 가장 신뢰할 수 있는 데이터로 하는 게 맞다는 생각이 안 드나요?
    100표 밖에 안 다른데 뭐가 달라지겠어 아몰랑하는 게 진지하게 임하는 자세인가요?
    더플랜에는 엄격함을 요구하면서 자신이 대충하는 건 왜 허용하는 거죠?

    그리고 저는 처음부터 K값과 노년인구비율 사이의 관계성을 물었었고,
    초반에는 노년인구비율만으로도 K값을 설명할 수 있다는 듯이 얘기하시더니.
    여기서는 K값을 설명하는 주요 변수로써 지지율이 반드시 추가되어야하다는 뉘앙스로 이야기하시네요.
    물론 투표구 단위 지지율 정보 같은 건 없죠. 없으면 그냥 투표구 단위 데이터에 지지율 정보는 적용할 수가 없는 것이지,
    그 게 왜 투표구 단위에 광역 단위 지지율을 적용해야 하는 이유가 되는 것인지 모르겠네요. 이 것도 대충대충 정신이겠죠?
    44 원 게시글이 삭제되었습니다. [새창] 2017-05-08 03:08:26 7/12 삭제
    미분류율과 노년인구비율에 상관관계가 있다는 것에 대해서 제가 부정한 적은 없었죠.
    제가 당신에게 바란 것은, 그렇다면 과연
    K값과 노년인구비율 사이에 상관관계에 대해 통계적으로 확실하게 확인해 달라는 것이었는데
    결국에 그건 회피하셨네요.

    직접적인 통계적 상관관계를 조사하는 대신에
    어떤 예측 모델을 구축을 통해 간접적인 방식으로 관계가 있다는 걸 증명하려고 시도하셨는데
    결론적으로 당신이 만든 모델의 평가 결과는 별로 의미가 없습니다.
    이 건 훈련데이터를 테스트 데이터로 사용한 사례이기 때문이죠.
    기계학습 분야에는 별로 이해가 없으신 거 같은데, 기계학습 분야에서 자주 하는 것이 바로
    당신이 한 것과 비슷하게 예측모델을 구축해서 그 것을 평가하고 하는 것입니다.
    그런데 모델 평가에 있어서 아주 중요한 원칙 중 하나는 바로
    '모델의 훈련에 사용한 데이터는 테스트 데이터로 사용하지 말 것'입니다.
    즉, 훈련용 데이터와 테스트용 데이터는 엄격하게 분리되어야 한다는 것이죠.
    당신은 예측 모델로써 linear regression 방식을 활용했는데,
    만일 제가 딥러닝을 사용해서 예측 모델 만들고 당신과 똑같은 방식으로 평가햇다면,
    예측된 K값(당신 표현으로는 이론적 K값)과 실제 K값 사이에 1.0에 가까운 correlation을 만들 수도 있습니다.
    왜 당신의 모델 평가 결과가 의미가 없는 거인지를 이해하시겠죠?

    그리고 여전히 최성년씨 데이터를 사용하셨는데요, 제시하신 사이트에 보니깐 최성년씨가 운영하는 사이트도 아니고,
    그 데이터의 획득 경로 등에 대해 전혀 언급이 없더라구요. 즉, 데이터의 정확성을 그 누구도 책임지지 않는 데이터란 것이죠.
    그런데 그 데이터가 더플랜의 데이터와 다릅니다. 더플랜의 데이터는 그 출처를 명확히 하고 있고,
    이만큼 이슈가 됬는데도 선관위에서도 더플랜 데이터 정확성을 문제 삼지는 않는 걸로 보아서 신뢰할만한 데이터라고 할수 있죠.
    따라서 더플랜 데이터가 있는데 굳이 신뢰성 부족한 데이터를 가지고 분석할 필요가 있을까요?

    또 하나의 문제점은 K값 정의입니다. 위에 예측모델 부분에서 K값 정의를 왜 (박 미분류율)/(문 미분류율) 이렇게 바꿔서 정의한거죠?
    K값 정확한 정의는 ((미분류박)/(미분류문))/((분류박)/(분류문)) 라는 것을 잊지는 않으셨겠죠?
    새롭게 어떤 수치를 정의할 때는 이미 알려진 심볼 이외에 다른 심볼을 사용하든지 하셨어야죠. 이 것은 독자를 괜스럽게 헷갈리게 만드는 일입니다.

    이왕 애쓰시는 거 제가 설득될 수 있도록 확실하게 해주시길 바래요.
    저도 현대 대한민국에 선거부정이 있다고 별로 믿고 싶지 않아요.
    아래와 같은 원칙들을 지켜주세요.
    1. 최성년 데이터 말고 더플랜 데이터 사용한다.
    2. K값과 노년층인구비율 사이에 통계적 관련성을 검출하는 데 집중한다. (예측모델과 같은 간접적 방식 비추천)
    3. 광역단위 데이터를 투표구단위에 적용하지 않는다.
    4. K값의 정의를 확실히 한다.
    43 K값이동을 보고 멀뚱멀뚱한 이유.김빙삼님twt [새창] 2017-05-07 18:34:28 0 삭제
    코드랑 데이터 공개해주시길.
    요전에도 코드랑 데이터 안 봤으면 각 도단위 수치를 투표구 단위에 적용했다는 중요한 사실을 어떻게 알았겠나요?
    그 걸 계속 숨기셨었죠. 저도 당신의 말을 되도록 믿고싶은데 이미 전례가 한 번 있어 쉽게 믿지를 못하겠네요.
    글 쓰셔서 코드랑 데이터 공개해주시길 바랍니다. 그런데 개표데이터 출처불분명한 데이터 쓰셨던거 아니었나요?
    최성년씨 자료는 지금 구글링해본 결과 찾을 수가 없네요. 또 그거 사용하신 건 아니겠죠? 이왕 해주시는 거 raw 데이터도 확실한 걸 써 주시고요.
    Degree of freedom 보니깐 또 도단위 지지율 정보 사용한 거 같은데 역시 투표구에 도단위 데이터를 쓰는 건 문제가 될수 있으니 그건 빼고 일단 인구비율로만 해주시구요.
    만일 당신의 결과가 재현가능한 결과이고 코드와 분석 방법에 문제가 없다면 앞으로 당신을 지지하도록 하죠.
    이왕 시간 쓰셧으니깐 끝까지 확실하게 해주시길. 설마 또 도망치려고 하시진 않겠죠?
    42 K값이동을 보고 멀뚱멀뚱한 이유.김빙삼님twt [새창] 2017-05-07 16:48:25 0 삭제
    네 먼저 도망 치시는 모습 훌륭하시구요.
    결론을 먼저 정해두는 거 물론 위험하죠. 근데 정작 결론을 미리 정해둔 건 당신 아닌가요?
    행정구역 단위로 묶어서 저 정도고 더 작은 단위로 묶으면 더 확실하게 나올꺼라는 건 도대체 어떠케 확신하시는거죠?
    각 작은 도시나 군 마다 인구 특성이 서로 크게 다를 수 있는데 도단위의 인구비율을 똑같이 적용한 게 문제가 전혀 안 될꺼다?
    아주 결론을 미리 정해 두시는 모습 보기 좋구요. 황우석 같은 분과 이렇게 길게 대화를 하게 되서 참 영광이었습니다.
    그리고 제가 직접 해보니 adj R square가 0.1 미만으로 나오더라고 분명히 말 했드렸는데 못 보셨나봐요?
    뇌가 확증편향에 빠져있는게 과연 누구인지 진지하게 생각해보시길 바래요.
    41 K값이동을 보고 멀뚱멀뚱한 이유.김빙삼님twt [새창] 2017-05-07 04:35:30 0 삭제
    무시하는 듯한 말투로 거물 통계학자인냥 으스대면서 친절하게 답변해주셔서 감사하구요.
    그런데 데이터 분석에 진지하게 임하고 계시다면요,
    일단 raw 데이터에 뭔가 문제가 있을 수 있다는 가능성이 제기되면 그 걸 확실하게 하고 넘어가는 게 프로의 자세죠.
    그리고 데이터 클린징 저는 일일이 틈틈히 시간 내서 다했는데, 그 정도의 실력과 열의가 없으신 거였어요? 아주 대충대충 해오셨네요.

    도단위 인구비율을 각 투표구에 적용하는 방식이 큰 문제가 있다는 것을 인지는 하신거죠? 이런 방식으로 낸 결론이 의미가 없다는 것도 이해하실 테고요. 그렇다면 앞으로 출처 분명한 데이터 가지고 투표구단위 인구수와 지지율로 계산한 결과 새로 내시기 전 까지는 더 이상 이 문제 관련해서 왈가왈부하지 마시구요. 다시 분석결론 내시면 그 때 글 올려주시죠.
    40 전자개표 뒤에 검표작업한다고 사실상 수개표? [새창] 2017-05-07 03:00:28 0 삭제
    그리고 컴퓨터 제어에 대해 제가 알고 있는 것을 설명드리자면,
    일단 현재 투표지 분류기는 컴퓨터(노트북)에 연결해서 돌아갑니다.
    그리고 특정 시간이 되면 특정 행동을 하도록 컴퓨터에게 미리 명령(프로그램)이 가능하죠.
    이 게 안된다면 스마트폰 알람이나 스케쥴 알림 기능이 가능할 수 없는거죠. 스마트폰도 일종의 컴퓨터니까요.
    미리 악의적 프로그램이 제어 컴퓨터에 설치되어 있다면 개표 사무원이 그 걸 알든 모르든 상관없이 분류기는 개표 조작을 특정 시간이 되면 수행할 수 있게 되는 겁니다.
    39 전자개표 뒤에 검표작업한다고 사실상 수개표? [새창] 2017-05-07 02:48:13 0 삭제
    저도 개표조작으로 5%이상의 차이를 좁히면서 들키지 않을 가능성은 아주 희박하다고 생각합니다.
    하지만 1% 정도는 충분히 가능하죠. 한 테이블은 꼼꼼하게 했다고 하는데, 그게 아주 지속적으로 가능했을까요?
    두 개의 테이블이 워낙 대강해서 상대적으로 더 잘하는 거 처럼 보였겠지만 개표 중반이나 후반에도 꼼꼼하게 했을 꺼라고 어떻게 확신하나요?
    100표에 1표 섞어놓은 건 좀만 집중력 떨어져도 못 보고 지나갈 확률이 매우 높습니다. 특히나 분류기를 신뢰하고 있다면 더욱 그렇습니다.
    200표에 1표만 A후보의 표를 B 후보 껄로 섞어놔도 A와 B 후보 사이의 투표율 격차가 1% 가 조작됩니다.
    38 K값이동을 보고 멀뚱멀뚱한 이유.김빙삼님twt [새창] 2017-05-07 01:47:07 0 삭제
    일단 제시하신 데이터가 제가 더플랜에서 받은 개표상황표 정리표 데이터랑 일치하지가 않네요. 제일 첫줄에 강릉시 미분류수부터 시작해서 전부다 조금씩 차이가 나요. 재외투표 부재자투표 다 고려해도 차이가 나네요. 박표나 문표에 미분류표를 빼거나 더해봐도 차이나고요. 꼭 확인해보세요. "http://www.projectboo.com/archive/143721"
    제시하신 링크에 보니깐 개표결과 데이터의 출처가 애매하던데 이 거 확실하게 해주시구요.

    그리고 인구수는 왜 각 251개 투표구별 인구수를 적용안하고 도단위나 시단위로 묶여있는 데이터를 사용한건지?
    "http://rcps.egov.go.kr:8081/ageStat.do?command=month" 여기에서 2012년12월 각 투표구 단위 인구 데이터 구할 수 있으니까 그 걸로 적용해서 다시 해보시길. 애초에 도단위 인구비율을 각 투표구에 똑같이 적용해버린게 찝찝하지 않으셨나요? 무슨 근거로 이렇게 과감하게 처리한건지. 처음 분석결과를 설명할 때 이런 사실을 솔직하게 언급했었어야죠. 요런 중요한 변수를 걍 아몰랑 귀찮아 괜찮겠지하고 퉁치고 넘어가는게 바로 학부생 수준이죠.
    37 김어준 "어 어 이거는 제가 처음 들어보는.. 처음 보는 현상입니다" [새창] 2017-05-06 22:51:12 31 삭제
    김빈은 나중에 진짜 좀 잘 됬으면 좋겠다. 자기 일 다 내팽겨치고 어려운 시기에 아무 기약도 없이 적극적으로 돕고 있는데.
    36 K값이동을 보고 멀뚱멀뚱한 이유.김빙삼님twt [새창] 2017-05-06 22:19:45 0 삭제
    쓰신 글이 워낙 많아서 데이터랑 코드가 어디 있는지 못 찾겠네요. 링크 좀 달아주시구요.
    그리고 굳이 지지율을 왜 비율에 곱한건지 이해가 안되네요. 전국 단위의 20대 박지지율을 말하는거죠?
    그런데 이 건 투표구 마다 달라지는 게 아닌 전국 동일 값이잖아요? 괜히 데이터 차원을 2배로 늘리는 일은 왜 한거죠?
    차원이 증가할 수록 R값이 커질 여지도 증가하는건데, 추가 변수가 아무 의미가 없다면 R값이 올라간다고 의미가 있나요?
    그리고 interaction 까지 고려하라고 하셨는데, interaction 항을 추가할 때는 조심해야 하죠.
    왜냐하면 interaction 항을 추가한다는 것도 차원이 증가하는 것이기 때문에, interaction을 추가할 때는 변수 사이의 상호작용성에 대한 의미를 부여 가능해야 하거든요. 'x 나이대 인구비율'과 'y 나이대 인구비율' 사이에 무슨 상호작용성이 있고 왜 꼭 그 걸 고려해야하는거죠?
    뭔가 통계학에 관련된 이론이나 스킬은 보유하고 계신 거 같은데요, 데이터의 의미를 이해하지 못한 채 화려한 스킬만 사용해서 통계학 수업 과제 제출하는 학부생 같은 느낌이네요.
    35 K값이동을 보고 멀뚱멀뚱한 이유.김빙삼님twt [새창] 2017-05-06 20:51:50 0 삭제
    236이 샘플의 수가 아니라 Degree of freedom이었다는 것은 제가 오해가 있었네요.
    그런데 '박60'의 의미에 대해서는 대답을 안 해주셨네요. 이 의미를 알아야지 이 다중회귀분석의 결과가 K값과 노년비율사이에 상관관계를 입증하는 것인지 확실하게 할 수가 있는데요. 그리고 저도 같은 방식으로 검증해볼수 있고요.
    이 '박60' 등을 제외한 인구비율 정보만으로는 저도 다중회귀분석을 해봤는데 Adj R square가 0. 1 이상이 안 나오던데요.
    34 K값이동을 보고 멀뚱멀뚱한 이유.김빙삼님twt [새창] 2017-05-06 19:57:54 0 삭제
    결과가 좀 이상하지 않나요?
    '비율60이상'은 그 지역 20대 이상 인구에서 60대 이상이 차지하는 비율을 의미하는 거 같은데요,
    그 변수에 대한 coefficient 값이 NA(Not available)네요?
    가장 핵심적이어야할 변수의 값이 회귀분석과정에서 전혀 사용되지 않았군요. 이상하죠?
    그리고 전체 투표구 수가 251개인데 236이라는 수는 어디서 나온 건가요.
    그리고 '박60'이라는 건 도대체 어떤 개념인건가요? 혹시 투표구별 연령별 박지지율인가요? 그 자료는 어디서 받을 수 있는건가요?
    33 K값이동을 보고 멀뚱멀뚱한 이유.김빙삼님twt [새창] 2017-05-06 19:48:45 0 삭제
    dacoon님이 밑에 올려놓은 다중회귀분석 자료 봤는데요, 결과가 좀 이상하지 않나요?
    '비율60이상'은 그 지역 20대 이상 인구에서 60대 이상이 차지하는 비율을 의미하는 거 같은데요,
    그 변수에 대한 coefficient 값이 NA(Not available)네요?
    가장 핵심적이어야할 변수의 값이 회귀분석과정에서 전혀 사용되지 않았군요. 이상하죠?
    그리고 전체 투표구 수가 251개인데 236이라는 수는 어디서 나온 건가요.
    그리고 '박60'이라는 건 도대체 어떤 개념인건가요? 혹시 투표구별 연령별 박지지율인가요? 그 자료는 어디서 받을 수 있는건가요?



    [◀이전10개] [31] [32] [33] [34] [35]

     
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈