모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 게시물ID : programmer_19040
    작성자 : 만능소보로
    추천 : 10
    조회수 : 9483
    IP : 222.233.***.141
    댓글 : 13개
    등록시간 : 2016/11/18 21:40:17
    http://todayhumor.com/?programmer_19040 모바일
    [Python3] 네이버 카페 댓글 수집 스크립트 입니다.
    * 2016년 11월 19일 02:08 추가

    글 올린 이후에 권한이 필요한 댓글 수집은 막혔어요. 공개글 댓글만 가능해요.




    네이버 카페 댓글 수집기 코드를 짰습니다. 월요일에 짰는데 사정이 있어 지금에야 올리네요.

    카페번호(clubid)와 글번호(articleid)를 입력하면 댓글을 모아 csv로 출력해서 스프레드시트(엑셀)로 읽을수 있게 했어요.

    Python3로 작성했구요. (파이썬2로는 실행안되요)
    웹이나 앱쪽이 아니다보니까 파이썬은 제대로 공부한적이 없어서 문법적으로 틀린게 있을지도 몰라요 . for문 문법도 몰라서 인터넷 찾아보고;;; 그래도 인터넷 찾아 뚝딱 이런걸 만들수 있는걸 보면...
    파이썬이 정말 강력하네요.

    * 아래의 주소(페이스트빈)로 보는게 깔끔해요. Run(온라인테스트)은 안되더라요.
    https://glot.io/snippets/ekff7ak3lo


    import json
    import urllib.request
    import random
    import time

    # by 만능소보로 in 오늘의유머 when 2016.11.14

    def requestComment(clubID, articleID, page):
        commentURL = "http://cafe.naver.com/CommentView.nhn?search.clubid=" + clubID + "&search.articleid=" + articleID + "&search.page=" + str(page)

        # 가져오기.
        try:
            print("요청중[" + str(page) + "] : " + commentURL)
            requestResult = (urllib.request.urlopen(commentURL).read()).decode("utf-8")
        except:
            print("연결에 문제가 생겼어요...")
            exit()

        # JSON으로 파싱하기.
        try:
            commentJson = json.loads(requestResult)
        except:
            print("혹시 숫자 잘못입력한거 아니죠? 확인하고 다시 시도해주세요.")
            exit()

        # 정상적으로 파싱됬나?
        commentResult = commentJson.get("result")
        if commentResult is None:
            print("어? 필요한 값이 사라졌어요...(바뀌었나?)")
            exit()
        return commentResult

    # 입력.
    clubID = input("카페 번호(clubid)는? : ")
    articleID = input("글 번호(articleid)는? : ")

    # 첫페이지 가져와요.
    commentResult = requestComment(clubID, articleID, 1)

    # 변수 확인!!!
    commentTotalCount = commentResult["totalCount"]
    commentCountPerPage = commentResult["countPerPage"]
    commentPage = 0
    if commentTotalCount > 0:
        commentPage = ((commentTotalCount - 1) // commentCountPerPage) + 1;

    print("")
    print("총 댓글수 : " + str(commentTotalCount))
    print("댓글 페이지 : " + str(commentPage))
    print("")

    resultText = "번호\t날짜\t유저ID\t유저닉네임\t내용\t대댓글여부\t삭제여부\n"
    for page in range(1, commentPage + 1):
        if commentResult is None:
            commentResult = commentResult = requestComment(clubID, articleID, page)
        else:
            print("요청중[" + str(page) + "] : 이미 가져왔었음.")

        # 개별 댓글 수집
        commentLists = commentResult["list"]
        for eachComment in commentLists:
            #
            eachCommentID = eachComment["commentid"]
            eachCommentDate = eachComment["writedt"]
            eachCommentUserNickname = eachComment["writernick"]
            eachCommentUserID = eachComment["writerid"]
            eachCommentContent = eachComment["content"].replace("\t", " ")
            eachCommentReplayID = eachComment["refcommentid"]
            eachCommentIsReply = eachComment["refComment"]
            eachCommentISDeleted = eachComment["deleted"]
            #
            resultText += str(eachCommentID) + "\t"
            resultText += eachCommentDate + "\t"
            resultText += eachCommentUserNickname + "\t"
            resultText += eachCommentUserID + "\t"
            resultText += eachCommentContent + "\t"
            if eachCommentIsReply == True:
                resultText += str(eachCommentReplayID) + "\t"
            else:
                resultText += "\t"
            resultText += str(eachCommentISDeleted) + "\n"

        commentResult = None # 비우면 다음 루프때 받을거야.
        time.sleep(random.uniform(0.75, 1.25)) # 예의상 사람인척 딜레이를 주었다.



    try:
        resultFile = open("navercafe_comment_" +  clubID + "_" + articleID + ".csv", 'w')
        resultFile.write(resultText)
    finally:
        resultFile.close()

    # 작업 완료
    print("\n\n끝!!!")
    time.sleep(random.uniform(1.5, 2.5))
    print("\n\n\(안녕)/\n\n")
    time.sleep(random.uniform(1.5, 2.5))


    예제로 아사모의 공지글로 테스트를 했습니다.
    * 왜 아사모냐 하면... 이 글을 쓰는 게시판이 "프로그래머 게시판"이라, 현재 컴퓨터 카페 랭킹 1위로 골랐어요. 댓글 많은 공지글도 있구요.


    글번호나 카페번호 확인하는 방법은 다음과 같구요.

    ncc_001.png

    (왜 덧글수가 왜 1 차이 나는지는 잘 모르겠어요;;; 일일히 확인할수도 없고...)



    ncc_002.png

    결과물(.csv)는 탭으로 구분해서 열면 되요. (콤마, 세미콜론등 다 빼고 으로만 나누세요! 섞이면 본문하고 충돌나요.)

    5000개급 댓글 수집 잘 됬으니까 만개도 충분할거에요.

    이벤트 운영같은 선의의 목적(꼬릿말 참고)으로만 참고하세요~



    _.png


    * 꼬릿말이 기니까 짤려보여서 본문에도 옮겨요.

    1.
    VBA가 웹페이지 접속이나 JSON 다룰수 있다면 컨버팅도 가능할거에요.

    2.
    질문글 올리셨던 분은 몇일간 기다려도 접속않고... 드디어 접속수 1늘긴했는데 답이없고...
    이러려고 코드짰나 자괴감 들어...

    3.
    조금 충격적인데... 네이버 카페 댓글 API에 보안장치가 없어요;;;
    다시 말하면, 비밀글(회원 전용, 특정 등급 전용)의 댓글을 아무나 열람할수 있어요.
    막말로 파폭, 크롬, IE(인터넷 익스플로러)의 기본 개발자도구만 있어도 확인할수 있더만요... 그래도 나름 네이버인데 댓글API에 세션검사같은거 전혀없고... API주소 + 카페번호 + 글번호면 본문은 못보더라도 댓글은 확인할수 있었다니...
    운영게시판 있거나 회원제로 운영하는 카페에게는 상당히 예민할수 있는 보안문제입니다.

    글 올린 이후에 권한이 필요한 댓글 수집은 막혔어요. 공개글 댓글만 수집 가능해요.

    4.
    지나친 자동화는 누군가의 일자리를 빼앗습니다. 그게 당신일수도 있구요.
    상사에게 들키지 마세요. :D



    만능소보로의 꼬릿말입니다
    1. 
    VBA가 웹페이지 접속이나 JSON 다룰수 있다면 컨버팅도 가능할거에요.

    2.
    질문글 올리셨던 분은 몇일간 기다려도 접속않고... 드디어 접속수 1늘긴했는데 답이없고... 
    이러려고 코드짰나 자괴감 들어...

    3. 
    조금 충격적인데... 네이버 카페 댓글 API에 보안장치가 없어요;;;
    다시 말하면, 비밀글(회원 전용, 특정 등급 전용)의 댓글을 아무나 열람할수 있어요.
    막말로 파폭, 크롬, IE(인터넷 익스플로러)의 기본 개발자도구만 있어도 확인할수 있더만요... 그래도 나름 네이버인데 댓글API에 세션검사같은거 전혀없고... API주소 + 카페번호 + 글번호면 본문은 못보더라도 댓글은 확인할수 있었다니...
    운영게시판 있거나 회원제로 운영하는 카페에게는 상당히 예민할수 있는 보안문제입니다.
    -> 변경) 글 올린 이후에 권한이 필요한 댓글 수집은 막혔어요. 공개글 댓글만 수집 가능해요.

    4.
    지나친 자동화는 누군가의 일자리를 빼앗습니다. 그게 당신일수도 있구요.
    상사에게 들키지 마세요. :D

    이 게시물을 추천한 분들의 목록입니다.
    [1] 2016/11/18 21:45:58  121.180.***.146  2ane  620419
    [2] 2016/11/18 21:56:11  61.255.***.63  돈로사리오  555749
    [3] 2016/11/18 22:13:33  119.204.***.6  을파소  440752
    [4] 2016/11/18 22:27:58  182.224.***.219  노력의천재  214821
    [5] 2016/11/19 01:13:25  39.120.***.54  高坂麗奈  535623
    [6] 2016/11/19 01:49:54  182.211.***.111  cobain  273427
    [7] 2016/11/19 13:27:47  211.219.***.56  앵켕  591582
    [8] 2016/11/20 08:28:20  118.223.***.34  금간유리멘탈  730909
    [9] 2016/11/20 19:25:46  121.141.***.184  오늘의컴퓨터  620131
    [10] 2016/11/20 20:11:49  210.180.***.19  사닥호  425608
    푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
    (단,비공감수가 추천수의 1/3 초과시 해당없음)

    죄송합니다. 댓글 작성은 회원만 가능합니다.

    번호 제 목 이름 날짜 조회 추천
    23461
    로또 [2] 까망사투리 25/02/12 13:13 429 2
    23459
    C++ 입문전 초보자입니다. Qt / wxWidgets / FLTK 어떤 [6] OMG! 24/12/07 00:28 943 0
    23458
    [KOCCA] 2024 게임콘텐츠 제작지원 이용자평가 체험단모집 장파랑 24/11/26 16:56 926 0
    23457
    [한국콘텐츠진흥원] 2024 게임콘텐츠 제작지원 이용자평가 이용자 모집 장파랑 24/11/18 14:02 959 0
    23456
    [한국콘텐츠진흥원] 2024 게임콘텐츠 제작지원 이용자평가 이용자 모집 장파랑 24/10/28 18:24 1358 0
    23455
    논문 읽는 사람들을 위한 문서 번역 서비스 rWhale 24/10/10 13:06 1688 2
    23453
    로또번호 [2] 까망사투리 24/09/19 11:10 2317 2
    23452
    AI와 함께가는 코딩 업계 [1] 펌글 우가가 24/09/02 22:19 2563 9
    23451
    Switch문 도배된 2100줄 짜리 함수 [4] 펌글 우가가 24/08/26 22:37 2426 4
    23450
    개인정보 수집 없는 이미지 리사이즈 사라밍 24/08/23 20:31 1833 0
    23449
    디자인 패턴의 템플릿 메소드 패턴 실무 적용 사례 [1] 써니썬 24/08/23 16:47 1843 1
    23448
    TMDB API Key 얻을 때 동의하게 되는 면책 및 포기 조항 우가가 24/08/18 16:07 1848 1
    23447
    펌) 아무튼 개쩌는 번역기를 국내기술로 개발완료 했다는 소식 [1] 펌글 우가가 24/08/15 17:30 2114 2
    23446
    쿠팡 가격 변동 추적 알림 서비스 피드백 요청 (제발) 창작글펌글 애오옹 24/08/10 14:30 2063 0
    23445
    넥사크로 17.1 관련 [2] 본인삭제금지 나르하나 24/08/01 12:30 2050 0
    23444
    개밯자 의자에 머리받침 없어 [2] 까망사투리 24/07/25 13:32 2442 1
    23443
    안드로이드 EditText 리스너 연동 문의드립니다. - 해결됨 [1] 창작글 상사꽃 24/07/01 17:47 2314 2
    23442
    펌) 파이어폭스 엔진이 신인 이유 [1] 펌글 우가가 24/06/30 23:25 2916 2
    23441
    예전에는 함수 하나에 대한 기능에 고민을 많이 했는데.. ssonacy 24/05/21 09:45 2680 0
    23440
    c++ 에서 DB 쿼리문처럼 사용할 방법이 있을까요? [8] 상사꽃 24/05/19 11:10 2836 0
    23439
    쉬운 배터리 알림 창작글 언젠가아자 24/05/14 10:47 2970 0
    23438
    아후 서터레스 [1] NeoGenius 24/04/02 17:52 2654 1
    23436
    로또 [3] 까망사투리 24/03/11 15:53 3336 4
    23434
    copilot 기업유료버전 intelliJ에 붙여서 쓰고있는데 지리네요 안녕월드 24/02/22 00:15 3342 0
    23433
    코딩마을 대나무숲 [6] cocoa 24/02/20 14:50 3509 5
    23432
    (질문) 프로그래머분들은 싱글PC게임 레벨제한 풀수 있죠?? [23] 본인삭제금지 할배궁디Lv2 24/02/13 13:36 3519 1
    23431
    Freemium NeoGenius 24/02/13 13:23 2951 0
    23429
    부산에서 프로그래머 구인하는데 연봉 6천에서 8천 작은건가 [3] 폴팡 24/02/04 20:50 3861 1
    23427
    chatgpt? bard? [3] 별빛러브 24/01/25 06:24 3086 0
    23426
    Next.js로 만들어봤어요~ [2] 창작글 sonnim 24/01/24 12:52 3323 3
    [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [다음10개▶]
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈