게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
[인포그래픽+빅데이터]한국 힙합 빅데이터 조사 - 누가 제일 창의적일까?
게시물ID : science_67113짧은주소 복사하기
작성자 : rabelais
추천 : 7
조회수 : 1128회
댓글수 : 5개
등록시간 : 2018/04/03 02:29:29
옵션
  • 창작글
hiphop-01.jpg




후기 : 조사 방법은 크게 아래와 같습니다.

idea.jpg

1. 제일 먼저 네이버 뮤직에서 가사 정보를 스크레이핑(Scraping) 또는 크롤링(Crawling)합니다. 구글에서 공개한 크롬 헤드리스(headless) 브라우저 모듈을 이용합니다. 사용자 친화적인 GUI가 없는 브라우저를 헤드리스 브라우저라고 합니다.

여기서 얻은 가사는 각 아티스트별 폴더에 곡 단위 txt파일로 저장됩니다. 곡이 수천개나 되다 보니 작업을 자동화시키기 위해서는 스크립트가 필수입니다. 파이썬을 이용하시는 분도 있으나 저는 웹 작업시에는 항상 자바스크립트를 이용합니다. 조사하기 전에는 겁을 좀 먹었는데 사실 제일 재밌고 쉬운 부분이었습니다. 
소스코드: http://github.com/rabelais88/crawler_lyric

조금 걱정했던 부분은 랩가사가 의외로 19금 가사가 많아 프로그램을 통한 로그인에 문제가 있지 않을까 했는데 별 문제 없이 해결됐습니다. 그 외에도 네이버가 대형 사이트이다보니 페이지가 완전히 로드되는 순간을 캐치하기 어려워서 임의로 아티스트별로 약 5초 정도의 쉬는 시간을 주고 자료를 수집했습니다.

제가 짠 스크립트가 돌아가는 화면은 아래와 같습니다.

exception.JPG

가사 페이지를 열면 간혹 '가사가 등록되어있지 않습니다'라고 뜨는 경우가 있는데 그 경우는 위에 보시는 것처럼 no lyrics로 처리됩니다.

2.공개되어있는 형태소 분석기에 모든 가사를 넣고 곡별로 돌립니다. 아래 스크린샷은 일부 아티스트를 추가하기 전에 찍은거라 101명으로 나오는데, 실제 조사한 인원은 120명입니다. 
neirong2.JPG
이미 분석기 위에도 하나의 스크립트를 씌웠기 때문에, 잡다한 정보가 나오면서 폴더에 저장된 모든 아티스트들에 대한 모든 가사가 자동으로 분석됩니다. 이 중에서 일반/고유명사에 해당하는 NNP만 남기고 대명사나 조사 등 쓸데 없는 명사들은 모두 삭제됩니다. 

예를 들자면,
나는 집에 간다 -> 나: 대명사, 는: 조사, 집: 일반명사, 에: 조사...
여기서 조사나 대명사 같은 요소는 빅데이터 조사시 유의미한 뜻을 유추하기 어려우므로 과감하게 제거합니다. 영어 역시 띄어쓰기 단위로 나눈 다음 wordpos라고 하는 공개된 라이브러리를 이용하여 쓸모 없는 stopword를 제거합니다. 다행히 영어는 굴절이 심하지 않으므로 많이 신경쓸 것이 없습니다. 또한 분석 대상이 대부분 한국어이기도 하구요..

trackamount.JPG

3. 한창 스크립트를 짜고 정리하다보니 좀 이상한 결과들이 나왔습니다. 들여다보니 몇몇 아티스트가 네이버에 등록한 앨범 수가 적어 평균값이 다소 비정상적으로 출력되고 있었습니다. keith ape나 우디고차일드는 나름 힙합씬에서 알아주는 아티스트긴 하지만, 빅데이터 조사를 위한 표본이 부족하므로 역시 과감하게 삭제했습니다. 개인적으로는 좀 아쉽더라구요. 언더에서 더욱 활발하게 활동하는 래퍼들이나 네이버같은 음악 플랫폼을 적극적으로 사용하지 않는 래퍼들의 자료는 구할 길이 없었습니다. 외국처럼 힙합 가사만 모아놓은 rapgenius같은게 있었다면 훨씬 많은 가사를 볼 수 있었을텐데...

4. 자료를 csv 형식(일종의 차트 형식 텍스트파일입니다)의 txt로 만들고 엑셀로 재가공합니다. 물론 이 과정에서 다른 툴을 이용해도 되지만, 나중에 어차피 인터랙티브 버전을 만들 계획이 별도로 있기 때문에 시간 단축을 위해서 엑셀을 사용합니다. 예전에 회사일을 하면서 엑셀을 익혀둔 적이 있어서 급하게 무언가를 처리할 때에는 엑셀이 더 빠릅니다. 또한 텍스트파일이 커서(전체 자료량은 대략 10~15mb입니다) 자료를 제가 만들고도 열고 가공하는것이 쉽지 않기 때문에...그냥 제일 쉬운 길로 가기로 합니다.

data.JPG

개인적으로 웹크롤링에 관심이 있어서 글을 알아보던 중 네이버 뮤직의 구조가 자료수집(크롤링)하기 굉장히 좋은 구조라는 이야기를 우연히 접하게 됐습니다. 크롬의 새 툴도 시험하고 빅데이터에도 한번 도전해 볼 겸 간단히 만들어 봤습니다.

한국힙합씬을 조금이라도 알고 계시는 분이면 더욱 재밌게 보실 수 있는 자료입니다. 예컨대 스웨거를 강조하는 Quiett나 Dok2가 '돈'을 자주 언급한다던가, 사실상 재미교포 수준인 미국 출신 한인 래퍼들의 영어사용률이 엄청나게 높다는 점, 또한 뛰어난 가사로 추앙받는 1,2세대 토종 국내힙합 래퍼들의 차트상 약진 같은것 말이죠. 개인적으로는 누가 제일 창의적인가가 알고싶었는데 약간은 당연하면서도 의외의 결과였습니다. 쇼미더머니에서 '스킬'로 한창 주가를 올리고 있는 래퍼들이 나오지 않을까 했는데...하지만 또 랩으로는 뒤지지 않는 래퍼들이라 그려려니 하기도 합니다. 별로 중요하지 않은 내용이라 차트에는 싣지 않았지만, '좆'과 '똥' 을 가장 많이 언급한 아티스트는 천재노창과 스윙스였습니다. -_- 여러분이 차트를 보고 느끼신 점은 무엇인가요?

오유에서 보시기 힘들면 imgur에 올려둔 미러를 참조해 주세요.
https://imgur.com/a/JTu4X
출처 직접 만들었습니다. 이 외에도 다른 글이 궁금하시거나 관련 내용으로 연락하실분은 sungryeol.com 또는 [email protected]으로 연락 부탁드립니다.
전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호