텍스트마이닝 분야 잘아시는분 계실까요?

참여하고 있는 프로젝트에서 넣으려는 기능이 있는데, 비슷한 사례들을 찾아봐도 다루는 데이터가 달라서 그런지 시스템 구성도가 잘 안그려지네요.

한마디로 말하면 '온톨로지 기반 텍스트 다중 카테고리 분류' 라고 보면 되는데,

SNS에서 한 개의 글에 여러가지 해쉬태그가 붙는 형태와 유사합니다.

예를들면 [지하철] 아래 [1호선], [2호선] 이라는 카테고리에 각 역 이름들이 있다고 가정합니다.

(역이름은 몇개 밖에 안썼지만 대략 이런 구조)

중요점은, 카테고리 분류다 보니 선택을 한다는 것인데,

만약 '동대문에서 출발해서 용산들렀다가 신도림에서 환승해서 강남으로 갑니다' 라는 글이 있을 때

[1호선], [2호선]에 포함된 키워드 수를 세보면 각각 3, 2가 되기 때문에 이 글은 [1호선] 카테고리에 분류됩니다.

선택에 대한 명확한 예제를 들다보니 이렇게 됐는데, 사실 그림에서 노란색인 최하 카테고리의 경우 태그에 직접 쓰이진 않고 판단 기준으로만 쓰인다고 보면 됩니다.

이에 대한 예제는 아래와 같겠네요. 글에 '성취', '승리'. '목표를 이루다' 등의 텍스트가 들어가면 [성공]으로 분류됩니다.

따라서 대부분은 더이상 형태소분석을 할 필요 없는 품사 집합으로 이루어지고, 가끔 '목표를 이루다' 같은 2~3개 정도의 목적어+보어 조합은 있을 수 있겠습니다.

종합하면 '동대문에서 출발해서 용산들렀다가 신도림에서 환승해서 강남으로 간다는 목표를 이루었습니다' 라는 글은

[1호선][성공] 이라는 두가지 카테고리가 붙는거죠.

그래서 최종적으로, 각 카테고리를 선택하면 연결된 글들을 볼 수 있게되는.. 해쉬태그 검색과 동일합니다.

단 [지하철]을 택했을 경우엔 [1호선], [2호선]이 모두 나오는 거죠. (사실상 실제 글에 붙는 카테고리는 최하위-1번째 항목들뿐이고, 그 위는 검색용)

다루는 데이터가 많지 않다보니 위와 같은 형식의 카테고리의 경우 인위적으로 입력을 해둘 것이고, 이 후 추가는 빅데이터 기술을 적용하는 등의 고민은 해봐야 할 것 같습니다. 판단하는 방법같은 경우도 개수가 너무 간단하다면 머신러닝쪽으로 갈 수도 있구요.

자연어 처리 관련 비슷한 분야들을 찾아보면 K-클러스터링을 이용한 웹 분석같은게 많은데,

글 데이터가 많은 상태로 분석한다기보단 입력된 데이터를 기반으로 새로운 글을 스스로 분류하는 시스템 구현이라서 어떻게 변형해야 할지가 감이 안잡히네요..

프로그래밍 언어나 무슨 DB를 써야할지도 모르겠고, 저 카테고리 데이터(어근)들은 어떤 형식으로 저장해서 어떻게 쓸지도 그림이 잘 안그려지구요.

제가 공부나 참고해야 할만한 것들을 알려주시면 정말 감사할 것 같습니다.