1566
2017-08-30 07:44:23
0
상위어와 하위어 및 유사어 간의 관계를 통한 계층적 시소러스를 구축하시려는가 봅니다.
위에서 "카테고리의 경우 인위적으로 입력을 해둘 것이고"라고 하는 말씀을 들어 볼 때
성공 = {성취, 승리, 목표} 라는 걸 자동으로 구축하고 싶으시다면
여러 텍스트마이닝 기법들이 존재하겠지만 가장 손쉽게 적용해 볼 수 있는 방법은
TF-IDF 와 같이 문서 내의 중요 키워드를 도출하고 그 키워드들을 비지도학습 클러스터링 알고리즘(예를 들어 k-means 클러스터링)을 통해
그룹(성취, 성공, 승리, 목표)으로 묶고, 묶인 그 그룹 내의 대표 키워드(성공)를 뽑으시면 될 것 같습니다.
아니면 각 뽑인 그룹 별로 직접 라벨링 하셔도 되겠지요.
다만 설명드린 방법은 가장 단순한 방법이기에 키워드를 도출하거나 클러스터링 하는 다양한 알고리즘을 바꿔 적용해 보시는게 좋겠지요.
물론 중요 키워드를 도출하실 때 TF-IDF 와 같은 통계기반으로 하셔도 되고 형태소 분석기를 통한 명사, 동사 위주로 뽑으셔도 될 겁니다.
추가로 기 구축된 계층적 시소러스를 이용하시는 것도 방법일 겁니다. 예를 들면 영어를 위한 Wordnet을 국문으로 전환해서 사용하시는 것이지요.
여러 방법을 적용해서 우수한 해를 도출하는 방법을 택하시면 되겠지요.
어찌 되었던 위 관련된 방법들을 참고하시려고 한다면, 기계학습(ML), NLP, 데이터마이닝, 웹데이터마이닝을 찾아보시면 될 것 같습니다.
아 더 추가로;;; 구축된 계층적 시로러스를 기반으로 추론을 하시려거든 RDF, OWL과 같은 온톨로지로 표현하시면 될 겁니다.
적절한 답변이 되었으려나 모르겠네요. 이미 알고계실만한 내용이기도 하구요.