이전 글 링크 베오베까지 올라가는 기염을 토했던... 예전에 올렸던 언어심리학 설문조사 입니다.
방학이 되었는데도 할 일이 줄어들지 않는 탓에, 미루고 미루다가 오늘에야 그 결과를 올리게 되네요.
날짜 약속 지키지 못해 죄송하구요. 지금이라도 정리해서 올립니다 ^^;
서론 심성어휘집 리서치에 관해서 원래는 주변 20명의 자료를 통하여 분석하는 것이지만,
그룹의 전공(컴퓨터 미디어 프로그래밍)의 전공을 살려
인터넷에서 데이터를 수집하자는 의견을 반영, 실험을 진행하였습니다.
이과정에서 예상 문제점음 다음과 같았습니다.
- 관찰자가 없는 실험의 신뢰성
특히 인터넷에서 네티즌의 데이터를 수집할 경우, 네티즌이 장난으로 실험을 진행할 수 있으며, 이를 정상적인 실험과 구분하기가 어렵다.
- 중복된 데이터의 구별
방법한 사람이 여러 번 실험하는 경우를 구분하기가 어렵다.
이러한 문제점을 감수하고 인터넷에서 데이터를 수집하게 된 이유는 다음과 같습니다.
- 손쉽게 많은 양의 데이터를 얻을 수 있음
인터넷에 올리면 20명이 아니라 최고 수백명의 데이터를 얻을 수 있으리라 생각했고, 이는 적은 양의 데이터로 얻는 신뢰성의 문제를 해결함으로써 위의 관찰자가 없는 신뢰성 문제를 극복할만한 장점이 되리라 생각하였다.
- 실험 과정을 동일하게 제어할 수 있음
직접 실험할 경우 아무래도 실험자의 실수 등으로 실험 과정에 차이가 있을 수 밖에 없지만, 인터넷에서 프로그램으로 데이터를 수집하는 경우 적어도 실험 과정에 있어서는 항상 같은 방법으로 실험할 수 있다.
단어선택 임의의 단어를 선택함에 있어서 무작위성을 선택함에 있어서 고민하게 되었습니다. 이러한 고민중 선택한 방법은 인터넷
사전의 자동완성을 이용하는 방법이였습니다.
사전의 자동완성의 경우, 검색빈도가 높은 단어들이어
보편성이 높으며, 임의적인 선택보다 더욱 무작위성을 보장할수 있었기
때문입니다.
(이중 고유명사나 외국어는 제외하였습니다.)
이렇게 선택한 단어들을 랜덤프로그램을 이용한
무작위로 선택, 다음과 같은 단어들을 선택하였습니다.
- 향수, 비키니, 코치, 드라마, 콩나물, 피망, 게임, 당나귀, 노트북, 박쥐
실험결과 총 5,237개의 데이터를 수집, 잘못저장된(웹 전달상의 오류로 추정)을 제외한 자료중 상위 5,000개의 데이터를 사용하기로 하였습니다.
이중 다음의 단어들은 단순한 오타로 판단, 값을 합쳤습니다.
- 냄새 + 냄세
- 오서 + 오셔
- 배트맨 + 베트맨
- 프루나 + 푸르나
그리고 단어를 입력하는데 걸린 시간(모든 단어를 입력하는 데 걸린 시간이 100000ms 이상, 즉 한 단어를 적는 데 10초 이상 걸린 경우를 의미)이 많이 걸렸을 경우 피험자가 진지한 자세로 임하지 않았거나, 빠르게 생각난 단어를 적지 않았을 가능성이 크다고 판단하여 제거하였고, 이와 같은 방법으로 총 187명의 데이터가 제거되었습니다.
실험 결과의 그래프는 다음과 같습니다.
1. 향수 2. 비키니 3. 피망 4. 코치 5. 드라마 6. 콩나물 7. 게임 * 표시가 안된 단어는 [ 중독 ]
8. 당나귀 9. 노트북 10. 박쥐 분석 요약 실험 전체에 걸쳐서 특정 브랜드 명, 작품 명, 인물 명 등
고유명사가 많이 나왔습니다. 이 중 상당수는 최근에 유행하는 인물, 작품, 유행어 등에 크게 의지하고 있습니다
그러나 위의 실험 결과에서는 의미적 관련이 굉장히 두드러졌으며,
형식적 관련성을 가진다고 볼 수 있을만한 데이터가 존재하지 않았습니다. 직접 실험 데이터를 훑어보아도 실제 단어의 형태에 관련된 것으로 보이는 데이터는 극소수였으며, 그나마도 대부분
언어유희적 성격의 데이터가 주를 이루었습니다.
- 비키니
왜안비키니(1), 안비킬래(1) 등
- 피망
피멍(1) 등
- 코치
눈치(77)7위 , 코피(5), 코(3), 고치(3), 치코리타(1), 양상치(1), 코마네치(1) 등
- 드라마
맨드라미(1) 등
- 게임
게이(9), 게(2) 등
- 박쥐
박지성(4), 박제(3), 박(2), 박치기(1) 등
또한
성에 관련된 단어가 특정 단어에 있어서 많이 나왔습니다.
- 비키니
<여자>1위, <가슴>5위, <섹시>7위, <섹스>14위, <야하다>18위 / 총 2158개(43.2%)
- 게임
<섹스>10위 / 60개(1.2%)
- 당나귀
<야동>12위 / 67개(1.3%)
- 노트북
<야동>19위 / 26개(0.5%)
의미적 데이터도 살펴보았습니다.
Aitchison은 어휘 망의 연결 강도가 등위관계 > 연어관계 > 상하관계 > 등치관계 라고 보는데. 콩나물(연어관계가 강하게 나타남)을 제외한 전체적으로는 등의 > 연어 > 상하 > 동치의 관계는 만족하는 것으로 보인다.
이해를 위한 예를들면 다음과 같습니다.
- 상하관계 :
비키니에 있어서 <수영복>2위, <속옷>12위, <옷>14위는 상위 개념
- 연어관계 :
콩나물에 있어 <국>1위는 콩나물-국, <무침>2위는 콩나물-무침, <비빔밥>3위는 콩나물-비빔밥, <국밥>4위는 콩나물-국밥, <시루>5위는 콩나물-시루, <밥>7위는 콩나물-밥 등의 단어는 동치관계로 판단할 수도 있겠으나 단어 하나로 쓰이는 것 보다 연결해서 쓰이는 것이 더 자연스러운 것으로 생각됩니다.
- 상하관계 :
피망에서의 <야채>2위, <채소>11위, <음식>15위, <요리>20위는 상위개념
- 등치관계 :
향수에서의 <퍼퓸>10위는 향수의 영어 단어 perfume
결론 전체적으로 분석된 정보를 보면 관련된 단어에 대해
자신이 좋아하는 것 등 개인적인 데이터가 많았던 것 같습니다. 그것은 특히 ‘게임’과 ‘드라마’ 항목에서 크게 나타났는데, 원형 그래프를 보게 되면 게임과 드라마의 기타 항목의 비율이 굉장히 높은 것을 볼 수 있습니다. 이는 각자 다른 작품 명을 적었기 때문으로 분석됩니다.
또한 굉장히
유행에 관련된 자료가 많음을 알 수 있습니다. (유명 인물들과 유행어와 관련된 데이터가 많았습니다.)
이런 점이 네티즌만의 특징인지는 알 수 없습니다. 그러나 인터넷에서 실험을 한다면 분명 공개된 장소 보다는
폐쇄된 장소에서 실험을 할 가능성이 많고,
익명성이 보장되는 만큼
개인적인 정보나 은밀한(성에 관련된 단어나 욕설 등)
단어를 쓸 가능성이 높다고 생각됩니다.
비교할만한 정보가 있다면 더욱 흥미로운 가설을 만들고 증명(?)할 수 있었을 텐데 아쉬웠습니다.
전체적으로 아쉬움이 많이 남았습니다. 다음에 이런 실험을 할 기회가 있으면 좀 더 정리를 하고 가설을 세워서 실험해보거나, 많은 자료를 모아서 기본적인 이론은 어떤지, 다른 실험의 경우 어떤 결과가 나왔는지 기초 조사를 해야 할 것 같습니다.
굉장히 흥미로운 경험이었고, 아쉬운 점을 보완하여 다음 실험을 해보고도 싶지만, 현실적으로 살면서 이런 기회가 다시 올지는 모르겠습니다.