흥미로운 긍정어 부정어 분석
- 연구노트
- 2012. 3. 22.
개인적인 연구를 위해 네이버 영화 평점 정보를 수집하고 있다. 다양한 추천 기법들을 테스트 하기 위해서인데, 사실 이를 위해서는, 영화 제목, 사용자, 사용자가 영화에 매긴 평점 정보만 있어도 된다. 그런데 덤으로 수집한 40자평이 아까워서 이번에 재미있는 분석을 해 보았다.
이름하여 긍정어 부정어 분석! 사실 이름만큼 그리 대단한 걸 한 건 아니고, 사용자가 남긴 평점과 40자평을 바탕으로, 단어에 대한 긍정 부정 정도를 계산 해 본 것이다. 3점 이하의 평점은 부정, 7점 이상의 평점은 긍정으로 가정하였으며, 40자평에서는 형태소분석을 통해 명사, 동사, 감탄사, 기호를 추출하고, 조사는 무시하였다. 그리고 10만 건의 평점 데이터에 대해 계산을 하였고, 긍정(부정)에 나타난 횟수 / 전체 단어의 발생 횟수 > 0.5 이상이고, 10만 건의 40자평 중에서 1% 이상 출연한 단어들을 정리 해 보았다.
뭔가 재미없고, 복잡한 설명은 이제 끝났고, 흥미로운 결과만 보자 :-)
먼저 긍정의 단어들.
| type | word | pro | count | total |
| POS | 최고 | 0.990 | 5556 | 5635 |
| POS | 아름답 | 0.990 | 985 | 995 |
| POS | 멋지 | 0.980 | 2254 | 2305 |
| POS | 오빠 | 0.980 | 826 | 842 |
| POS | 대박 | 0.980 | 1024 | 1043 |
| POS | 꼭 | 0.980 | 2054 | 2089 |
| POS | 굿 | 0.980 | 902 | 923 |
| POS | 사랑 | 0.980 | 2373 | 2429 |
| POS | 강추 | 0.980 | 1516 | 1543 |
| POS | 가슴 | 0.980 | 1239 | 1260 |
| POS | 눈물 | 0.970 | 1038 | 1066 |
| POS | 짱 | 0.970 | 1659 | 1712 |
| POS | 슬프 | 0.970 | 1524 | 1568 |
| POS | 감동 | 0.970 | 5213 | 5369 |
| POS | > | 0.960 | 998 | 1041 |
| POS | < | 0.960 | 951 | 993 |
| POS | 괜찮 | 0.960 | 1264 | 1320 |
| POS | 재밌 | 0.960 | 4918 | 5136 |
| POS | 재미있 | 0.960 | 3943 | 4092 |
| POS | 멋있 | 0.950 | 1265 | 1329 |
| POS | 한번 | 0.950 | 850 | 895 |
| POS | 울 | 0.950 | 922 | 973 |
| POS | ^ | 0.940 | 767 | 816 |
| POS | !! | 0.940 | 5333 | 5672 |
| POS | 필요 | 0.940 | 838 | 892 |
| POS | !!! | 0.940 | 1907 | 2037 |
| POS | 다시 | 0.940 | 1029 | 1094 |
| POS | 보고 | 0.940 | 875 | 929 |
| POS | ! | 0.930 | 8522 | 9210 |
| POS | ~ | 0.930 | 8231 | 8845 |
| POS | 느끼 | 0.930 | 1247 | 1338 |
| POS | 볼만하 | 0.930 | 1449 | 1560 |
| POS | 마지막 | 0.930 | 1149 | 1232 |
| POS | ㅋ | 0.930 | 1710 | 1832 |
| POS | 또 | 0.930 | 988 | 1059 |
| POS | 작품 | 0.930 | 1023 | 1103 |
| POS | 좋 | 0.930 | 5036 | 5433 |
| POS | ㅋㅋ | 0.930 | 1828 | 1975 |
| POS | 잘 | 0.930 | 1773 | 1905 |
| POS | 있 | 0.930 | 7693 | 8308 |
| POS | ~~ | 0.920 | 1910 | 2082 |
| POS | 추천 | 0.920 | 896 | 971 |
| POS | 연기 | 0.920 | 2622 | 2847 |
| POS | 이야기 | 0.920 | 842 | 914 |
| POS | 수 | 0.920 | 1529 | 1658 |
| POS | _ | 0.910 | 829 | 911 |
| POS | 본 | 0.910 | 1370 | 1508 |
| POS | 웃 | 0.910 | 990 | 1093 |
| POS | 정말 | 0.910 | 8889 | 9736 |
| POS | 하지만 | 0.910 | 827 | 913 |
| POS | 역시 | 0.900 | 1034 | 1151 |
| POS | 되 | 0.900 | 1858 | 2060 |
| POS | 중 | 0.900 | 1587 | 1759 |
| POS | 싶 | 0.900 | 2859 | 3178 |
| POS | 우리 | 0.900 | 1075 | 1190 |
| POS | 그 | 0.890 | 1798 | 2031 |
| POS | 저 | 0.890 | 889 | 998 |
| POS | 잼 | 0.890 | 2200 | 2474 |
| POS | 반전 | 0.890 | 812 | 913 |
| POS | 장면 | 0.890 | 745 | 838 |
| POS | 너무 | 0.890 | 4741 | 5306 |
| POS | 액션 | 0.880 | 1382 | 1563 |
| POS | 더 | 0.880 | 1341 | 1516 |
| POS | 남 | 0.880 | 925 | 1056 |
| POS | 기대 | 0.880 | 2522 | 2853 |
| POS | 오 | 0.880 | 998 | 1129 |
| POS | 재미 | 0.880 | 2877 | 3256 |
| POS | 보이 | 0.880 | 730 | 832 |
| POS | , | 0.870 | 6991 | 8080 |
| POS | ,, | 0.870 | 1142 | 1316 |
| POS | 같 | 0.870 | 2603 | 2996 |
| POS | 보 | 0.870 | 15250 | 17562 |
| POS | 생각 | 0.870 | 1913 | 2201 |
| POS | 나 | 0.870 | 4149 | 4777 |
| POS | 이 | 0.870 | 21093 | 24359 |
| POS | 한 | 0.870 | 860 | 989 |
| POS | ` | 0.860 | 1187 | 1388 |
| POS | 진짜 | 0.860 | 2180 | 2521 |
| POS | 배우 | 0.860 | 1163 | 1351 |
| POS | 않 | 0.860 | 2172 | 2536 |
| POS | . | 0.850 | 20983 | 24815 |
| POS | 웃기 | 0.850 | 753 | 891 |
| POS | 것 | 0.850 | 1559 | 1825 |
| POS | 영화 | 0.850 | 29549 | 34846 |
| POS | 10 | 0.840 | 1076 | 1288 |
| POS | 많이 | 0.840 | 797 | 950 |
| POS | 가 | 0.840 | 1149 | 1365 |
| POS | 무섭 | 0.840 | 744 | 885 |
| POS | 하 | 0.840 | 5652 | 6747 |
| POS | ) | 0.830 | 762 | 918 |
| POS | 많 | 0.830 | 667 | 801 |
| POS | 내 | 0.830 | 668 | 805 |
| POS | 주 | 0.830 | 2204 | 2658 |
| POS | ( | 0.820 | 678 | 827 |
| POS | .. | 0.820 | 18443 | 22443 |
| POS | 한국 | 0.820 | 973 | 1184 |
| POS | 공포 | 0.820 | 797 | 970 |
| POS | 사람 | 0.820 | 1265 | 1545 |
| POS | 알 | 0.820 | 1059 | 1284 |
| POS | 편 | 0.820 | 786 | 961 |
| POS | 나오 | 0.820 | 1944 | 2365 |
| POS | 말 | 0.810 | 1571 | 1948 |
| POS | ... | 0.810 | 10909 | 13480 |
| POS | 좀 | 0.810 | 1071 | 1327 |
| POS | 못하 | 0.800 | 774 | 962 |
| POS | 이거 | 0.800 | 799 | 995 |
| POS | 모르 | 0.790 | 628 | 792 |
| POS | 다 | 0.790 | 863 | 1088 |
| POS | .... | 0.790 | 1867 | 2354 |
| POS | 그냥 | 0.780 | 689 | 883 |
| POS | 들 | 0.780 | 918 | 1183 |
| POS | - | 0.770 | 1301 | 1687 |
| POS | 2 | 0.770 | 848 | 1095 |
| POS | 아니 | 0.760 | 1480 | 1959 |
| POS | 만들 | 0.750 | 1744 | 2331 |
| POS | 감독 | 0.740 | 809 | 1098 |
| POS | ; | 0.730 | 849 | 1171 |
| POS | 안 | 0.730 | 1162 | 1590 |
| POS | 스토리 | 0.730 | 1107 | 1519 |
| POS | 뭐 | 0.720 | 655 | 915 |
| POS | 이러 | 0.710 | 568 | 799 |
| POS | 내용 | 0.710 | 1051 | 1474 |
| POS | ? | 0.690 | 2649 | 3841 |
| POS | 없 | 0.690 | 3136 | 4576 |
| POS | 이런 | 0.690 | 586 | 845 |
| POS | 시간 | 0.640 | 546 | 849 |
| POS | 점 | 0.630 | 1145 | 1806 |
| POS | 1 | 0.620 | 940 | 1516 |
| POS | 왜 | 0.580 | 584 | 999 |
| POS | 이것 | 0.530 | 505 | 961 |
그럴듯한가? ㅎㅎ
그리고 부정의 단어들
| type | word | pro | count | total |
| NEG | 최악 | 0.940 | 592 | 629 |
| NEG | 졸작 | 0.850 | 140 | 165 |
| NEG | 쓰레기 | 0.850 | 498 | 584 |
| NEG | 짜증나 | 0.790 | 138 | 174 |
| NEG | 어이없 | 0.770 | 124 | 161 |
| NEG | 재미없 | 0.710 | 537 | 757 |
| NEG | 아깝 | 0.680 | 891 | 1304 |
| NEG | 망하 | 0.650 | 102 | 156 |
| NEG | 별루 | 0.650 | 147 | 226 |
| NEG | 알바 | 0.630 | 193 | 304 |
| NEG | 돈 | 0.630 | 469 | 747 |
| NEG | 0 | 0.610 | 179 | 294 |
| NEG | 실망 | 0.600 | 355 | 588 |
| NEG | 전지현 | 0.580 | 222 | 386 |
| NEG | 싫 | 0.580 | 118 | 204 |
| NEG | 지마 | 0.550 | 160 | 293 |
| NEG | 어설프 | 0.550 | 130 | 238 |
| NEG | -- | 0.540 | 97 | 178 |
| NEG | 별로 | 0.540 | 317 | 583 |
| NEG | 유치 | 0.540 | 279 | 515 |
| NEG | 억지 | 0.530 | 109 | 207 |
이렇게 분석된 단어의 확률들을 바탕으로 Naive bayesian classifier 혹은 Fisher's classifier를 적용하면, 어떠한 상품에 리뷰가 상품에 대한 긍정의 리뷰인지, 부정의 리뷰인지를 계산할 수 있게 된다. 물론 나의 현재 관심사는 그곳이 아니기 때문에 여기까지만 하고 끝!