흥미로운 긍정어 부정어 분석
- 연구노트
- 2012. 3. 22.
개인적인 연구를 위해 네이버 영화 평점 정보를 수집하고 있다. 다양한 추천 기법들을 테스트 하기 위해서인데, 사실 이를 위해서는, 영화 제목, 사용자, 사용자가 영화에 매긴 평점 정보만 있어도 된다. 그런데 덤으로 수집한 40자평이 아까워서 이번에 재미있는 분석을 해 보았다.
이름하여 긍정어 부정어 분석! 사실 이름만큼 그리 대단한 걸 한 건 아니고, 사용자가 남긴 평점과 40자평을 바탕으로, 단어에 대한 긍정 부정 정도를 계산 해 본 것이다. 3점 이하의 평점은 부정, 7점 이상의 평점은 긍정으로 가정하였으며, 40자평에서는 형태소분석을 통해 명사, 동사, 감탄사, 기호를 추출하고, 조사는 무시하였다. 그리고 10만 건의 평점 데이터에 대해 계산을 하였고, 긍정(부정)에 나타난 횟수 / 전체 단어의 발생 횟수 > 0.5 이상이고, 10만 건의 40자평 중에서 1% 이상 출연한 단어들을 정리 해 보았다.
뭔가 재미없고, 복잡한 설명은 이제 끝났고, 흥미로운 결과만 보자 :-)
먼저 긍정의 단어들.
type | word | pro | count | total |
POS | 최고 | 0.990 | 5556 | 5635 |
POS | 아름답 | 0.990 | 985 | 995 |
POS | 멋지 | 0.980 | 2254 | 2305 |
POS | 오빠 | 0.980 | 826 | 842 |
POS | 대박 | 0.980 | 1024 | 1043 |
POS | 꼭 | 0.980 | 2054 | 2089 |
POS | 굿 | 0.980 | 902 | 923 |
POS | 사랑 | 0.980 | 2373 | 2429 |
POS | 강추 | 0.980 | 1516 | 1543 |
POS | 가슴 | 0.980 | 1239 | 1260 |
POS | 눈물 | 0.970 | 1038 | 1066 |
POS | 짱 | 0.970 | 1659 | 1712 |
POS | 슬프 | 0.970 | 1524 | 1568 |
POS | 감동 | 0.970 | 5213 | 5369 |
POS | > | 0.960 | 998 | 1041 |
POS | < | 0.960 | 951 | 993 |
POS | 괜찮 | 0.960 | 1264 | 1320 |
POS | 재밌 | 0.960 | 4918 | 5136 |
POS | 재미있 | 0.960 | 3943 | 4092 |
POS | 멋있 | 0.950 | 1265 | 1329 |
POS | 한번 | 0.950 | 850 | 895 |
POS | 울 | 0.950 | 922 | 973 |
POS | ^ | 0.940 | 767 | 816 |
POS | !! | 0.940 | 5333 | 5672 |
POS | 필요 | 0.940 | 838 | 892 |
POS | !!! | 0.940 | 1907 | 2037 |
POS | 다시 | 0.940 | 1029 | 1094 |
POS | 보고 | 0.940 | 875 | 929 |
POS | ! | 0.930 | 8522 | 9210 |
POS | ~ | 0.930 | 8231 | 8845 |
POS | 느끼 | 0.930 | 1247 | 1338 |
POS | 볼만하 | 0.930 | 1449 | 1560 |
POS | 마지막 | 0.930 | 1149 | 1232 |
POS | ㅋ | 0.930 | 1710 | 1832 |
POS | 또 | 0.930 | 988 | 1059 |
POS | 작품 | 0.930 | 1023 | 1103 |
POS | 좋 | 0.930 | 5036 | 5433 |
POS | ㅋㅋ | 0.930 | 1828 | 1975 |
POS | 잘 | 0.930 | 1773 | 1905 |
POS | 있 | 0.930 | 7693 | 8308 |
POS | ~~ | 0.920 | 1910 | 2082 |
POS | 추천 | 0.920 | 896 | 971 |
POS | 연기 | 0.920 | 2622 | 2847 |
POS | 이야기 | 0.920 | 842 | 914 |
POS | 수 | 0.920 | 1529 | 1658 |
POS | _ | 0.910 | 829 | 911 |
POS | 본 | 0.910 | 1370 | 1508 |
POS | 웃 | 0.910 | 990 | 1093 |
POS | 정말 | 0.910 | 8889 | 9736 |
POS | 하지만 | 0.910 | 827 | 913 |
POS | 역시 | 0.900 | 1034 | 1151 |
POS | 되 | 0.900 | 1858 | 2060 |
POS | 중 | 0.900 | 1587 | 1759 |
POS | 싶 | 0.900 | 2859 | 3178 |
POS | 우리 | 0.900 | 1075 | 1190 |
POS | 그 | 0.890 | 1798 | 2031 |
POS | 저 | 0.890 | 889 | 998 |
POS | 잼 | 0.890 | 2200 | 2474 |
POS | 반전 | 0.890 | 812 | 913 |
POS | 장면 | 0.890 | 745 | 838 |
POS | 너무 | 0.890 | 4741 | 5306 |
POS | 액션 | 0.880 | 1382 | 1563 |
POS | 더 | 0.880 | 1341 | 1516 |
POS | 남 | 0.880 | 925 | 1056 |
POS | 기대 | 0.880 | 2522 | 2853 |
POS | 오 | 0.880 | 998 | 1129 |
POS | 재미 | 0.880 | 2877 | 3256 |
POS | 보이 | 0.880 | 730 | 832 |
POS | , | 0.870 | 6991 | 8080 |
POS | ,, | 0.870 | 1142 | 1316 |
POS | 같 | 0.870 | 2603 | 2996 |
POS | 보 | 0.870 | 15250 | 17562 |
POS | 생각 | 0.870 | 1913 | 2201 |
POS | 나 | 0.870 | 4149 | 4777 |
POS | 이 | 0.870 | 21093 | 24359 |
POS | 한 | 0.870 | 860 | 989 |
POS | ` | 0.860 | 1187 | 1388 |
POS | 진짜 | 0.860 | 2180 | 2521 |
POS | 배우 | 0.860 | 1163 | 1351 |
POS | 않 | 0.860 | 2172 | 2536 |
POS | . | 0.850 | 20983 | 24815 |
POS | 웃기 | 0.850 | 753 | 891 |
POS | 것 | 0.850 | 1559 | 1825 |
POS | 영화 | 0.850 | 29549 | 34846 |
POS | 10 | 0.840 | 1076 | 1288 |
POS | 많이 | 0.840 | 797 | 950 |
POS | 가 | 0.840 | 1149 | 1365 |
POS | 무섭 | 0.840 | 744 | 885 |
POS | 하 | 0.840 | 5652 | 6747 |
POS | ) | 0.830 | 762 | 918 |
POS | 많 | 0.830 | 667 | 801 |
POS | 내 | 0.830 | 668 | 805 |
POS | 주 | 0.830 | 2204 | 2658 |
POS | ( | 0.820 | 678 | 827 |
POS | .. | 0.820 | 18443 | 22443 |
POS | 한국 | 0.820 | 973 | 1184 |
POS | 공포 | 0.820 | 797 | 970 |
POS | 사람 | 0.820 | 1265 | 1545 |
POS | 알 | 0.820 | 1059 | 1284 |
POS | 편 | 0.820 | 786 | 961 |
POS | 나오 | 0.820 | 1944 | 2365 |
POS | 말 | 0.810 | 1571 | 1948 |
POS | ... | 0.810 | 10909 | 13480 |
POS | 좀 | 0.810 | 1071 | 1327 |
POS | 못하 | 0.800 | 774 | 962 |
POS | 이거 | 0.800 | 799 | 995 |
POS | 모르 | 0.790 | 628 | 792 |
POS | 다 | 0.790 | 863 | 1088 |
POS | .... | 0.790 | 1867 | 2354 |
POS | 그냥 | 0.780 | 689 | 883 |
POS | 들 | 0.780 | 918 | 1183 |
POS | - | 0.770 | 1301 | 1687 |
POS | 2 | 0.770 | 848 | 1095 |
POS | 아니 | 0.760 | 1480 | 1959 |
POS | 만들 | 0.750 | 1744 | 2331 |
POS | 감독 | 0.740 | 809 | 1098 |
POS | ; | 0.730 | 849 | 1171 |
POS | 안 | 0.730 | 1162 | 1590 |
POS | 스토리 | 0.730 | 1107 | 1519 |
POS | 뭐 | 0.720 | 655 | 915 |
POS | 이러 | 0.710 | 568 | 799 |
POS | 내용 | 0.710 | 1051 | 1474 |
POS | ? | 0.690 | 2649 | 3841 |
POS | 없 | 0.690 | 3136 | 4576 |
POS | 이런 | 0.690 | 586 | 845 |
POS | 시간 | 0.640 | 546 | 849 |
POS | 점 | 0.630 | 1145 | 1806 |
POS | 1 | 0.620 | 940 | 1516 |
POS | 왜 | 0.580 | 584 | 999 |
POS | 이것 | 0.530 | 505 | 961 |
그럴듯한가? ㅎㅎ
그리고 부정의 단어들
type | word | pro | count | total |
NEG | 최악 | 0.940 | 592 | 629 |
NEG | 졸작 | 0.850 | 140 | 165 |
NEG | 쓰레기 | 0.850 | 498 | 584 |
NEG | 짜증나 | 0.790 | 138 | 174 |
NEG | 어이없 | 0.770 | 124 | 161 |
NEG | 재미없 | 0.710 | 537 | 757 |
NEG | 아깝 | 0.680 | 891 | 1304 |
NEG | 망하 | 0.650 | 102 | 156 |
NEG | 별루 | 0.650 | 147 | 226 |
NEG | 알바 | 0.630 | 193 | 304 |
NEG | 돈 | 0.630 | 469 | 747 |
NEG | 0 | 0.610 | 179 | 294 |
NEG | 실망 | 0.600 | 355 | 588 |
NEG | 전지현 | 0.580 | 222 | 386 |
NEG | 싫 | 0.580 | 118 | 204 |
NEG | 지마 | 0.550 | 160 | 293 |
NEG | 어설프 | 0.550 | 130 | 238 |
NEG | -- | 0.540 | 97 | 178 |
NEG | 별로 | 0.540 | 317 | 583 |
NEG | 유치 | 0.540 | 279 | 515 |
NEG | 억지 | 0.530 | 109 | 207 |
이렇게 분석된 단어의 확률들을 바탕으로 Naive bayesian classifier 혹은 Fisher's classifier를 적용하면, 어떠한 상품에 리뷰가 상품에 대한 긍정의 리뷰인지, 부정의 리뷰인지를 계산할 수 있게 된다. 물론 나의 현재 관심사는 그곳이 아니기 때문에 여기까지만 하고 끝!