흥미로운 긍정어 부정어 분석

개인적인 연구를 위해 네이버 영화 평점 정보를 수집하고 있다. 다양한 추천 기법들을 테스트 하기 위해서인데, 사실 이를 위해서는, 영화 제목, 사용자, 사용자가 영화에 매긴 평점 정보만 있어도 된다. 그런데 덤으로 수집한 40자평이 아까워서 이번에 재미있는 분석을 해 보았다.

이름하여 긍정어 부정어 분석! 사실 이름만큼 그리 대단한 걸 한 건 아니고, 사용자가 남긴 평점과 40자평을 바탕으로, 단어에 대한 긍정 부정 정도를 계산 해 본 것이다. 3점 이하의 평점은 부정, 7점 이상의 평점은 긍정으로 가정하였으며, 40자평에서는 형태소분석을 통해 명사, 동사, 감탄사, 기호를 추출하고, 조사는 무시하였다. 그리고 10만 건의 평점 데이터에 대해 계산을 하였고, 긍정(부정)에 나타난 횟수 / 전체 단어의 발생 횟수 > 0.5 이상이고, 10만 건의 40자평 중에서 1% 이상 출연한 단어들을 정리 해 보았다.

뭔가 재미없고, 복잡한 설명은 이제 끝났고, 흥미로운 결과만 보자 :-)

먼저 긍정의 단어들.
 

type word pro count total
POS 최고 0.990 5556 5635
POS 아름답 0.990 985 995
POS 멋지 0.980 2254 2305
POS 오빠 0.980 826 842
POS 대박 0.980 1024 1043
POS 0.980 2054 2089
POS 굿 0.980 902 923
POS 사랑 0.980 2373 2429
POS 강추 0.980 1516 1543
POS 가슴 0.980 1239 1260
POS 눈물 0.970 1038 1066
POS 0.970 1659 1712
POS 슬프 0.970 1524 1568
POS 감동 0.970 5213 5369
POS > 0.960 998 1041
POS < 0.960 951 993
POS 괜찮 0.960 1264 1320
POS 재밌 0.960 4918 5136
POS 재미있 0.960 3943 4092
POS 멋있 0.950 1265 1329
POS 한번 0.950 850 895
POS 0.950 922 973
POS ^ 0.940 767 816
POS !! 0.940 5333 5672
POS 필요 0.940 838 892
POS !!! 0.940 1907 2037
POS 다시 0.940 1029 1094
POS 보고 0.940 875 929
POS ! 0.930 8522 9210
POS ~ 0.930 8231 8845
POS 느끼 0.930 1247 1338
POS 볼만하 0.930 1449 1560
POS 마지막 0.930 1149 1232
POS 0.930 1710 1832
POS 0.930 988 1059
POS 작품 0.930 1023 1103
POS 0.930 5036 5433
POS ㅋㅋ 0.930 1828 1975
POS 0.930 1773 1905
POS 0.930 7693 8308
POS ~~ 0.920 1910 2082
POS 추천 0.920 896 971
POS 연기 0.920 2622 2847
POS 이야기 0.920 842 914
POS 0.920 1529 1658
POS _ 0.910 829 911
POS 0.910 1370 1508
POS 0.910 990 1093
POS 정말 0.910 8889 9736
POS 하지만 0.910 827 913
POS 역시 0.900 1034 1151
POS 0.900 1858 2060
POS 0.900 1587 1759
POS 0.900 2859 3178
POS 우리 0.900 1075 1190
POS 0.890 1798 2031
POS 0.890 889 998
POS 0.890 2200 2474
POS 반전 0.890 812 913
POS 장면 0.890 745 838
POS 너무 0.890 4741 5306
POS 액션 0.880 1382 1563
POS 0.880 1341 1516
POS 0.880 925 1056
POS 기대 0.880 2522 2853
POS 0.880 998 1129
POS 재미 0.880 2877 3256
POS 보이 0.880 730 832
POS , 0.870 6991 8080
POS ,, 0.870 1142 1316
POS 0.870 2603 2996
POS 0.870 15250 17562
POS 생각 0.870 1913 2201
POS 0.870 4149 4777
POS 0.870 21093 24359
POS 0.870 860 989
POS ` 0.860 1187 1388
POS 진짜 0.860 2180 2521
POS 배우 0.860 1163 1351
POS 0.860 2172 2536
POS . 0.850 20983 24815
POS 웃기 0.850 753 891
POS 0.850 1559 1825
POS 영화 0.850 29549 34846
POS 10 0.840 1076 1288
POS 많이 0.840 797 950
POS 0.840 1149 1365
POS 무섭 0.840 744 885
POS 0.840 5652 6747
POS ) 0.830 762 918
POS 0.830 667 801
POS 0.830 668 805
POS 0.830 2204 2658
POS ( 0.820 678 827
POS .. 0.820 18443 22443
POS 한국 0.820 973 1184
POS 공포 0.820 797 970
POS 사람 0.820 1265 1545
POS 0.820 1059 1284
POS 0.820 786 961
POS 나오 0.820 1944 2365
POS 0.810 1571 1948
POS ... 0.810 10909 13480
POS 0.810 1071 1327
POS 못하 0.800 774 962
POS 이거 0.800 799 995
POS 모르 0.790 628 792
POS 0.790 863 1088
POS .... 0.790 1867 2354
POS 그냥 0.780 689 883
POS 0.780 918 1183
POS - 0.770 1301 1687
POS 2 0.770 848 1095
POS 아니 0.760 1480 1959
POS 만들 0.750 1744 2331
POS 감독 0.740 809 1098
POS ; 0.730 849 1171
POS 0.730 1162 1590
POS 스토리 0.730 1107 1519
POS 0.720 655 915
POS 이러 0.710 568 799
POS 내용 0.710 1051 1474
POS ? 0.690 2649 3841
POS 0.690 3136 4576
POS 이런 0.690 586 845
POS 시간 0.640 546 849
POS 0.630 1145 1806
POS 1 0.620 940 1516
POS 0.580 584 999
POS 이것 0.530 505 961

그럴듯한가? ㅎㅎ 
그리고 부정의 단어들
type word pro count total
NEG 최악 0.940 592 629
NEG 졸작 0.850 140 165
NEG 쓰레기 0.850 498 584
NEG 짜증나 0.790 138 174
NEG 어이없 0.770 124 161
NEG 재미없 0.710 537 757
NEG 아깝 0.680 891 1304
NEG 망하 0.650 102 156
NEG 별루 0.650 147 226
NEG 알바 0.630 193 304
NEG 0.630 469 747
NEG 0 0.610 179 294
NEG 실망 0.600 355 588
NEG 전지현 0.580 222 386
NEG 0.580 118 204
NEG 지마 0.550 160 293
NEG 어설프 0.550 130 238
NEG -- 0.540 97 178
NEG 별로 0.540 317 583
NEG 유치 0.540 279 515
NEG 억지 0.530 109 207
부정의 단어들은 한결 더 와 닿는다. ㅋㅋ 물론 중간의 전지현이 왜 들어갔는지는 좀 의문이지만. --; (아마 전지현이 출현해서 망한 영화에서 나온 리뷰들이 많이 포함된 것 같다)

이렇게 분석된 단어의 확률들을 바탕으로 Naive bayesian classifier 혹은 Fisher's classifier를 적용하면, 어떠한 상품에 리뷰가 상품에 대한 긍정의 리뷰인지, 부정의 리뷰인지를 계산할 수 있게 된다. 물론 나의 현재 관심사는 그곳이 아니기 때문에 여기까지만 하고 끝!

댓글

Designed by JB FACTORY