구글도 가끔 낚시를 한다

세계 최강의 검색엔진인 구글도 종종 사용자를 상대로 낚시를 하는데, 그동안 구글 검색을 하면서 가끔 만나던 이상한 현상에 대해서 오늘 확실히 근거(^^)를 잡았다.

다름이 아니라, 검색 결과 첫 페이지 상에서는 검색 결과 페이지가 많은 것처럼 보여주고는 실제로 뒷 페이지를 눌러보면, 검색 결과가 없어지는 식이다.

예를 들면, NLTK라는 검색어에 대해 한국어 웹 검색 결과를 보면, 아래와 같이 약 239개의 검색 결과가 존재하고, 총 7개의 페이지가 있는 것 처럼 보여준다.

image

image총 일곱 개의 검색 결과 페이지가 존재

 

여기서 두 번 째 페이지를 누르면 검색 결과 페이지가 6페이지로 줄어든다.

image

그리고 세 번 째 페이지로 가면 검색 결과 페이지가 다시 5페이지로 줄어들고,

image

마지막으로 네 번째 페이지를 누르면, 검색 결과가 최종적으로 네 페이지로 종결됨을 알 수 있다.

image

몇 년 전 처음 이 현상을 겪었을 때는, 버그라고 생각했었는데, 아직까지 이 상태가 유지되는 걸 보면, 구글에서는 버그라고 생각하지 않는 모양이다. 그렇다면 왜 구글은 이런 현상을 그대로 놔둘까?

실제 이유는 명확히 알 수 없으나, 가장 마지막 검색 결과 페이지를 통해 이유를 추론해 볼 수 있다. 검색 결과의 마지막 페이지에 보면,

가장 관련성이 높은 결과를 제공하기 위해 이미 표시된 40개 결과와 유사한 항목은 생략했습니다.
원하시면 생략된 결과를 포함하여 재검색할 수 있습니다.

라는 문구가 있다. 즉, 중복으로 판단되는 문서를 제거하다보니, 처음 예상보다 검색 결과 페이지가 줄었다는 뜻이다. 실제 생략된 결과를 포함하여 재검색 링크를 눌러보면, 다시 페이지 수가 늘어나는 것을 확인할 수 있다.

image
생략된 결과를 포함하여 재검색 결과. 다시 페이지 수가 늘어났다.

 image
중복된 문서를 포함하면 검색 결과 페이지가 33페이지까지 늘어난다.

어차피 중복 문서를 포함하여 검색 결과를 노출시키는 것 보다는, 걸러서 보여주는 것이 사용자에게도 더 좋다. 그렇다면 도대체 왜 처음부터 유사한 검색 결과를 제외하면 4페이지라고 하지 않고, 7페이지라고 알려줄까?

이 부분은 순전히 가설이긴한데, 아마 구글도 중복 문서 클러스터는 따로 관리하는 게 아닐까 싶다. 일단 첫 페이지 검색 결과는 최대한 빨리 사용자에게 보내줘야 하니, 적당히 예측해서 페이지수를 찍고, 실제 사용자가 뒷 페이지에 접근하면, 그제서야 중복 문서를 제거하여 정확한 페이지를 계산하는 것이다.

아마 대부분의 검색어에 대해서는 중복 문서를 제거하더라도, 구글은 많은 충분히 검색 결과를 가지고 있을 것이고, 구글의 우수한 검색 품질(^^)에 의해 사용자가 2 페이지 이후를 갈 일은 거의 없으니, 대부분의 사용자는 아마 경험하지 못하는 현상일 것이다. 그리고 검색 응답 속도 면에서도 꽤나 효율적인 전략이긴 하다.

하지만 가끔 특정 카테고리 (한국어 블로그)에서 레어한 키워드(NLTK)에 대해 검색할 때, 꽤나 잦은 빈도로 당해보면, 왠지 낚이는 기분이 드는 것도 어쩔 수 없다.

생각해보라.. 다른 검색엔진에서는 검색 결과가 1페이지도 채 안나와서 좌절하고 구글에 와서 검색했더니 수많은 검색 결과가 나와서 “역시 구글이야!!” 하고 뒷 페이지를 눌렀더니 페이지가 몽땅 사라지는 황당한 상황을..

실제 구글 입장에서는 버그가 아닐지라도, 구글 코리아에서 요런 상황을 인지하고 좀 수정해 주었으면 좋겠다. ㅎㅎ

댓글

Designed by JB FACTORY