为什么要去除近似重复网页

1 楼
为什么需要检测近似重复?
(1)节省存储空间
(2)改进搜索体验(节约用户的时间)
互联网存在大量的重复内容,有研究显示,其中有30%的网页内容重复。抄袭论文的情况也经常发生,文本去重类似的技术还可以用在抄袭检测上。
2016-11-25 06:26:11