首页>>新闻中心>>建设知识

搜索引擎对于网站的去重处理

来源: 本站    发布时间: 2015-09-23 14:02    阅读次数:

同一篇文章经常会重复出现在不同网站及一个网站的不同网站上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了。虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就是称为“去重”。

“去重”的基本方法是对页面特征关键词计算指纹,也就是说页面主题内容中选取最有代表性的一部分关键词,然后计算这些关键词的数字指纹,这里的关键词选取是分词、去停止词,消噪之后,试验表明,通常选取10个特征关键词可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大。

典型的指纹计算方法如MD5算法,这类指纹算法的特点是,输入有任何细微的变化,都会导致计算出的指纹有很大的差距。

了解了搜索引擎的去重算法,SEO人员就应该知道简单地增加“的”、“地”、“得”、调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这种的操作无法改变文章的特征关键词,而且搜索引擎的去重算法很有可能不止于页面的级别,而是进行到段落级别,混合不同文章,交叉调换段落顺序也不能使转载变成原创。

一起设计吧
上一篇: 中文分词
BACK