首页>>新闻中心>>建设知识

地址库

来源: 本站    发布时间: 2015-09-21 14:02    阅读次数:

为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的叶敏,以及已经抓取的页面。

地址库中的URL有几个被抓取的页面。

(1)人工录入的种子网站。

(2)蜘蛛抓取页面后,从HTML中解析出新的链接URL,也地址中的数据进行对比,如果是地址中的没有的网址,就存入待访问地址库。

(3)站长通过搜索引擎页面表格提交进来的网址。

蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。

大部分主流搜索引擎都提供一个表格,让站长提交网址,不过这些提交来的网址都只是存入地址库而已,是否收录还要页面重要性如何,搜索引擎所收录的绝大部分页面时蜘蛛自己跟跟踪链接得到的,可以说提交页面基本上是毫无用处的,搜索引擎更喜欢自己沿着链接法相新页面

一起设计吧
上一篇: 吸引蜘蛛
下一篇: 中文分词
BACK