首页>>新闻中心>>建设知识

爬行和抓取

来源: 本站    发布时间: 2015-09-21 12:12    阅读次数:

搜索引擎用来抓取和访问页面的程序被称作为蜘蛛(spider),也称为机器人(bot)。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码。蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发布爬行。

蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵循协议,不抓取被禁止的网址。

和浏览器一样,搜索引擎蜘蛛也有表明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。下面列出常见的搜索引擎蜘蛛名称:

Baiduspider+(http:///www.baidu.com/search/spider.html) 百度蜘蛛

一起设计吧
下一篇: 跟踪链接
BACK