爬行和抓取

来源：本站发布时间： 2015-09-21 12:12 阅读次数：

搜索引擎用来抓取和访问页面的程序被称作为蜘蛛（spider），也称为机器人（bot）。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后，服务器返回HTML代码。蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并发布爬行。

蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵循协议，不抓取被禁止的网址。

和浏览器一样，搜索引擎蜘蛛也有表明自己身份的代理名称，站长可以在日志文件中看到搜索引擎的特定代理名称，从而辨识搜索引擎蜘蛛。下面列出常见的搜索引擎蜘蛛名称：

Baiduspider+(http:///www.baidu.com/search/spider.html) 百度蜘蛛

下一篇：跟踪链接

BACK