浏览模式: 标准 | 列表 2012年05月24日的文章

百度蜘蛛对更换空间的反应速度

之前从网上看到的信息说:因为更换空间,导致百度K站。而造成这个的原因是百度蜘蛛(baidu spider)自身的DNS刷新等多种原因,没有像普遍用户能够很快解析到新IP。换言之就是站长对于空间的切换不是无缝的。

更换服务器空间需要谨慎对待,建议参照百度搜索引擎优化指南所建议的步骤进行服务器空间的更换:

  • 开通新的空间,并将网站完整的迁移到新空间,并保持流畅访问
  • 将域名的服务器指向更新为新空间的ip
  • 保证旧空间能持续访问一段时间
  • 关注新空间的访问日志,等Baiduspider的抓取完全迁移到新空间后,停止旧空间的服务。

以上基本上都是理论知识,正冰恰好有个网站需要更换空间,正好做一下测试。

以下约定本次实例操作某网站之前位于A空间,需要更换到B空间:

  • 将某网站23日晚上20点打包传至B空间,保持该网站的A空间可继续访问
  • 当夜21点将网站域名的解析更改至B空间,之后每夜观察当日是否有百度蜘蛛来访
  • 一周后的30日晚上取得A空间与B空间的web访问日志进行对比

对比后如下(本文只对百度蜘蛛进行测试,所以不考虑其他蜘蛛):

  • A空间从23日晚上23时至27日下午14点半一直有百度蜘蛛不断来围观,28日夜观察当日没有任何访问日志(故将A空间的网站移除了),29日有IP为180.76.*.*(百度公司)抓取了2次robots.txt文件(返回给它403错误)。
  • B空间从24日早上6点有来自123.125.67.*的百度蜘蛛抓取了首页,27日开始大量抓取页面,后续正常抓取。

对不同IP段的百度蜘蛛对B空间的“感兴趣内容”小结: 

  • 220.181.108.*( 共抓取了86次):26日晚开始抓取首页与内容页面,隔天抓取一次,后续每天的抓取频率增大。
  • 123.125.71.* (共抓取了156次): 26日晚开始抓取首页与内容页面,隔天抓取一次,后续每天的抓取频率增大。
  • 123.125.67.* (共抓取了4次):24、28、29、30每天抓取一次,要么抓取首页要么就是robots.txt文件,抓取时间在凌晨或者早上。

全文总结:

如果你是技术流,可以结合本文操作实例,继续跟踪一下百度蜘蛛。如果你是实用流,那么直接按照本文提示,保证原空间至少4天时间可持续访问,新空间的正常抓取会在第4天开始。

Tags: 百度蜘蛛, 更换空间