分析:网站不收录,Baiduspider每次抓取耗时长

2018年11月20日16:59:55 3 44 views
创业项目

近一个星期网站出现百度收录慢、不收录的情况,出现这样的情况当然很头疼,想要找到问题的原因也是很复杂。于是总结了一次排查的过程,虽然不能保证解决问题,至少也有一个分析问题的思路。

分析:网站不收录,Baiduspider每次抓取耗时长

先说一下背景,网站使用的阿里云服务器,配置不是很高,网站打开速度稍慢。在出现百度不收录的这段时间,对网站进行了一些调整,其中包括:提交百度原创保护(没有通过)、添加黑名单、添加部分广告内容导致网站加载时间过长,或者还有其他未知的操作。百度在站长平台说的Baiduspider每次抓取时间越短,说明用户体验度的非常高。

百度搜索资源平台检测抓取频率

因为是出现百度浏览器不收录,所以当然要找百度。进入百度搜索资源平台后台 >> 数据监控 >> 抓取频次,查看抓取时间(也就是Baiduspider每次抓取耗时),以下是截图:

分析:网站不收录,Baiduspider每次抓取耗时长

看到曲线图大概我们都还不知道是啥意思,也不明白这个数值在什么范围内算是合格的。没关系,我们来看下官方说法:

同学问:站点遇到百度蜘蛛抓取,应该在多长时间内给出反馈?时间太长会不会被惩罚?

百度工程师答:1秒是最好,最多4至5秒也可以接受,如果时间再长,恐怕蜘蛛会过段时间再来了。当然如果这种情况经常发生,对你站点的抓取是非常不利的。

原文地址:【官方说法】遇Baiduspider抓取,反馈时间多久合适

 

知道了合格的数值范围就好说了,取10月31日的值进行对比,Baiduspider每次抓取耗时最大为30万ms、最小287ms、评价2203ms,这个抓取速度着实令人着急。

分析:网站不收录,Baiduspider每次抓取耗时长

百度反馈中心查找原因

以下内容来自百度反馈中心原文:网站内容页面收录少、收录慢、不收录怎们办?

如果遇到链接已经提交或网站的访问记录中有百度蜘蛛来访,但页面长期未收录的情况,请详细描述您的问题,提供相关截图,以便工作人员分析处理,同时建议您可以前往百度站长社区的相关问题讨论。

看来也没有什么用,还是得自查原因。

 

以下来自网络上的分析

Baiduspider抓取耗时长一般表现为以下几点:

  1. 快照时常不更新;
  2. 网站收录少;
  3. 网站关键词排名低;

 

而造成这种抓取耗时长的情况,分为以下几种:

  • 网站是新站,这类情况的话,抓取耗时长是正常的,有些新站一个月才被百度收录。
  • 蜘蛛爬过站点,但是没有抓取带走站点数据,页面。这类情况,可以查看网站日志根据蜘蛛反馈的状态码查询原由。
  • 站点充斥了太多富媒体文件,而且网站信息原创度不高,这类会导致蜘蛛对站点失去兴趣,从而不在抓取站点。

 

解决方法及思路

经过了前面粗略的分析和判断,我们还要做进一步的分析。用百度站长工具检测网站是否能够正常抓取,然后用浏览器检测网站加载情况。最简单有效的办法就是查看分析网站网站日志,根据所反馈状态码,作出相应的调整。

如何查看搜索引擎蜘蛛访问记录:WordPress搜索引擎蜘蛛访问日志插件wp-log-robots

 

蜘蛛反馈码一般分为以下几种:

  • 200  (成功)  服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页。
  • 204  (无内容)  服务器成功处理了请求,但没有返回任何内容。
  • 304  (未修改) 自从上次请求后,请求的网页未修改过。 服务器返回此响应时,不会返回网页内容。
  • 400  (错误请求) 服务器不理解请求的语法。
  • 404  (未找到) 服务器找不到请求的网页。

更多HTTP状态码可以参考对照表:《HTTP状态码大全

 

总结:

我们总结了一些可能导致网站不收录Baiduspider每次抓取耗时长的原因,但不保证是绝对原因:

1、新站,抓取耗时长,是正常情况;

2、站长原创度不高,百度蜘蛛不喜欢;

3、网站更新频率不稳定;

4、主关键词,副关键词分布合理。切勿堆砌关键词

5、受到百度新算法的影响和波及(《百度搜索网页标题规范》发布:将改善搜索结果的公平性);

6、网站加载速度变慢(比如服务器压力过大、流量上涨宽度不够用等因素);

7、网站新增了安全机制,误屏蔽了百度蜘蛛的IP地址;

8、网站结构发生变化,返回异常抓取的状态码;

11.24日补充,造成里维斯社近段时间不收录和收录慢的原因终于找到了,经过多方面的测试和调整,最终的问题是投放了AdSense全局广告,造成页面广告面积过大,从而导致百度抓取落地体验差,也就导致了百度放弃收录。最终停掉了全局广告,收录也恢复了正常。

你也可以参考阅读本站另外一篇文章:网站最近一直不收录什么原因?

 

本文不能帮你解决网站不收录,Baiduspider每次抓取耗时长的问题,但是可以提供一些思路来帮助其解决问题。针对自己网站的不同情况,找到问题的原因,然后进行相应的调整。希望出现此类问题的朋友都能够恢复正常的收录,且Baiduspider每次抓取耗时大大降低。

里维斯社
晨会游戏

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:3   其中:访客  2   博主  1

    • avatar 微商货源网 0

      微商货源网没有CDN没有HTTPS貌似百度也不怎么喜欢

      • avatar 姜辰 6

        其实有时候看看,是不是CDN拦截了那个蜘蛛~