当前位置:首页 > SEO资讯 > 页面不收录,有可能是抓取错误在搞鬼

页面不收录,有可能是抓取错误在搞鬼

作者:二营长 发布时间:2016-12-28 点击:

要想有排名,收录是基本,抓取是前提,然而就这样一个明显的问题,却有大量的网站将其忽略掉,直接严重影响到网站的成长效果。

1、robots文件/IP封禁

在百度的robots.txt的更新上,如果多次点击“检测并更新”就会出现时常可以更新,但是又时常无法更新的问题。如此一来:不应当被收录的东西,在robots.txt上禁止的被收录了,又删除就很正常了。那么它的问题是什么呢?并非服务器负载过度,而是因为防火墙错误的将部分Baiduspider列入了黑名单。作为站长最少应该每周都检查更新一下robots.txt。

2、服务器异常

常规的服务器就不说啦,大家都知道的,北上广的一般都不错。不过有一些特殊服务器,想必绝大多数的站长都不知道吧?说是港台服务器,真的是港台的吗?本身机房在国内,还算什么港台?为了逃避备案而用一个港台的IP,数据全部在国内。这样有什么不好呢?我们会发现:站点的服务器是经过CDN的,哪怕是你上传的一张图片,都会显示为“302状态码”,访问速度是提升上去了,可是这样利于SEO吗?呵呵哒。

3、获取不到真实IP

规模较大的网站,一般都会使用CDN加速,但是有些站点不仅仅对“设备”使用了CDN加速,而且还对Spider使用了加速功能。最后的结果是什么呢?如果CDN节点不稳定,那么对网站spider来讲,这个问题将是致命的。

很多大型站点做CDN的原因就是怕被攻击,这个时候如果不做“蜘蛛回源”就可想而知了。你的站点做了CDN了吗?请登录百度站长平台查看一下spider是否可以抓取真实IP地址吧!

4、频繁的50X类错误

这样的链接其中一个共同的特点是:当打开后,全部都是正常的,那么Spider为什么会报错提醒呢?只是因为在爬虫发起抓取的那一刻,httpcode返回了5XX",你的站点是否频繁有这样的问题呢?有的话需要立即安排技术,或者通报IDC服务商做解决。

5、错误的抓取比例

任何网站都做不到100%不出问题,但是万事有一个度:我们认为,这个比例不超过5%,对网站基本上是无影响的,且这样的错误不应当每天都出现。最常见的抓取错误一般都是连接超时:"抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足"。

文章来源:“贺贵江”的公众号,微信qq: 2567173

邮箱:techseo.cn@gmail.com,欢迎交流。
上一篇:年终盘点:互联网暗面项目的大事记      下一篇:网站索引量不稳定是什么原因