搜索引擎访问网站返回码最全解答。

当搜索引擎蜘蛛抓取网站的时候,每一次都会有一个返回码,表示本条内容抓取的状态,我们可以通过网站日志中查看这些返回码信息,来提升青岛网站建设的优化效果。

你把IIS日志从空间下到自己电脑,然后用文本工具打开;

2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

分析下 200 0 0组成部分 sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)

sc-status(协议状态): 200 连接成功

sc-substatus(协议子状态) :0 成功

sc-win32-status(Win32状态码):0 代表抓取成功并带回数据库 ; 64 指定的网络名不再可用

1: 在这个访问记录里面121.187.5.143是你服务器的IP地址,220.181.7.74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 为蜘蛛访问你的页面 80是端口 GET是打开方式 W3SVC1是记录的文件夹,这里说明,bd蜘蛛已经访问了你的category-8-b0-min1100-max2200.html 这个页面,那么最重要的是最后面的这个参数200 0 0。

2、200 0 0 成功访问该页面,0代表抓取成功并带回数据库。这个时候你就放心了,这个页面已经被bd收录,但是还没有释放出来,bd更新时就可能释放出来。

3:200 0 64 网络上流传着这么三种解释

第164为K站的前兆。

第264的出现只是64位操作系统。

第三:网络不可达,由于某种原因无法完全打开页面,或者网络不稳定这些原因,导致蜘蛛无法带回页面或者说不抓取该页面,

所以200 0 64的解释也应该为:访问了该页面,但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。

或者说是蜘蛛访问了但快照不更新

4:304 0 0这个返回码代表蜘蛛访问的页面没有更新,和他之前来的时候是一样的,所以看到这个不要担心,蜘蛛来过,只不过你没有更新,所以他也不愿意带走这个页面。

5:404 0 0这个是代表404页面,但是有个很严重的问题,这个返回码告诉我们,蜘蛛来到了404页面并把他带走了

,要是这样的话基本上你要倒霉了,要你有太多的404,那么蜘蛛就会不断是抓取,不断的带走,这样会造成无数的重复页面,最终导致K站或者降权,

正确的返回码是404 0 64 这就代表蜘蛛没有抓取你这个页面。 (好像是内容有死链的意思)

6:500错误500错误是服务器内部错误,是由程序的错误造成的,我不懂程序,但是500错误是会给你减分的,这点基本的逻辑都可以想的到,要发现500错误,马上查看是哪个页面的,然后去修正以下错误吧!

7:302要在日志中发现302的返回码也是需要注意的,302为临时重定向,要你是长期的将这个页面重定向到另一个页面,麻烦你使用301永久重定向,要是302的话bd蜘蛛下次来还会访问这个页面,这样又会造成复制大量页面的问题,结果肯定是K,所以,抽空检查以下。

每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。

返回码大全:

2xx 成功

200 正常;请求已完成。

201 正常;紧接 POST 命令。

202 正常;已接受用于处理,但处理尚未完成。

203 正常;部分信息 — 返回的信息只是一部分。

204 正常;无响应 — 已接收请求,但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题,或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源;文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况,服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。

根据不同的IP我们可以分析网站是个怎样的状态.下面就按照我IIS日记上的百度蜘蛛IP为例:

123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。

220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。

121.14.89.*这个ip段作为度过新站考察期。

203.208.60.*这个ip段出现在新站及站点有不正常现象后。

210.72.225.*这个ip段不间断巡逻各站。

125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。

220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。

220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不

放出来.(意思也就是说待定)。

220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!

一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,

所以返回就是这个代码。

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/110210.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
优化家优化家订阅用户
上一篇 2022年10月17日 00:01
下一篇 2022年10月17日

相关推荐

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息