案例

解决因服务器而导致蜘蛛抓取失败的原因

时间:2013-03-02 04:14来源:未知作者:admin 点击: 次

标签：解决因服务器而导致蜘蛛抓取失败的原因蜘蛛(2)解决(48)生(2)抓取(3)败的(7)网站(482)原因(31)导致(7)服务器(15)

服务器是网站生存的基本，不管是什么原因造成的服务器封禁，都直接影响蜘蛛的抓取，影响网站的用户休会，不利于seo工作的开展。我其将以自己的亲自阅历，联合网络上一些友人对这类问题的剖析，总结出造成服务器封禁的三点重要原因：解决办法：正确意识各搜索引擎蜘蛛，而搜索引擎使用的 IP 地址会随时产生变更，为确保可以准确辨认各搜索引擎IP, 解决IE6浏览器不能正确解析CSS文件的问题，您可以使用DNS反查方法来断定抓取起源的IP是否属于正规搜索引擎，避免误封。二、人为操作失误解决方式：抉择有实力的正规空间商

《解决因服务器而导致蜘蛛抓取失败的原因》文章地址：http://www.tfxk.com/wangyesheji/jianzhanjingyan/030234R22013.htm

服务器是网站生存的基本，不管是什么原因造成的服务器封禁，都直接影响蜘蛛的抓取，影响网站的用户休会，不利于seo工作的开展。我其将以自己的亲自阅历，联合网络上一些友人对这类问题的剖析，总结出造成服务器封禁的三点重要原因：

解决办法：正确意识各搜索引擎蜘蛛，而搜索引擎使用的 IP 地址会随时产生变更，为确保可以准确辨认各搜索引擎IP,解决IE6浏览器不能正确解析CSS文件的问题，您可以使用DNS反查方法来断定抓取起源的IP是否属于正规搜索引擎，避免误封。

二、人为操作失误

解决方式：抉择有实力的正规空间商，尽可能保证您的网站稳定。服务器跟空间的稳固性须要必定的技巧实力来保障，一些不实力的空间商，可能无力供给良好的服务，服务的稳定性无奈保障。我们能够很形像的打个比方：假如将“人”比喻为网站内容，那么服务器就是我们的“家”，它为我们挡风避雨，为我们的生存提供了一个精良的环境，而服务器的好坏将影响咱们所能蒙受的危险。我想，谁都不乐意住在没有保险保障的房子里，拿本人的性命开玩笑，同理,解决IE6不支持透明的PNG图片问题，网站也是如斯,解决Firefox下outerHTML不支持问题！如果你当初的服务器不幻想，有必要另选时，请临时让旧服务器可能应用一段时光，并且做301跳转，尽量减少调换服务器带来的一系列丧失。

三、维护性的偶尔封禁

baiduspider-123-125-66-120.crawl.baidu.com.

1、如果网站的拜访量过大，超过自身负荷，服务器会依据本身负荷进行掩护性的偶尔封禁。这种封禁是短暂性的，只有访问量降落到服务器的承受范畴之内，那么服务器就会畸形工作。

2、还有一种情况是spider造成的，搜索引擎为了到达对目的资源较好的检索后果，蜘蛛需要对您的网站保持一定量的抓取。搜索引擎会根据服务器承受才能，网站质量，网站更新等综合因素来进行调剂，树立一个公道的站点抓取压力。然而会有一些例外，在压力把持不好的情况下，服务器会根据自身负荷进行保护性的无意偶尔封禁。

一、服务器不稳定

BaiduMobaider-119-63-195-254.crawl.baidu.jp.

--> [网站建设之]解决因服务器而导致蜘蛛抓取失败的原因

host 119.63.195.254

解决方法：1、如果是访问量造成的压力，那么祝贺你，阐明你的网站已经领有可观的访问人数，我们就应当进级服务器，来满意不段增加的访问量。2、如果是spider造成的，我们可以采取如下方式来减轻spider对服务器发生的压力：A、应用robots文件，屏蔽掉不想被spider抓取的页面。B、采用nofollow标签，屏蔽不想被spider匍匐的链接。C、页面中较长的CSS、JS代码移到外部文件。D、删减过剩代码。应该留神的是，以上两种情形在返回的代码中尽量不要使用404，倡议返回503（其含意是“Service Unavailable”）。这样spider会过段时间再来尝试抓取这个链接，如果那个时间站点闲暇，那它就会被成功抓取了。

例如查Baiduspider：在linux平台下，您可以使用host ip命令反解ip来断定是否来自Baiduspide的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格局命名，非 *.baidu.com 或 *.baidu.jp 即为假冒。

现在的服务器多如牛毛，价钱也各不雷同，品质方面也是相差甚远，站长们往往在取舍的时候都是“只认价不认质”，有的空间商为了节俭资源，成心屏蔽掉spider（蜘蛛）的IP，导致spider抓取失败，网站页面就无法被搜寻引擎收录。

对搜索引擎蜘蛛认识不够，对一些冒充搜索引擎spider的IP无法正确判定，继而误封搜索引擎IP。这样会导致搜索引擎不能成功抓取网站，无法胜利抓取新网页，以及将之前已经成功抓取并收录的页面断定为无效链接，而后搜索引擎将会对这些逝世链接进行肃清，继而网站页面收录减少，终极导致网站在搜索引擎的排名降低。

Tag：失败 ,解决 IE6 下 img 多余 5 个像素的空白; 原因蜘蛛导致服务器解决失败起因 ,视频网站架构经验; 蜘蛛导致服务器解决

最后，盼望站长尽量坚持站点的稳定，对暂时不想被搜索引擎抓取的页面，使用正确的返回码告诉搜索引擎，如果确切不想被搜索引擎抓取或者索引，可以写robots信息告知。

120.66.125.123.in-addr.arpa domain name pointer

$ host 123.125.66.120

254.195.63.119.in-addr.arpa domain name pointer

(责任编辑：网站建设)
解决因服务器而导致蜘蛛抓取失败的原因相关文章

上一篇：解决IE6浏览器不能正确解析CSS文件的问题下一篇：解决图片IMG与容器下边界的空隙问题
回到顶部

星空云主机

产品核心优势

1880元星空网站

VIP客服中心

数据安全中心

6年经验金牌口碑

5000例精品案例

卓越商务型

黄金品牌型

豪华气派型

至尊超强型

自助估价

1880元特惠套餐

研发中心简介

产品下载中心

星空CMS

新产品中心

安全与黑客研究

门户网运营

基础经济型应用网站

高级型企业型网站

高端集团品牌网站

解决因服务器而导致蜘蛛抓取失败的原因