当前位置: 网站建设 > 网页设计 > 建站经验 >

解决因服务器而导致蜘蛛抓取失败的原因

时间:2013-03-02 04:14来源:未知 作者:admin 点击:

标签:解决因服务器而导致蜘蛛抓取失败的原因 蜘蛛(2)解决(48)生(2)抓取(3)败的(7)网站(482)原因(31)导致(7)服务器(15)
服务器是网站生存的基本,不管是什么原因造成的服务器封禁,都直接影响蜘蛛的抓取,影响网站的用户休会,不利于seo工作的开展。我其将以自己的亲自阅历,联合网络上一些友人对这类问题的剖析,总结出造成服务器封禁的三点重要原因: 解决办法:正确意识各搜索引擎蜘蛛,而搜索引擎使用的 IP 地址会随时产生变更,为确保可以准确辨认各搜索引擎IP, 解决IE6浏览器不能正确解析CSS文件的问题 ,您可以使用DNS反查方法来断定抓取起源的IP是否属于正规搜索引擎,避免误封。 二、人为操作失误 解决方式:抉择有实力的正规空间商
解决因服务器而导致蜘蛛抓取失败的原因》文章地址:http://www.tfxk.com/wangyesheji/jianzhanjingyan/030234R22013.htm

服务器是网站生存的基本,不管是什么原因造成的服务器封禁,都直接影响蜘蛛的抓取,影响网站的用户休会,不利于seo工作的开展。我其将以自己的亲自阅历,联合网络上一些友人对这类问题的剖析,总结出造成服务器封禁的三点重要原因:

解决办法:正确意识各搜索引擎蜘蛛,而搜索引擎使用的 IP 地址会随时产生变更,为确保可以准确辨认各搜索引擎IP,解决IE6浏览器不能正确解析CSS文件的问题,您可以使用DNS反查方法来断定抓取起源的IP是否属于正规搜索引擎,避免误封。

二、人为操作失误

解决方式:抉择有实力的正规空间商,尽可能保证您的网站稳定。服务器跟空间的稳固性须要必定的技巧实力来保障,一些不实力的空间商,可能无力供给良好的服务,服务的稳定性无奈保障。我们能够很形像的打个比方:假如将“人”比喻为网站内容,那么服务器就是我们的“家”,它为我们挡风避雨,为我们的生存提供了一个精良的环境,而服务器的好坏将影响咱们所能蒙受的危险。我想,谁都不乐意住在没有保险保障的房子里,拿本人的性命开玩笑,同理,解决IE6不支持透明的PNG图片问题,网站也是如斯,解决Firefox下outerHTML不支持问题!如果你当初的服务器不幻想,有必要另选时,请临时让旧服务器可能应用一段时光,并且做301跳转,尽量减少调换服务器带来的一系列丧失。

 

三、维护性的偶尔封禁

baiduspider-123-125-66-120.crawl.baidu.com.

1、如果网站的拜访量过大,超过自身负荷,服务器会依据本身负荷进行掩护性的偶尔封禁。这种封禁是短暂性的,只有访问量降落到服务器的承受范畴之内,那么服务器就会畸形工作。

2、还有一种情况是spider造成的,搜索引擎为了到达对目的资源较好的检索后果,蜘蛛需要对您的网站保持一定量的抓取。搜索引擎会根据服务器承受才能,网站质量,网站更新等综合因素来进行调剂, 树立一个公道的站点抓取压力。然而会有一些例外,在压力把持不好的情况下,服务器会根据自身负荷进行保护性的无意偶尔封禁。

一、服务器不稳定

BaiduMobaider-119-63-195-254.crawl.baidu.jp.

--> [网站建设之]解决因服务器而导致蜘蛛抓取失败的原因

host 119.63.195.254

解决方法:1、如果是访问量造成的压力,那么祝贺你,阐明你的网站已经领有可观的访问人数,我们就应当进级服务器,来满意不段增加的访问量。2、如果是spider造成的,我们可以采取如下方式来减轻spider对服务器发生的压力:A、应用robots文件,屏蔽掉不想被spider抓取的页面。B、采用nofollow标签,屏蔽不想被spider匍匐的链接。C、页面中较长的CSS、JS代码移到外部文件。D、删减过剩代码。应该留神的是,以上两种情形在返回的代码中尽量不要使用404,倡议返回503(其含意是“Service Unavailable”)。这样spider会过段时间再来尝试抓取这个链接,如果那个时间站点闲暇,那它就会被成功抓取了。

例如查Baiduspider:在linux平台下,您可以使用host ip命令反解ip来断定是否来自Baiduspide的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格局命名,非 *.baidu.com 或 *.baidu.jp 即为假冒。

现在的服务器多如牛毛,价钱也各不雷同,品质方面也是相差甚远,站长们往往在取舍的时候都是“只认价不认质”, 有的空间商为了节俭资源,成心屏蔽掉spider(蜘蛛)的IP,导致spider抓取失败,网站页面就无法被搜寻引擎收录。

对搜索引擎蜘蛛认识不够,对一些冒充搜索引擎spider的IP无法正确判定,继而误封搜索引擎IP。这样会导致搜索引擎不能成功抓取网站,无法胜利抓取新网页,以及将之前已经成功抓取并收录的页面断定为无效链接,而后搜索引擎将会对这些逝世链接进行肃清,继而网站页面收录减少,终极导致网站在搜索引擎的排名降低。

Tag:失败  ,解决 IE6 下 img 多余 5 个像素的空白; 原因   蜘蛛   导致   服务器   解决     失败   起因  ,视频网站架构经验; 蜘蛛   导致   服务器   解决    

最后,盼望站长尽量坚持站点的稳定,对暂时不想被搜索引擎抓取的页面,使用正确的返回码告诉搜索引擎,如果确切不想被搜索引擎抓取或者索引,可以写robots信息告知。

120.66.125.123.in-addr.arpa domain name pointer

$ host 123.125.66.120

254.195.63.119.in-addr.arpa domain name pointer


(责任编辑:网站建设)
解决因服务器而导致蜘蛛抓取失败的原因相关文章
上一篇:解决IE6浏览器不能正确解析CSS文件的问题 下一篇:解决图片IMG与容器下边界的空隙问题
回到顶部