之前咱们已经晓得Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还能够通过JS代码抓取链接。并且在将来,Googlebot还有望直接辨认图片及视频里的文字。为了进一步抓取互联网的内容,Google发布Googlebot已可通过提交表格抓取更多内容。
据Google所述,当前Googlebot正对一小局部高品质网站进行表格提交的实验。当Googlebot发明这些网站上有HTML表格时(即检测到
Matt Cutts也写了个帖子举例解释这么做的利益。有许多网站首页只是以表单方法列出公司下属的各地域分站,不以链接情势列出各分站。这种网站以前是不能被深度收录的,因为Google不提交表单,就发现不了隐蔽在表单后面的URL。
这种表格抓取当前只是一个小范畴的试验,Google表现不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的畸形抓取、排名等造成影响。
这当然给一些网站的收录发明了机遇,是否也会对某些公司网站带来一定的保险危险?网站某部门不想被收录的话,赶快用robots.txt文件禁止吧。
Google固然已经是抓取页面最多的搜索引擎,但仍是不满意,由于有良多网页跟信息是很难被发现和抓取的。这也就是为什么做网站时必定要留神搜索引擎友爱。
同时Google也强调,假如网站的robots.txt文件里制止了对表格进行了暗藏,不盼望表格提交后所发生的链接被抓取,那Googlebot 是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比方当表格须要输入用户个人信息好比密码、用户名、接洽人等,Googlebot是 会主动略过这些表格的。
当初Google开端供给提交表单(form)发现其后的网页。本想写个具体阐明,恰好看到破灭已经写了,就直接援用重要内容如下。
时),它就会自动从网站上抉择一些词语输入表格的文本框里,而后再取舍不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦 Googlebot以为呈现的新内容是正当并且是有趣及奇特的,它就可能会把内容抓取进Google的搜寻成果索引数据库里。这象征着Googlebot 现在已经理解通过提交表格而取得新内容。