更多



Yahoo支持在网站robots.txt文件内使用通配符 晴

郝聪 , 2006/11/04 01:52 , 搜索引擎研究 , 评论(0) , 阅读(11039) , Via 本站原创 | |

  黑色梦中曾经在"搜索引擎蜘蛛及Robots详解"文章中讲解了几大主流搜索引擎的蜘蛛、Robots.txt文件以及RobotMeta标签的使用。我们知道:robots.txt 是一个标准文本文件档,意在阻止搜索引擎的Spider(或robots)从 Web 服务器下载某些或全部信息,控制Spider的搜索范围。引导搜索引擎只爬行网站重要的信息是非常必要的,而跳过隐私内容或者特殊程序,这样可以节省大量的带宽。

  不过,在标准的robots.txt语法中,只可在 User-agent 项中使用通配符,即使用“*”来代表所有搜索引擎的robots,而在 Disallow 项中,则不能使用通配符以灵活配置robots.txt。


  Google率先提供了对在robots.txt中使用通配符的扩展支持——至于是不是唯一一个支持通配符语法的搜索引擎则不敢确定——,在Disallow 项中可使用“*”与“$”,其中,”*”匹配任意字符串,而”$”则标志Disallow项目中任意名称的结尾。如下面的例子中,将禁止Googlebot索引收录gif文件:


User-agent:Googlebot
Disallow:/*.gif$


  近日,Yahoo Search Blog 宣布 Yahoo Slurp也提供了在 robots.txt 中使用通配符的支持,其语法与Google大同小异,同样提供了两个通配符: “*” 与“&”,其中,“*”匹配url中的任意字符串,而“&”则类似于Google的“$”,告诉Yahoo Slurp已到达匹配字符串的结尾。——不知道Yahoo在此使用不同的字符标志结尾是否刻意为之。不过,总的说来,Yahoo最近逐渐呈现出切实满足用户的趋势,包括前不久提供对“NOODP”属性的支持,这是一个好趋势。

  不过,在标准的robots.txt语法中,只可在 User-agent 项中使用通配符,即使用“*”来代表所有搜索引擎的robots,而在 Disallow 项中,则不能使用通配符以灵活配置robots.txt。

  Google率先提供了对在robots.txt中使用通配符的扩展支持——至于是不是唯一一个支持通配符语法的搜索引擎则不敢确定——,在Disallow 项中可使用“*”与“$”,其中,”*”匹配任意字符串,而”$”则标志Disallow项目中任意名称的结尾。如下面的例子中,将禁止Googlebot索引收录gif文件:


User-agent:Googlebot
Disallow:/*.gif$


  近日,Yahoo Search Blog 宣布 Yahoo Slurp也提供了在 robots.txt 中使用通配符的支持,其语法与Google大同小异,同样提供了两个通配符: “*” 与“&”,其中,“*”匹配url中的任意字符串,而“&”则类似于Google的“$”,告诉Yahoo Slurp已到达匹配字符串的结尾。——不知道Yahoo在此使用不同的字符标志结尾是否刻意为之。不过,总的说来,Yahoo最近逐渐呈现出切实满足用户的趋势,包括前不久提供对“NOODP”属性的支持,这是一个好趋势。

引用
作者: 郝聪
原载: 黑色梦中SEO博客
版权所有,转载时请注明作者并以链接形式标注原始出处!



最后编辑: 郝聪 编辑于2008/02/19 16:19
Tags: , , ,
发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]