利用网站robots.txt文件探索Google、Baidu隐藏的秘密 晴

郝聪 , 2006/10/13 10:28 , 搜索引擎研究 , 评论(1) , 阅读(15730) , Via 本站原创 | |


更多



搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。

有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。



有兴趣的读者可以看一下Google的robots.txt文件,注意到前几行就有“Disallow: /search”,而结尾新加上了“Disallow: /base/s2”。

现在来做个测试,按照规则它所隐藏的地址是http://www.Google.com/base/s2,打开之后发现Google给出了一个错误提示:“服务器遇到一个暂时性问题不能响应您的请求,请30秒后再试。”


点击在新窗口中浏览此图片


但是把s2最后的数字换成1、3或者别的什么数字的时候,错误提示又是另一个样子:“我们不知道您为什么要访问一个不存在的页面。”

点击在新窗口中浏览此图片

很显然“/base/s2”是一个特殊的页面,鉴于Google曾表示过今年的主要焦点是搜索引擎,我们推测一下,所谓的“s2”是否表示“search2”,也就是传说中的第二代搜索引擎。

出于好奇,尝试了一下百度的robots.txt,比密密麻麻的Google简洁了许多,只有短短几行:


User-agent: Baiduspider

Disallow: /baidu

User-agent: *

Disallow: /shifen/dqzd.html

第一段就不用说了,第二段也遇到了同样打不开的错误,不过,按以前的资料来看,这是百度曾经的竞价排名的区域核心代理一览表以及地区总代理一览表,出于某些可以理解的原因做了模糊处理。


点击在新窗口中浏览此图片
相关日志
Dedecms编辑器CKeditor更换为百度UEditor的方法
谷歌穿越搜索-谷歌官方愚人节玩笑
Google将在搜索结果排名算法中考虑来自Twitter、Quora等社会化网络社区的内容
从12月百度算法变化预测2011年SEO方向
百度上线图片竞价排名 图片显示推广字样(图)
桥页SEO:网站自我毁灭工具
《Google官方SEO入门指南》十四: 对网站管理员有用的资源(完)
《Google官方SEO入门指南》十三:充分利用网站分析工具
《Google官方SEO入门指南》十二:充分利用免费的网站管理员工具
《Google官方SEO入门指南》十一:以恰当的方式推广你的网站

最后编辑: 郝聪 编辑于2008/02/19 16:25
s7xigucom02 Email
2011/10/08 02:59
七夕谷情趣用品
文章内容很充实 学习了 支持你
分页: 1/1 第一页 1 最后页
发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]