Explore. Dream. Discover.

Samuel Chen's life

Twenty years from now you will be more disappointed by
the things that you didn't do than by the ones you did do.
So throw off the bowlines. Sail away from the safe harbor.
Catch the trade winds in your sails.

Explore. Dream. Discover.
—— Mark Twain

2006年6月13日星期二

找出Google隐藏的秘密

大家经常能看到Samuel比较早的发布Google新的服务,这是为什么呢?

一个原因就是Samuel比较注意Google,时常关注国外网站对Google的报道,以及Google自身的Announcement。

还有一个非常重要的原因就是Google自己泄露了天机。

大家知道,搜索引擎会爬行收录发布的网站,那么要限制搜索引擎的访问,就会在robots.txt文件中加入disallow项。

正是这个robots.txt泄露了Google隐藏的秘密。

在浏览器中打开http://www.google.com/robots.txt(Samuel缩略了中间一部分,用......代替了)
User-agent: *
Allow: /searchhistory/
Disallow: /news?output=xhtml&
Allow: /news?output=xhtml
Disallow: /search
Disallow: /groups
Disallow: /images
......
Disallow: /notebook/search?
Disallow: /music
Disallow: /browsersync
Disallow: /call

大家从最后一行就可以看到google新的服务Google Call,以及倒数第3行的Google Music。

是不是很有趣?

其实,由于robots.txt的作用很大,国外大部分网站都会维护这个文件,因此很多hacker/cracker都把robots.txt作为一个突破口。
关于robots.txt的使用,大家可以去 robotstxt.org 查看。

标签:

0 条评论:

发表评论

指向此帖子的链接:

<< 主页