分页: 4/7 第一页 上页 1 2 3 4 5 6 7 下页 最后页 [ 显示模式: 摘要 | 列表 ]
下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。

说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?

1】 网络爬虫高度可配置性。
2】 网络爬虫可以解析抓到的网页里的链接
3】 网络爬虫有简单的存储配置
4】 网络爬虫拥有智能的根据网页更新分析功能
5】 网络爬虫的效率相当的高

那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?
以下内容转自Google黑板报 Google 研究员 吴军
关于搜索引擎作弊问题,黑色梦中谈一下自己的看法:

自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。
Tags: , , , ,
《商业周刊》的一篇“How Yahoo! Gave Itself A Face-Lift”(雅虎是如何对它进行“面部整容”的,Justin Hibbard撰写)非常有意思。文中介绍了雅虎公司对yahoo.com首页的改版方案,决定新首页布局的是一个名叫SDS(Strategic Data Solutions,战略数据解决方案)部门的统计数据。

SDS部门的前身是一家数据挖掘咨询机构,雅虎在2004年将其收购。该部门专门负责研究用户的访问、点击行为,并从海量的统计中摸准用户的真实心理。根据这篇文章披露的资料,到目前为止,雅虎的用户行为统计数据量足以填满1000个美国国会图书馆。

SDS的研究成果对雅虎的页面设计提供了非常直接的建议,比如:
FREE Top Paying Google Adsense Keywords List

Here is a list of free best paying keywords for google adsense. Rates given here is the average for top three postion, updated 5 th June, 2006. The data provided here is just for the information only. We do not encourage or support any kind of spamming including MFA(Made for Adsense) sites. We also want to make it clear that the actual earning could be much lower than listed here, depending on the site, location of the visitor and a number of other factors. Google adsense, Yahoo YPN or any other PPC programs are not money making machines. Creating a successfull website needs a lot of hardwork and dedication, selecting the top paying keywords is not really a criteria. In fact, all the MFA sites earn practically nothing, it is the quality of the content that matters in long term. Another interesting fact is that, there is high paying keywords( say above 10$ per click) in almost every niche. It is always better to select a topic of your interest rather than selecting a high paying niche. Our personal experince proves that the keywords showing 10$-15$ ultimately earns only 2$-3$ for the publisher. Google has a keyword bidding mechanism, so that the first ad pays only one cent more than the competitor.
This Page Rank Update/Export List History contains the dates that Google Toolbar Pagerank (PR) was exported. As of November 20th, there has not been a Toolbar PR export for 53 day(s). The longest time between toolbar PR exports recorded in the below Page Rank Export List was 122 days (Oct 19/2005 to Feb 18/2006).
*Note: Toolbar Pagerank update, Google Directory Pagerank update, and Backlink updates as of Sept 04/2005 will be referred to as Toolbar Pagerank Export, Google Directory Pagerank Export, and Backlink Export on this page.
This better reflects what is happening when there is a visible change in these three items. There is only an export not an update. The word update will be reserved for Algorithm Updates which will cause a change in the search engine rankings.
The Toolbar Pagerank, Google Directory Pagerank, and Backlink exports don't cause a change in search engine rankings. Any ranking changes during the export of the values of these three items is due to on going everflux changes - unless there is an algorithm update happening at the same time.
Read Matt Cutt's blog on
What's An Update
and his
More info on PageRank.
Tags: , ,
1.AdSense 收入 = 广告展示次数 x 点击率 x 点击单价 x 智能定价因素(Smart Price)

2.广告展示次数基于你的网站流量,该项代表Adsense广告展示次数。(译注:废话-。-!)

3.点击率为广告被点击次数÷广告展示次数,基本范围为0.1%-30%,大多数为1%-10%(译注:中文广告偏低,大陆地区平均点击率约0.2%)。

4.点击单击为每次点击的收入,一般根据广告商付出的点击单价决定。

5.智能定价机制为Google衡量你的网站刊登广告价值的系统,如果你的网站上用户点击广告后转化为购买用户的比例较低,您只能获得较低的收入。
Tags: , ,
   前天,我写了一篇文章“404错误的处理方式及对SEO的影响”,介绍了对404错误的理解、一些常用的HTTP状态码、404对SEO的影响、自定义404错误页面的原则以及在不同的服务器环境下的处理方式。自定义404错误页面的合理设计体现着一个网站是否具备人性化,也是提高用户体验的一种方式。同时,在自定义404错误页面的技术实现上,充分考虑到适用于搜索引擎,尽量不要增加额外的负担,这是提供网站搜索引擎友好性的一种体现。

   先来介绍下黑色梦中处理自定义404错误页面的方式,再探求下目前主流搜索引擎在这方面的一个表现。
Tags: , , , ,
  首席技术官对刘建国的报道:这位与李彦宏一起创立百度的“技术新官僚”,对搜索引擎技术运用的思考,在一定程度上体现了这个新上市公司的商业方向及这个团队的技术想象力。

  采访中,刘建国不断接到要求解封的“作弊网站”的电话,大多是熟人才会直接将电话打到他这里,或是打给李彦宏。采访由此而展开。
Tags: , ,
在搜索引擎战略大会的第二天上午,Google公司总部负责研发的李文飚(音)先生作了一场关于Google Sitemap的专题讲座。

他在演讲中称在互联网的今天,一个网站的成功与否很大程序取决于他是不是跟搜索引擎有一个很好的配合,所谓的网站可搜索性,其实有两个方面,一个方面就说他的相关性或者搜索结果的排序,另外一方面也是很重要,就是你的网页的覆盖率,Google专门设计一个产品Google Sitemap是专门来帮助提高网页的覆盖率,然后他并详细讲述了Google Sitemap的功能使用。以下是他的精彩发言的全文实录。
Tags: ,
  黑色梦中曾经在"搜索引擎蜘蛛及Robots详解"文章中讲解了几大主流搜索引擎的蜘蛛、Robots.txt文件以及RobotMeta标签的使用。我们知道:robots.txt 是一个标准文本文件档,意在阻止搜索引擎的Spider(或robots)从 Web 服务器下载某些或全部信息,控制Spider的搜索范围。引导搜索引擎只爬行网站重要的信息是非常必要的,而跳过隐私内容或者特殊程序,这样可以节省大量的带宽。

  不过,在标准的robots.txt语法中,只可在 User-agent 项中使用通配符,即使用“*”来代表所有搜索引擎的robots,而在 Disallow 项中,则不能使用通配符以灵活配置robots.txt。
Tags: , , ,
我在Google中搜索"SEO博客"时,我的这个SEO博客排在第9位,Google提供的缓存网页URL是:http://72.14.235.104/search?q=cache:svO7mXYAdI0J:www.bloghuman.com/+SEO%E5%8D%9A%E5%AE%A2&hl=zh-CN&gl=cn&ct=clnk&cd=9

点击发现打不开,从URL中可以看出,Goolge的缓存服务器IP地址是:72.14.235.104 。这个IP地址却发现可以PING通,但URL不可以访问,以前普遍认为是关键字过滤导致的(据说在搜索引擎里搜索"search?q=cache"时无法找到网页)。我试图按照更换参数位置以及使用其他URL渠道访问,但都没有成功。

对于我们这些从事SEO研究、对Goolge一往情深的人来说,缓存网页是我们需要时常关注的。有什么办法可以看到缓存网页?
Google在周一收盘后宣布已16.5亿美元的股票收购视频网站YouTube,这一收购价格创下了Google自创办以来的最高收购价格记录。

由于市场之前就对此消息有预期,Google的股价在周一被推高了8.50美元,涨幅达到2%,股价达到了429美元,这一价位是自去年4月以来的最高价。Google收盘后宣布这一消息后,在盘后交易中,Google的股价出现了小幅下跌,至当地时间下午5:00时为427.63美元。

自从上周五传出Google即将收购YouTube的消息后,当天Google的股价就上涨了2%,加上今天的交易,连续2个交易日的上涨,已让Google的市值增加了近40亿美元,而这比Google这次收购付出的代价的2倍还要多。
Tags: , ,
今天到Google Sitemap发现Google推出了两项新功能,分别是:抓取速度增强性图片搜索。光听名字就足够让我感到兴奋。

抓取速度可以理解为Google网页爬虫GoogleBot爬行网页的频度。通常,如果网页爬虫GoogleBot对某个网站感兴趣(或者说网站对搜索引擎友好)便会经常性的爬行该站点,好处不言而预,将会极大的促进新网页的收录及网页内容更新效率

增强型图片搜索立刻让我想起了我们经常谈到的图片优化ALT TAG图片与相关介绍文字的结合处理

这两项新功能能为网站带来什么好处?Google希望网站站长做什么呢?新功能对SEO将会产生什么影响呢?
一,Google简介

Google(www.google.com)是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,Google已经获得30多项业界大奖。

二,Google特色

Google支持多达132种语言,包括简体中文和繁体中文;

Google网站只提供搜索引擎功能,没有花里胡哨的累赘;

Google速度极快,据说有8000多台服务器,200多条T3级宽带;

Google的专利网页级别技术PageRank能够提供高命中率的搜索结果;

Google的搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介;

Google智能化的“手气不错”功能,提供可能最符合要求的网站;

Google的“网页快照”功能,能从GOOGLE服务器里直接取出缓存的网页。



三,基本搜索:+,-,OR

GOOGLE无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。

示例:搜索所有包含关键词“易筋经”和“吸星**”的中文网页

搜索:“易筋经 吸星**”

结果:已搜索有关易筋经 吸星**的中文(简体)网页。共约有726项查询结果,这是第1-10项。搜索用时0.13秒。

注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。

GOOGLE用减号“-”表示逻辑“非”操作。

示例:搜索所有包含“易筋经”而不含“吸星**”的中文网页

搜索:“易筋经 -吸星**”

结果:已搜索有关易筋经 -吸星**的中文(简体)网页。共约有5,440项查询结果,这是第1-10项。搜索用时0.13秒。

注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“易筋经 - 吸星**”,搜索引擎将视为逻辑“与”操作,中间的“-”被忽略。

GOOGLE用大写的“OR”表示逻辑“或”操作。但是,关键字为中文的或查询似乎还有BUG,无法得到正确的查询结果。

示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。

搜索:“britney OR beatles”

结果:已搜索有关britney OR beatles的中文(简体)网页。共约有14,600项查询结果,这是第1-10项。搜索用时0.08秒。

搜索:“布兰妮 OR 披头士”

结果:找不到和您的查询-布兰妮 OR 披头士-相符的网页。

注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。

“+”和“-”的作用有的时候是相同的,都是为了缩小搜索结果的范围,提高查询结果命中率。

例:查阅天龙八部具体是哪八部。

分析:如果光用“天龙八部”做关键字,搜索结果有26,500项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。可以用两个方法减少无关结果。

1,如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字,搜索结果就只有995项,可以直接找到全部八部,“天龙八部 阿修罗”。

2,如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录,查询结果为1,010项,可以迅速找到需要的资料,“天龙八部 佛教 -金庸”。

四,辅助搜索:通配符、大小写、句子、忽略字符以及强制搜索

GOOGLE不支持通配符,如“*”、“?”等,只能做精确查询,关键字后面的“*”或者“?”会被忽略掉。

GOOGLE对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。

GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。

示例:搜索包含“long, long ago”字串的页面。

搜索:“"long, long ago"”

结果:已向英特网搜索"long, long ago". 共约有28,300项查询结果,这是第1-10项。搜索用时0.28秒。

注意:和搜索英文关键字串不同的是,GOOGLE对中文字串的处理并不十分完善。比如,搜索“"啊,我的太阳"”,我们希望结果中含有这个句子,事实并非如此。查询的很多结果,“啊”、“我的”、“太阳”等词语是完全分开的,但又不是“啊 我的 太阳”这样的与查询。显然,GOOGLE对中文的支持尚有欠缺之处。

GOOGLE对一些网路上出现频率极高的词(主要是英文单词),如“i”、“com”,以及一些符号如“*”、“.”等,作忽略处理,如果用户必须要求关键字中包含这些常用词,就要用强制语法“+”。

示例:搜索包含“Who am I ?”的网页。如果用“"who am i ?"”,“Who”、“I”、“?”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜索。

搜索:“"+who +am +i"”

结果:已向英特网搜索"+who +am +i". 共约有362,000项查询结果,这是第1-10项。搜索用时0.30秒。

注意:英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行

五,高级搜索:site,link,inurl,allinurl,intitle,allintitle

“site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。

示例:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。

搜索:“金庸 site:edu.cn”

结果:已搜索有关金庸 site:edu.cn的中文(简体)网页。共约有2,680项查询结果,这是第1-10项 。搜索用时0.31秒。

示例:搜索包含“金庸”和“古龙”的中文新浪网站页面,

搜索:“金庸 古龙 siteina.com.cn”

结果:已在sina.com.cn搜索有关金庸 古龙的中文(简体)网页。共约有869项查询结果,这是第1-10项。搜索用时0.34秒。

注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。

“link”语法返回所有链接到某个URL地址的网页。

示例:搜索所有含指向华军软件园“www.newhua.com”链接的网页。

搜索:“link:www.newhua.com”

结果:搜索有链接到www.newhua.com的网页。共约有695项查询结果,这是第1-10项。搜索用时0.23秒。

注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE忽略。

inurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。

示例:查找MIDI曲“沧海一声笑”。

搜索:“inurl:midi 沧海一声笑”

结果:已搜索有关inurl:midi 沧海一声笑的中文(简体)网页。共约有14项查询结果,这是第1-10项。搜索用时0.01秒。

示例:查找微软网站上关于windows2000的安全课题资料。

搜索:“inurlecurity windows2000 site:microsoft.com”

结果:已在microsoft.com内搜索有关 inurlecurity windows2000的网页。共约有198项查询结果,这是第1-10项。搜索用时0.37秒。

注意:“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜索。GOOGLE对“cgi-bin/phf”中的“/”当成空格处理。

allinurl语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页的链接字符串。

示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。

语法:“allinurl:"cgi-bin" phf +com”

搜索:已向英特网搜索allinurl:"cgi-bin" phf +com. 共约有40项查询结果,这是第1-10项。搜索用时0.06秒。

allintitle和intitle的用法类似于上面的allinurl和inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。

示例:查找日本明星藤原纪香的照片集。

搜索:“intitle:藤原纪香 写真”

结果:已搜索有关intitle:藤原纪香 写真的中文(简体)网页。共约有284项查询结果,这是第1-10项。搜索用时0.03秒。

GOOGLE的罕用高级搜索语法:related,cache,info

related用来搜索结构内容方面相似的网页。例:搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:www.sina.com.cn/index.shtml”。

cache用来搜索GOOGLE服务器上某页面的缓存,这个功能同“网页快照”,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。

info用来显示与某链接相关的一系列搜索,提供cache、link、related和完全包含该链接的网页的功能。

示例:查找和新浪首页相关的一些资讯。

搜索:“infwww.sina.com.cn”

结果:有关www.sina.com.cn的网页信息。

新浪首页

北京站 上海站 广东站. ... 游戏世界, |, 影音娱乐, |, Club缘, |, 男

人女人, |, 论坛聊天, |, 时尚潮流, |, 文教育儿, |, 车行天下, |,

软件下载. ...

Google 提供这个网址的信息:

查看Google网页快照里www.sina.com.cn的存档

寻找和www.sina.com.cn类似的网页

寻找网页有链接到www.sina.com.cn
寻找网页包含有www.sina.com.cn

六,其他重要功能

目录服务

如果不想搜索网页,而是想寻找某些专题网站,可以访问GOOGLE的分类目录“http://directory.google.com/”,中文目录是“http://directory.google.com/Top/World/Chinese_Simplified/”。不过由于GOOGLE的目录由志愿者服务,而GOOGLE在国内名气相对比较小,因此中文目录下收录站点很少。

工具条

为了方便搜索者,GOOGLE提供了工具条,集成于浏览器中,用户无需打开GOOGLE主页就可以在工具条内输入关键字进行搜索。此外,工具条还提供了其他许多功能,如显示页面PageRank等。最方便的一点在于用户可以快捷的在GOOGLE主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。欲安装GOOGLE的工具条,可以访问“http://toolbar.google.com/”,按页面提示可以自动下载并安装。

新闻组(USENET)搜索

新闻组中有大量的有价值信息,DEJA一直是新闻组搜索引擎中的佼佼者。2001年2月份,GOOGLE将DEJA收购并提供了所有DEJA的功能。现在,除了搜索之外,GOOGLE还支持新闻组的WEB方式浏览和张贴功能。

输入“http://groups.google.com/”后,便进入GOOGLE新闻组界面。可惜现在还没有中文界面。因为新闻组中的帖子实在是多,所以我点击“Advaced Groups Search”进入高级搜索界面http://groups.google.com/advanced_group_search。新闻组高级搜索界面提供对关键字、新闻组、主题、作者、帖子序号、语言和发布日期的条件搜索。其中作者项指作者发帖所用的唯一识别号电子信箱。比如要在alt.chinese.text内搜索著名老牌网络写手图雅的帖子,可以用下列指令“group:alt.chinese.text author:tuya@ccmail.uoregon.edu”。不过一般而言,我更推荐使用图形搜索界面,方便而且直观。

搜索结果翻译

曾经为那些你不懂的法文、西班牙文页面烦恼么?现在,GOOGLE支持一项搜索结果翻译功能,可以把非英文的搜索结果翻译成英文!!虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文,但是我不得不承认,这是个伟大的改进。

不过,目前只能在英文状态GOOGLE下实现这个功能。进入GOOGLE的设置页面,http://www.google.com/preferences,有一个“BETA: Enable translation of search results into your interface language. ”的选项,把它选中,就OK了。

搜索结果过滤

网络上的成人内容浩如烟海,而且很多站点具有欺骗或者其他不良企图,浏览者很容易掉入其中的陷阱。为此,GOOGLE新设立了成人内容过滤功能,见GOOGLE的设置页面,http://www.google.com/preferences,最底下有一个选项SafeSearch Filtering。不过,中文状态下的GOOGLE尚没有这个功能。

PDF文档搜索

我对GOOGLE尤其欣赏的一点就是它提供对PDF文档内文的检索。目前GOOGLE检索的PDF文档大约有2500万左右。这真是太美妙了。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。

示例:搜索关于电子商务(ECOMMERCE)的PDF文档。

搜索:“inurldf ecommerce”

结果:已向英特网搜索inurldf ecommerce. 共约有19,200项查询结果,这是第1-10项。搜索用时0.11秒。

下面是某项搜索结果:

[PDF] www.usi.net/pdf/outsoucing-ecommerce.pdf

Outsourcing Electronic Commerce Business Case White Paper By: John P. Sahlin, Product

Marketing Professonial (PMP) Implementation Manager, Web Engineering ...

一般文字档 - 类似网页

可以看到,GOOGLE在PDF档前加上了[PDF]的标记,而且,GOOGLE把PDF文件转换成了文字档,点击“一般文字档”,可以粗略的查看该PDF文档的大致内容。当然,PDF原有的图片以及格式是没有了。

图像文档搜索

GOOGLE提供了Internet上图像文件的搜索功能!!目前该功能尚在B测试阶段,但已经非常好用。访问地址是“images.google.com”。你可以在关键字栏位内输入描述图像内容的关键字,如“britney spears”,也可以输入描述图像质量或者其他属性的关键字,如“high quality”。

GOOGLE给出的搜索结果具有一个直观的缩略图(THUMBNAIL),以及对该缩略图的简单描述,如图像文件名称,以及大小等。点击缩略图,页面分成两祯,上祯是图像之缩略图,以及页面链接,而下祯,则是该图像所处的页面。屏幕右上角有一个“Remove Frame”的按钮,可以把框架页面迅速切换到单祯的结果页面,非常方便。GOOGLE还提供了对成人内容图像的限制功能,可以让搜索者免受不必要的骚扰。

不过,非常遗憾的是,图像搜索功能还不支持中文。

七,搜索技巧杂谈

关键词的选择在搜索中起到决定性的作用,所有搜索技巧中,关键词选择是最基本也是最有效的。

例一:查找《镜花缘》一书中淑士国酒保的酸话原文。

分析:如果按照一般的思路,找某部小说中的具体段落,就需要用搜索引擎先找到这本书,然后再翻到该段落。这样做当然可以,但是效率很低。如果了解目标信息的构成,用一些目标信息所特有的字词,可以非常迅速的查到所需要的资料。也就是说,高效率的搜索关键字不一定就是目标信息的主题。在上面的例子中,酒保谈到酒的浓淡与贵贱的关系时,之乎者也横飞。因此,可以用特定的词语一下子找到目标资料。

搜索:“酒 贵 贱 之”,OK,找到的第一条信息就是镜花缘的这一段落:“先生听者:今以酒醋论之,酒价贱之,醋价贵之。因何贱之?为甚贵之?真所分之,在其味之。酒昧淡之,故而贱之;醋味厚之,所以贵之。...”

以上的关键字选择技巧可以谓之“特定词法”。

例二:“黄花闺女”一词中“黄花”是什么意思。

分析:“黄花闺女”是一个约定的俗语,如果只用“黄花闺女 黄花”做关键词,搜索结果将浩如烟海,没什么价值,因此必须要加更多的关键词,约束搜索结果。选择什么关键词好呢?备选的有“意思”、“含义”、“来历”、“由来”、“典故”、“出典”、“渊源”等,可以猜到的是,类似的资料,应该包含在一些民俗介绍性的文字里,所以用诸如“来历”、“由来”、“出典”等词汇的概率更高一些。

搜索:“黄花闺女 黄花 由来”,查到“黄花”原来出典于《太平御览》,与南朝的寿阳公主相关。如果想获得第一手资料,那就可以用“太平御览 寿阳公主”做搜索了。

以上的关键字选择技巧可以谓之“近义词法”。

例三:刘德华同志的胸围是多少。

分析:首先声明,这是某个MM要我做的搜索,我把它作为搜索案例而已,没其他的意思。非常直接的搜索是,“刘德华 胸围”,但事实上,这么搜索出来的结果,尽是一些诸如“刘德华取笑莫文蔚胸围太小”之类的八卦新闻,无法快速得到所需要的资料。可以想到的是,需要的资料应该包含在刘德华的全面介绍性文字中,除了胸围,应该还包括他的身高,体重,生日等一系列相关信息。OK,这样就可以进一步的增加其他约束性关键词以缩小搜索范围。

搜索:“刘德华 胸围 身高”,没有料到的情况发生了,网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键字,阿泰“改编自刘德华《忘情水》的变态歪歌”、“用身高体重三围和生日来加以编号”。好办,把这部小说去掉,“刘德华 胸围 身高 -阿泰”,OK,结果出来了,华仔胸围84cm。说明一下,为什么用“阿泰”而不用“第一次亲密接触”呢?这是因为小说的名字被转载的时候可能有变动,但里面角色的名字是不会变的。

以上的关键字选择技巧可以谓之“相关词法”。

其他常用搜索个案

例一:找人

分析:一个人在网上揭示的资料通常有:姓名,网名,性别,年龄,毕业学校,工作单位,外号,住址,电话,信箱,BP,手机号码,ICQ号,OICQ号等等。所以,如果你要了解一下你多年没见过的同学,那不妨用上述信息做关键字进行查询,也许会有大的收获。

例二:找软件

分析一:最简单的搜索当然就是直接以软件名称以及版本号为关键字查询。但是,仅仅有软件名称和目标网站,显然还不行,因为搜索到的可能是软件的相关新闻。应该再增加一个关键字。考虑到下载页面上常有“点击此处下载”或者“download”的提示语,因此,可以增加“下载”或者“download”为关键字。

搜索:“winzip 8.0 下载”

结果:已搜索有关winzip 8.0 下载的中文(简体)网页。共约有6,670项查询结果,这是第1-10项。搜索用时0.22秒。

分析二:很多网站设有专门的下载目录,而且就命名为“download”,因此,可以用INURL语法直接搜索这些下载目录。

搜索:“winzip 8.0 inurlownload”

结果:已搜索有关winzip 8.0 inurlownload的中文(简体)网页。共约有358项查询结果,这是第1-10项。搜索用时0.44秒。

在互联网上随意的下载软件是不安全的,因为供下载的软件有可能带有病毒或者捆绑了木马,所以,对下载网站作一个限定,是一个稳妥的思路。可以用SITE语法达到这个目的。

共享软件下载完之后,使用的时候,软件总跳出警示框,或者软件的功能受到一定限制。由于中国的网民多是穷棒子,所以应该再找一个注册码。找注册码,除了软件的名称和版本号外,还需要有诸如“serial number”、“sn”、“序列号”等关键字。现在,来搜索一下winzip8.0的注册码。

搜索:“winzip 8.0 sn”

结果:已向英特网搜索winzip 8.0 sn. 共约有777项查询结果,这是第1-10项。搜索用时0.30秒。

例三:找图片

除了GOOGLE提供的专门图片搜索功能,还可以组合使用一些搜索语法,达到图片搜索之目的。

分析一:专门的图片集合,提供图片的网站通常会把图片放在某个专门目录下,如“gallary”、“album”、“photo”、“image”等。这样就可以使用INURL语法迅速找到这类目录。现在,试着找找小甜甜布兰妮的照片集。

搜索:“"britney spears" inurlhoto”

结果:已向英特网搜索"britney spears" inurlhoto. 共约有2,720项查询结果,这是第1-10项。搜索用时0.23秒。

分析二:提供图片集合的网页,在标题栏内通常会注明,这是谁谁的图片集合。于是就可以用INTITLE语法找到这类网页。

搜索:“intitle:"britney spears" picture”

结果:已向英特网搜索intitle:"britney spears" picture. 共约有317项查询结果,这是第1-10项。搜索用时0.40秒。

分析三:明星的FANS通常会申请免费个人主页来存放他们偶像的靓照。于是用SITE语法指定某免费主页提供站点,是个迅速找到图片的好办法。

搜索:“"britney spears" site:geocities.com”

结果:已在geocities.com内搜索有关"britney spears"的网页。共约有5,020项查询结果,这是第1-10项。搜索用时0.47秒。

例四:找MP3

分析一:提供MP3的网站,通常会建立一个叫做MP3的目录,目录底下分门别类的存放各种MP3乐曲。所以,可以用INURL语法迅速找到这类目录。现在用这个办法找找老歌“say you say me”。

搜索:“"say you say me" inurl:mp3”

结果:已向英特网搜索inurl:mp3 "say you say me". 共约有155项查询结果,这是第1-10项。搜索用时0.17秒。

分析二:也可以通过网页标题,找到这类提供MP3的网页。

搜索:“"say you say me" intitle:mp3”

结果:已向英特网搜索"say you say me" intitle:mp3. 共约有178项查询结果,这是第1-10项。搜索用时0.73秒。

当然,如果你知道某个网站的下载速度快,而且乐曲全,就可以用SITE语法先到该网站上看看有没有目标乐曲。

例五:找书

分析一:对我而言,常访问的电子图书馆类网站就那么几个,比如文艺类的“www.shuku.net”。于是可以用SITE语法很简单的找到某本书(如果该网站上有的话)。比如,“旧唐书 sitehuku.net”,就可以马上找到该书。如果没有,通常别的网站上也很难找到。因此,找书的关键,是你了解一大批著名的图书馆网站。

分析二:我上面介绍的第一项关键字选择技巧特定词法,对于迅速找到某书或者文章也是极其有用的,当然,这得建立在你已经读过该书,对书的内容有印象的基础上。比如如果了解堂吉诃德一书战风车的大致内容,就可以用“吉诃德 风车 桑乔”迅速找到该书。

八,GOOGLE搜索FAQ

Q:如何全面的了解google.com?

A:查看网站相关页面“http://www.google.com/about.html”。

Q:如何切换google.com的初始语言界面?

栏右边的“使用偏好”(Preferences),选择“界面语言”(Interface Language)中你期望的语言,点击最下面的“设定使用偏好”(Save Preferences)按钮。需要提醒的是,GOOGLE用cookie记录这个偏好,所以如果你把浏览器的cookie功能关掉,就无法进行设定。

Q:如何设定每页搜索结果显示数量?

A:同上,进入使用偏好,在该页的“查看结果”(Number of Results)选择显示结果数,数目越大,显示结果需要的时间越长,默认是10项。

Q:搜索到的链接无法打开怎么办?

A:链接无法打开的原因很多,比如网站当机,或者ISP过滤等,可以点击GOOGLE的“网页快照”查看在GOOGLE服务器上的网页缓存。

Q:打开搜索结果的链接,可是该页面太大,很难找到一下子找到目的资料怎么办?

A:直接打开“网页快照”,GOOGLE会把关键词用不同颜色标记出来,很容易找到.

下一页为Google高级搜索技巧

Google高级搜索技巧

这里有一些Google搜索引擎的基本搜索技巧以及高级技巧,你可能对其中大 部分已经了解,但是如果你知道了另外的那一部分,它可能会给你将来的搜索过程带来很大的便利。

1. 双引号可以用减号代替,比如搜索["like this"]与搜索[like-this]是一个效果

2. Google不会处理一些特殊的字符,比如[#](几年前还不行,现在可以了,比如搜索[c#]已经可以搜到相应的 结果),但是还有一些字符它不认识,比如搜索[t.]、[t-]与[t^]的结果是一样的

3. Google允许一次搜索最多32个关键词

4. 在单词前加~符号可以搜索同义词,比如你想搜索[house],同时也想找[home],你就可以搜索[~house]

5. 如果想得到Google索引页面的总数,可以搜索[* *]

6. Google可以指定数字范围搜索。搜索[2001..2005]相当于搜索含有2001、2002直到2005的任意一个数的 网页

7. 搜索[define:css]相当于搜索css的定义,这招对想学习知识的人很 有效;也可以用[what is css]搜索;对中文来说,也可以用[什么是css]之类的

8. Google有一定的人工智能,可以识别一些简单的短语如[when was Einstein born?]或[einstein birthday]

9. 通过[link:]语法,可以寻找含有某个链接的网页,比如[link:blog.outer-court.com]将找到包括指向 blog.outer-court.com超级链接的网页(最新的Google Blog Search也支持这个语法),但是Google并不会给出所有的包含此链接的网页,因为它要保证pagerank算法 不被反向工程(呵呵,可以参见那两个Google创始人关于pagerank的论文,可下载)

10. 如果在搜索的关键词的最后输入[why?],就会在结果中出现链接到 Google Answers的链接http://answers.google.com ,在里面可以进行有偿提问

11. 现在出现了一种兴趣活动,叫做Google Hacking,其内容是使用Google搜索一些特定的关键词,以便找到有漏洞的、易被黑客攻击的站点。这个 网站列出了这些关键词:Google Hacking Database( http://johnny.ihackstuff.com/index....ule=prodreviews )

12. 在Google 中输入一组关键词时,默认是“与”搜索,就是搜索包含有所有关键词的网页。如果要“或”搜索,可以使 用大写的[OR]或 [|],使用时要与关键词之间留有空格。比如搜索关键词[Hamlet (pizza | coke)],是让Google搜索页面中或页面链接描述中含有Hamlet,并含有pizza与coke两个关键词中任意一 个的网页。

13. 并非所有的Google服务都支持相同的语法,比如在Google Group中 支持 [insubject:test]之类的主题搜索。可以通过高级搜索来摸索这些关键词的用法:进入高级搜索之后设置 搜索选项,然后观察关键字输入窗口中的关键字的变化

14. 有时候Google懂得一些自然语言,比如搜索关键词[goog], [weather new york, ny], [new york ny]或[war of the worlds],此时Google会在搜索结果前显示出一个被业内称为“onebox”的结果,试试看吧!

15. 并非所有的Google都是相同的,它因国家版本(或是说语言版本)而异。在US版下,搜索 [site:stormfront.org]会有成千上万的结果,而在德语版下,搜索[site:stormfront.org]的结果,嗯 ,自己看吧。Google的确与各国政府有内容审查协议,比如德国版,法国版(网页搜索),中国版Google 新闻

16. 有时候Google会提示你搜索结果很烂,比如你搜索关键词[jew]试试,Google会告诉你它给出的搜索结果 很烂,然后给你一个解释:http://www.google.com/explanation.html

17. 以前,搜索某些关键词如[work at Google] 时会看到Google给自己打的广告。可以去http://www.google.com/jobs/了解Google的工作

18. 对于一些“Googlebombed”(大概意思是指Google搜索的结果出问题了)的关键词,会有一个广告链接 到:http: //googleblog.blogspot.com/2005/09/googlebombing-failure.html (中国大陆需要代理才能访问)。比如搜索[failure],第一条是美国布什总统介绍

19. 虽然现在Google还没有支持自然语言,但这里有一段录像显示了支持自然语言的搜索引擎的使用效 果:http://blog.outer-court.com/videos/googlebrain.wmv

20. 有人说在Google中搜索[president of the internet],其结第一条表明了president of the internet是谁,我也是这么认为的,而且你还可以使用这个logo支持本文作者:http://blog.outer- court.com/files/president.gif

21. Google现在不再有“stop words”(被强制忽略的关键词),比如搜索 [to be or not to be], Google返回的结果中间还列有相关的完整短语搜索结果

22. 在Google 计算器(http://www.google.com/help/features.html#calculator )中有个彩蛋:输入[what is the answer to life, the universe and everything?]时,会返回42。(关键词翻译过来的意思是指“生命、宇宙和一切的答案”,这是一个著名科 幻小说中的情节,详情参见http: //en.wikipedia.org/wiki/The_Answer_to_Life,_the_Universe, _and_Everything)。试试吧,哈哈

23. 你可以在搜索时使用通配符[*],这在搜索诗词时特别有效。比如你 可以搜一下["love you twice as much * oh love * *"] 试试

24. 同样,你的关键词可以全部都是通配符,比如搜索["* * * * * * *"]

25. www.googl.com是在输错网址后的结果,也是个搜索网站,但搜索结果与Google完全不同。而且此网站也 赚Google的钱,因为它使用Google AdSense

26. 如果你想把搜索结果限制在大学的网站之中,可以使用[site:.edu]关键词,比如[c-tutorial site:.edu],这样可以只搜索以edu结尾的网站。你也可以使用Google Scholar来达到这个目的。也可以使用[site:.de]或[site:.it]来搜索某个特定国家的网站。
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。

有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。
Tags: , ,
分页: 4/7 第一页 上页 1 2 3 4 5 6 7 下页 最后页 [ 显示模式: 摘要 | 列表 ]