<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
<channel>
<title><![CDATA[SEO(搜索引擎优化)技术 - 商业SEO服务 - 郝聪SEO博客]]></title> 
<link>http://www.bloghuman.com/index.php</link> 
<description><![CDATA[搜索引擎优化(SEO)、搜索引擎营销(SEM)、网络营销；商业SEO服务：关键词排名优化、整体网站优化、SEO顾问咨询、企业SEO培训]]></description> 
<language>zh-cn</language> 
<copyright><![CDATA[SEO(搜索引擎优化)技术 - 商业SEO服务 - 郝聪SEO博客]]></copyright>
<item>
<link>http://www.bloghuman.com/baidu-startup-image-cpc-promotion/</link>
<title><![CDATA[百度上线图片竞价排名 图片显示推广字样(图)]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 28 Apr 2010 08:22:16 +0000</pubDate> 
<guid>http://www.bloghuman.com/baidu-startup-image-cpc-promotion/</guid> 
<description>
<![CDATA[ 
	据百度内部人员称，百度确实已在图片搜索竞价排行上展开行动，但对价位等具体问题未予作答。<br /><br /><br /><div id="Cnt-Main-Article-QQ"><p style="text-align: center"><img src="http://img1.gtimg.com/tech/pics/hv1/211/241/504/32834266.jpg" border="0" alt="百度上线图片竞价排名 图片显示推广字样(图)" width="500" height="333" /></p><p style="text-align: center"><span style="font-size: 12px">图为百度CEO<a href="http://datalib.tech.qq.com/people/3/index.shtml" target="_blank" class="a-tips-Article-QQ"><span style="color: #000000">李彦宏</span></a>（腾讯科技配图）</span></p><p style="text-align: center"><img src="http://img1.gtimg.com/tech/pics/hv1/126/157/504/32812761.jpg" border="0" alt="百度上线图片竞价排行 图片显示推广字样(图)" width="500" height="276" /></p><p style="text-align: center"><span style="font-size: 12px">排在前三位的长城图片均带有&ldquo;推广&rdquo;标识</span></p><p style="text-indent: 2em">4月27日，据网友反应，百度已悄然上线图片搜索竞价排名服务。</p><p style="text-indent: 2em">网友称，在百度中搜索带有&ldquo;长城&rdquo;关键字的图片，在搜索结果中，排在前三位的长城图片均带有&ldquo;推广&rdquo;标识，且暗含旅游公司网站的链接，而此前百度图片搜索中只有文字链形式的广告存在。</p><p style="text-indent: 2em">据百度内部人员称，百度确实已在图片搜索竞价排行上展开行动，但对价位等具体问题未予作答。</p><p style="text-indent: 2em">据百度Q4财报显示，百度网络营销收入同比增长39.8%，总体利润同比增长48%。曾有媒体指出，百度的大幅增长部分得益于&ldquo;凤巢&rdquo;体系切换后，关键字价格的上涨。而百度公关部认为关键字上涨是个别行为以及市场竞争因素所致。</p><p style="text-indent: 2em">万瑞数据分析师于明认为，百度正尝试多种方式提升关键词的单价，通过更多的广告形式来弥补凤巢转化率低的问题。</p><p style="text-indent: 2em">另据腾讯微博网友透露，其实早在谷歌撤离中国内地后不久，百度就已经推出图片搜索竞价排名服务。不过一直未有媒体报道。</p></div><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/%25E5%259B%25BE%25E7%2589%2587%25E7%25AB%259E%25E4%25BB%25B7%25E6%258E%2592%25E5%2590%258D/" rel="tag">图片竞价排名</a> , <a href="http://www.bloghuman.com/tags/%25E6%258E%25A8%25E5%25B9%25BF/" rel="tag">推广</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/doorway-page-destroy-your-website/</link>
<title><![CDATA[桥页SEO：网站自我毁灭工具]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 08 Dec 2008 09:15:11 +0000</pubDate> 
<guid>http://www.bloghuman.com/doorway-page-destroy-your-website/</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp;&nbsp;&nbsp; “桥页”，这个名词在<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>圈里已是老生常谈，曾一度成为网站<a href="http://www.rambosem.com/seo.html" target="_blank" title="http://www.rambosem.com/seo.html" class="mykeyword">SEO优化</a>的利器。早在中国兴起搜索引擎应用初期，利用大量关键词堆砌而成的“桥页”技术，被一些网站制作者们时常应用。<br/><br/>　　桥页，通常是大量关键词及链接的集合，桥页的编写目的，是为针对特定词组进行排名，然后将用户链接至实际推广页面，有的甚至只是为了推广某个网站首页，多加了无数个外部链接。<br/><br/>　　如今，博客、SNS、Wiki等Web2.0应用时代，也充斥着大量桥页。网站为追求流量、利用关键词生成软件、关键词词典生成大量堆砌网页，手法包括关键词堆砌、隐藏文字、隐藏链接、隐藏嵌套页面、购买大量外部链接等。然而，在搜索引擎对垃圾网站日益封杀喊打时代，桥页显然违反搜索引擎收录的规定。<br/><br/>　　以百度、Google为代表的搜索引擎，目的是为用户提供最有价值和最相关的搜索结果。桥页的做法，企图操纵搜索引擎并欺骗用户，即将用户定向到与其选择不符且纯粹为利用搜索引擎而提供内容的网站。<br/><br/>　　那百度、Google自然会对采用桥页的欺骗网站采取措施，包括将这些欺骗网站从百度、Google索引中删除。对网站经营者而言，无论是自己的技术人员，还是外聘技术顾问， 都需要注意自己的网站不能使用伪桥页作弊手法。<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E7%25AB%2599%25E4%25BC%2598%25E5%258C%2596/" rel="tag">网站优化</a> , <a href="http://www.bloghuman.com/tags/%25E6%25A1%25A5%25E9%25A1%25B5/" rel="tag">桥页</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/the-future-of-search-engine/</link>
<title><![CDATA[谷歌副总裁梅耶尔演讲：搜索的未来]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 17 Sep 2008 06:26:48 +0000</pubDate> 
<guid>http://www.bloghuman.com/the-future-of-search-engine/</guid> 
<description>
<![CDATA[ 
	自从谷歌创立10周年以来，互联网在人们的生活中产生了巨大的冲击和影响。我们开始思考，下一个10年将会发生什么样的改变？这些变化是如何一步步形成的，我们又该如何去适应这些变化，并且最重要的是它将如何来适应我们？就此问题，谷歌美女副总裁玛丽莎·梅耶尔(Marissa Mayer)在谷歌的官方博客上畅谈了搜索的未来。 <br/><br/>　　以下就是梅耶尔这篇博文的部分精彩内容。 <br/><br/>　　我是一个喜欢探索的人，我对一切都充满了好奇——我一向喜欢探求根源，而且，我在谷歌从事搜索工作已经有9年零三个月的时间了。尽管我有大量疑问希望通过搜索引擎得到答案，但大致估算起来，我每天只能搜索其中20%的问题。 <br/><br/>　　“fab”、“goy”、“eely”这些字母组合到底是不是英文单词？我家附近的J.C. Penney公司周六几点开门营业？ 《热带惊雷》什么时候上映？巨杉和落叶杉谁更古老？《Queen of Hearts》是谁的歌？这样的问题可以一直开列下去。总而言之，我想表达两点意思：1)搜索引擎还可以做更多的事情。2)搜索引擎仍有很大提高的空间，搜索技术本身还可大幅向前发展，这样才能最大程度地满足用户搜索查询的需求。 <br/><br/>　　模式 <br/><br/>　　我的第一个疑问是，为何我想搜索的时候，却无法使用搜索引擎？原因就是目前搜索服务还不具备足够的移动性能，易用性也有待提高。换句话说，今后用户应该可以在手机、汽车及任何手持、可穿戴设备中使用搜索引擎。我们需要一个随时可以使用的搜索引擎。我们在谈及搜索模式时，不仅是说要增强它的移动性，而且还涉及到语音搜索和语义搜索(注：所谓语义搜索，即让搜索引擎理解人类的语言)。 <br/><br/>　　如果我们把眼光再放远一点，或许今后我们在使用搜索引擎时，已经不需要再键入关键词，而是可以直接输入图片等材料。举例来说，如果我们向搜索引擎提交一张鸟儿的图片，搜索引擎就会告诉我们这种鸟儿的名称。如果我们提交一段音乐，搜索引擎就会返回词曲的作者、歌曲的风格、演奏者等相关信息。虽然目前有的搜索引擎已推出类似服务，但易用性和通用性还有待提高。 <br/><br/>　　今后10年内，我们将看到搜索模式出现重大变革：手持设备可提供更便捷的搜索服务，更多的设备将接入互联网，充分发挥互联网的潜力。人们在进行搜索活动时，既可键入关键词，也可使用语音、手势、图片甚至歌曲来提交搜索问题。 <br/><br/>　　媒体 <br/><br/>　　今年5月，谷歌推出了通用搜索服务，即在搜索返回页面中包括图片、视频、新闻、书籍、地图、位置等信息。虽然该功能还有待完善，但毕竟我们已迈出了重要的一步，因为我们的搜索结果已涵盖了富媒体内容。 <br/><br/>　　过去一年中，谷歌一直致力于充分利用这些新型页面结果，并逐步改变用户界面的设计，从而提高用户的搜索体验。今后数月中，谷歌将继续对用户界面进行完善提高。但这种改变仅仅是个开始，今后10年，搜索引擎的界面将发生革命性变化。或许今后搜索结果页面中将包含更多的视频和图片，或许搜索答案的准确性和相关性将进一步提高，在交互性上也会得到不断的改善。虽然我们无法预知未来，但无论怎样，当前的搜索引擎已无法满足网民查询媒体内容的需求。 <br/><br/>　　个性化 <br/><br/>　　今后10年内，全球各大搜索引擎的性能都将大幅提高，而谷歌搜索每天也在进步。我们每天都在致力于提高搜索结果的准确性和相关性，并把最新技术应用到实际服务当中。这种改进不但有利于提高谷歌自身的实力，其他搜索引擎也可从中借鉴有益经验。由此看来，搜索引擎性能肯定会越来越好，但问题是它们究竟会好到什么程度？ <br/><br/><br/>这个问题的答案是：搜索引擎将越来越懂得特定用户的查询需求。当然，对于单独用户而言，你肯定能够控制个人信息，搜索引擎在收集你的上网习惯等信息时，事先会征得你的同意。但按照搜索技术的发展趋势，今后搜索引擎将越来越懂得个人用户的特定需求，并能提供更符合个人需求的搜索答案。或许搜索引擎将来会了解你所在位置，或许了解你此前已进行了哪些搜索活动。甚至，搜索引擎将完全理解你的搜索意图，原因是你已经选择与谷歌共享你的上网习惯等信息。我们的搜索团队正加强个性化搜索引擎方面的研发，我们相信个性化的搜索引擎将会变得越来越重要。 <br/><br/>　　位置 <br/><br/>　　搜索引擎知道用户的位置，是搜索引擎向用户提供个性化服务的重要基础之一。因为搜索引擎了解到你所处的位置以后，就能够向你提供更为准确的搜索结果。举例来说，如果你想知道J.C. Penney百货公司周六究竟几点开门营业，搜索引擎知道你所在的位置后，就可以把离你最近的一家J.C. Penney百货公司的营业时间返回到搜索结果中。 <br/><br/>　　社交 <br/><br/>　　在个性化搜索服务中，重要内容之一就是查找社会关系人员。通过社会交往，我们可借鉴他人的成功经验。在遇到困难时，我们可寻求朋友的帮助。无论我们在学习、体育、健康和饮食等方面遇到了问题，我们都可通过个性化搜索服务来找到答案。举个例子，有一次我用谷歌搜索一个药品，但是拼错了单词，谷歌没有提示我修改拼写错误；后来我给一个医生朋友发了个email，他马上修正了我的拼写错误。今后搜索引擎将提供“好友增强”模式，这样就能找到更为准确的搜索答案。 <br/><br/>　　语种 <br/><br/>　　我们前面谈到了搜索模式、媒体、位置及社交等个性化搜索服务。但我们还得注意一点，这就是不同语种的搜索。在很多情况下，我们都知道互联网存在着我们需求的答案，只是这种答案以另外一种语言写成，而我们又看不懂。此前谷歌已推出了机器翻译服务，目的就是让所有语种网民都能找到自己想要的答案。换句话说，如果用户查询某个问题的答案已经以其他语种的形式发布在互联网上，谷歌将把该答案翻译成该用户能看懂的本地语言。我们这方面的工作正处于起步阶段，今后我们将加强谷歌跨语言搜索服务的实力。 <br/><br/>　　结论 <br/><br/>　　搜索引擎到目前为止只完成了10%，今天的搜索引擎技术就像16或17世纪的生物学和物理学。谷歌仅仅是完成了第一个90%，而这是整个搜索技术中最容易的部分.剩下的部分才是真正的90%，完成这一部分需要花费数十年甚至更长的时间。 <br/><br/>　　那么理想境界的搜索引擎应该是个什么样子？简而言之，完美状态的搜索引擎应充分懂得特定用户的查询需求，然后向用户提供最为准确的答案。我对谷歌过去10年中取得的成就引以自豪，但我更看重谷歌今后10年内的发展<br/>Tags - <a href="http://www.bloghuman.com/tags/%25E8%25B0%25B7%25E6%25AD%258C/" rel="tag">谷歌</a> , <a href="http://www.bloghuman.com/tags/%25E6%25A2%2585%25E8%2580%25B6%25E5%25B0%2594/" rel="tag">梅耶尔</a> , <a href="http://www.bloghuman.com/tags/%25E4%25B8%25AA%25E6%2580%25A7%25E5%258C%2596%25E6%2590%259C%25E7%25B4%25A2/" rel="tag">个性化搜索</a> , <a href="http://www.bloghuman.com/tags/%25E6%2599%25BA%25E8%2583%25BD%25E6%2590%259C%25E7%25B4%25A2/" rel="tag">智能搜索</a> , <a href="http://www.bloghuman.com/tags/%25E8%25AF%25AD%25E4%25B9%2589%25E6%2590%259C%25E7%25B4%25A2/" rel="tag">语义搜索</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/google_baidu-page_search_query-parameter/</link>
<title><![CDATA[Google和百度网页搜索的查询参数解释]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 25 Jun 2008 18:14:46 +0000</pubDate> 
<guid>http://www.bloghuman.com/google_baidu-page_search_query-parameter/</guid> 
<description>
<![CDATA[ 
	<strong>百度网页搜索的查询参数</strong><br/><br/>wd(Keyword)：查询的关键词<br/>pn(Page Number)：显示结果的页数<br/>cl(Class)：表示搜索类型，cl=3为网页搜索，cl=2为图片搜索<br/>ie(Input Encoding)：查询关键词的编码，缺省设置为简体中文，即ie=gb2312<br/>tn：提交搜索请求的来源站点，比如在好123的百度搜索框中搜索关键词，那么tn=sitehao123；缺省设置应该是cnnic<br/>rn(Record Number)：搜索结果显示条数，缺省设置rn=10，取值范围在10--100条之间<br/>bs(Before Search)：上一次搜索的关键词<br/><br/><strong>Google网页搜索的查询参数</strong><br/><br/>q(Query)：查询的关键词<br/>hl(Interface Language)：Google搜索的界面语言<br/>&nbsp;&nbsp;&nbsp;&nbsp; hl=zh-CN&nbsp;&nbsp;简体中文语言界面，我们用的Google中文就是这个参数。<br/>&nbsp;&nbsp;&nbsp;&nbsp; hl=zh-TW&nbsp;&nbsp;繁体中文语言界面，港台地区常使用<br/>&nbsp;&nbsp;&nbsp;&nbsp; hl=en&nbsp;&nbsp;&nbsp;&nbsp; 英文语言界面<br/>start：显示搜索结果的起始端，如果start=1，则从第2个搜索结果开始显示；如果你想直接看第搜索结果第21页，让start=200即可，由于Google只显示1000条搜索结果记录，start理论取值范围在0--999之间。<br/>lr(Language Restrict)：搜索内容的语言限定限定只搜索某种语言的网页。如果lr参数为空，则为搜索所有网页。<br/>&nbsp;&nbsp;常用的有：<br/>&nbsp;&nbsp;lr=lang_zh-CN&nbsp;&nbsp;只搜索简体中文网页 <br/>&nbsp;&nbsp;lr=lang_zh-TW&nbsp;&nbsp;只搜索繁体中文网页 <br/>&nbsp;&nbsp;lr=lang_zh-CN&#124;lang_zh-TW&nbsp;&nbsp;搜索所有中文网页<br/>&nbsp;&nbsp;lr=lang_en&nbsp;&nbsp;只搜索英文网页 <br/>ie(Input Encoding)：查询关键词的编码，缺省设置为utf-8，也就是说请求Google搜索时参数q的值是一段utf-8编码的文字<br/>oe(Output Encoding)：搜索结果页面的网页编码，缺省设置oe=utf-8<br/>num(Number)：搜索结果显示条数，取值范围在10--100条之间，缺省设置num=10<br/>newwindow：是否开启新窗口以显示查询结果，缺省设置newwindow=1，在新窗口打开搜索结果而面<br/>aq(Ascending Query)：判断搜索用户是否是第一次查询，如果用户第一次进行查询，则aq=f(First)；如若进行过多次查询，则aq=-1，这个的主要作用应该是统计和放置作弊<br/>as_q(Ascending Search Query)：上一次查询关键词<br/><br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者：郝聪<br/>原载：<a href="http://www.bloghuman.com" target="_blank">黑色梦中<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>博客</a><br/>地址：<a href="http://www.bloghuman.com/google_baidu-page_search_query-parameter/" target="_blank">http://www.bloghuman.com/google_baidu-page_search_query-parameter/</a><br/>版权所有，转载时必须以链接形式注明作者和原始出处及本声明。</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E9%25A1%25B5%25E6%2590%259C%25E7%25B4%25A2/" rel="tag">网页搜索</a> , <a href="http://www.bloghuman.com/tags/%25E6%259F%25A5%25E8%25AF%25A2%25E5%258F%2582%25E6%2595%25B0/" rel="tag">查询参数</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/google-advanced-search-for-seo-research/</link>
<title><![CDATA[利用Google高级搜索功能做SEO调研]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 30 Apr 2008 11:02:36 +0000</pubDate> 
<guid>http://www.bloghuman.com/google-advanced-search-for-seo-research/</guid> 
<description>
<![CDATA[ 
	<strong>Google高级搜索</strong>提供了输入项、网页语言、网页区域、文件格式、日期、关键词位置、网域、权限等自定义搜索结果。<br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=20" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=20" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>重点说说日期和关键词位置，通过分析老黑认为这两项功能可以用于<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>的研究分析。<br/><br/>1、日期<br/>Google高级搜索中日期的自定义项包含：任意时间、过去一天内、过去一周内、过去一个月内、过去2个月、过去3个月、过去6个月、过去一年内。日期对应的搜索结果URL中的参数是：as_qdr，以上7个选项对应的参数值分别是： all、d、w、m、m2、m3、m6、y。当然，你也可以手动在普通搜索结果URL中添加as_qdr参数以显示相应时间内的搜索结果网页，比如：让as_qdr=m5或d3或y8，就会返回5个月内、3天内、8年内的搜索结果。<br/><br/><strong>SEO应用</strong>：<br/>我们可以限定日期为一天内，那查询关键词后返回的结果数可以理解为在一天之内Google更新过的有关查询关键词的网页数量。比如：搜索关键词"SEO"，返回搜索结果数量为225000，这表示在Google一天之内更新的网页数量是225000，这其中包括新收录的网页和更新的旧网页（PS：一天之内未必表示24小时，这要根据Google理解的每次网页更新时间间隔来理解）；除此之外，你还可以使用site命令或者网域项来检索某个时间段内某个域名下哪些新网页被收录以及哪些旧网页被更新。这将有利于评估网页收录速度并为此制定针对性的<a href="http://www.rambosem.com/website_optimization.html" target="_blank" title="http://www.rambosem.com/website_optimization.html" class="mykeyword">网站优化</a>策略。<br/><br/><strong>以黑色梦中<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a>为例：</strong><br/><a href="http://www.bloghuman.com/attachment.php?fid=21" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=21" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><a href="http://www.bloghuman.com/attachment.php?fid=22" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=22" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><a href="http://www.bloghuman.com/attachment.php?fid=23" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=23" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><strong>为什么不同日期内网页排序不同</strong>？<br/>搜索引擎是否应该向搜索者提供最新的信息，而不应该完全是旧网页？<br/>排序不同是不同时期产生的网页发挥的价值不同造成的，搜索者自定义日期的目的正是如此；可以肯定的说，再所有时间内，网页排序过程中时间是一个权重的影响因素。<br/><br/>2、<strong>关键词位置</strong><br/>Google高级搜索中字词位置的自定义选项包括：网页内的任何地方、网页的标题、网页的内文、网页内的网址、在网页的连接内，这些选项已在告诉SEO搜索引擎在与网页“交互”的过程中评定网页的影响因素，因为搜索者也需要这样的影响因素来搜寻他们认为对自己有帮助的有价值的网页。<br/><br/>在网上大部分<a href="http://www.bloghuman.com/category/search-engine-optimization-tutorial/" target="_blank" title="http://www.bloghuman.com/category/search-engine-optimization-tutorial/" class="mykeyword">SEO教程</a>中都应该提及过网页标题优化、网页正文内容优化、网址优化和文本连接优化，通用的说法是：优化的关键词应该布置再网页标题靠前的位置、网页正文要分段并保持关键词再段落中有一定的出现比例、将关键词转化为英文单词或字母全拼作为网页URL的一部分、将关键词作为网页文本链接的锚文字，正像上面所言，这些说法都是正确的。我们根据Google不断推出的基于用户考虑的功能也正在逐步验证了正规SEO的确是符合搜索引擎本意的。<br/><br/>搜索引擎、网站、SEO三者之间应该是一种生态关系，SEO是在遵循技术原理的基础上来适应生态环境。<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者：郝聪<br/>原载：<a href="http://www.bloghuman.com/" target="_blank">黑色梦中SEO博客</a><br/>信息来源地址：<a href="http://www.bloghuman.com/google-advanced-search-for-seo-research/" target="_blank">http://www.bloghuman.com/google-advanced-search-for-seo-research/</a><br/>版权所有，转载时必须以链接形式注明作者和原始出处及本声明。</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E7%25AB%2599%25E4%25BC%2598%25E5%258C%2596/" rel="tag">网站优化</a> , <a href="http://www.bloghuman.com/tags/seo%25E6%2595%2599%25E7%25A8%258B/" rel="tag">seo教程</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/360/</link>
<title><![CDATA[Google让蜘蛛自动填表提交 以抓取更多网页]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 14 Apr 2008 01:16:27 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/360/</guid> 
<description>
<![CDATA[ 
	据国外媒体报道：美国搜索巨头谷歌公司最近开始在网页抓取蜘蛛中实施一项新技术：他们可以让蜘蛛自动填写某些网页中的表格，并且自动提交到服务器上，对反馈页面进行抓取，从而获取更多有关这个网站的详细信息。<br/><br/>　　媒体分析认为，这将对网站的信息安全构成威胁。<br/><br/>　　一般来说，表格（Form）是网站方面用来收集用户信息的一种方式。比如用户申请成为注册会员，需要提交相关的身份资料。表格将会把这些数据提交到服务器上，服务器上的网页将会给出下一步提示。<br/><br/>　　在过去，谷歌公司的蜘蛛机器人并不会填写表格，因为也无法知道下一步的提示网页内容。<br/><br/>　　最近，谷歌公司对抓取系统进行了升级。机器人将会根据表格中各个项目的名字，自动填写数据提交给服务器，这样，服务器的反馈页面也将被机器人所抓取，谷歌将会获得这个网站的更多信息。<br/><br/>　　谷歌公司在一个博客中表示，他们会对这个功能采取谨慎态度。比如最开始，一些十分有用的网站才会采用自动填表的手段。另外，网站管理员可以在robots.txt文件中，对于是否允许谷歌提交表格作出规定，谷歌不会违反网站管理员的意愿。<br/><br/>　　有搜索行业专家表示，谷歌公司的这一功能，将会对企业网站的信息安全构成威胁。<br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E8%25B0%25B7%25E6%25AD%258C/" rel="tag">谷歌</a> , <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E5%25BC%2595%25E6%2593%258E%25E8%259C%2598%25E8%259B%259B/" rel="tag">搜索引擎蜘蛛</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/google-sitelinks-explained-and-analysis/</link>
<title><![CDATA[Google Sitelinks研究分析]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Sun, 06 Apr 2008 19:12:44 +0000</pubDate> 
<guid>http://www.bloghuman.com/google-sitelinks-explained-and-analysis/</guid> 
<description>
<![CDATA[ 
	<strong>Google Sitelinks是什么？</strong><br/>Google Sitelinks是指Google搜索结果页面中第一个搜索结果的网站描述信息下方显示出的该网站其他页面的文字链接。比如，在Google中搜索“黑色梦中”，参看图中显示的样式，这就是Sitelinks。 <br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=15" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=15" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>Google Sitemaps里对sitelinks有如下说明：<br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Sitelinks are additional links Google sometimes generates from site contents in order to help users navigate your site. Google generates these sitelinks periodically from your site's contents.<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Because we generate sitelinks dynamically, this list can change from time to time.</div></div><br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; sitelinks是Google根据网站内容产生的附加链接，以帮助用户浏览你的网站。 Google定期根据你的网站内容来产生这些sitelinks。由于我们是动态产生sitelinks，因此，sitelinks中的链接列表可以不时更改。</div></div><br/><br/>Google Sitelinks一直被认为是高质量网站的一种表现，它意味着能够产生sitelinks的站点在搜索引擎上具有很高的权重。在以前，人们想方设法要实现sitelinks，但由于Google未透露任何信息，而是自动产生，因此大部分站点在Google搜索结果中都无法形成sitelinks；而如今，Google将其“平民化”了。<br/><br/>如果你的站点产生了sitelinks，你可以在<a href="https://www.google.com/webmasters/sitemaps" target="_blank">Google Sitemaps</a>里进行管理；当然，目前这种管理仅仅局限于选择是否接受Goolge自动匹配出的链接。我曾经Block过Google自动在后台匹配出的某些链接，因为我认为他们并不值得推荐，当然，我无法直接添加我认为重要的链接列表，从这点来看，Goolge实现的是完全技术化的匹配。在我Block不分链接之后，目前链接列表比较重要，它们几乎全部是个人原创的文章，而且这些文章在网络中被广泛转载过。下图是我的管理界面：<br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=16" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=16" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><strong>Google官方对Google sitelinks的解释</strong><br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; The links shown below some sites in our search results, called Sitelinks,are meant to help users navigate your site .Our systems analyze the link struture of your site to find shortcurs that will save users time and allow them to quickly find the information they’re looking for.<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; We only show Sitelinks for results when we think they’ll be useful to the user. If the structure of your site doesn’t allow our algorithms to find good Sitelinks , or we don’t think that the Sitelinks for your site are relevant for the user’s query ,we won’t show them.<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; At the moment , Sitelinks are completely automated . We’re always working to improve our itelinks algorithm, and we may incorporate webmaster input in the future.</div></div><br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;显示在有些网站的搜索结果下面的链接，叫做站内链接（Stielinks）,这些链接是为了帮助用户更好地访问你的站点。我们的系统通过分析网站的链接结构，来发现这种快捷方式，以帮助用户节省时间、更迅速地找到他们想要的东西。<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 只有当我们觉得这些站内链接对我们的用户非常有价值的时候我们才会把他们显示出来。如果你的网站结构不能让我们的算法找出高质量的站内链接，或者我们认为这些链接跟我们的用户搜索请求并不相关的时候，我们也不会把它们显示出来。<br/>目前，站内链接完全是机器自动生成的，我们也一直在致力于提高我们的站内链接算法，将来我们可能会让我们的广大网站管理员参与进来。</div></div><br/><br/><strong>其他的Goolge Sitelinks实例</strong>：<br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=17" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=17" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=18" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=18" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=19" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=19" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>从以上3张图的差异可以看出，中英文Goolge对于对于sitelinks的理解是不同的。<br/><br/><strong>sitelinks表现层分析</strong><br/>1、触发sitelinks的关键词往往是网站名称或URL中的特殊单词<br/>2、sitelinks只出现在搜索结果中排序第一的网站<br/>3、sitelinks被触发后必然伴随着出现<acronym title="More results from ***.com »">More results from bloghuman.com »</acronym><br/>4、sitelinks与网站流量没有关系，因为我的<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>博客的流量并不高<br/>5、国际域名的权重要高于国内域名<br/>6、网站拥有独立创造原创内容的能力<br/>7、网站在某个话题或某个行业内或某个细分领域具有一定影响力<br/>8、触发sitelinks的关键词不是唯一的，一个网站可能有几个关键词都可以触发sitelinks，比如：智联，智联招聘，智联招聘网<br/><br/><strong>sitelinks产生的影响因素分析</strong><br/><br/>1、Google做Sitelinks的目的：“保护”品牌。<br/><br/>2、网站单向导入链接的锚文字中包含网站名称的比例。<br/>我们都知道，PAGERANK算法中导入链接的锚文字是对链接所指向网站在某个话题的支持票；如果你的网站拥有丰富的连接广泛度，并且这些外部链接中很多都提到了你的网站名称，这就可以说明网站在网络上已拥有了一定的知名度，自然会有一些用户直接搜索网站名称（全称或简写，只要你的网站名称不完全与通用名词存在关系），这种搜索需求是非常明确化的，Google有责任反馈给搜索者他们真正寻找的站点，而且为便于搜索用户快速了解目标站点最主要的特色，便产生了链接列表。<br/><br/>3、网站名称的独一无二或存在的非议不大（非议不大是指与其产生非议的关键词实际搜索量极小）<br/>如果你的网站名称叫<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a>，那可以肯定的是你的站点不会产生sitelinks。如果叫澎恰恰美食网，则有机会。网站名称是品牌战略的基础，好好规划下绝对是应该的。<br/><br/>4、Localrank<br/>Localrank简单的说是指在网站所在领域的影响力，这一点是第2点的细分，也就是说，如果你的网站在所处行业内知名度很高，就会伴随着产生大量行业内的相关性导入链接，那么产生sitelinks也是应该的。<br/><br/>5、网站名称在内部网页集群中的展现<br/>网站所有页面的标题都包含你的网站名称吗？如果没有，那如何让访问者记住你的站点并发生品牌名称搜索。你是否在不断的创造好的内容的同时还在不断提示用户你是谁？还需说明的是，尽管SEO技术操作必然会注重网页标题，但是合理的部署才是正道，没必要全部是关键词和扩展关键词的堆积。<br/><br/>6、网站权重<br/>Sitelinks的产生需要一个过程，当然不是要花几年的时间，黑色梦中SEO博客于2005.12.12注册，而实际运营仅仅一年多的时间。Sitelinks应该是从<acronym title="More results from ***.com »">More results from bloghuman.com »</acronym>过渡到链接列表的。举个例子，如果你在google搜索你的网站名称，返回的是两个搜索结果，说明你的网站权重不算高，仍需要继续积累。<br/><br/>7、网站内部链接导航<br/>确保网站每个首页都有链接可以返回首页。<br/><br/>8、Google是按照站内网页的访问量来评定一个网页或一个专题是否可以进入链接列表，这也是促进网站产生sitelinks的因素之一。<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者：郝聪<br/>原载：<a href="http://www.bloghuman.com" target="_blank">黑色梦中SEO博客</a><br/>信息来源地址：<a href="http://www.bloghuman.com/google-sitelinks-explained-and-analysis/" target="_blank">http://www.bloghuman.com/google-sitelinks-explained-and-analysis/</a><br/>版权所有，转载时必须以链接形式注明作者和原始出处及本声明</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/sitelinks/" rel="tag">sitelinks</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/google-display-baidu-jingjia-advertisment-in-search-engine-result-page/</link>
<title><![CDATA[Google要为百度谋福利？]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Sun, 16 Mar 2008 16:08:49 +0000</pubDate> 
<guid>http://www.bloghuman.com/google-display-baidu-jingjia-advertisment-in-search-engine-result-page/</guid> 
<description>
<![CDATA[ 
	Google一直在致力于提高搜索结果的准确性、合理性、公正性。举两个例子，比如，早前钓鱼网站盛行时期，Google有效识别了钓鱼站点并成功阻止了模仿站点在搜索结果获得较好的排名，无论是利用人工数据库还是复制网页、网站权威度这样的系数，这样的调整的确降低了搜索用户受到利益危害的可能性；再比如，Google不断惩罚SPAM <a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>站点，对无实际价值的站点进行降低权重或直接在数据库中删除，这无疑都是在力报搜索结果质量。在<a href="http://www.rambosem.com/seo.html" target="_blank" title="http://www.rambosem.com/seo.html" class="mykeyword">SEO优化</a>研究中，我需要不断了解搜索结果的变化趋势，这个过程也使我切身感受到Google在提高用户搜索体验的过程中可谓不於余力。这的确需要每个SEO人都认真思考，到底是SEO在改变搜索结果还是搜索结果在改变SEO！<br/><br/>尽管如此，Google的搜索结果有时候也会让人产生困惑<br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=12" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=12" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>点击第3个搜索结果，网页会跳转到<div class="code">http://www.ruihuagz.com/dlpp.asp</div><br/><br/>从URL来看，这肯定百度的某个网页，关键是点击该URL居然还能跳转到企业网站的内页，因此，基本上断定该URL是百度竞价广告。<br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=13" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=13" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>PS：百度竞价广告URL参数以6H6K开头，而该URL并不符合当前百度竞价广告的URL规则，初步认为是旧URL规则<br/><br/>可想而知，刚才的点击引导我们进入了百度竞价广告客户的网站着陆页，尽管我们并不是通过百度这个搜索平台获知这家网站以及其提供产品/服务，而是通过Google，至于百度竞价广告客户是否需要为这次“成功的百度推广”付费，暂且无法得出结论，但是可以肯定的是，百度竞价广告客户从统计系统看到的结论是：这次推介是通过百度竞价广告导入的。<br/><br/>Google要向用户推介竞争对手百度的竞价广告，我想不出有什么好理由来支持，我无法想象Google会主动引导用户“消耗”百度竞价广告客户的推广预算，实际上，这样的想法也是不成立的，因为Google收录的百度竞价广告页面数量很少，只有1370，而且大部分搜索行为中几乎没有遇到上面的情况，上面描述的情况也只是在搜索公司名称的时候出现，这种影响力非常有限，因此，这种可能性微乎其微。<br/><br/>百度竞价广告客户无需担心Google消耗了你们在百度上投放的广告预算，退一步讲，如果百度竞价广告客户的确在为这样的点击付费，那也是值得的，毕竟Google也是在相关性较高的搜索行为中推荐了你们。我觉得这样的情况才更容易让人担忧：<br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=14" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=14" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>从SEO技术角度分析，从Google搜索结果中的网页描述以及网页Cache来看，Google已真正抓取到该网页的真实内容，而测试百度竞价广告的URL后发现，期间会首先要进行一次302跳转以后才会到达客户网站指定的着落页面，估计是需要传递相关信息到数据中心进行计费操作；而且，如果直接用浏览器访问该URL，是不会返回前网页的，而302是可以返回的，可见，最后是301重定向到客户网站，这正好可以解释Google为什么可以抓取到实际内容。Google把一个临时重定向的URL作为搜索结果URL输出，长时间未更新该网页可能是主要原因。<br/><br/>Google搜索结果充斥百度竞价广告并不合理，客户可能因此无法完全控制广告投放地域/时间、广告宣传语、关键词策略等，这无疑使竞价排名广告失去了其最大的优势，失去这些投资回报率可想而知，可是谁会为客户的损失买单呢？<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者：郝聪<br/>原载：<a href="http://www.bloghuman.com/" target="_blank">黑色梦中<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a></a><br/>信息来源地址：<a href="http://www.bloghuman.com/google-display-baidu-jingjia-advertisment-in-search-engine-result-page/" target="_blank">http://www.bloghuman.com/google-display-baidu-jingjia-advertisment-in-search-engine-result-page/</a><br/>版权所有，转载时必须以链接形式注明作者和原始出处及本声明。</div></div><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/%25E7%25AB%259E%25E4%25BB%25B7%25E6%258E%2592%25E5%2590%258D/" rel="tag">竞价排名</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/seo%25E6%258A%2580%25E6%259C%25AF/" rel="tag">seo技术</a> , <a href="http://www.bloghuman.com/tags/302%25E8%25B7%25B3%25E8%25BD%25AC/" rel="tag">302跳转</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/page-rank-performance-between-google_data-update/</link>
<title><![CDATA[Google数据更新前后网页排名截然不同的变化]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 18 Feb 2008 14:15:10 +0000</pubDate> 
<guid>http://www.bloghuman.com/page-rank-performance-between-google_data-update/</guid> 
<description>
<![CDATA[ 
	 1月25号下午发文”<a href="http://www.bloghuman.com/beijing-ticket-booking-phone-and-address/" target="_blank">北京火车票订票点地址和订票电话</a> "，提供这个资料主要是为了提醒关注俺BLOG的用户及早动手及时订票（因为25号我去拿票的时候票点的人已N多人）；后来<a href="http://www.piaoyi.org/" target="_blank">飘易博客</a>的Flymorn问我是否在做”北京 火车票“的关键词，说实话，我看了评论后有点吃惊，原因有两方面：1、www.bloghuman.com是<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>博客，引入非相关流量意义不大，即便是可以通过Google Adsense CPC广告来盈利，可中文GG广告超低的单价让人实在缺乏兴趣；我怀疑是不是由于以前发表的文章”<a href="http://www.bloghuman.com/beijing-ticket-booking-phone-and-address/" target="_blank">中国票务在线火车票频道<a href="http://www.rambosem.com/website_optimization.html" target="_blank" title="http://www.rambosem.com/website_optimization.html" class="mykeyword">网站优化</a>案例</a>“引起的，特此声明：本人非票务领域的专业人士。2、在我的SEO理念里，即便是对单网页进行较细致的<a href="http://www.rambosem.com/seo.html" target="_blank" title="http://www.rambosem.com/seo.html" class="mykeyword">SEO优化</a>，获取优势排名的可能性也不大，因为它脱离了整个BLOG的话题范围，bloghuman.com的主题是SEO、UE、网络营销、WEB2.0、网站运营等IT专业类内容，我是当其实用工具的初衷来发表该文；而且，对于一个非主推的话题或内容，网页可能获取的反向链接数量将即为有限，即便是RSS聚合网站（据我观察有一些RSS聚合网站聚合了www.bloghuman.com的文章）可能会采用该文章，但一般情况都会对文章所属类型进行审核和归类，所以真正聚合该文章的情况会很少（目前只发现<a href="http://www.ixna.net/articles/6626" target="_blank">一家RSS聚合网站采用了该文章</a>），于是该网页导入链接自然也很少，一个新网页在当前火车票相关关键词竞争激烈的情况下是很难有好的表现的。刻意说，那篇文章兵没有刻意的SEO技术优化，有的仅仅是设计标题的规范，否则为提高关键词展示，我可能会将”售票处电话“有计划的改成”订票电话“。<br/><br/>在写完文章“<a href="http://www.bloghuman.com/bbs-public_raise-marketing-case/" target="_blank">社区口碑营销</a>”后，闲来无事索性看了下<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a>的流量统计系统（N久没看过了），顿时喜出望外，流量较前段时间几乎增长了一倍，于是赶紧查看引入流量的搜索引擎和关键词；原来流量的增长的确是因为“北京火车票订票点地址和订票电话"这篇文章，特别是Google带来的长尾关键词流量。<br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=7" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=7" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=5" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=5" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=6" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=6" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><br/>点开相关搜索结果，却发现没有任何bloghuman.com域的网页，感觉很奇怪；于是，接着搜索文章URL，发现Google居然没有收录该网页。我根据51la统计提供的访问数据进行分析，可以大概判断出类似流量中止于晚上9点钟左右，也就是说，在29号晚上9点Google正在进行数据更新。<br/><br/>Google就是令人”捉摸不透“，凌晨1点，文章接近结尾的时候，我再次搜索URL，发现网页已被收录，而且关键词排名也已恢复。本以为是Google对新网页具有”警惕性“，想探讨该现象是否是众多SEO所谈的Google沙盒效应，结果到好，却让我感受了Google数据更新前后截然不同的变化。<br/><br/><a href="http://www.bloghuman.com/attachment.php?fid=8" target="_blank"><img src="http://www.bloghuman.com/attachment.php?fid=8" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者:郝聪<br/>原载:<a href="http://www.bloghuman.com" target="_blank">黑色梦中SEO博客</a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E6%2595%25B0%25E6%258D%25AE%25E6%259B%25B4%25E6%2596%25B0/" rel="tag">数据更新</a> , <a href="http://www.bloghuman.com/tags/seo%25E4%25BC%2598%25E5%258C%2596/" rel="tag">seo优化</a> , <a href="http://www.bloghuman.com/tags/%25E5%258F%258D%25E5%2590%2591%25E9%2593%25BE%25E6%258E%25A5/" rel="tag">反向链接</a> , <a href="http://www.bloghuman.com/tags/rss%25E8%2581%259A%25E5%2590%2588/" rel="tag">rss聚合</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/google-adsense-2007-beijing-optimization-bbs/</link>
<title><![CDATA[Google AdSense 2007合作伙伴推广暨优化论坛]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 03 Dec 2007 05:52:07 +0000</pubDate> 
<guid>http://www.bloghuman.com/google-adsense-2007-beijing-optimization-bbs/</guid> 
<description>
<![CDATA[ 
	10月30号下午，Google Adsense小组在东城区港澳中心国际会议中心，举办了Google AdSense 2007合作伙伴推广暨优化论坛；之前几天，得到Adsense小组工作人员的电话通知，于是欣然报名参加。<br/><br/>印象中，黑色梦中接触Google Adsense计划已三年多了，参与该计划大概可以追溯到05年，那时候是我最心爱的"时刻吧"，一直以<br/>来我都是将Adsense作为网站收入来源，虽然并不多，但也能解决带宽支出。<br/><br/>个人感觉，Adsense广告计划应该是个人站长最值得信赖的广告联盟，信誉很好，除了支付比较麻烦之外，其他我都比较满意；至于网上流传的收入快到100￥时被K掉的说法，我没有经历过，也不好发表评论，我大致想Google应该不会太过在意那100￥吧；参与Adsense计划，最忌讳的是自己点击广告和软件模拟点击（曾经风靡一时也曾经造就了N多收入丰厚的站长），除此之外还有很多条款需要遵守，基本上我从来不看具体的条款，因为一向是放上广告代码后就不再管了 。<br/><br/>说实话，对Adsense广告的优化没什么经验，参加这次论坛就是要补补课，尝试下改进和优化，以提高对Adsense深入的了解。Adsense广告计划的政策基本上是每年都会有变动，譬如，今天上半年，中文网站广告单价大幅度下滑，以Adsense为主要收入来源的个人站长应该很有感触；在我观察的一段时间里，Adsense又做了第二次调整，即对于广告匹配程度的调整。<br/><br/>我的帐户算是老发布商，被安排在下午3点到会场，和二兵青年一起赶赴会场；由于来的比较早，赶上新发布商见面会；会场上一个基金网的主管在讲Adsense优化经验，此环节的案例分析还是不错的，分享了很多广告布码位置、形式、提高广告点击率的方法，比如：DZ论坛帖间广告位布置大横幅广告、帖子右侧可以放置大/中矩形广告、文章开头植入大广告等等，结合自身网站的讲解对于新加入者很有帮助。<br/><br/><br/>新发布商见面会完毕之后，就是老发布商的优化论坛了；记得大概有五个环节吧，我印象最深的是Google Adsense主管南美洲和亚洲地区的副总裁的现场演讲和答疑，讲到了Adsense的推介2.0和面向Wap的移动广告，也回答了众多网友的问题。在最无聊的对话环节，索性就随手翻翻拿到手的宣传资料和优化宝典。<br/><br/>此次Adsense优化论坛，还为广大的发布商准备了纪念品，发图给来看看：<br/><br/><a href="http://www.bloghuman.com/attachment/google-adsense-2007-optimization-bbs-souvenirs.jpg" target="_blank"><img src="http://www.bloghuman.com/attachment/google-adsense-2007-optimization-bbs-souvenirs.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0" width="500" height="375"/></a><br/><br/>这帽子对我来说尺寸有点小！<br/><br/><a href="http://www.bloghuman.com/attachment/google-adsense-2007-optimization-bbs-hat.jpg" target="_blank"><img src="http://www.bloghuman.com/attachment/google-adsense-2007-optimization-bbs-hat.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0" width="500" height="375"/></a><br/><br/>XL的T恤衫，比较适合我，要是L的就又得送人喽；看看这Logo做的很有创意！<br/><br/><a href="http://www.bloghuman.com/attachment/google-adsense-2007-optimization-bbs-T-shirt-logo.jpg" target="_blank"><img src="http://www.bloghuman.com/attachment/google-adsense-2007-optimization-bbs-T-shirt-logo.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0" width="500" height="375"/></a><br/><br/>只可惜背后这个大"广告牌"让人生畏啊！！！<br/><br/><a href="http://www.bloghuman.com/attachment/google-adsense-2007-optimization-bbs-T-shirt-ads.jpg" target="_blank"><img src="http://www.bloghuman.com/attachment/google-adsense-2007-optimization-bbs-T-shirt-ads.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0" width="500" height="375"/></a><br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>博客</a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/adsense/" rel="tag">adsense</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/baidu-c2c-google-ebay/</link>
<title><![CDATA[百度欲在中国复制“eBay+谷歌”模式]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Thu, 29 Nov 2007 11:31:38 +0000</pubDate> 
<guid>http://www.bloghuman.com/baidu-c2c-google-ebay/</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp; 互联网企业正成为当下的市场热点———就在阿里巴巴赴港IPO进入倒计时之际，前期股价步步飙升的百度（BIDU.US）又抛出了重磅炸弹：百度宣布进军C2C市场，与阿里巴巴集团旗下的淘宝网和腾讯旗下的拍拍网展开争夺战。至此，三家市值最大的中国互联网公司（皆超过百亿美元）都将目光瞄向了发展潜力无限的C2C市场。 <br/><br/>　　百度参战催生“ESE时代” <br/><br/>　　此前，淘宝占据了中国C2C市场的绝对一哥的地位，远远超过市场排名二、三位的腾讯拍拍网和TOM易趣，但百度的参战，必将使C2C市场的格局产生剧变。 <br/><br/>　　百度的加入标志着中国电子商务进入“ESE时代”（E-commerce based on search engine）。其特征是通过搜索技术与商品信息的完美结合，改善商务体验乃至全面提升产业效率。分析人士指出，全球C2C巨头eBay之所以如此成功，一个关键因素就是将C2C业务发展为“搜索+社区”模式，也就是“eBay谷歌”合作模式。此前，阿里巴巴集团的马云之所以要收购雅虎，其核心理念就是希望将阿里巴巴打造为“电子商务+搜索”模式。而百度进军C2C市场，则有望实现搜索引擎与电子商务的无缝对接。 <br/><br/>　　第三方研究机构艾瑞曾指出，今年4月，国内C2C类电子商务网站用户覆盖人数为6380.3万人，其中共有3141万人在访问C2C电子商务网站之前使用了搜索服务，占总覆盖人数的49.2%。由于百度已占有整个搜索市场份额的70%以上，这一数据也表明，在没有任何引导的情况下，市场主要C2C交易平台超过1/3的外部流量是从百度获得的。百度如充分利用这一点，将获得发展电子商务的极大优势。 <br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/c2c/" rel="tag">c2c</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/ebay/" rel="tag">ebay</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/2007-USA-search-engine-market/</link>
<title><![CDATA[2007年7月美国搜索引擎市场份额数据]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Thu, 29 Nov 2007 11:15:29 +0000</pubDate> 
<guid>http://www.bloghuman.com/2007-USA-search-engine-market/</guid> 
<description>
<![CDATA[ 
	　　iResearch艾瑞咨询根据Hitwise发布的美国搜索引擎搜索量市场份额数据发现，2007年7月美国搜索引擎搜索量市场份额中Google占据了64.4%；雅虎搜索居其次，占据搜索量市场份额的22.1%；而MSN/Live搜索占市场份额的8.8%；ASK搜索则占搜索量市场份额的3.2%.<br/><br/>　　相比Hitwise发布的2007年5月美国搜索量市场份额数据，各品牌搜索引擎所占的份额未有明显变化，艾瑞咨询据此认为，当前美国搜索引擎市场已经被Google、Yahoo和MSN三大品牌所垄断。<br/><br/><br/><a href="http://www.bloghuman.com/attachment/search-engine-market-rate-200707.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/search-engine-market-rate-200707.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E5%25BC%2595%25E6%2593%258E/" rel="tag">搜索引擎</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/329/</link>
<title><![CDATA[Google(谷歌)是怎样处理垃圾网站举报？ ]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Sun, 23 Sep 2007 03:26:56 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/329/</guid> 
<description>
<![CDATA[ 
	发表者 谷海一粟， WebSpam 组<br/><span style="color: #666666;">转载自</span><a href="http://www.googlechinawebmaster.com/" target="_blank">谷歌中文网站管理员博客</a><span style="color: #666666;"> </span><a href="https://www.google.cn/webmasters/tools/" target="_blank">谷歌网站管理员工具</a>不仅能帮助我们和网站管理员沟通，也提供了<a href="https://www.google.com/webmasters/tools/spamreport?hl=zh-CN" target="_blank">举报垃圾网站</a>的在线渠道。感谢我们的用户，我们收到了很多垃圾网站举报。这些举报对我们改进搜索质量，给出更相关、有用的结果有很大帮助。谷歌用户可以很方便地通过两个渠道（认证的和不需认证的）进行垃圾网站举报。我们往往优先处理通过<a href="https://www.google.com/webmasters/tools/spamreport?hl=zh-cn" target="_blank">认证的渠道</a>（譬如站长工具）递交的垃圾网站。当然，你也可以提交<a href="http://www.google.cn/contact/spamreport.html" target="_blank">未经认证报告</a>。由于未经认证报告是匿名举报，我们给他们赋予的优先级会相对较低。这里我们想讲一讲我们是如何处理从站长管理员工具得到的垃圾网站举报的。<br/><br/><strong>我们评估垃圾网站举报</strong><br/>我们非常重视垃圾网站的举报，并有专门人员及时处理。我们主要根据我们的<br/><a href="http://www.google.com/support/webmasters/bin/answer.py?hl=zh-CN&answer=35769" target="_blank">网站管理员指南</a><br/>来处理垃圾网站举报，确定是否赞同或不赞同用户的举报。<br/><br/>垃圾站点通常使用作弊手法来误导搜索引擎使之错误地把用户带入某些网站。谷歌网站管理员指南包含大部分（但不是全部）常见形式的欺骗性或操纵行为。我们建议你经常阅读我们<a href="http://www.google.cn/support/webmasters/" target="_blank">网站管理员帮助中心</a><br/>上的网站管理员指南。该指南内容将不但帮助你创建一个对搜索引擎友好的网站，而且避免了谷歌和你的用户把你的网站看作是垃圾网站。<br/><br/>在有些情况下，我们并不赞同用户的举报内容，被举报的网站将不会受到任何影响。对确认作弊的垃圾网站我们会将他们转交给我们的软件工程师作出相应的惩罚。<br/><br/><strong>我们对确认的垃圾网站进行惩罚</strong><br/>对确认作弊的网站，我们会人工地或从算法上采取一些行动。当然，我们对作弊网站的惩罚度会视网站违反质量指南的严重程度而定，也就是说，对确认作弊的网站并不总是把他们全部从我们的索引中移去。<br/><br/>改进反垃圾网站算法<br/>反垃圾网站算法是我们打击垃圾网站最有效的方法。对某一网站的举报可能改进我们对所有类似垃圾网站的处理算法。当然，在我们使用我们的新代码之前，我们会大量地测试新代码。这个过程需要时间。当人们问”为什么我举报的网站没有受到惩罚？”，如果是我们确认的垃圾网站举报，很可能是我们正在给出，或者将会给出一个算法上的处理。<br/><br/>人工处理一个垃圾站点<br/>我们也可能人工处理一个确认了的垃圾网站。这个过程显然要快得多，但它并不是一个健全的方法。我们更愿意使用算法改善我们的搜索质量。<br/><br/><strong>我们可能联系网站管理员，让他们改正他们的网站</strong><br/>如果我们发现一个被举报的垃圾站点可能无意中违反了谷歌网站管理员指南，我们会试图联络网站管理员来以纠正他们的错误。我们可能通过<br/><a href="http://googlewebmastercentral.blogspot.com/2007/08/update-on-penalty-notifications.html" target="_blank">电子邮件</a>来联系网站管理员。如果他们已经在网站管理员工具上<a href="http://www.google.cn/support/webmasters/bin/topic.py?topic=8472" target="_blank">确认</a>了他们的网站，我们会通过<br/><a href="http://www.google.com/support/webmasters/bin/answer.py?answer=61504&hl=zh-CN" target="_blank">信息中心</a>来传递我们的信息。<br/><br/>我们的宗旨是为用户提供最相关的结果。我们希望我们的用户和网站管理员继续举报垃圾网站。它对我们改进算法和改善搜索质量是有很大帮助的。如果您还不了解什么是垃圾网站，请访问我们的帮助中心或者在我们的<a href="http://groups.google.com/group/Google_Webmaster_Help" target="_blank">讨论组</a>上发表你的问题。当然，如果你发现一个垃圾网站，<br/><a href="https://www.google.com/webmasters/tools/spamreport?hl=zh-CN" target="_blank">请告诉我们</a>！<br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E8%25B0%25B7%25E6%25AD%258C/" rel="tag">谷歌</a> , <a href="http://www.bloghuman.com/tags/%25E4%25B8%25BE%25E6%258A%25A5%25E5%259E%2583%25E5%259C%25BE%25E7%25BD%2591%25E7%25AB%2599/" rel="tag">举报垃圾网站</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/324/</link>
<title><![CDATA[相关度计算与信噪比]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Fri, 14 Sep 2007 06:24:54 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/324/</guid> 
<description>
<![CDATA[ 
	你知道google和百度两个关键词的相关度是多少么？－－最后我将来回答这个问题<br/><br/>通常我们对于文本信息之间得相关性得计算都是采用向量的办法，我在以前的PPT里曾经提到过。然而对于文本信息更深层次的分析不能单纯从字面上分析一篇文章的关键词，更重要的是它隐含的扩展的意义。<br/><br/>传统的关于计算文本相关度和【网页和查询的相关性】的计算都是采用匹配的方式进行的，然而这只能是基于字面意义上的统计计算。这里介绍的做法是采用关键词相关性扩展的做法从而得到更加精确的相关度计算。<br/><br/>例子：<br/>文章 A: 谈论的是大学教育，最高频的关键词是：学生[3]，学习[2]，大学[2]<br/>文章 B: 谈论的是普通教育，最高频的关键词是：教育[5]，教师[1]，进修[1]<br/>[]里是相对的权重，可以理解成 TF*IDF<br/><br/>根据传统的相关性计算，我们会得到如下的结果：<br/><br/>1. 文章A 与 文章B 不相关<br/>2. 查询 学生，学习，大学只能返回文章A，不能返回文章B <br/>3. 查询 教育，教师，进修只能返回文章B，不能返回文章A<br/><br/>分析：<br/>这个显然是有一定的问题的，问题的出现在于我们通常将“字面”的意思做为分析的来源而且依靠和仅仅依靠这些“字面”的关键词做为文章相关性和查询相关性判断的唯一要素。<br/><br/>如何避免？<br/>我在以前的文章中提到过【关键词相关度】的概念，举例说明：<br/>当出现：｛学习｝这个词汇的时候，真实的表达的意义往往是这样的：<br/>｛W1*学习，W2*教育，W3*教师，W4*大学。。。。。。｝<br/>其中W1，W2...是学习和相关词汇的相关权重。<br/><br/>基于这样一个矩阵，我们就能够将一个词扩展成为一组词汇，因而也同时可以将文章所对应的向量扩展成一个更多词汇的集合。<br/><br/>这里的计算需要一个完整的相关度矩阵:M<br/><br/>M(i,j) = &#123;关键词i,j的相关度&#125;<br/>而两篇文章的相关度的计算，也由简单的 <br/>R= Sigma Vi*Vi<br/>变为<br/>R= Sigma Vi*M(i,j)*Vj<br/><br/>查询关键词和文章的相关度也由简单的<br/>R(i)=TF(i)*IDF(i)<br/>变为<br/>R(i)=Sigma TF(j)*IDF(j)*M(i,j)<br/><br/><br/>下面碰到一个核心问题就是：关键词之间的相关度如何计算？<br/>例如：学校和学生的相关度是多少？<br/>计算方法：<br/>假设一个文章集合 &#123;C&#125;，总文章数目为N，其中含有单词A的文章总数为Na，含有单词B的文章总数是Nb，含有｛A+B｝的文章总数是 Nab，那么相关性这么计算<br/><br/>CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)<br/><br/>本计算中可能会得到负相关，如果考虑到Na,Nb都是小量，可以忽略，那么<br/><br/>CorrAB= Nab/(Na+Nb-Nab)<br/><br/>至此，要计算相关度之间的全部要素都获得了。<br/><br/>思考，那么到底 学校 和学生 之间的相关度是多少呢？<br/>我们利用google来回答这个问题吧：<br/><br/>约有91,700,000项符合学校的查询结果<br/>约有88,200,000项符合学生的查询结果<br/>约有48,900,000项符合学生 学校的查询结果<br/><br/>Corr&#123;学校，学生&#125;＝48,900,000/(91,700,000+88,200,000-48,900,000)=0.37<br/><br/>这个原理我以前应用在了计算【网页信噪比】上，和网页信噪比一起成为衡量一个网页的关键词的核心算法。<br/>这也就是为什么6e的网页信噪比能够不依靠网页上现有的关键词而准确的判断网页的分类和相关度，是因为除了TF和IDF之外，我们能够从已有的文本集合里学到更多的“知识”。<br/><br/>那么百度和google的相关度应该不难计算了:<br/><br/>利用 google计算得到：2,950,000/(61,800,000+6,370,000-2,950,000)=0.03<br/><br/>利用 baidu计算得到：2,760,000/(21,700,000+12,200,000-2,760,000)=0.08<br/><br/>看来基本上相关度小于10%。<br/><br/>作者：卢亮<br/>转载自：http://www.wespoke.com/archives/001078.html<br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E9%25A1%25B5%25E4%25BF%25A1%25E5%2599%25AA%25E6%25AF%2594/" rel="tag">网页信噪比</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/323/</link>
<title><![CDATA[六度分隔与最短路径]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Fri, 14 Sep 2007 06:20:43 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/323/</guid> 
<description>
<![CDATA[ 
	【最短路径】<br/><br/>圆明园的北部有一个迷宫，据说古时候每次有庆典在圆明园的时候，皇帝会派一些宫女走迷宫，看谁最先走到迷宫内的亭子，会有不错的奖赏。<br/><br/>迷宫问题对数学家们来讲虽然是小儿科但在计算机课程上却非常重要，因为不同的求解会涉及到递归，广度优先和深度优先等算法。<br/><br/>迷宫毕竟是一个放置在2维空间的有限联系的网络，也就是说，迷宫里的每一个点，最多只和周围的4个点(上下左右)发生关系，而且这些点的位置是固定的。<br/><br/>六度分割通常用来描述一个广阔的社会网路（SN），现在大部分的社会网路服务都提供了搜索功能，即搜索出一个用户到达另外一个用户的最短路径，也就是找出这两个用户之间通过最少的用户的链接。<br/><br/>一般的SN提供的搜索都是4度的，也就是例如A-B-C-D-E 称为4度的分隔。提供5度搜索和6度搜索的几乎寥寥无几，当然一方面是5，6度分隔的用户很少，大部分的用户都应该在4度内，另外一个方面是5，6度分隔的搜索在实际计算上也涉及非常大的运算量。<br/><br/>【SN搜索算法】<br/><br/>如果说寻找两个人之间的最小分隔的路径和寻找最短路径可以类比，那么唯一不同的是SN上每个节点的联系可以非常的广阔，不只是上下左右，而是十个甚至上百个联系。这是是一个多维空间内的最短路径的寻找。假设一个用户平均有n个好友，那么粗略估计一个用户的4度好友大约有n×n×n×n＋n×n×n+n×n+n ~ n^4，无疑是一个非常恐怖的数目。因此采用传统的递归的方法显然是不大现实的。<br/><br/>当然，事情并非这么麻烦，有简洁的方法可以加快找到用户之间的最小分隔：不单是从一个用户搜索，而是从两个用户同时搜索，而看两个用户的2度之内的用户是否有相同：<br/>A-B-C<br/>E-D-C<br/>A和E的处在在两度分隔的用户基本上数目估计都在n的平方。问题变成了比较n^2和n^2之间有没有相同，这个计算的时间等同于2×n^2的排序所需要的时间。<br/><br/>【SN索引】<br/><br/>那么能否继续加快速度？<br/>当然可以，可以提前对用户的好友进行索引，对好友的好友进行索引，这样在未来进行关系的搜索时会大大加快：<br/><br/>A: &#123;A1&#125; &#123;A2&#125; A1为A的好友的集合，A2为A的好友的好友的集合<br/>E: &#123;E1&#125; &#123;E2&#125;<br/><br/>那么<br/>1度分隔为： A 属于｛E1｝，等同于E属于 &#123;A1&#125;<br/>2度分隔为： A 属于｛E2｝，等同于E属于 &#123;A2&#125;，&#123;A1&#125;&#123;E1&#125;有共同项。<br/>3度分隔为： &#123;A1&#125; ｛E2｝有共同项，等同于A属于 &#123;E2&#125;<br/>4度分隔为： &#123;A2&#125; ｛E2｝有共同项<br/><br/><br/>【SN关系的更新】<br/><br/>当然，发现是一个核心问题，另外一个问题就是更新，因为SN的关系不会是一成不变的，在一个活跃的SN社区里，每天用户之间的关系的更新更是可观。这里只考虑关系添加的例子：<br/><br/>A: &#123;A1&#125; &#123;A2&#125; <br/>E: &#123;E1&#125; &#123;E2&#125;<br/><br/>当A 与 E 直接建立了好友关系后，应该说整合系统的关系全都变化了，因为这个新的关系一定会导致一些关系的短路，从而导致很多现有的关系的调整。但是因为我们只存储2度分隔以内的关系，也只关心两度分隔以内的关系，因此当发生了一个新的关系后，2度内关系的变化一定是A和E本身或者他们的一度关系的用户，再远的用户将不受这个关系的影响。<br/><br/>因此首先 所有｛A1｝的元素的二度分隔集合里要加上E，所有｛E1｝的元素的二度分隔集合里要加上A。<br/><br/>然后是二度的修正。分别加上对方的1度。<br/>&#123;A2&#125; = &#123;A2 + E1&#125;<br/>&#123;E2&#125; = &#123;E2 + A1&#125;<br/><br/>最后是一度的修正：A, E 的 一度&#123;A1&#125;&#123;E1&#125;需要加入E,A:<br/>&#123;A1&#125; = &#123;A1 + E&#125;<br/>&#123;E1&#125; = &#123;E1 + A&#125;<br/><br/>作者：卢亮<br/>转载自：http://www.wespoke.com/archives/001077.html<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E5%2585%25AD%25E5%25BA%25A6%25E5%2588%2586%25E9%259A%2594/" rel="tag">六度分隔</a> , <a href="http://www.bloghuman.com/tags/%25E6%259C%2580%25E7%259F%25AD%25E8%25B7%25AF%25E5%25BE%2584/" rel="tag">最短路径</a> , <a href="http://www.bloghuman.com/tags/sn/" rel="tag">sn</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/317/</link>
<title><![CDATA[百度分词算法详解]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 10 Sep 2007 09:48:34 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/317/</guid> 
<description>
<![CDATA[ 
	本文通过搜索结果归纳分析+切词通用算法分析的方式对百度预处理阶段的查询处理和中文分词两项技术进行了阐述、总结，如果你对数据结构、算法有一定了解的话，理解起来会相对容易些；个人感觉，得出正向最大匹配算法不够准确，无论是专用词典还是普通词典里的词，都是有不同权重的，这根搜索频率应该有一定关系，基于这点，在出现多个专用词典里的词时，是需要采用双向最大匹配算法来检测到底哪一个专有词汇应该先被切出来，当然，这是个人猜想，有待考究。<br/><br/>理解分词技术对<a href="http://www.bloghuman.com/" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a></a>工作具有极大意义，可以从科学的角度来分析关键词，并构想关键词部署策略；如果正向最大匹配算法的结论是正确的，那基本上可以断定，切词后的分词的权重是按照正向排序的<br/><br/>我还想搞明白的是专用词典和普通词典，哪一个权重会更高？<br/><br/><strong>以下为转载的原文：</strong><br/><strong>查询处理以及分词技术 </strong><br/>随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为 普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为技术人员，会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起，又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据，以及大量等待去费力挖掘的金矿。 <br/>但是，如何设计一个高效的搜索引擎？我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点，比如查询处理，排序算法，页面抓取算法，CACHE机制，ANTI-SPAM等等。这些技术细节，作为商业公司的搜索引擎服务提供商比如百度，GOOGLE等是不会公之于众的。我们可以将现有的搜索引擎看作一个黑盒，通过向黑盒提交输入，判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。 <br/>查询处理与分词是一个中文搜索引擎必不可少的工作，而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术。 <br/>我们分两个部分来讲述：查询处理/中文分词。 <br/>一、查询处理 <br/>用户向搜索引擎提交查询，搜索引擎一般在接受到用户查询后要做一些处理，然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢？ <br/>1、假设用户提交了不只一个查询串，比如“信息检索 理论 工具”。那么搜索引擎首先做的是根据分隔符比如空格，标点符号，将查询串分割成若干子查询串，比如上面的查询就会被解析为：三个子字符串；这个道理简单，我们接着往下看。 <br/>2、假设提交的查询有重复的内容，搜索引擎怎么处理呢？比如查询“理论 工具理论”，百度是将重复的字符串当作只出现过一次，也就是处理成等价的“理论工具”，而GOOGLE显然是没有进行归并，而是将重复查询子串的权重增大进行处理。那么是如何得出这个结论的呢？我们可以将“理论工具”提交给百度，返回341,000篇文档，大致看看第一页的返回内容。<br/>OK。继续，我们提交查询“理论 工具理论”，在看看返回结果，仍然是那么多返回文档，当然这个不能说明太多问题，那看看第一页返回结果的排序，看出来了吗？顺序完全没有变化，而GOOGLE 则排序有些变动，这说明百度是将重复的查询归并成一个处理的，而且字符串之间的先后出现顺序基本不予考虑（GOOGLE是考虑了这个顺序关系的）。 <br/>3、假设提交的中文查询包含英文单词，搜索引擎是怎么处理的？比如查询”电影BT下载”，百度的方法是将中文字符串中的英文当作一个整体保留，并以此为断点将中文切分开，这样上述的查询就切为，不论中间的英文是否一个字典里能查到的单词也好，还是随机的字符也好，都会当作一个整体来对待。至于为什么，你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字，也是如此办理。 <br/>到目前为止，一切很简单，也很清楚，百度怎么处理用户查询的呢？归纳如下：首先根据分割符号将查询分开，然后看看是否有重复的字符串，如果有，就抛弃多余的，只保留一个，接着判断是否有英文或者数字，如果有的话，把英文或者数字当作一个整体保留并把前后的中文切开。 <br/>接着该干什么呢？该考虑分词的问题了。 <br/>二、中文分词 <br/>首先，讲讲百度的分词时机或者条件问题，是否是个中文字符串百度就拿来切一下呢？非也，要想被百度的分词程序荣幸的切割一下也是要讲条件的，哪能是个字符串就切割啊？你当百度是卖锯条的么？ <br/>那么什么样的字符串才满足被切割的条件呢？简单说来，如果字符串只包含小于等于3个中文字符的话，那就保留不动，当字符串长度大于4个中文字符的时候，百度的分词程序才出马大干快上，把这个字符串肢解掉。 <br/>怎么证明呢？我们向百度提交“电影下载”，看看返回结果中标为红字的地方，不难看出来，查询已经被切割成两个单词了，说明分词程序已经开工了，如果是比4个中文字符更长的字符串，那分词程序就更不客气了，一定大卸八块而后快。我们来看看三个字符的情况，提交查询“当然择”，看起来这个查询不伦不类，那是因为我希望看到这个字符串被切分为，返回结果365篇相关页面，翻到最后一页，发现标红的关键字都是” 当然择”连续出现的情况，好像没有切分，但是还不确定，那么再提交人工分好的查询“当然择”看看，返回结果1，090，000篇，基本上可以确定没有进行分词了，当然另外一种解释是：对于三个字符先切分，然后将切分后的结果当作一个短语查询，这样看到的效果和没有切分是相似的。<br/>但是我倾向于判断百度对于少于3个字符的串没有切分，奥卡姆不是说了么“如无必要，勿增实体”，干吗做无用功呢。那么如果没有切分，会有一个随之而来的问题，怎么从索引库里面提取未切分的字符串呢？这牵扯到索引的问题，我觉得百度应该采取了两套索引机制，一种是按照单词索引，一种是按照N-GRAM索引，至于索引的具体问题，以后在详细论述。 <br/>下面我们看看百度是采取的何种分词算法，现在分词算法已经算是比较成熟了，有简单的有复杂的，比如正向最大匹配，反向最大匹配，双向最大匹配，语言模型方法，最短路径算法等等，有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是：判断一个分词系统好不好，关键看两点，一个是消除歧义能力；一个是词典未登录词的识别比如人名，地名，机构名等。 <br/>那么百度用的是什么方法？我的判断是用双向最大匹配算法。至于怎么推理得出的，让我们一步步来看。当然，这里首先有个假设，百度不会采取比较复杂的算法，因为考虑到速度问题。 <br/>我们提交一个查询“毛泽东北京华烟云”，又一个不知所云的查询，尽管不知所云但是自有它的道理，我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能，如果是正向最大匹配算法的话，那么输出应该是：”毛泽东/北京/华/烟云”，如果是反向最大匹配算法的话，那么输出应该是：”毛/泽/东北/京华烟云”，我们看看百度的分词结果：”毛泽东/北/京华烟云”，一个很奇怪的输出，跟我们的期望相差较多，但是从中我们可以获得如下信息：百度分词可以识别人名，也可以识别”京华烟云”，这说明有词典未登录词的识别的功能，我们可以假设分词过程分为两个阶段：第一阶段，先查找一个特殊词典，这个词典包含一些人名，部分地名以及一些普通词典没有的新词，这样首先将”毛泽东”解析出来，剩下了字符串”北京华烟云”，而”北/京华烟云”，可以看作是反向最大匹配的分词结果。这样基本说得通。为了证明这一点，我们提交查询”发毛泽东北”，我们期望两种分词结果，一个是正向最大匹配，一个是上述假设的结果，事实上百度输出是第二种情况，这样基本能确定百度分词采取了至少两个词典，一个是普通词典，一个是专用词典（人名等）。而且是专用词典先切分，然后将剩余的片断交由普通词典来切分。 <br/>继续测验，提交查询“古巴比伦理”，如果是正向最大匹配，那么结果应该是，如果是反向最大匹配，那么结果应该是 ，事实上百度的分词结果是，从这个例子看，好像用了正向最大匹配算法；此外还有一些例子表明好像是使用正向最大匹配的；但是且慢，我们看这个查询“北京华烟云”，正向最大匹配期望的结果是，而反向最大匹配期望的结果是 ，事实上百度输出的是后者，这说明可能采用的反向最大匹配；从这点我们可以猜测百度采用的是双向最大匹配分词算法，如果正向和反向匹配分词结果一致当然好办，直接输出即可；但是如果两者不一致，正向匹配一种结果，反向匹配一种结果，此时该如何是好呢？<br/>从上面两个例子看，在这种情况下，百度采取最短路径方法，也就是切分的片断越少越好，比如和相比选择后者，和相比选择后者。还有类似的一些例子，这样基本可以解释这些输出结果。 <br/>但是仍然遗留的问题是：如果正向反向分词不一致，而且最短路径也相同，那怎么办？输出正向的还是反向的结果？<br/>我们再来看一个例子。提交查询“遥远古古巴比伦”，这个查询被百度切分为，说明词典里面有”巴比伦”，但是是否有”古巴比伦”这个词汇不确定，此时看不出是正向切分还是反向切分得出的结果，换查询为“遥远古巴比伦”，此时被切分为“遥远/古巴比伦”，这说明词典里面有”古巴比伦”这个词汇，这说明了“遥远古古巴比伦”是正向最大匹配的结果。那为什么“遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢，百度的可能选择是这种情况下选择单字少的那组切分结果。 <br/>当然还可以继续追问：如果切分后单字也一样多，那怎么办？最后看一个例子，查询“王强大小：”，百度将其切分为“王/强大/小”，是正向切分的结果，如果是反向的会被切分为“王/强/大小”，这说明有歧义而且单字也相同则选择正向切分结果。 <br/>OK，看到这里可能头已经有些晕了，最后总结一下百度的分词算法，当然里面还是有猜测的成分，算法如下： <br/>首先查询专用词典（人名，部分地名等），将专有名称切出，剩下的部分采取双向分词策略，如果两者切分结果相同，说明没有歧义，直接输出分词结果。如果不一 致，则输出最短路径的那个结果，如果长度相同，则选择单字词少的那一组切分结果。如果单字也相同，则选择正向分词结果。 <br/>百度一直宣传自己在中文处理方面的优势，从上面看，分词算法并无特殊之处，消歧效果并不理想，即使百度采取比上述分词算法复杂些的算法也难以说成是优势，如果说百度有优势的话，唯一的优势就是那个很大的专用词典，这个专用词典登录了人名（比如大长今），称谓（比如老太太），部分地名（比如阿联酋等），估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词，逐渐扩充这个专门词典。如果这就是优势的话，那么这个优势能够保持多久就是个很明显的问题。 <br/>Spelling Checker拼写检查错误提示(以及拼音提示功能) <br/>　　 <br/>拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的. <br/>我们分析拼写检查系统关注以下几个问题: <br/>(1)系统如何判断用户的输入是有可能发生错误的查询呢? <br/>(2)如果判断是可能错误的查询输入,如何提示正确的词汇呢? <br/>　　 <br/>那么百度是如何做的呢?百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇. <br/>那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询" 制才",百度提供的提示词汇为: “:制裁 质材纸材",都是同 音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材",另外还有一 个标注拼音程序,现在能够看到的基本流程是: 用户输入" 制才",查词典,发现没有这个词汇,OK,启动标注拼音程序,将" 制才"标注为拼音"zhi cai",然后查找同音词词典,发现同音词" 制裁,质材,纸材",那么提示用户可能的正确拼写. <br/>整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标准,选择其中几个输出.怎么证明这一点?我们看看拼音"liu li"的同音词,紫光输入法提示同音词汇有" 流丽 流离 琉璃流利"4个,我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,百度提示: " 琉璃刘丽 刘莉 ",这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?<br/>我能够猜测到的方法是对于用户查询LOG进行统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索"琉璃"次数比其它的都要高些,次之是" 刘丽",再次是" 刘莉",看来大家都喜欢查询自己或者认识的人的名字. <br/>另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词条?是否包含一字词? 这里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?<br/>反正只要是汉字就能在词表里面找到,所以没有判断依据.二字词是包含的,上面有例子,三字词也包含,比如查询 "中城药"百度错误提示:"中成药",修改查询为"重城药",还是提示"中成药" ,再次修改查询 "重城要",百度依然提示"中成药". 那么4字词汇呢? <br/>百度还是会给你提示的,下面是个例子: <br/>输入:静华烟云 提示 京华烟云 <br/>输入:静话烟云 提示 京华烟云 <br/>输入:静话阎晕 提示 京华烟云 <br/>那么更长的词汇是否提 示呢?也提示,比如我输入: "落花世界有风军",这个查询是什么意思,估计读过古诗的都知道,看看百度的提示"落花时节又逢君",这说明什么?说明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的. <br/>但是,如果用户输入的 查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就罢工了,比如输入查询"哀体",百度提示"艾提 挨踢",但是.输入为 "我 哀体 ",则没有任何错误提示. <br/>还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷懒,它根本就没有对多音字做处理.我们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误的,我们输入查询"俱长",百度提示"剧场 局长", “俱长"的拼音有两个:"ju zhang /ju chang" ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询"剧常",百度 提示":剧场局长",提示为"剧场"当然好解释,因为是同音字,但是为什么 "局长"也会被提示呢?这说明百度的同音字词典有错误,说明在"ju chang"这个词条里面包含"局长"这个错误的同音词.让我们顺藤摸瓜,这个错误又说明什么问题呢?<br/>说明百度的同音词典是自动生成的,而且没有人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个词典的词条来标注音节的,<br/>所以对于多音字造成的错误无法识别出来,如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标注. 当然还有另外一种解释,就是"局长"是故意被百度提示出来可能的正确提示词汇,因为考虑到南方人"zh"和 "ch"等前后鼻音分不清么,那么是这样的么?我们继续测试到底是何种情况.是百度有错误还是这是百度的先进的算法? <br/>我们考虑词汇"长大 ",故意错误输入为"赃大",如果百度考虑到了前后鼻音的问题,那么应该会提示"长大",但是百度提示是"藏大".这说明什么?说明百度并没有考虑前后鼻音问题,根本就是系统错 误. 我们输入查询"悬赏",故意将之错误输入为"悬桑",没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们输入":经常",故意改为后鼻音 "经缠",百度提示为"经产 经忏",还是没有考虑后鼻音.这基本可以确定是百度系统的错误导致. <br/>根据以上推导, 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼音,然后形成同音词词典,所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式形成同音词词典.这样的同音词词典显然包含着很多错误. <br/>最后一个问题:百度对于英文进行拼写检查么?让我们试试看,输入查询"china",不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊喜.变换一下查询"chine",会更加意外惊喜的给我们提示"china"吗?<br/>百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能了.那么拼音搜索和中文检查错误是否采用同一套同音词词典呢,让我们来实验一下,搜索"rongji",百度提示" 榕基 溶剂 容积",OK,换个中文查询"容机",百度提示" 榕基溶剂容积",看来使用的是同一套同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度的"事实上是一个无比强大的拼音输入法"的拼音提示功能么? <br/>最后让我们总结归纳一下百度的拼写检查系统: <br/>后台作业: <br/>(1)前面的文章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中的每个词条,然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注为"zhang da/chang da"两个词条. <br/>(2)通过标注完的 词条,建立同音词词典,比如上面的"长大",会有两个词条: zhang daà长大" , chang daà长大. <br/>(3)利用用户查询LOG频率信息给予每个 中文词条一个权重; <br/>(4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大; <br/>　　 <br/>拼写 检查: <br/>(1)用户输入查询,如果是多个子字符串,不作拼写检查; <br/>(2)对于用户查询,先查分词词典,如果发现有这个单词词条,OK, 不作拼写检查; <br/>(3)如果发现词典里面不包含用户查询,启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注; <br/>(4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提示; <br/>(5)如果发现有词条,则按照顺序输出权重比较大的几个提 示结果; <br/>　　 <br/>拼音提示: <br/>(1)对于用户输入的拼音在同音词词典里面扫描,如果没有发现则不作任何提示; <br/>(2)如果 发现有词条,则按照顺序输出权重比较大的几个提示结果; <br/>上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误. <br/>那么以前的分析有什么漏洞呢?<br/>我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典,一个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成,另外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出"京华烟云",剩下"北",没什么好切分的,所以输出. <br/>这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例子"山东北京华烟云",百度切分的结果是,如果"京华烟云"在普通词典,如果是反向切分,那么结果应该是,如果是正向切分应该是,无论如何都分不出.这说明什么?<br/>说明"京华烟云"是在那个专有词典,所以先切分出"京华烟云",然后剩下的"山东北"交由普通词典切分,明显是正向最大匹配的结果输出.当然按照我们在第一篇文章的算法推导"山东北"的切分也会得出的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便的方法了.所以初步判断百度采取的是正向最大匹配. <br/>我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面不能出现相对特殊的词汇,构筑查询"天才能量级",这里应该没有专有词典出现过的词汇,百度切分为,看来是正向最大匹配的结果.另外,如果所有查询词汇都出现在专有词典,那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?<br/>我们构造查询"铺陈晓东方",百度切分为,可以看出 "陈晓东"是在专有词典的所以先切分出来.另外一个例子 "山东京城",百度切分为,说明"东京"是在普通词典的.OK,构造查询"陈晓东京华烟云",通过前面分析可以看出两个词汇都在专有词典里面,百度切分为,说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹配.那么使用反向最大匹配了吗? 构造查询例子"陈晓东方不败",首先我们肯定"陈晓东"和"东方不败"都是在专有词典出现的,如果是正向切分,那么应该是或者如果是反向切分则是,可以看出百度的切分是或者,说明采用的是正向最大匹配.通过分析,百度的词典不包含"不败"这个单词,所以实际上百度的切分结果是 ,很明显这和我们以前推导的算法是有矛盾的,所以以前的分析算法确实有问题,所以结论是百度采取的是正向最大匹配算法. <br/>重新归纳一下百度的分词算法系统:首先用专有词典采用最大正向匹配分词,切分出部分结果,剩余没有切分交给普通词典,同样采取正向最大匹配分词,最后输出结果. <br/>另外,GOOGLE也是采用正向最大匹配分词算法,不过好像没有那个专用词典,所以很多专名都被切碎了. <br/>从这点讲,GOOGLE在中文词典构建上比百度差些,还需要加把子力气才行,不过这也不是什么多难的事.<br/> <br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/%25E4%25B8%25AD%25E6%2596%2587%25E5%2588%2586%25E8%25AF%258D/" rel="tag">中文分词</a> , <a href="http://www.bloghuman.com/tags/%25E4%25B8%25AD%25E6%2596%2587%25E5%2588%2587%25E8%25AF%258D/" rel="tag">中文切词</a> , <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E7%25AE%2597%25E6%25B3%2595/" rel="tag">搜索算法</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/316/</link>
<title><![CDATA[远离自动产生的链接]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Thu, 23 Aug 2007 04:38:53 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/316/</guid> 
<description>
<![CDATA[ 
	发表者: 谷海一粟<br/>转载自谷歌中文网站管理员博客 <br/><br/><strong>好网站的特性</strong><br/><br/>好的网站通常内容丰富、更新及时。好的网站往往链接其他好网站，同时也吸引更多点击。自然的链接是谷歌页面排名算法决定排名的因素之一，但是，很多网站管理员认为“反向链接越多，网站的排名越高”。这一理论是错误的。<br/><br/>谷歌的排名算法对网站的评价是一个多元化的系统。在考虑反向链接的同时会甄别有效链接和自动产生的链接。一个明显的例子就是 2007 年 5 月份结束的渡虎谷大赛，谷歌排名第一的网站的反向链接总数是 3,600 个左右, 其他许多低排名网站的反向链接超过了 10,000 个，大多数的链接是程序产生的链接。<br/><br/><strong>什么是自动产生的链接？</strong><br/><br/>我们常看到的程序自动产生的链接有两种：<br/><br/>1. 使用群发软件所产生的链接<br/>2. 使用程序自动往自己或合作伙伴的网页中加链接。<br/><br/>这是一个由群发软件产生自动链接并发表在留言簿上的例子：<br/> &nbsp; &nbsp;<br/><a href="http://googlechinablog.com/uploaded_images/autolink1-739429.jpg" target="_blank"><img src="http://googlechinablog.com/uploaded_images/autolink1-739429.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>这是一个由程序在自己或合作伙伴的网页上添加自动链接的例子：<br/> &nbsp; &nbsp;<br/><a href="http://googlechinablog.com/uploaded_images/autolink2-767760.jpg" target="_blank"><img src="http://googlechinablog.com/uploaded_images/autolink2-767760.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>请注意图中的“表”和“上汽”的拙劣链接。<br/><br/>我们对自动链接的处理<br/><br/>网站通过买卖链接，自助链接，和程序自动产生的链接与谷歌网站管理员指南相抵触。请注意，如果你的网站有自动产生的链接，我们会有如下处理：<br/><br/>1. 谷歌不会给予自动产生的链接任何权重<br/>2. 如果一个网站为自己产生不自然的链接，该网站在谷歌中的排名会受到影响并可能被从我们的索引中移去。<br/><br/>最后，我想强调的是，网站管理员应该把重点放在建立更好的内容和发现自然链接上。想了解更多关于建立高质量网站的信息，请访问<a href="http://www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=40349" target="_blank">如何建立一个对谷歌友好的网站</a>。 <br/><br/>Tags - <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E5%258F%258D%25E5%2590%2591%25E9%2593%25BE%25E6%258E%25A5/" rel="tag">反向链接</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/310/</link>
<title><![CDATA[Google宣布去掉“补充材料”标记]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 01 Aug 2007 09:24:40 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/310/</guid> 
<description>
<![CDATA[ 
	　　所谓的“补充材料”，也即Google搜索结果里的“Supplemental Results”标记。简单地说，Google有两大索引数据库，一个是主索引数据库，当你在Google里搜索时，得到的常规搜索结果就是直接来自主索引数据库；当网站的某些网页链接过于复杂（比如参数过多），或者网页的PR值很低，又或者网页内容和其它网页重复等等，这些原因都可能导致Google将网页收录进补充索引数据库里。被收录进补充索引数据库的网页，一般会被Google标记为“补充材料”。这种做法始于2003年。<br/><br/>　　在去年年底以前，网页被标记为“补充材料”后，它就等于被Google打入冷宫了。只有当主索引数据库里实在没有相关的结果，Google才会把“补充材料”网页加进常规搜索结果里。此外，Google通常不会或隔很长时间才会重复抓取和分析这些“补充材料”网页。因此如果一个网站有越多的内容被 Google标记为“补充材料”，那么网站被搜索到的机会也就越小了。不过Google也意识到这样的处理方式会损害用户的搜索体验，因为有进候，用户想找的内容刚好就是“补充材料”里的网页。<br/><br/>　　于是在去年年初，Google的基层架构全面升级至Big Daddy后， Google便开始改变这种处理方式。直至去年年底，Google终于作出了一些重要的改变。Google全面改进了抓取系统，比如能处理链接里的更多参数、突破网站更多限制（比如支持JS文档抓取、增强对多媒体内容的抓取等），努力提高了对“补充材料”的抓取及更新频率、范围，使“补充材料”和常规结果之间的差距越来越小。因此用户在搜索时，可直接获得比之前更多的来自“补充材料”的网页结果。Google还透露，未来的目标是确保每次搜索都能直接查询补充索引数据库的内容，并且预计这个目标会在今年夏天达成。<br/><br/>　　由于“补充材料”和常规结果之间的差距越来越小，因此Google觉得不必要再特地将来自补充索引数据库的网页标记为“补充材料”，于是它决定停止了这一做法。换言之，“补充材料”将成为历史。这意味着以后我们在Google上面进行搜索，将得到更准确及更全面的搜索结果，因为Google的两大索引数据库正在融合。去掉补充材料对<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>优化能产生什么样的影响，是仅仅形式上的人性化还是在底层网页权重级别判断上真正不再细致划分？总之，希望GOOGLE的算法更完整更贴近用户实际的搜索需求<br/>Tags - <a href="http://www.bloghuman.com/tags/%25E8%25A1%25A5%25E5%2585%2585%25E6%259D%2590%25E6%2596%2599/" rel="tag">补充材料</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/304/</link>
<title><![CDATA[Google AdSense防欺骗原理]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 16 Jul 2007 14:28:56 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/304/</guid> 
<description>
<![CDATA[ 
	Google AdSense防欺骗原理:<br/><br/> &nbsp; &nbsp; &nbsp;随着在线广告的流行，pay by per click (每次点击付钱)的模式 逐渐被大家接受。可是随之而来的问题就是fraud clicking的预防迫在眉捷，因为这将直接关系到这种广告模式能否长久生存和能否成为一种真正的网站拥有者的收入来源。<br/><br/> 下面介绍Google Adsense系统如何从系统角度出发防止点击欺骗，希望对其它的在线广告系统防止虚假点击能有很好的指导作用:<br/><br/>　　1] 点击率 = 点击次数/共浏览的次数。 点击率是一个判断是否有无fraud clicks的关键的方法，可以想像一个网站上的广告的点击率超过10%将意味这什么。 <br/><br/>　　2] 点击覆盖率/独立IP ，这个分布里如果有;单个IP 的(点击/浏览)=点击覆盖率超出了3倍的系统误差范围内将有作弊的嫌疑。<br/><br/>　　例子，例如来自 129.119.200.1 的用户浏览了 16个网页，点击了4个广告，而整个广告的点击率「从[1]里计算的到」是5%，那么计算得到:<br/><br/>　　%5 X 16 =~ 1，方差为Sqrt(1) = 1，点击覆盖率=4/1 = 4 ，根据数学上高斯分布，这种概率小于万分之一。<br/><br/>　　3] 点击率『点击覆盖率』/IP/时间<br/><br/>　　根据时间序列对点击率进行分析，如果在某一个时间段上有明显的峰值，那么这将以为着有潜在的欺骗点击的可能。<br/><br/>　　Ratio VS time<br/><br/>　　4] 网页load的时间和 广告点击时间差的分析，以及每两次click之间时间差序列的分析<br/><br/>　　[网页load的时间和 广告点击时间差] 应该是一个泊松分布 possion distribution，而每两次click之间的时间差也应该是一个Possion distribution，如果这个时间用秒记，大于25秒的话基本上呈现高斯分布的形状。<br/><br/>　　5] 针对Proxy点击的分析<br/><br/>　　改变IP进行点击可以说在以往是最难以解决最难以发现作弊方式，大概国人进行Alexa的Boost时就多半采用了Proxy进行虚假点击的方法，可是这里只要通过反向监查IP的来源是否是带有Proxy功能的服务器就可以知道了。<br/><br/>　　Reverse Proxy check<br/><br/>　　6] 针对 http_agent的分析<br/><br/>　　Http_agent/时间 的时间序列的分析，峰值超过3方差需要审查<br/><br/>　　7] 针对 http_referral 的分析<br/><br/>　　referral/时间 的时间序列的分析 ，峰值超过3方差需要审查<br/><br/>　　8] 整体效果上还有一个非常有用的量:<br/><br/>　　所有用户的有效的每千次展示费用的均值/独立IP<br/> &nbsp; &nbsp; &nbsp; &nbsp;这个将能更加直接找到spam clicking 的运行计算机并且予以封杀。<br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/adsense/" rel="tag">adsense</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/302/</link>
<title><![CDATA[如何解决GOOGLE“该网站可能会损害您的计算机”]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 04 Jul 2007 03:51:59 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/302/</guid> 
<description>
<![CDATA[ 
	最近在Google搜索结果中发现一些新的情况，某些网站在SERP中被标识了“该网站可能会损害您的计算机”的提示语句。病毒、木马的危害对于中国网民而言，将会使非常可怕的事情；试想，如果网民在SERP页面发现即将点击的站点被列在有危害可能的网站，可想而知，该网站的点击率将会下降。<br/><br/>那这个提示用户的语句究竟是怎么回事呢？听听Goolge是如何解释的：<br/><br/>关于恶意软件警告：“该网站可能会损害您的计算机”<br/><br/>&nbsp;&nbsp;在现今资讯科技发达的时代，我们几乎做什么事都离不开网络了，网站的安全性显得日益重要。那些含有恶意软件的网站，常常导致用户的电脑发生问题、信用卡或是银行账户号码被泄漏、甚至身份被盗窃，造成无数的金钱损失。Google（谷歌）一直致力于保护用户不被连结至传播恶意软件的网站，希望将用户受到恶意软件危害的几率降至最低。因此，谷歌与 StopBadware.org 合作，于搜索结果中对那些在 StopBadware 公布的指南下被判定为发布恶意软件的网站标示警告：该网站可能会损害您的计算机。身为网站管理员，您可能很关切自己的网站被加注该警告的可能性；但我们要向您保证，我们很认真看待您的疑虑，并且非常小心以避免错误的标示。<br/><br/>&nbsp;&nbsp;其实，向用户提出警告只能解决部分的问题。我们更重要的目的是帮助网站管理员们保护自己的用户，与他们一起努力来消除威胁。多数被标示警告的网站，并非有意散布恶意软件，而是因为被黑客入侵了。我们发现，许多网站管理员不知道他们的网站遭到入侵；当他们看到自己努力耕耘的网站竟然在搜索结果中被标示了这个警告，都感到非常意外。在此，我们要推荐您使用谷歌网站管理员工具，以便您能及早发现您的网站被标示了警告。我们将恶意软件通知与网站管理员工具结合，并通过电子邮件发送给部分网站被标示警告的网站管理员。如果您的网站被判定为散布恶意软件，您会在网站管理员工具的“诊断” 标签下看到相关的警告，以及找到帮助您纠正这个问题的信息。此外，该页也显示了您网站上被判定为危险网址的范例。当您因为找不到恶意软件的藏身之处而头疼的时候，这个提示便可助您一臂之力。例如，受到入侵网站的常见情形是被插入一个像素的 iframe，而造成了自动从其他网站下载恶意软件。通过提供网址的示例，网站管理员可以进一步查找问题的来源，并作出修正来加强网站的安全。<br/><br/>&nbsp;&nbsp;如果您清除了您网站上所有的恶意软件，或是您认为您的网站被误判了，请访问http://stopbadware.org/home/review&nbsp;&nbsp;要求复审。一旦复审成功，您的网站将不再被标示该警告，而您的用户也会因为您的努力而受到更多的保障。然而我们还是要提醒您，即使您的网站没有恶意软件的警告标示，并不代表您的网站一定是安全无虞的。您可以参考 StopBadware 所提供的一些小技巧来加强您网站的安全；持续不断的保护及监控您的网站才是避免恶意软件入侵的不二选择。<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/stopbadware/" rel="tag">stopbadware</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/293/</link>
<title><![CDATA[PR的下降与网站内容质量有关？]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Sat, 12 May 2007 16:40:31 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/293/</guid> 
<description>
<![CDATA[ 
	今天偶然的机会拜访了下<a href="http://www.seofans.cn/" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>爱好者</a>，看到这样一篇文章：PR的下降与网站内容质量有关？<br/><br/><hr/><br/>今天看到了采访Google中国工程研究院副院长刘骏老师的文章（http://news.mydrivers.com/1/82/82960.htm），当提到中国PR普遍下降的问题，刘先生的回答让我很惊讶，他说这个问题原因很多，比如复制等等……<br/><br/>PR不是链接量化计算方式么？Google官方虽然说明比较含糊，但是还是指出了PR的精髓就是链接质量与数量。完全没有提到网站内容质量云云……<br/><br/>怎么会和网站内容上靠上边？我想现在PR计算方式已经不是我们几年前所认识的PR机制了，在解释PR下降的问题上，我们往往都是从外部链接上分析，可能是与交换链接网站的PR下降间接影响了自己。<br/><br/>我们经常抱怨，外国的PR往往比我们高，凭心而论，外国的确比较尊重版权，复制并不多，刘老师的话很明显，中国网站PR普遍低的原因就是采集、复制。我想这个比较可信，因为Google多次申明自己的PR算法是全球统一，不会因地而异。<br/><br/>其实中国优质网站总量比较少，在一定程度上也影响了中国网站的PR，这个也是很大的因素之一。<br/><br/>如果刘老师的回答没有敷衍之词，或许这个回答也解释了为什么少数网站并没有什么外部链接，却也有3—4的PR值，到底是什么方式鉴定网站内容质量问题？虽然我并不清楚，不过“补充材料”或许能很好挑选有价值网页，是不是网站内的“补充材料”页面的比率直接影响网站内容的质量高低?其实Google很容易能分辨网站质量，但是我实在没有想到能和PR联系在一起。<br/><br/>既然PR受到网站质量的影响，反过来说，PR在一定程度上反应了网站内容质量，如果这是真的，那么，现在流行的PR无用论又被推翻了。如果我的猜测是事实的话，PR这个“花哨”的东西又开始吃香了……<br/><hr/><br/><br/>我是最近几天注意到PR的变化，虽然我的<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a>仍保持在4，但据了解，很多网站的PR都降了。<br/><br/>PR值与网站内容质量有关，黑色梦中不赞同这种说法；我更倾向于把原因归结在链接质量，二PR值大幅度下降可能是GOOGLE应对中国疯狂的SEO链群的一种策略的结果。<br/><br/>PR是GOOGLE以前的核心排名算法，既然是算法，个人理解是一种逻辑，算法是可以不断完善的，以不断根据实际需要进行调整，但是。。。算法的出发点是不会变化的，PR是有专利权的；如果说，GOOGLE更加注重内容质量，调整排名影响因素的比重，那大可以使用新的算法来控制其他排名因素，譬如：神经算法，以对中国地区的互联网大量重复性内容进行科学的筛选和判断，应该不会改变以前适用的PR算法。<br/><br/>那为什么中国网站的PR普遍下降？原因何在？<br/><br/>我认为是链接的相关性权重被进一步提升，每个链接源引出的链接都将经过严格的算法检查，对于特殊的链接源进行忽略，以防止大量的垃圾链接对搜索结果质量的影响.也许自然的单向链接将获得更多的权重。<br/><br/>PR真的那么重要吗？我想不是，起码不是决定性的因素，根据个人经验，PR影响已经不足30%，说PR也还未必准确，应该说外链质量，因为已有太多的实例证明了这一点；忘记PR值吧，考究你获得的每个导入链接，通过正确的思路来建立链接，效果会更好～<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中SEO博客</a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/pr/" rel="tag">pr</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/285/</link>
<title><![CDATA[谷歌发布网站广告优化器]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Sat, 07 Apr 2007 07:04:30 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/285/</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4月6日消息，Google(谷歌)正式发布<a href="http://www.rambosem.com/website_optimization.html" target="_blank" title="http://www.rambosem.com/website_optimization.html" class="mykeyword">网站优化</a>器。据称。该工具是可以帮助AdWords 广告主将更多的访问量转化为销售量、注册量或下载量。<br/><br/>　　据悉，谷歌网站优化器是一款多功能的登陆页面优化工具，可以让营销人员得以测试各种有关网页内容的想法，例如标题、促销性副本或图像等。该应用提供了易于阅读的报告，让广告主清晰地看到究竟哪一种变化最能引起站点访问者的共鸣。它是一种自助式应用，让站长自己动手设置和运行不同类型的登陆页面实验。<br/><br/>　　官方透露，Google(谷歌)网站优化器(<a href="http://www.google.com/websiteoptimizer" target="_blank">www.google.com/websiteoptimizer</a>)目前为试用版，它整合到了Google(谷歌)AdWords计划中，并免费提供给AdWords广告主。<br/><br/>　　据称今后的几个星期，谷歌网站优化器应用自动对所有广告主的帐号开放。站长可以根据最高的转化率来判断哪些内容是最有效的。<br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/adsense/" rel="tag">adsense</a> , <a href="http://www.bloghuman.com/tags/%25E8%25B0%25B7%25E6%25AD%258C/" rel="tag">谷歌</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E7%25AB%2599%25E4%25BC%2598%25E5%258C%2596%25E5%2599%25A8/" rel="tag">网站优化器</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/273/</link>
<title><![CDATA[百度中文分词算法分析之三]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Thu, 01 Feb 2007 06:10:01 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/273/</guid> 
<description>
<![CDATA[ 
	<strong>百度分词算法的进一步分析 </strong> <br/><br/>上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.&nbsp;&nbsp;<br/><br/>那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为<北,京华烟云>,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是<北京,华,烟云>,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典,一个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成<北,京华烟云>,另外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出"京华烟云",剩下"北",没什么好切分的,所以输出<北,京华烟云>.&nbsp;&nbsp;<br/><br/>这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例子"山东北京华烟云",百度切分的结果是<山东,北,京华烟云>,如果"京华烟云"在普通词典,如果是反向切分,那么结果应该是<山,东北,京华烟云>,如果是正向切分应该是<山东,北京,华,烟云>,无论如何都分不出<山东,北,京华烟云>.这说明什么?说明"京华烟云"是在那个专有词典,所以先切分出"京华烟云",然后剩下的"山东北"交由普通词典切分,明显是正向最大匹配的结果输出<山东,北>.当然按照我们在第一篇文章的算法推导"山东北"的切分也会得出<山东,北>的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便的方法了.所以初步判断百度采取的是正向最大匹配.&nbsp;&nbsp;<br/><br/>我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面不能出现相对特殊的词汇,构筑查询"天才能量级",这里应该没有专有词典出现过的词汇,百度切分为<天才,能量,级>,看来是正向最大匹配的结果.另外,如果所有查询词汇都出现在专有词典,那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?我们构造查询"铺陈晓东方",百度切分为<铺,陈晓东,方>,可以看出"陈晓东"是在专有词典的所以先切分出来.另外一个例子 "山东京城",百度切分为<山东,京城>,说明"东京"是在普通词典的.OK,构造查询"陈晓东京华烟云",通过前面分析可以看出两个词汇都在专有词典里面,百度切分为<陈晓东,京华烟云>,说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹配.那么使用反向最大匹配了吗?构造查询例子"陈晓东方不败",首先我们肯定"陈晓东"和"东方不败"都是在专有词典出现的,如果是正向切分,那么应该是<陈晓东,方,不败>或者<陈晓东,方,不,败>如果是反向切分则是<陈,晓,东方不败>,可以看出百度的切分是<陈晓东,方,不败>或者<陈晓东,方,不,败>,说明采用的是正向最大匹配.通过分析,百度的词典不包含"不败"这个单词,所以实际上百度的切分结果是<陈晓东,方,不,败>,很明显这和我们以前推导的算法是有矛盾的,所以以前的分析算法确实有问题,所以结论是百度采取的是正向最大匹配算法.&nbsp;&nbsp;<br/><br/>重新归纳一下百度的分词系统:首先用专有词典采用最大正向匹配分词,切分出部分结果,剩余没有切分交给普通词典,同样采取正向最大匹配分词,最后输出结果.&nbsp;&nbsp;<br/><br/>另外,GOOGLE也是采用正向最大匹配分词算法,不过好像没有那个专用词典,所以很多专名都被切碎了.&nbsp;&nbsp;<br/><br/>从这点讲,GOOGLE在中文词典构建上比百度差些,还需要加把子力气才行,不过这也不是什么多难的事.&nbsp;&nbsp;<br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/%25E4%25B8%25AD%25E6%2596%2587%25E5%2588%2586%25E8%25AF%258D/" rel="tag">中文分词</a> , <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E7%25AE%2597%25E6%25B3%2595/" rel="tag">搜索算法</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/272/</link>
<title><![CDATA[百度中文分词算法分析之二]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Thu, 01 Feb 2007 06:08:37 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/272/</guid> 
<description>
<![CDATA[ 
	<strong>Spelling Checker拼写检查错误提示(以及拼音提示功能) </strong>　　 <br/>拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的. <br/>　　我们分析拼写检查系统关注以下几个问题: <br/>　　(1)系统如何判断用户的输入是有可能发生错误的查询呢?&nbsp;&nbsp;<br/>　　(2)如果判断是可能错误的查询输入,如何提示正确的词汇呢? <br/>　　 <br/>　　那么百度是如何做的呢?百度判断用户输入是否错误的 标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果 是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇. <br/>　 　那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询" 制才",百度提供的提示词汇为: “:制裁 质材 纸材",都是同 音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材",另外还有一 个标注拼音程序,现在能够看到的基本流程是: 用户输入" 制才",查词典,发现没有这个词汇,OK,启动标注拼音程序,将" 制才"标注为拼音"zhi cai",然后查找同音词词典,发现同音词" 制裁,质材,纸材",那么提示用户可能的正确拼写. <br/>　　整体流程看起来很简单,但是还有一些遗留 的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输 出而是选择一定筛选标准,选择其中几个输出.怎么证明这一点?我们看看拼音"liu li"的同音词,紫光输入法提示同音词汇有" 流丽 流离 琉璃 流利"4个,我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,百度提示: " 琉璃刘丽 刘莉 ",这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?我能够猜测到的方法是对于用户查询LOG进行 统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索"琉璃"次数比其它的都要高些,次之是" 刘丽",再次是" 刘莉",看来大家都喜欢查询自己或者认识的人的名字. <br/>　　另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词 条?是否包含一字词? 这里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?反正只要是汉字就能在词表 里面找到,所以没有判断依据.二字词是包含的,上面有例子,三字词也包含,比如查询 "中城药"百度错误提示:"中成药",修改查询为"重城药",还 是提示"中成药" ,再次修改查询 "重城要",百度依然提示"中成药". 那么4字词汇呢? <br/>　　百度还是会给你提示的,下面是个例子: <br/>　　输入:静华烟云 提示 京华烟云 <br/>　　输入:静话烟云 提示 京华烟云 <br/>　　输入:静话阎晕 提示 京华烟云 <br/>　　那么更长的词汇是否提 示呢?也提示,比如我输入: "落花世界有风军",这个查询是什么意思,估计读过古诗的都知道,看看百度的提示"落花时节又逢君",这说明什么?说 明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的. <br/>　　但是,如果用户输入的 查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就罢工了,比如输入查询"哀体",百度提示"艾提 挨踢",但是.输入为 "我 哀体 ",则没有任何错误提示. <br/>　　还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷懒,它根本就没有对多音字做处理.我 们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误的,我们输入查询"俱长",百度提示"剧场 局长", “俱长"的拼音有两个:"ju zhang /ju chang" ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询"剧常",百度 提示":剧场局长",提示为"剧场"当然好解释,因为是同音字,但是为什么 "局长"也会被提示呢?这说明百度的同音字词典有错误,说明在"ju chang"这个词条里面包含"局长"这个错误的同音词.让我们顺藤摸瓜,这个错误又说明什么问题呢?说明百度的同音词典是自动生成的,而且没有 人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个 词典的词条来标注音节的,所以对于多音字造成的错误无法识别出来,如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标注. 当然还有另外一种解释,就是"局长"是故意被百度提示出来可能的正确提示词汇,因为考虑到南方人"zh"和 "ch"等前后鼻音分不清么,那么是这 样的么?我们继续测试到底是何种情况.是百度有错误还是这是百度的先进的算法? <br/>　　我们考虑词汇"长大 ",故意错误输入为"赃大",如果 百度考虑到了前后鼻音的问题,那么应该会提示"长大",但是百度提示是"藏大".这说明什么?说明百度并没有考虑前后鼻音问题,根本就是系统错 误. 我们输入查询"悬赏",故意将之错误输入为"悬桑",没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们 输入":经常",故意改为后鼻音 "经缠",百度提示为"经产 经忏",还是没有考虑后鼻音.这基本可以确定是百度系统的错误导致. <br/>　　根据以 上推导, 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼音,然后形成同音词词典,所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式 形成同音词词典.这样的同音词词典显然包含着很多错误. <br/>　　最后一个问题:百度对于英文进行拼写检查么?让我们试试看,输入查 询"china",不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊喜.变换一下查询"chine",会更加意外惊喜的给我们提 示"china"吗?百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能了.那么拼音搜索和中文检查错误是否采用同一套同音词词典 呢,让我们来实验一下,搜索"rongji",百度提示" 榕基 溶剂 容积",OK,换个中文查询"容机",百度提示" 榕基 溶剂容积",看来使用的是同一套 同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度的"事实 上是一个无比强大的拼音输入法"的拼音提示功能么? <br/>　　最后让我们总结归纳一下百度的拼写检查系统: <br/>　　后台作业: (1)前面的文 章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中 的每个词条,然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注为"zhang da/chang da"两个词条. <br/>　　(2)通过标注完的 词条,建立同音词词典,比如上面的"长大",会有两个词条: zhang daà长大" , chang daà长大. <br/>　　(3)利用用户查询LOG频率信息给予每个 中文词条一个权重; <br/>　　(4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大; <br/>　　 <br/>　　拼写 检查: <br/>　　(1)用户输入查询,如果是多个子字符串,不作拼写检查; <br/>　　(2)对于用户查询,先查分词词典,如果发现有这个单词词条,OK, 不作拼写检查; <br/>　　(3)如果发现词典里面不包含用户查询,启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注; <br/>　　 (4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提示; <br/>　　(5)如果发现有词条,则按照顺序输出权重比较大的几个提 示结果; <br/>　　 <br/>　　拼音提示: <br/>　　(1)对于用户输入的拼音在同音词词典里面扫描,如果没有发现则不作任何提示; <br/>　　(2)如果 发现有词条,则按照顺序输出权重比较大的几个提示结果; <br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/%25E4%25B8%25AD%25E6%2596%2587%25E5%2588%2586%25E8%25AF%258D/" rel="tag">中文分词</a> , <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E7%25AE%2597%25E6%25B3%2595/" rel="tag">搜索算法</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/271/</link>
<title><![CDATA[百度中文分词算法分析之一]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Thu, 01 Feb 2007 06:07:32 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/271/</guid> 
<description>
<![CDATA[ 
	<strong>查询处理以及分词技术</strong> <br/><br/>随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为技术人员，会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起，又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据，以及大量等待去费力挖掘的金矿。 <br/><br/>但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等.这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的.我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节. <br/><br/>查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.那么我们就来看看百度到底采用了哪些所谓的核心技术. <br/><br/>我们分两个部分来讲述:查询处理/中文分词. <br/><br/>一. 查询处理 <br/><br/>用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息.那么百度在接受到用户查询后做了些什么工作呢? <br/><br/>1. 假设用户提交了不只一个查询串,比如”信息检索 理论 工具”.那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<信息检索,理论,工具>三个子字符串;这个道理简单,我们接着往下看. <br/><br/>2. 假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询”理论 工具 理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的”理论 工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理.那么是如何得出这个结论的呢?我们可以将”理论 工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容.OK.继续,我们提交查询”理论 工具 理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而GOOGLE则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的). <br/><br/>3. 假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待.至于为什么,你用查询” 电影dfdfdf下载”看看结果就知道了.当然如果查询中包含数字,也是如此办理. <br/><br/>到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开. <br/><br/>接着该干什么呢?该考虑分词的问题了.&nbsp;&nbsp;<br/><br/>二. 中文分词 <br/><br/>首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能是个字符串就切割啊?你当百度是卖锯条的么?&nbsp;&nbsp;<br/><br/>那么什么样的字符串才满足被切割的条件呢?简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才出马大干快上,把这个字符串肢解掉. <br/><br/>怎么证明呢?我们向百度提交”电影下载”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成<电影,下载>两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快.我们来看看三个字符的情况,提交查询”当然择”,看起来这个查询不伦不类,那是因为我希望看到这个字符串被切分为<当然,择>,返回结果365篇相关页面,翻到最后一页,发现标红的关键字都是”当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询”当然 择”看看,返回结果1,090,000篇,基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,这样看到的效果和没有切分是相似的.但是我倾向于判断百度对于少于3个字符的串没有切分,奥卡姆不是说了么”如无必要,勿增实体”,干吗做无用功呢.那么如果没有切分,会有一个随之而来的问题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我觉得百度应该采取了两套索引机制,一种是按照单词索引,一种是按照N-GRAM索引,至于索引的具体问题,以后在详细论述.&nbsp;&nbsp;<br/><br/>下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解.这里就不展开说了.但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等.&nbsp;&nbsp;<br/><br/>那么百度用的是什么方法?我的判断是用双向最大匹配算法.至于怎么推理得出的,让我们一步步来看.当然,这里首先有个假设,百度不会采取比较复杂的算法,因为考虑到速度问题.&nbsp;&nbsp;<br/><br/>我们提交一个查询”毛泽东北京华烟云”,又一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能,如果是正向最大匹配算法的话,那么输出应该是:”毛泽东/北京/华/烟云”,如果是反向最大匹配算法的话,那么输出应该是:”毛/泽/东北/京华烟云”,我们看看百度的分词结果:”毛泽东/北/京华烟云”,一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”毛泽东”解析出来,剩下了字符串”北京华烟云”,而”北/京华烟云”,可以看作是反向最大匹配的分词结果.这样基本说得通.为了证明这一点,我们提交查询”发毛泽东北”,我们期望两种分词结果,一个是正向最大匹配<发毛,泽,东北>,一个是上述假设的结果<发,毛泽东,北>,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名等).而且是专用词典先切分,然后将剩余的片断交由普通词典来切分.&nbsp;&nbsp;<br/><br/>继续测验,提交查询”古巴比伦理”,如果是正向最大匹配,那么结果应该是<古巴比伦,理>,如果是反向最大匹配,那么结果应该是<古巴,比,伦理>,事实上百度的分词结果是<古巴比伦,理>,从这个例子看,好像用了正向最大匹配算法;此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询”北京华烟云”,正向最大匹配期望的结果是<北京,华,烟云>,而反向最大匹配期望的结果是<北,京华烟云>,事实上百度输出的是后者,这说明可能采用的反向最大匹配;从这点我们可以猜测百度采用的是双向最大匹配分词算法,如果正向和反向匹配分词结果一致当然好办,直接输出即可;但是如果两者不一致,正向匹配一种结果,反向匹配一种结果,此时该如何是好呢?从上面两个例子看,在这种情况下,百度采取最短路径方法,也就是切分的片断越少越好,比如<古巴,比,伦理>和<古巴比伦,理>相比选择后者,<北京,华,烟云>和<北,京华烟云>相比选择后者.还有类似的一些例子,这样基本可以解释这些输出结果.&nbsp;&nbsp;<br/><br/>但是仍然遗留的问题是:如果正向反向分词不一致,而且最短路径也相同,那怎么办?输出正向的还是反向的结果?我们再来看一个例子.提交查询”遥远古古巴比伦”,这个查询被百度切分为<遥远,古古,巴比伦>,说明词典里面有”巴比伦”,但是是否有”古巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结果,换查询为”遥远古巴比伦”,此时被切分为”遥远/古巴比伦”,这说明词典里面有”古巴比伦”这个词汇,这说明了”遥远古古巴比伦”是正向最大匹配的结果.那为什么”遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢,百度的可能选择是这种情况下选择单字少的那组切分结果.&nbsp;&nbsp;<br/><br/>当然还可以继续追问:如果切分后单字也一样多,那怎么办?最后看一个例子,查询”王强大小:”,百度将其切分为”王/强大/小”,是正向切分的结果,如果是反向的会被切分为”王/强/大小”,这说明有歧义而且单字也相同则选择正向切分结果.&nbsp;&nbsp;<br/><br/>OK,看到这里可能头已经有些晕了,最后总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:&nbsp;&nbsp;<br/><br/>首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果.如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果.如果单字也相同,则选择正向分词结果..&nbsp;&nbsp;<br/><br/>百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典.如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题. <br/><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/%25E4%25B8%25AD%25E6%2596%2587%25E5%2588%2586%25E8%25AF%258D/" rel="tag">中文分词</a> , <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E7%25AE%2597%25E6%25B3%2595/" rel="tag">搜索算法</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/265/</link>
<title><![CDATA[搜索引擎蜘蛛程序名称大全]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 10 Jan 2007 01:09:17 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/265/</guid> 
<description>
<![CDATA[ 
	搜索引擎爬行抓取蜘蛛(机器人)程序HTTP头用户代理名称列表大全<br/>Search engine spider(bot) id list<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">robot/1.0=Neofonie.de<br/>0.1_hseo(at)cs.rutgers.edu=Rutgers.edu<br/>AbachoBOT (Mozilla compatible)=Crawler.de<br/>AbachoBOT=Crawler.de<br/>Abbr=http://www.suoxie.com<br/>abcdatos_botlink=Abcdatos.com<br/>abot/0.1 (abot; http://www.abot.com; abot@abot.com)=Abot.com <br/>abot/0.1=Abot.com<br/>About/0.1libwww-perl/5.47=About.com<br/>accoona=Accoona.com<br/>AcoiRobot=Acoi Picture Robot<br/>Acoon Robot v1.50.001=Acoon.de<br/>Acoon Robot v1.52=Acoon.de<br/>Acoon Robot=Accon.de<br/>ActiveWorlds/3.xx=ActiveWorlds.com<br/>admin@crawler.de=Crawler.de<br/>admin@maxbot.com=maxbot.com<br/>ADSARobot=ADSARobot<br/>AESOP_com_SpiderMan=Aesop.com<br/>agadine/1.x.x=Agada.de<br/>Agent-admin/=Daum.net<br/>ah-ha.com crawler (crawler@ah-ha.com)=Ah-ha.com<br/>ah-ha.com crawler=Ah-ha.com<br/>AIBOT/2.1=21Seek.com<br/>aipbot/1.0 (aipbot; http://www.aipbot.com; aipbot@aipbot.com)=NameProtect.com<br/>aipbot/1.0=NameProtect.com<br/>aipbot=NameProtect.com<br/>Aladin/3.324=Aladin.de<br/>Aleksika Spider/1.0=Aleksika.de<br/>AlkalineBOT/1.3=Vestris.com<br/>AlkalineBOT/1.4=Vestris.com<br/>AlkalineBOT=AlkalineBOT<br/>Allesklar/0.1 libwww-perl/5.46=Allesklar.de<br/>AltaVista-Intranet=Altavista.co.uk<br/>AmfibiBOT=Amfibi.com<br/>Amiga-AWeb/3.4.167SE=AWeb.com<br/>amzn_assoc=Amazon.com<br/>AnswerChase PROve x.0=AnswerChase.com<br/>AnswerChase x.0=AnwserChase.com<br/>AnswerChase=AnswerChase.com<br/>Antibot=AntiSeach.net<br/>antibot-V1.1.5/i586-linux-2.2=AntiSeach.net<br/>AnzwersCrawl/2.0=Anzwers<br/>A-Online Search=Jet2Web.com<br/>Aport=Aport.ru<br/>appie 1.1=Walhello.com<br/>appie=Walhello.com<br/>arachnoidea@euroseek.net=Euroseek.net<br/>Arachnoidea=Euroseek.com<br/>Aranha=Girafa.com<br/>ArchitectSpider=Excite.com<br/>archive.org_bot=Archive.org<br/>archive_org=Archive.org<br/>ask jeeves=Ask Jeeves<br/>ask.24x.info=Ask.24x.info<br/>ASPSeek/1.2.5=ASPSeek.org<br/>ASPseek/1.2.9d=ASPSeek.com<br/>ASPSeek/1.2.x=ASPSeek.org<br/>ASPSeek/1.2.xa=ASPSeek.org<br/>ASPseek/1.2.xx=ASPseek.org<br/>ASPSeek/1.2.xxpre=ASPSeek.org<br/>ASPSeek=ASPSeek.org<br/>asterias/2.0=SingingFish.com<br/>Asterias=SingingFish.com<br/>AtlocalBot/1.1 +(http://www.atlocal.com/local-web-site-owner.html)=Atlocal.com<br/>AtlocalBot=Atlocal.com<br/>Atomz/1.0=Atomz.com<br/>Atomz=Atomz.com<br/>Augurfind=Augurnet.ch<br/>augurnfind V-1.x=Augurnet.ch<br/>autohttp=Elsop.com<br/>AV Fetch 1.0=Altavista.com<br/>AVSearch=Altavista.com<br/>AVSearch-3.0=Altavista.com<br/>AxmoRobot=Axmo.com<br/>Baiduspider+=Baidu.com<br/>BaiDuSpider=Baidu.com<br/>BanBots/1.2=Banbots.com<br/>BarraHomeCrawler=BarraHome.com<br/>bdcindexer_2.6.2=Business.com<br/>BDFetch=Brandimensions.com<br/>BDNcentral Crawler v2.3=Bdncentral.com<br/>beautybot/1.0=Cosmoty.com<br/>BigCliqueBOT/1.03-dev=BigClique.com<br/>Bilbo/2.3b-UNIX=Biblo Bot<br/>BlackWidow=BlackWidow Bot<br/>Blaiz-Bee/1.0 (+http://www.blaiz.net)=Blaiz.net<br/>Blaiz-Bee/1.0=Blaiz.net<br/>BlitzBOT@tricus.net (Mozilla compatible)=Blitzsuche.rp-online.de<br/>BlitzBOT@tricus.net=Blitzsuche.rp-online.de<br/>Blog=http://www.5iya.com/blog<br/>BlogBot/1.x=Blogdex.net<br/>BlogBot=Blogdex.net<br/>Bloglines Title Fetch/1.0 (http://www.bloglines.com)=Bloglines.com<br/>blogWatcher_Spider/0.1=Blogwatcher.pi.titech.ac.jp<br/>BlogzIce/1.0 (+http://icerocket.com; rhodes@icerocket.com)=IceRocket.com<br/>BlogzIce/1.0 +http://www.icerocket.com/=IceRocket.com<br/>BlogzIce/1.0=IceRocket.com<br/>boitho.com-dc/0.xx=Boitho.com<br/>boitho.com-robot/1.x=Boitho.com<br/>BSDSeek/1.0=Inktomi.com<br/>BullsEye=Intelliseek.com<br/>bumblebee@relevare.com=Relevare.com<br/>Buscaplus Robi/1.0=Buscaplus.com<br/>Buscaplus Robi=Buscaplus.com<br/>CanSeek/=Cansee.ca<br/>ChristCRAWLER 2.0=Christcrawler.com<br/>ChristCRAWLER=Christcrawler.com<br/>CipinetBot=Cipinet.com<br/>citenikbot/=Cenik.co.uk<br/>ClariaBot/1.0=Searchscout.com<br/>Claymont.com=Claymont.com<br/>CLIPS-index=Cips-index.imag.fr<br/>Clushbot/3.3-BinaryFury (+http://www.clush.com/bot.html)=Clush.com<br/>Clushbot/3.3-BinaryFury=Clush.com<br/>Combine/x.0=Combine Bot<br/>Computer_and_Automation_Research_Institute_Crawler=Research Bot<br/>contact/jylee@kies.co.kr=Kies.co.kr<br/>Convera Internet Spider V6.x=Convera.com<br/>cosmos/0.8_(robot@xyleme.com)=Xyleme.com<br/>cosmos/0.9_(robot@xyleme.com)=Xyleme.com<br/>cosmos=Xyleme.com<br/>C-PBWF-ip3000.com-crawler=IP3000.com<br/>CrawlConvera0.1=Converna.net<br/>Crawler (cometsearch@cometsystems.com)=Findwhat.com<br/>Crawler admin@crawler.de=Crawler.de<br/>Crawler V 0.2.x admin@crawler.de=Crawler.de<br/>crawler@alexa.com=Alexa.com<br/>crawler@brainbot.com=Brainbot.com<br/>crawler@fast.no=Alltheweb.com<br/>Crawler=Crawler.de<br/>CrawlerBoy Pinpoint.com=Pinpoint.com<br/>CrawlerBoy=Pinpoint.com<br/>CrocCrawler= CrocCrawler.com<br/>Custom Spider www.bisnisseek.com /1.0=Bisnisseek.com<br/>DaAdLe.com ROBOT/=Daadle.com<br/>DataparkSearch/4.xx=DataparkSearch.com<br/>DaviesBot/1.7=Wholeweb.net<br/>DaviesBot=Wholeweb.net<br/>dbDig=Prairielandconsulting.com<br/>DBrowse 1.4b=DBrowse Bot<br/>DBrowse 1.4d=DBrowse Bot<br/>dCSbot/1.1=Openmarket.com<br/>DeepIndex=DeepIndex.com<br/>DeepIndexer.ca=DeepIndex.com<br/>deepweb=Deepweb.com<br/>Demo Bot DOT 16b= Btopenworld.com<br/>DiaGem/=Skyrocket.gr.jp<br/>DiaGem/1.1 (http://www.skyrocket.gr.jp/diagem.html)=Skyrocket.gr.jp<br/>DiaGem/1.1=Skyrocket.gr.jp<br/>Diamond/1.0=Searchscout.com<br/>Digger/1.0 JDK/1.3.0rc3=Diggit.com<br/>Digimarc WebReader=Digimarc.com<br/>DigOut4U=Arisem.com<br/>DIIbot/1.2=Digital-Integrity.com<br/>DIIbot=Digital-Integrity.com<br/>DittoSpyder=Ditto.com<br/>dloader(NaverRobot)/=Naver.com<br/>dtSearchSpider=Dtsearch.com<br/>Dumbot(version 0.1 beta - dumbfind.com)=Dumbfind.com<br/>Dumbot(version 0.1 beta)=Dumbfind.com<br/>dumrobo(NaverRobot)/=Naver.com<br/>EARTHCOM.info/1.4beta=Earthcom.info<br/>EasyDL/3.02=Keywen.com<br/>EasyDL/3.03=Keywen.com<br/>EasyDL/3.04=Keywen.com<br/>EasyDL/3.xx http://keywen.com/Encyclopedia/Bot=Keywen.com<br/>EasyDL/3.xx=Keywen.com<br/>EchO!/2.0=Voila.com<br/>egothor/3.0a (+http://www.xdefine.org/robot.html)=Xdefine.com<br/>egothor/3.0a=Xdefine.com<br/>EgotoBot/4.8=Egoto.com<br/>Enterprise_Search/1.0.xxx=Innerprise.net<br/>Enterprise_Search/1.0=Innerprise.net<br/>erik@malfunction.org=Malfunction.org<br/>EroCrawler=Erocrawler.com<br/>ES.NET_Crawler/2.0=Innerprise.net<br/>eseek-larbin_2.6.2=Exactseek.com<br/>ESISmartSpider=Travel-Finder.com<br/>ExactSeek Crawler/0.1=Exactseek.com<br/>exactseek-crawler-2.63=Exactseek.com<br/>Exalead NG/MimeLive Client=Exabot.com<br/>Excalibur Internet Spider V6.5.4=Excalib.com<br/>ExperimentalHenrytheMiragoRobot=Mirago.co.uk<br/>EyeCatcher (Download-tipp.de)/1.0=Download-tipp.de<br/>EyeCatcher=Download-tipp.de<br/>EZResult=Ezresults.com<br/>Fast Crawler Gold Edition=Alltheweb.com<br/>FAST Data Search Crawler=Alltheweb.com<br/>FAST Enterprise Crawler 6 (Experimental)=Alltheweb.com<br/>FAST Enterprise Crawler 6 used by FAST (FAST)=Alltheweb.com<br/>FAST Enterprise Crawler 6 used by FAST=Alltheweb.com<br/>FAST Enterprise Crawler 6=Alltheweb.com<br/>FAST Enterprise Crawler/6 (www.fastsearch.com)=Alltheweb.com<br/>FAST Enterprise Crawler/6=Alltheweb.com<br/>FAST FirstPage retriever (compatible; MSIE 5.5; Mozilla/4.0)=Alltheweb.com<br/>FAST FirstPage retriever=Alltheweb.com<br/>Fast PartnerSite Crawler=Alltheweb.com<br/>FastCrawler 3.0.1 (crawler@1klik.dk)=Alltheweb.com<br/>FastCrawler 3.0.1=Alltheweb.com<br/>FAST-WebCrawler/2.2.10=Altheweb.com<br/>FAST-WebCrawler/2.2.6=Altheweb.com<br/>FAST-WebCrawler/2.2.7=Altheweb.com<br/>FAST-WebCrawler/2.2.8=Altheweb.com<br/>FAST-WebCrawler/3.2 test=Altheweb.com<br/>FAST-WebCrawler/3.2=Altheweb.com<br/>FAST-WebCrawler/3.3=Altheweb.com<br/>FAST-WebCrawler/3.4/Nirvana=Altheweb.com<br/>FAST-WebCrawler/3.4/PartnerSite=Altheweb.com<br/>FAST-WebCrawler/3.5=Altheweb.com<br/>FAST-WebCrawler/3.6/FirstPage=Altheweb.com<br/>FAST-WebCrawler/3.6=Altheweb.com<br/>FAST-WebCrawler/3.7/FirstPage=Altheweb.com<br/>FAST-WebCrawler/3.7=Altheweb.com<br/>FAST-WebCrawler/3.8/Fresh=Altheweb.com<br/>FAST-WebCrawler/3.8=Altheweb.com<br/>FAST-WebCrawler/3.x Multimedia (mm dash crawler at fast dot no)=Altheweb.com<br/>FAST-WebCrawler/3.x Multimedia=Altheweb.com<br/>FAST-WebCrawler=Alltheweb.com<br/>Faxobot/1.0=FaXo.com<br/>Felix - Mixcat Crawler=Mixcat.com<br/>Felix=Mixcat.com<br/>FFC Trap Door Spider=Frequentfinders.com<br/>fido/1.0 Harvest/1.4.pl2=Planet Search<br/>FileExtension=http://www.kuozhanming.com<br/>FinaleRobot=expressus.com<br/>FindAnISP.com_ISP_Finder_v99a=FindAnISP.com<br/>FineBot=Finesearch.com<br/>Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)=Fireball.de<br/>Firefly/1.0=Fireball.de<br/>FlickBot 2.0 RPT-HTTPClient/0.3-3=DivX.com<br/>Fluffy the spider=SearchHippo.com<br/>Flunky=Metacarta.com<br/>Francis/1.0 (francis@neomo.de http://www.neomo.de/)=Neomo.de<br/>Francis/1.0=Neomo.de<br/>FreeFind.com-SiteSearchEngine/1.0=Freefind.com<br/>FyberSearch=Fybersearch.com<br/>FyberSpider=Fybersearch.com<br/>Gagglebot=Gagglebot<br/>GAIS Robot/1.0B2=Seed.net.tw<br/>Gaisbot/3.0+=Seed.net.tw<br/>Gaisbot/3.0=Seed.net.tw<br/>GalaxyBot/1.0 (http://www.galaxy.com/galaxybot.html)=Galaxy.com<br/>GalaxyBot/1.0=Galaxy.com<br/>GalaxyBot=Galaxy.com<br/>GammaSpider/1.0=Gammasite.com<br/>gazz/1.0=Infobee.ne.jp<br/>gazz@nttrd.com=Infobee.ne.jp<br/>Geckobot=Geckobot.com<br/>geckobot=Geckobot.com<br/>GenCrawler=Gendoor.com<br/>generic_crawler/01.0217/=Cmu.edu<br/>GentleSpider=Research.att.com<br/>GeonaBot=Geona.com<br/>GigaBaz=Brainbot.com<br/>GigaBazVStheWeb=Brainbot.com<br/>GigaBlast=Gigablast.com<br/>Gigabot/1.0=Gigablast.com<br/>Gigabot=Gigablast.com<br/>GigabotSiteSearch/2.0 (sitesearch.gigablast.com)=Gigablast.com<br/>GigabotSiteSearch/2.0=Gigablast.com<br/>Giskard=oralco.com<br/>GNODSPIDER=Gnod.net<br/>Goblin/0.9 (http://www.goguides.org/)=Goguides.org<br/>Goblin/0.9.x (http://www.goguides.org/goblin-info.html)=Goguides.org<br/>Goblin/0.9.x=Goguides.org<br/>Goblin/0.9=Goguides.org<br/>GoForIt.com=Goforit.com<br/>Goofer/0.2=Wanadoo.fr<br/>Google=Google.com<br/>Googlebot/1.0=Google.com<br/>Googlebot/2.1= Google.com<br/>Googlebot/Test=Google.com<br/>googlebot@googlebot.com=Google.com<br/>Googlebot=Google.com<br/>Googlebot-Image/1.0=Google.com Image Bot<br/>GrigorBot 0.8=Grigor.biz<br/>grub crawler(http://www.grub.org)=Grub.com<br/>grub-client=Grub.org<br/>gsa-crawler (Enterprise; GID-01422; jplastiras@google.com)=Google.com<br/>gsa-crawler (Enterprise; GID-01742;gsatesting@rediffmail.com)=Google.com<br/>gsa-crawler=Google.com<br/>Gulliver/1.2=Northernlight.com<br/>Gulliver/1.3=Northernlight.com<br/>Gulliver=Northernlight.com<br/>Gulper Web Bot 0.2.4=Gulper Bot<br/>Gulper Web Bot=Gulper Bot<br/>Hatena Antenna/0.4 (http://a.hatena.ne.jp/help#robot)=a.hatena.ne.jp<br/>Hatena Antenna/0.4=a.hatena.ne.jp<br/>HeinrichderMiragoRobot=Mirago.de<br/>HenrytheMiragoRobot=Mirago.co.uk<br/>HenryTheMiragoRobot=Mirago.co.uk<br/>Hippias/0.9 Beta= Hippias Bot<br/>holmes/x.x=Morfeo.centrum.cz<br/>HomePageSearch(hpsearch.uni-trier.de)=Hpsearch.uni-trier.de<br/>Homerbot: www.homerweb.com=Homerweb.com<br/>Homerbot=Homerweb.com<br/>htdig/3.1.6 (http://computerorgs.com)=Computerorgs.com<br/>htdig/3.1.x (root@localhost)=Htdig.org<br/>htdig/3.1.x=Htdig.org<br/>http://www.abcdatos.com/botlink/=Abcdatos.com<br/>Hubater=Hubat.com<br/>ia_archiver/1.6=Archive.org<br/>ia_archiver=Archive.org<br/>IAArchiver-1.0=Archive.org<br/>icsbot-0.1=Icseoul.org<br/>ideare - SignSite/1.x=Ideare.com<br/>Ideare - SignSite=Ideare.com<br/>IlTrovatore-Setaccio (+http://www.iltrovatore.it)=Iltrovatore.it<br/>Iltrovatore-Setaccio/0.3-dev=Iltrovatore.it<br/>IlTrovatore-Setaccio/1.2=Iltrovatore.it<br/>iltrovatore-setaccio/1.2-dev=Iltrovatore.it<br/>IlTrovatore-Setaccio=Iltrovatore.it<br/>IncyWincy=Incywincy.com<br/>IndexTheWeb.com Crawler7=IndexTheWeb.com<br/>Inet library=Inetlibrary.com<br/>info@searchhippo.com=Searchhippo.com<br/>InfoFly/1.0 (http://www.versions-project.org/)=Versions-project.org<br/>InfoFly/1.0= Versions-project.org<br/>InfoSeek Sidewinder/0.9=Infoseek.com<br/>InfoSeek Sidewinder/1.0A= Infoseek.com<br/>InfoSeek Sidewinder/1.1A= Infoseek.com<br/>Infoseek SideWinder/1.45 (Compatible; MSIE 10.0; UNIX)= Infoseek.com<br/>Infoseek SideWinder/1.45= Infoseek.com<br/>Infoseek SideWinder/2.0B (Linux 2.4 i686)= Infoseek.com<br/>Infoseek SideWinder/2.0B= Infoseek.com<br/>InfoSeek Sidewinder=infoseek.com<br/>Inktomi Search=Yahoo.com<br/>Inktomi=Yahoo.com<br/>InnerpriseBot/1.0 (http://www.innerprise.com/)=Innerprise.net<br/>InnerpriseBot/1.0=Innerprise.net<br/>InsumaScout=InsumaScout<br/>Internet Ninja 6.0=Dti.ne.jp<br/>InternetSeer.com= InternetSeer.com<br/>InternetSeer=InternetSeer<br/>InternetSeer=InternetSeer.com<br/>ip3000.com=ip3000.com<br/>ip3000.com-crawler=ip3000.com<br/>IPiumBot laurion(dot)com=Laurion.com<br/>ipiumBot=Laurion.com<br/>Iron33=Verno.ueda.info.waseda.ac.jp<br/>Jabot/6.x (http://odin.ingrid.org/)=Ingrid.org<br/>Jabot/6.x=Ingrid.org<br/>Jabot/7.x.x (http://odin.ingrid.org/)=Ingrid.org<br/>Jabot/7.x.x=Ingrid.org<br/>Jack=Domanova.co.uk<br/>jan.gelin@av.com=Altavista.co.uk<br/>jeeves=Ask Jeeves<br/>Jetbot/1.0=Jeteye.com<br/>JoocerBot=Joocer.com<br/>Jyxobot/x=Jyxo.cz<br/>Katriona=Katriona<br/>KE_1.0/2.0 libwww/5.2.8=Voila.fr<br/>Kenjin Spider=Kenjin.ne.jp<br/>KIT_Fireball/2.0=Fireball.de<br/>KIT-Fireball/2.0 (compatible; Mozilla 4.0; MSIE 5.5)=Fireball.de<br/>KIT-Fireball/2.0=Fireball.de<br/>KIT-Fireball=Fireball.de<br/>Knowledge.com/0.x=Knowledge.com<br/>Kototoi/0.1=s.u-tokyo.ac.jp<br/>kuloko-bot/0.2=Kuloko.com<br/>kuloko-bot/0.x=Kuloko.com<br/>Kulokobot=Kuloko.com<br/>kulturarw3/0.1=National Library of Sweden<br/>LEIA/3.01pr (LEIAcrawler; [SNIP])=Gseek.com<br/>LEIA=Gseek.com<br/>LexiBot=Lexibot.com<br/>LNSpiderguy=Lexis-nexis.com<br/>Look.com=Look.com<br/>lwp-trivial/1.27=Search4free.com<br/>lwp-trivial/1.34=Search4free.com<br/>Lycos_Spider_(T-Rex)/3.0=Lycos.com<br/>Lycos_Spider_(T-Rex)=Lycos.com<br/>lycos=Lycos.com<br/>Mackster( http://www.ukwizz.com )=Ukwizz.com<br/>Mackster=Ukwizz.com<br/>Mag-Net=Wind.it<br/>mailto:webcraft@bea.com=Beasys.com<br/>mammoth/1.0 (+http://www.sli-systems.com/)=Sli-Systems.com<br/>mammoth/1.0=Sli-Systems.com<br/>MantraAgent=Looksmart.com<br/>mapper@teradex.com=Mapper.teradex.com<br/>Mariner/5.1b [de] (Win95; I ;Kolibri gncwebbot)=Kolibri.de<br/>Mariner/5.1b= Kolibri.de<br/>Martini=Looksmart.com<br/>Marvin v0.3=Marvin Bot<br/>marvin/infoseek=Webseek.de<br/>marvin-team@webseek.de=Webseek.de<br/>Mata Hari/2.00=Lexibot.com<br/>MediaCrawler-1.0 (Experimental)=Mediacrawler.de<br/>MediaCrawler-1.0=Mediacrawler.de<br/>Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)=Google.com Adsense<br/>Mediapartners-Google/2.1=Google.com Adsense<br/>MediaSearch/0.1=Www.fi<br/>MegaSheep v1.0 (www.searchuk.com internet sheep)=SearchUK.com<br/>MegaSheep v1.0=SearchUK.com<br/>Mercator=Altavista.com<br/>Mercator=Altavista.com<br/>Mercator-1.x=Altavista.com<br/>Mercator-2.0=Altavista.com<br/>Mercator-Scrub-1.1=Altavista.com<br/>metabot=Metabot<br/>Metaspinner/0.01=Meta-Spinner.de<br/>MFC_Tear_Sample=Microsoft.com<br/>MicrosoftPrototypeCrawler=Microsoft.com<br/>Minibot=Minibot<br/>MiracleAlphaTest=Nec.co.jp<br/>MnogoSearch/3.2.xx=mNoGoSearch.org<br/>moget/2.0=Goo.ne.jp<br/>moget/2.1 (moget@goo.ne.jp)=Goo.ne.jp<br/>moget/2.1=Goo.ne.jp<br/>moget@goo.ne.jp=Goo.ne.jp<br/>Mole2/1.0=Intags.de<br/>Morris - Mixcat Crawler (+http://mixcat.com)=Mixcat.com<br/>Morris - Mixcat Crawler=Mixcat.com<br/>Morris=Mixcat.com<br/>Mouse-House/7.4=Spidermonkey.ca<br/>mozDex/=Mozdex.com<br/>mozDex/0.04-dev=Mozdex.com<br/>Mozilla (Mozilla@somewhere.com)=Somewhere.com<br/>Mozilla/2.0 (compatible; Ask Jeeves)=Ask Jeeves<br/>Mozilla/2.0 (compatible; EZResult -- Internet Search Engine)=DirectHit.com<br/>Mozilla/3.0 (compatible; MuscatFerret/1.5.4; claude@euroferret.com)=Euroferret.com<br/>Mozilla/3.0 (compatible; MuscatFerret/1.5; olly@muscat.co.uk)=Euroferret.com<br/>Mozilla/3.0 (compatible; MuscatFerret/1.6.x; claude@euroferret.com)=Euroferret.com<br/>Mozilla/3.01 (Compatible; Links2Go Similarity Engine)=Links2go.com<br/>Mozilla/4.0 (compatible; FastCrawler3, support-fastcrawler3@fast.no)=AllTheWeb.com<br/>Mozilla/4.0 (compatible; grub-client-2.x)=Grub.org<br/>Mozilla/4.0 (compatible; MSIE 5.0; Windows 95) TrueRobot; 1.5=Echo.com<br/>Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot)=MSN.com<br/>Mozilla/4.0 (compatible; SpeedySpider; www.entireweb.com)=EntireWeb.com<br/>Mozilla/4.0 (compatible; www.galaxy.com)=Galaxy.com<br/>Mozilla/4.0 [en] (Ask Jeeves Corporate Spider)=Ask Jeeves<br/>Mozilla/4.0(compatible; Zealbot 1.0)=LookSmart.com<br/>mozilla/5.0 (compatible; genevabot +http://www.healthdash.com)=HealthDash.com<br/>Mozilla/5.0 (wgao@genieknows.com)=GenieKnows.com<br/>Mozilla/5.0 wgao@genieknows.com=GenieKnows.com<br/>Mozilla/5.0 (compatible; Yahoo! Slurp;)=Yahoo.com<br/>MP3Bot=mp3bot.de<br/>MSN=MSN.com<br/>MSNBOT/0.1=MSN.com<br/>msnbot=MSN.com<br/>MultiText/0.1=MultiText<br/>MultiText=MultiText<br/>MuscatFerret=Webtop.com<br/>NationalDirectoryAddURL/1.0=NationalDirectory.com<br/>NationalDirectory-SuperSpider=Nationaldirectory.com<br/>NationalDirectory-WebSpider/1.3=NationalDirectory.com<br/>Nazilla=Websmostlinked.com<br/>NEC Research Agent=NEC Research Agent<br/>NetCruiser=NetCruiser<br/>NetResearchServer(http://www.look.com)=Look.com<br/>NetResearchServer=Look.com<br/>NetZippy=Netzippy.com<br/>NextopiaBOT=Nextopia.com<br/>NG/1.0=Exabot.com<br/>Noago Spider=Noago.com<br/>NP/0.1 (NP; http://www.nameprotect.com; npbot@nameprotect.com)=NameProtect.com<br/>NP/0.1=NameProtect.com<br/>NPBot=NameProtect.com<br/>NPBot-1/2.0=NameProtect.com<br/>nttdirectory_robot=Navi.ocn.ne.jp<br/>Nutch=Nutch.org<br/>NutchCVS/0.0x-dev=Nutch.org<br/>NutchOrg/0.0x-dev=Nutch.org<br/>NutchOrg=Nutch.org<br/>NZBot=NavigationZone.com<br/>ObjectsSearch/0.01=ObjectsSearch.com<br/>ObjectsSearch/0.0x=ObjectsSearch.com<br/>oBot ((compatible;Win32))=Cobion.com<br/>oBot=Cobion.com<br/>OliverPerry=Claymont.com<br/>OntoSpider/1.0 libwww-perl/5.65=Ontospider.i-n.info<br/>OntoSpider/1.0=Ontospider.i-n.info<br/>OntoSpider=Ontospider.i-n.info<br/>Openbot/=Openfind.com.tw<br/>Openbot/3.0+=Openfind.com.tw<br/>Openbot/3.0=Openfind.com.tw<br/>Opencola=Opencola.com<br/>Openfind piranha=Openfind.com<br/>Openfind Robot/1.1A2=Openfind.com.tw<br/>http://www.5iya.com<br/>OpenTextSiteCrawler/2.9.2=Opentext.net<br/>Oracle Ultra Search=Oracle.com<br/>Oxxbot1=Oxxfordinfo.com<br/>Pansophica=Pansophica<br/>ParaSite/1.0b (http://www.ianett.com/parasite/)=Ianett.com<br/>ParaSite/1.0b=Ianett.com<br/>pd02_1.0.0 pd02_1.0.0@dzimi@post.sk=Post.sk<br/>peerbot=Peerbot.com<br/>Phoaks=Phoaks<br/>phortse@hanmail.net=Daum.net<br/>PICgrabber=PICgrabber<br/>PicoSearch/=PicoSearch.com<br/>PicoSearch/1.0=PicoSearch.com<br/>PictureOfInternet=PictureOfInternet<br/>PintaSpider=PintaSpider<br/>pipeLiner/0.10=Pipeline-Search.com<br/>pipeLiner=Pipeline-Search.com<br/>Pita=Pita Bot<br/>Pizilla++ ver 2.45=He.net<br/>PJspider/3.0 (pjspider@portaljuice.com; http://www.portaljuice.com)=Portaljuice.com<br/>PJspider/3.0=Portaljuice.com<br/>PJspider=Portaljuice.com<br/>polybot 1.0 (http://cis.poly.edu/polybot/)= PolyBot<br/>polybot 1.0=PolyBot<br/>PolyBot=PolyBot<br/>Pompos/1.x http://dir.com/pompos.html=Dir.com<br/>Pompos/1.x pompos@iliad.fr=Iliad.fr<br/>Pompos/1.x=Free.fr<br/>Popdexter/1.0=Popdex.com<br/>PortalBSpider/2.0 (spider@portalb.com)=Portalb.com<br/>PortalBSpider/2.0=Portalb.com<br/>Project XP5 [2.03.07-111203]= XP5 Bot<br/>Project XP5=XP5 Bot<br/>PROve AnswerBot 4.0=Answerchase.com<br/>psbot/0.1 (+http://www.picsearch.com/bot.html)=Picsearch.com<br/>psbot/0.1=Picsearch.com<br/>psbot=Picsearch.com<br/>Qango.com Web Directory (http://www.qango.com/)=Qango.com<br/>Qango.com Web Directory= Qango.com<br/>QPCreep Test Rig ( We are not indexing, just testing ) =Quepasa.com<br/>QPCreep Test Rig=Quepasa.com<br/>QuepasaCreep ( crawler@quepasacorp.com )=Quepasa.com<br/>QuepasaCreep v0.9.1x=Quepasa.com<br/>QuepasaCreep=Quepasa.com<br/>QueryN Metasearch=Queryn.com<br/>rabaz (rabaz at gigabaz dot com)=Brainbot.com<br/>Rabaz=Brainbot.com<br/>RaBot=Daum.net<br/>ramBot xtreme x.x=Intersearch.de<br/>Reaper [2.03.10-031204] (http://www.sitesearch.ca/reaper/)=Sitesearch.ca<br/>Reaper [2.03.10-031204]=Sitesearch.ca<br/>Reaper/2.0x (+http://www.sitesearch.ca/reaper)=Sitesearch.ca<br/>Reaper/2.0x=Sitesearch.ca<br/>Reaper=Sitesearch.ca<br/>roach.smo.av.com-1.0=Altavista.com<br/>roach.smo.av.com-1.0=Altavista.com<br/>RoboCrawl (www.canadiancontent.net)=CanadianContent.net<br/>RoboCrawl=CanadianContent.net<br/>Robot/www.pj-search.com=PJ-Search.com<br/>Robot@SuperSnooper.Com=SuperSnooper.com<br/>robot@xyleme.com=Xyleme.com<br/>robot-master@expressus.com=Expressus.com<br/>robot-response@openfind.com.tw=Openfind.com.tw<br/>Robozilla/1.0=Dmoz.org<br/>Rotondo/3.1 libwww/5.3.1=Qualigo.de<br/>ru-robot=Rutgers.edu<br/>Scooter/1.0 scooter@pa.dec.com=Altavista.com<br/>Scooter/1.0=Altavista.com<br/>Scooter/1.1 (custom)=Altavista.com<br/>Scooter/2.0 G.R.A.B. V1.1.0 =Altavista.com<br/>Scooter/2.0 G.R.A.B. X2.0=Altavista.com<br/>Scooter/3.3.QA.pczukor=Altavista.com<br/>Scooter/3.3.vscooter=Altavista.com<br/>Scooter/3.3_SF=Altavista.com<br/>Scooter/3.3=Altavista.com<br/>Scooter_bh0-3.0.3=Altavista.com<br/>Scooter_trk3-3.0.3=Altavista.com<br/>Scooter=Altavista.com<br/>Scooter2_Mercator_3-1.0=Altavista.com<br/>Scooter2_Mercator_x-x.0=Altavista.com<br/>Scooter-3.0.EU=Altavista.com<br/>Scooter-3.0.FS=Altavista.com<br/>Scooter-3.0.HD=Altavista.com<br/>Scooter-3.0.VNS=Altavista.com<br/>Scooter-3.0QI=Altavista.com<br/>Scooter-3.2.BT=Altavista.com<br/>Scooter-3.2.DIL=Altavista.com<br/>Scooter-3.2.EX=Altavista.com<br/>Scooter-3.2.JT=Altavista.com<br/>Scooter-3.2.NIV=Altavista.com<br/>Scooter-3.2.SF0=Altavista.com<br/>Scooter-3.2.snippet=Altavista.com<br/>Scooter-3.2=Altavista.com<br/>Scooter-3.3dev=Altavista.com<br/>Scooter-ARS-1.1=Altavista.com<br/>Scooter-ARS-1.1-ih=Altavista.com<br/>scooter-venus-3.0.vns=Altavista.com<br/>Scooter-W3.1.2=Altavista.com<br/>Scooter-W3-1.0=Altavista.com<br/>Scrubby/=Scrubtheweb.com<br/>search.at V1.2=Search.at<br/>search.ch V1.4.2=Search.ch<br/>search.ch V1.4=Search.ch<br/>SearchExpress Spider0.99=SearchExpress.com<br/>Searchit-Now Robot/2.2 (+http://www.searchit-now.co.uk)=Searchit-now.co.uk<br/>Searchit-Now Robot/2.2=Searchit-now.co.uk<br/>SearchSpider.com/1.1=Searchspider.com<br/>Searchspider/=Searchspider.com<br/>Searchspider/1.2=Searchspider.com<br/>sebastien.ailleret@inria.fr=Inria.fr<br/>Seeker.lookseek.com=Lookseek.com<br/>SeznamBot/1.0 (+http://fulltext.seznam.cz/)=Seznam.cz<br/>SeznamBot/1.0=Seznam.cz<br/>Shark=Openfind.com<br/>sherlock_spider=Sherlock.com.cn<br/>SightQuestBot/=Sightquest.com<br/>SiteSpider +(http://www.SiteSpider.com/)=Sitespider.com<br/>SiteSpider=Sitespider.com<br/>SiteXpert=Xtreeme.com<br/>Skampy/0.9.x= Skaffe.com<br/>Skimpy/0.x=Skaffe.com<br/>Slarp/0.1=Only.com<br/>Slider_Search_v1-de=Slider.com<br/>Slurp.so/1.0= Yahoo.com<br/>Slurp/2.0j=Yahoo.com<br/>Slurp/2.0-KiteHourly=Yahoo.com<br/>Slurp/2.0-OwlWeekly=Yahoo.com<br/>Slurp/3.0-AU=Yahoo.com<br/>slurp@inktomi.com=Yahoo.com<br/>slurp@inktomi= Yahoo.com<br/>Slurp=Yahoo.com<br/>SlySearch/1.0=Turnitin.com<br/>SlySearch/1.x=Turnitin.com<br/>SlySearch=Turnitin.com<br/>speedfind ramBot xtreme 8.1=Speedfind.de<br/>speedfind ramBot xtreme=Speedfind.de<br/>Speedy Spider (Beta/x.x; speedy@entireweb.com)=EntireWeb.com<br/>Speedy Spider=EntireWeb.com<br/>Speedy_Spider (http://www.entireweb.com)=EntireWeb.com<br/>Speedy_Spider=EntireWeb.com<br/>Spida/0.1=Only.com<br/>Spider TraficDublu=Traficdublu.ro<br/>Spider/maxbot.com admin@maxbot.com=Maxbot.com<br/>Spider/maxbot.com=Maxbot.com<br/>spider@aeneid.com=Yahoo.com<br/>Spider_Monkey/=Spidermonkey.ca<br/>spider_monkey=Spidermonkey.ca<br/>SpiderMonkey/7.x=Spidermonkey.ca<br/>Sqworm/2.9.81-BETA (beta_release; 20011102-760; i686-pc-linux-gnu)=Aol.com<br/>Sqworm=Aol.com<br/>Steeler/1.x (http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)=Steeler Bot<br/>Steeler/1.x=Steeler Bot<br/>Steeler=Steeler Bot<br/>Suchbot=Suchbot.de<br/>Suchknecht.at-Robot=Suchknecht.at<br/>super-robot@super.navi.ocn.ne.jp=Navi.ocn.ne.jp<br/>support@canseek.ca=Canseek.ca<br/>Surfnomore Spider v1.1=Surfnomore.com<br/>SwissSearch V1.2=SwissSearch<br/>SynoBot=Synomia.fr<br/>TaWWWantula=TaWWWantula<br/>teoma_admin@hawkholdings.com=Teoma.com<br/>teoma_agent1=Teoma.com<br/>TeraCrawl=TeraCrawl<br/>Teradex_Mapper=Mapper.teradex.com<br/>The Informant=The Informant<br/>TheSuBot/0.1 (www.thesubot.de)=TheSuBot.de<br/>TheSuBot/0.1=TheSuBot.de<br/>thumbshots-de-Bot (Version: 1.02, powered by www.thumbshots.de)=ThumbShots.de<br/>thumbshots-de-Bot=ThumbShots.de<br/>Toutatis 2.5-2=Hoppa.com<br/>Toutatis 3.3 (hoppa.com)=Hoppa.com<br/>Toutatis 4-19.6 (hoppa.com)=Hoppa.com<br/>TurnitinBot/x.x (http://www.turnitin.com/robot/crawlerinfo.html)=Turnitin.com<br/>TurnitinBot/x.x=Turnitin.com<br/>TurnitinBot=Turnitin.com<br/>Tutorial Crawler=Tutorgig.com<br/>Tv<nn>_Merc_resh_26_1_D-1.0=Altavista.com<br/>Tv<nn>_Merc_resh_26_1_D-1.0=Altavista.com<br/>TygoBot=Tygo.com<br/>UCmore=Ucmore.com<br/>UdmSearch=Mnogosearch.org<br/>UK Searcher Spider=Uksearcher.co.uk<br/>Ultraseek=Infoseek.com<br/>unlostBot=Unlost.com<br/>updated/0.1beta=Updated.com<br/>URLBlaze=Urlblaze.net<br/>UrlScope=UrlScope<br/>Vagabondo/1.x MT (webagent@wise-guys.nl)=Wise-guys.nl<br/>Vagabondo/2.0 MT (webagent at wise-guys dot nl)=Wise-guys.nl<br/>Vagabondo/2.0 MT (webagent@NOSPAMwise-guys.nl)=Wise-guys.nl<br/>Vagabondo/2.0 MT=Wise-guys.nl<br/>Vagabondo=Wise-guys.nl<br/>vspider=Verity.com<br/>webbandit/4.xx.0=WebBandit<br/>Webbandit=WebBandit<br/>Webclipping.com=WebClipping.com<br/>webcollage/1.xx=WebCollage.com<br/>webcollage=WebCollage.com<br/>WebCompass=WebCompass<br/>WebCrawler/3.0 Robot libwww/5.0a=WebCrawler<br/>WebCrawler-AddURL/2.0=WebCrawler<br/>WebFindBot(http://www.web-find.com)=Web-find.com<br/>WebFindBot=Web-find.com<br/>WebGather=WebGather<br/>WebGenie=WebGenie<br/>webmaster@intags.de=Intags.de<br/>whatUseek_winona/3.0=Whatuseek.com<br/>whatuseek=Whatuseek.com<br/>WhizBang! Lab=Whizbanglabs.com<br/>WIRE WebRefiner=Wire.co.uk<br/>wisenutbot=Looksmart.com<br/>WSCbot=WorldSearchCenter.com<br/>www.inktomisearch.com=Yahoo.com<br/>www.WebWombat.com.au=Webwombat.com.au<br/>YahooSeeker/CafeKelsa=Yahoo.com<br/>Yandex=Yandex.com<br/>Yellopet-Spider=YellowPet.com<br/>YottaShopping_Bot/4.12=YottaShopping.com<br/>Zao/0.1 (http://www.kototoi.org/zao/)=Zao Bot<br/>Zao/0.1=Zao Bot<br/>Zao/0.2=Zao Bot<br/>Zao-Crawler=Zao Bot<br/>zerxbot/Version 0.6 libwww-perl/5.79=Zerx.com<br/>Zippy v2.0 - Zippyfinder.com=Zippyfinder.com<br/>ZyBorg=Wisenut.com</div></div><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E5%25BC%2595%25E6%2593%258E%25E8%259C%2598%25E8%259B%259B/" rel="tag">搜索引擎蜘蛛</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/255/</link>
<title><![CDATA[百度对网页收录、索引删除、SEO等问题的官方说明]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Thu, 28 Dec 2006 01:59:29 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/255/</guid> 
<description>
<![CDATA[ 
	百度网站的“百度与站长”部分的内容更新了，里面很多信息又可以值得我们挖掘。通过阅读文字信息，大家可以看到百度似乎也在转变先前自己对<a href="http://www.bloghuman.com" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a></a>的看法，合理的<a href="http://www.rambosem.com/" target="_blank" title="http://www.rambosem.com/" class="mykeyword">搜索引擎优化</a>终于被它所接受。而且相比之前的百度与站长，这次修改比较大，而且也透露了一些积极的信号。有幸跟百度的相关人员交流过，感觉百度跟站长，跟seo，需要一个相互了解的过程。抛弃偏见，互相沟通，才能共同维护好搜索生态圈的和谐。 <br/><br/><strong>网页收录问题 </strong><br/><br/>1：如何让我的网站（独立网站或者blog）被百度收录？ <br/><br/>百度会收录符合用户搜索体验的网站和网页。 <br/><br/>为促使百度Spider更快的发现您的站点，您也可以向我们提交一下您的网站的入口网址。提交地址是：http://www.baidu.com/search/url_submit.html。您只需提交首页即可，无需提交详细的内容页面。 <br/><br/>百度的网页收录机制，只和网页价值有关，与竞价排名等商业因素没有任何关联。 <br/><br/>2：如何让我的网页不被百度收录？ <br/><br/>百度严格遵循搜索引擎Robots协议（详细内容，参见http://www.robotstxt.org/）。 <br/><br/>您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法，参见：如何撰写Robots文件。 <br/><br/>如果您的网站是在被百度收录之后再设置Robots文件，则Robots文件通常在两周内生效，被文件限制的内容，将从百度搜索结果中移除。 <br/><br/>如果您的拒绝被收录需求非常急迫，也可以发邮件给webmaster@baidu.com请求处理。 <br/><br/>3：为什么我的网站内一些不设链接的私密性网页，甚至是需要访问权限的网页，也会被百度收录？ <br/><br/>百度Spider对网页的抓取，是通过网页与网页之间的链接实现的。 <br/><br/>网页之间的链接类型，除了站点内部的页面链接之外，还有不同网站之间的互相链接。因此，某些网页即便通过您的网站内部链接无法访问到，但是，如果别人的网站上有指向这些页面的链接，那么这些页面还是会被搜索引擎所收录。 <br/><br/>百度Spider的访问权限，和普通用户是一样的。因此，普通用户没有权限访问的内容，Spider也没有权限访问。之所以看上去某些访问权限限制内容被百度收录，原因有两点： <br/><br/>A. 该内容在Spider访问时是没有权限限制的，但抓取之后，内容的权限发生了变化 <br/>B. 该内容有权限限制，但是由于网站安全漏洞问题，导致用户可以通过某些特殊路径直接访问。而一旦这样的路径被公布在互联网上，则Spider就会循着这条路径抓出受限内容 <br/><br/>如果您不希望这些私密性内容被百度收录，一方面可以通过Robots协议加以限制；另一方面，也可以联系webmaster@baidu.com进行解决。 <br/><br/>4：我的网页为什么会从百度搜索结果中消失？ <br/><br/>百度并不允诺所有网页都可从百度搜索到。 <br/><br/>如果您的网页长时间无法从百度搜索到，或者突然从百度的搜索结果中消失，可能的原因有： <br/><br/>A. 您的网站所在服务器不稳定，被百度暂时性去除；稳定之后，问题会得到解决 <br/>B. 您的网页内容有不符合国家法律和法规规定的地方 <br/>C. 您的网页不符合用户的搜索体验 <br/>D. 其他技术性问题 <br/><br/>以下的说法是错误的和毫无根据的： <br/><br/>A. 参与了百度竞价排名但未续费，会从百度搜索结果中消失 <br/>B. 参与了其他搜索引擎的广告项目，会从百度搜索结果中消失 <br/>C. 与百度旗下网站产生了竞争，会从百度搜索结果中消失 <br/>D. 从百度获得的流量太大，会从百度搜索结果中消失 <br/><br/>5：什么样的网页会被百度认为是没有价值而不被百度收录或者从现有搜索结果中消失？ <br/><br/>百度只收录百度认为有价值的网页。任何网页在搜索结果中的去留变化，都是机器算法计算和调整的结果。下述类型的网页，百度明确不会欢迎： <br/><br/>A. 网页做了很多针对搜索引擎而非用户的处理，使得用户从搜索结果中看到的内容与页面实际内容完全不同，或者使得网页在搜索结果中获得了不恰当的排名，从而导致用户产生受欺骗感觉。 <br/>如果您的网站中有较多这种页面，那么这可能会使您的整个网站的页面收录和排序受到影响。 <br/>B. 网页是复制自互联网上的高度重复性的内容。 <br/>C. 网页中有不符合中国法律和法规的内容。 <br/><br/>6：如果我的网站因为作弊行为而从百度搜索结果中消失，是否还有被重新收录可能？ <br/><br/>凡是作出完全修正的网站，是有机会被百度重新收录的。百度会定期对被处理站点进行自动评估，并对符合条件者重新收录。 <br/><br/>需要说明的是，百度技术和产品部门只对用户搜索体验负责。以下的说法都是错误的和毫无根据的： <br/><br/>A. 我成为百度的广告客户或者联盟网站，就可以重新被收录 <br/>B. 我给百度若干钞票，就可以重新被收录 <br/>C. 我认识百度的某某人，就可以重新被收录 <br/><br/>7：我的网站更新了，可是百度收录的内容还没更新怎么办？ <br/><br/>百度会定期自动更新所有网页（包括去掉死链接，更新域名变化，更新内容变化）。因此请耐心等一段时间，您的网站上的变化就会被百度察觉并修正。 <br/><br/><strong>网页排序问题</strong> <br/><br/>1：我的网站首页被收录了，但搜索网站名称却排不到第一个，怎么办？ <br/><br/>答：排序算法非常复杂。我们的目标，即在于通过算法改进，让用户以最小的成本，搜索到所需要的信息。这个过程中还是会有各种各样不尽如人意的地方。我们会非常欢迎您把您遇到的困惑和问题，反馈给我们。我们的工程师，对每一个问题都会有细致的跟踪和分析，以期将之最终解决。百度搜索结果页下方的搜索框右侧，有“与百度对话”链接，您可以在那里提交您的问题，以协助我们改进。 <br/><br/>我们一直在改进搜索算法，以使得百度的搜索结果更加符合用户的搜索需求。 <br/><br/>2：搜索某关键词，我的网页在百度搜索结果的排序短期内变化剧烈，这正常吗？ <br/><br/>答：通常情况下，这是正常的变化。一般来说，有三类原因导致排序发生变化： <br/><br/>A. 特定关键词所涉及的您的网页发生了变化 <br/>B. 特定关键词所涉及的其他网页发生了变化 <br/>C. 百度的排序算法发生了变化 <br/><br/>3：搜索某关键词，我的网页在百度的排序位置，和在其他搜索引擎的排序位置，差异非常大，这正常吗？ <br/><br/>答：通常情况下，这是正常的现象。因为不同搜索引擎的算法，都是不同的。 <br/><br/>4：我请一些“SEO”来为我的网站或者网页做优化，会有什么后果？ <br/><br/>答：合理的搜索引擎优化，参见百度的“给站长的建站指南”。 <br/><br/>外界很多打着SEO旗号的公司或者个人，也许能为您的网站带来短期的排序收益，但是，这会使您将面临更大损失的风险。在您把网站资源交托给别人之后，很多SEO甚至会利用您的资源进行他们个人的运营项目，最终导致您的利益受损。 <br/><br/>不要因为SEO们以下的说法，而冒险将自己的网站托付给他们随意处置： <br/><br/>A. 我和百度的人很熟，想怎么干就怎么干，没风险 <br/>B. 我是搜索引擎专家，对百度的算法一清二楚，玩玩火也不要紧 <br/>C. 我把xxx、yyy、zzz这些关键词都搞到第一了，所以我是牛人啊 <br/><br/>您也可以向百度投诉搜索中遇到的垃圾网站或者网页，帮助百度保持搜索结果的质量。 <br/><br/><strong>商业客户相关的问题</strong> <br/><br/>1：我是百度的竞价排名客户，如果我不续费，百度是否会因此对我进行惩罚？ <br/><br/>答：这是绝对不可能的。 <br/><br/>百度的网页搜索策略的唯一标准，在于用户的搜索体验。竞价排名和网页搜索自然排名，是完全独立的两个技术服务系统。一个网站是否是百度竞价排名客户，对于网页搜索自然排序无任何影响。 <br/><br/>如果您收到任何类似威胁的说辞，请您直接发邮件至ask@baidu.com举报。 <br/><br/>2：我的网站因为作弊而从百度消失了，是否可以通过成为百度竞价排名客户、广告客户或者联盟站点的方式重新被百度收录？ <br/><br/>答：不可以。我们对网站的收录，唯一标准是用户搜索体验。被惩罚网站重新被百度收录的说明，见网页收录问题6中的叙述。 <br/><br/>3：我的网站加入百度竞价排名、百度联盟，或者成为百度的广告客户，是否能在网页的收录和排序上获得特别的照顾？ <br/><br/>答：不可能。 <br/><br/><strong>给站长的建站建议</strong> <br/><br/>只有当搜索引擎、站长、互联网用户之间，能有一种默契的利益均衡，这个行业才会顺畅发展。竭泽而渔式的网站建设，只会使您与用户、与搜索引擎越来越远。搜索引擎与站长之间，宜和谐发展，共同拥抱美好的愿景。 <br/><br/>以下是我们给出的一些建站建议： <br/><br/><strong>站点结构宜简洁明晰</strong> <br/><br/>不要让你的用户一进你的站点就因为纷繁芜杂而不知所措。从某种意义上来说，百度的Spider也是一个相对特殊的访客而已。每一个子域名，每一个目录，都最好有明确的内容区隔，避免不同子域名或者目录对相同内容的互相串用。 <br/>　　 <br/><br/><strong>创造属于您自己的独特内容</strong> <br/><br/>百度更喜欢独特的原创内容。所以，如果您的站点内容只是从各处采集复制而成，很可能不会被百度收录。 <br/><br/><strong>保持经常的更新</strong> <br/><br/>经常的更新，蜘蛛程序就会经常的光顾；而长期不更新的网站，蜘蛛到访会日趋减少。 <br/><br/><strong>谨慎设置您的友情链接 </strong><br/><br/>如果您网站上的友情链接，多是指向一些垃圾站点，那么您的站点可能会受到一些负面影响。参与各类以SEO为目的的自助链接活动，很可能“过犹不及”。 <br/><br/><strong>把自己的网站做成常青树</strong> <br/><br/>如果没有搜索引擎，你的网站仍然访客盈门，那么你的网站就属于“常青树”了。面向用户做网站，而不要面向搜索引擎做网站，这是成为常青树网站的真谛。<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E9%25A1%25B5%25E6%2594%25B6%25E5%25BD%2595/" rel="tag">网页收录</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/250/</link>
<title><![CDATA[Google AdSense官方明确表示不可在广告旁加上误导图片]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Tue, 19 Dec 2006 09:37:38 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/250/</guid> 
<description>
<![CDATA[ 
	　　很多做AdSense的站长都会想尽办法使广告点击数增加，当然，我们在这里只讨论合法的手段，除非你想被Google删除帐号。在优化了网站程序架构和提高了内容的质量后，有不少站长开始钻Google AdSense的灰色地带，即在AdSense广告单元的旁边加上额外的图片，以吸引访客的注意，从而增加广告的点击率。<br/><br/>　　其实关于到底可不可以在AdSense旁边加上额外的图片，这是一个已经被讨论了很久的老问题了。因为AdSense的一个基本原则是<strong>禁止用户通过额外的手段误导访客，人为地增加广告点击</strong>;但一直以来，Google AdSense官方对于这种看似聪明的方式的态度都比较模糊，并没有统一地明确表示"行"或"不行"，以至大多数的AdSense用户以为只要图片与广告之间有一定的距离或加上border就可以。如果你对AdSense不熟悉而觉得一头雾水，好，我说的是这个：<br/><br/><a href="http://www.bloghuman.com/attachment/google-adsense-add-click.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-adsense-add-click.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;这下子应该清楚了。上面的这种"优化"，在很多网站及blog上都可以看得到。据我所知，很多blog程序包括流行的WordPress在内，都有爱好者专门编写了AdSense广告插件，而这些插件的作用就是让你的AdSense广告变成上面这种形式。既然这么流行，那么问题来了：<strong>到底这是不是Google官方所允许的做法？</strong><br/><br/>　　<a href="http://adsense.blogspot.com/2006/12/ad-and-image-placement-policy.html" target="_blank">Google AdSense官方今天明确回答</a>：<strong>不是！</strong><br/><br/>　　由于最近有越来越多的用户写信给AdSense询问这个问题，AdSense作出的正式的明确的声明，那就是你不能通过投放额外的图片来误导访客，让他们误以为广告内容是与图片有关的。同样地，你也不能使用类似的方法来误导访客。不管你是否已经在广告内容和图片之间加上了间隔或者border，都是不允许的。<strong>总之，你不能误导访客</strong>。<br/><br/>　　除了上面这个典型的违规例子外，下面这样的也是不被允许的：<br/><br/><a href="http://www.bloghuman.com/attachment/google-adsense-add-click-nofollow.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-adsense-add-click-nofollow.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;这是来自Google官方的明确态度，也是一个公开的警告。我相信除非你希望自己的AdSense帐号被删除，否则应该马上这样的行为，把样式更改掉。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;<strong>那这是不是意味着不可以在有图片的网页上投放AdSense广告</strong>？当然不是，只要没有误导访客，你当然可以在这些网页上放置AdSense广告。如果你不清楚你将要实现的广告投放方式是否会误导访客，那该怎么办？当然是写一封给AdSense，把你要实现的样式的截图和网页地址发给他们，让他们进行审核。一般情况下，简体中文用户可以用自己的AdSense注册邮箱发邮件至<strong>adsense-zhs@google.com</strong>。<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/adsense/" rel="tag">adsense</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/242/</link>
<title><![CDATA[展望SEO的发展趋势—郝聪对Google(谷歌)2007年的计划和未来战略有感]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Tue, 12 Dec 2006 15:45:35 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/242/</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp;&nbsp;&nbsp;商业2.0就"在2007年,如何获得成功"向50个人做了定向调查，其中Google的两个决定人物谈论了在新的一年中,Google的意图和计划.用几个关键词归纳起来就是: 简单化、整合、个性化。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;下面是谢尔盖.布林的回答：<br/>&nbsp;&nbsp;&nbsp;&nbsp;“简单化是一个重要的趋势，所以我们非常关注。就科技这条路来说，它已经变得过分复杂了，而同时，简单化确是人们使用Google的最基本吸引力。对于互联网技术而言，这种复杂已经成为了一个不得不努力解决的问题，而用设备或者计算机来解决是非常困难的。成功是来自于简单化的。看看苹果公司，他们正在做的使得他们非常成功。”<br/>&nbsp;&nbsp;&nbsp;&nbsp;“我们更应该关注特色，而不是产品本身。我们必须解决一个糟糕的问题，就是产品的过分复杂。我们不想采用20种不同的方式来使用20种不同的产品。我个人感觉，我们已经失去了持续吸引用户的一切。我更想拥有少数几个共同特色的产品。”<br/>&nbsp;&nbsp; <br/>&nbsp;&nbsp;&nbsp;&nbsp;下面是埃里克.施米特的回答：<br/>&nbsp;&nbsp;&nbsp;&nbsp;“硅谷的公司越来越有开发复杂系统的趋势。但是，正如采用Windows系统的个人电脑一样，Google从诞生之日起，就注重简单的搜索框，简单的搜索网页。”<br/>&nbsp;&nbsp;&nbsp;&nbsp;“我们已经摸到老虎的尾巴了，那就是如今的个性化现象。现在，我们必须要为用户做的更简单。我们正在努力的创新及改变，一路向前的整合Google的产品，并使之更加完整。这是公司战略的一个大的调整。过去，我们的产品哲学看起来是'做好这个，建立哪个，砍掉它'，但是现在，我们必须结束这种命名为X-Google的数百种产品的工作方式，因为人们最终最能记住5种而已。”<br/>&nbsp;&nbsp; <br/>&nbsp;&nbsp;&nbsp;&nbsp;用一句中国话来概括就是：<strong>整合各种产品，使其更简单、更个性</strong>。<br/><br/>补充：<br/>1.是非官方资讯<br/>2.翻译自Google Operating System .<br/>3.作者 Ionut Alex. Chitu<br/>&nbsp;&nbsp;<br/>从GOOGLE创始人的话中，我们可以感悟出很多内涵。<br/>在产品同质化越趋严重的今天，如何能使产品保持较强的竞争力呢？黑色梦中认为其一是产品模式，而产品模式来源于商业模式，是商业模式的具体表现形式，即便竞争对手能够复制整套模式，创新者仍然可以保持一段时间的领先；其二是用户体验，何为用户体验，请参看用户体验栏目的相关说明,用户体验已成为产品优势的附加值，它将潜移默化的影响用户的感受及心理，是粘住用户建立品牌的重要方式。相比之下，用户体验将成为未来互联网发展必不可缺的关键因素。<br/><br/>GOOGLE的产品已逐渐加强在用户体验角度的投入，不断的整合产品、增强产品易用性，而作为依托于搜索引擎的<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>优化将做何准备呢？SEO与搜索引擎的利益是捆绑在一起的，在搜索引擎逐步重视用户体验的发展趋势中，SEO不得不将用户体验融合进去，而方式呢？<br/><br/>PRODUCT——INTERFACE——USER<br/><br/>在用户与产品之间，最佳的体验是直接相互，实际上这是不太现实的，尤其是互联网，我想大家都能理解；既然不能实现直接相互，必然会有用户界面的产生，提升用户体验就是不断的优化用户与产品的交互过程，使产品的内容、功能及表现形式等完全基于用户角度需求角度考虑，说白了就是：<strong>想用户之所想，及用户之所及</strong>。对于搜索引擎来说，其宗旨是提升用户的搜索体验，而这恰恰是通过具备良好用户体验的站点来反映出来的。搜索引擎的发展趋势将偏向于人性化、智能化，这就是说搜索引擎需要不断的优化算法以求保证提供用户最贴切的搜索结果，这是最基本的，而智能化的趋势将要求搜索引擎必须能理解并预期用户的需求，同时，对于还需要关注用户行为。这也就是为什么在昨天发布的文章“<a href="http://www.bloghuman.com/post/241.htm" target="_blank">搜狗网页搜索3.0的推广软文</a>”中，我提出了自己对搜狗搜索引擎3.0版本的疑问，因为那篇软文基本上没有写出未来搜索引擎应该具备的特点，如果硬要拿收录网页数作为一大特色的话，我只能说这还不足以使我认定搜狗是一个值得应用的搜索引擎。<br/><br/>对于<a href="http://www.bloghuman.com/" target="_blank">SEO</a>，要谈的应该会更多，之前，我就曾经提出，SEO迟早会与UE融合一体，因此，我也建立了一个新栏目“用户体验”，鉴于这方面知识仍在学习之中，目前只以转载优秀文章为主，待到成熟时，我会写一些自己对UE的理解及开展具体工作的情况。<br/><br/>SEO将越来越注重用户的需求，这包括用户的搜索行为、搜索习惯、模拟用户浏览行为、提供给用户更多的可能激发的需求，以及如何基于用户角度来描述网页等等，于是，我们可能要打破传统的产品策划模式，仅仅注重产品的功能或互动性是不够的，也许需要细化到每个网页如何布局以及将什么内容呈现给用户等等。<br/><br/>举个例子：当用户查看某种IT产品资讯时，我们需要对用户需求进行分析，用户可能要对资讯内容进行深入挖掘，这是用户了解该产品大体评价的一种方式，直至用户判别出该产品是否可能满足自身需要或提升用户的关注度，因此，基于该产品的更多资讯内容是用户行为的诱发点，不仅如此，这些资讯内容还必须展示在用户眼球最容易触及的地方，偶很喜欢天极新版内容页最上方的导读；接下来，我们还要很方便的使用户找到产品参数、价格、购买渠道等信息获取的方式，但当用户预了解产品价格时，比价购物、体验购物的模式是不是应该被我们所利用呢，用户评论是最好的体验，而论坛又可以聚合用户评论，接下来呢。。。<br/><br/>SEO最终是要被淡化的，其包含的元素将体现于网站的方方面面，在可预知的未来，可能所有从事互联网行业的人都会对SEO有基本的了解，SEO的思想和策略将体现于策划、产品及推广的细节工作中去，特别是UE，为此，SEOER需要做更多准备，你准备好了吗？<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 黑色梦中<br/>原载: <a href="http://www.bloghuman.com/" target="_blank">黑色梦中的<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a></a><br/>版权所有,转载时请以链接形式黑色梦中以文章出处。</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/%25E7%2594%25A8%25E6%2588%25B7%25E4%25BD%2593%25E9%25AA%258C/" rel="tag">用户体验</a> , <a href="http://www.bloghuman.com/tags/ue/" rel="tag">ue</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/241/</link>
<title><![CDATA[搜狗网页搜索3.0的推广软文]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 11 Dec 2006 15:49:13 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/241/</guid> 
<description>
<![CDATA[ 
	　　全球首个收录100亿网页的中文搜索引擎即将诞生<br/><br/>　　日前，搜狐公司旗下自主品牌搜狗搜索引擎宣布，搜狗网页搜索3.0版本将于2007年1月1日正式上线，新版本将凭借其自主研发的服务器集群并行的抓取技术，成为全球首个中文网站收录量达到100亿的搜索引擎，并以每天5亿网页的更新速度及独一无二的搜狗网页评级体系，在海量、及时、精准等搜索引擎基本指标上全面升级中文搜索引擎的用户体验，再次掀起搜索引擎新一轮技术革命。 <br/><br/><br/>　　<strong>海量：全球首个网页收录量达到100亿的中文搜索引擎</strong><br/><br/>　　一直致力于后台技术研发和数据积累的搜狗，在2006年8月份的时候就成功支持了50亿中文网页的查询，成为了全球首个中文网页收录量达到50亿的搜索引擎，即将于2007年1月1日震撼上线的搜狗网页搜索3.0更是将数据量拓展到了100亿的惊人数字，再创全球中文网页收录量新高。<br/><br/>　　目前市场上各家搜索引擎对于中文数据的收录量远比英文数据的收录量低很多，导致了用户想要的信息找不到，这也是长期以来中文搜索引擎的用户满意度要比英文的低很多的一个主要原因，而数据量的大小，直接反映了搜索引擎研发团队的技术实力。<br/><br/>　　此次，搜狗技术团队采用了自行开发的文件系统和数据库，大幅提升了服务器利用率，并对后台的抓取、页面分析、滤重、索引、排序、反垃圾等一系列的功能模块都进行全方位的升级，以支持更大的容量的内容储备，向网友提供创纪录的百亿网页的信息资源，进一步拉开了与竞争对手的差距，重新定义了搜索引擎业界标准，奠定了搜狗技术团队行业绝对领先的地位。<br/><br/>　　<strong>及时：每天更新5亿网页，最新资讯最快1分钟即可被检索到</strong><br/><br/>　　在及时性方面，搜狗网页搜索3.0通过智能分析技术，对于不同网站、网页采取了差异化的抓取策略，充分地利用了带宽资源来抓取高时效性信息，更是确保互联网上的最新资讯能够被用户及时检索到。<br/><br/>　　经过对互联网上的热点新闻事件搜索的测试，搜狗网页搜索3.0仅需1分钟时间就能完成从抓取到页面分析到建立索引到上线的全部过程，在第一时间呈现大量相关结果。在这样的速度下，每天搜狗的服务器集群并行更新5亿的网页，用户不必再专门到新闻搜索引擎上，就能获得最新资讯。<br/><br/>　　为了满足对及时性要求极高的用户的需求，搜狗还特意提供了按时间排序的功能，更加显示了搜狗网页搜索3.0强大的网页及时迅速的更新能力。<br/><br/>　　<strong>精准：评测指标业内领先 基于搜狗网页评级的结果排序</strong><br/><br/>　　搜索结果的精准性是搜狗网页搜索3.0三大特点之一。搜狗网页搜索3.0在搜索结果的排名上采用了被业界广泛认可的搜狗网页评级体系。网页评级是搜狗衡量网页重要性的指标，不仅考察了网页之间链接关系，同时考察了链接质量、链接之间的相关性等特性，网页评级越高，该网页在搜索中越容易被检索到。由于有了网页评级体系的保证，搜狗的搜索结果能够做到更加精准。<br/><br/>　　另外，用户对于搜索结果的点击，代表了用户对搜索结果的认可。数据分析表明，用户每次搜索后，点击结果的次数越多，说明搜索结果越精准。搜狗网页搜索3.0从用户体验出发，将结果点击次数与搜索次数的比率，即点击通过率，作为评估搜索结果精准性的重要指标，进行优化，确保我们的算法满足用户对于“精准”的理解。搜狗网页搜索3.0版本上线后，网页搜索的点击通过率预计将提升了10%。<br/><br/>　　由于Web2.0概念的普及，博客、论坛、社区、圈子等应用的涌现，互联网上越来越多的用户从信息的获取者变成了信息的发布者。面对求知若渴的众多网友，目前国内搜索引擎市场远远达不到用户对海量、及时、精准的三点要求，导致目前国内搜索行业处于停滞不前，利益当先的状况，因此搜狗网页搜索3.0的诞生是对目前龙鱼混杂的搜索市场的一次梳理，也是长期以来的尝试和发展过程中勇于创新的成果，必将打破目前搜索行业的陈旧格局，成为2007年搜索风暴的引领者。<br/><br/>　　搜狐公司董事局主席兼首席执行官张朝阳先生非常有信心地说：“在信息呈现爆炸式增长的今天，海量、及时和精准已经成为搜索引擎的衡量标准。搜狗网页搜索3.0将会成为中文互联网中品质最好的搜索引擎。搜狗技术研发团队近两年的技术储备，将为搜索领域带来深刻的蜕变。2007年1月1日，搜狗网页搜索3.0正式发布，将会证明一切，我们期待那个时刻的到来，同时也是给一直以来支持搜狗的网友们一份新年大礼，我们将同网友一同见证这个在搜索行业标入史册的重要时刻”。<br/><br/>　　从诞生之日起，为网民提供最好的互联网体验就是搜狗团队一直不懈努力的目标，从凭借打字速度快而火速窜红的搜狗输入法到中文网页评级最权威的行业标准Sogou Rank；从运用领先的pxp技术提供流畅的在线音乐试听到为网民提供了无限乐趣的文品指数，以及国内首个搜索引擎实验室——搜狗网络实验室，都证实了搜狗的强大技术创新能力。　<br/><br/>黑色梦中有个疑问：众多周知，大部分网民都会将搜索结果第一位作为首选，如果该网页并不能满足用户需求，致使用户发生更多次点击，但关注结果数据而非用户操作过程会使第一位的点击通过率恒高，这个矛盾如何解决？所以几乎可以肯定的是，好的搜索结果不是简单的排序，而是对大量的数据进行归纳研究得出的近似结果。<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>博客</a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%258B%2590/" rel="tag">搜狐</a> , <a href="http://www.bloghuman.com/tags/sogou/" rel="tag">sogou</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/240/</link>
<title><![CDATA[Google和百度收录网站页面的比较]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 06 Dec 2006 14:34:08 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/240/</guid> 
<description>
<![CDATA[ 
	　　我用一句话来形容，就是Google更乐于收录大站的页面，百度则乐于收录新站的页面。 <br/><br/>　　Google和Baidu收录网站页面的标准是不同的。 <br/><br/>　　为了验证这一点，我做一个实验：我申请了一个新域名www.moon-blog.com，不再其他任何网站做链接，而直接往百度和Google搜索引擎的提交页面进行提交。一个月过去了，百度收录的网页是24,900篇，Google收录的网页是0，这证实了我以前的猜测。 <br/><br/>　　这说明了什么呢？说明百度比Google好吗？绝对不是的。因为Baidu和Google收录页面的标准是完全不同的。 <br/><br/>　　Google是按照网页级别来收录的，只要你有一定的网页级别，Google会快速收录的，而没有网页级别的网站，Google则坚决不去收录。Baidu则很夸张，采用的是来者不拒，多多益善的原则，无休止的进行收录。Baidu的这种不按网页级别的收录方式其实有很大的恶果，最主要的恶果是造成大量的垃圾网站流行，因为只要做一个垃圾站，Baidu就会立刻收录（25000页以内），这等于变相的鼓励大家去做垃圾站，去盲目采集。当垃圾站横行的时候，Baidu再通过人工的方式封站，对于大流量的网站再威胁其站长办理百度竞价排名。因此Baidu和大量的个人站长都结有恩怨。 <br/><br/>　　这两种收录方式哪种更好呢？我个人认为Google的这种收录方式是比较科学的。因为互联网上的页面是个天文数字，收录应该是有选择的收录，好的网站则多收录，新站则应该少收录，等其慢慢知名了以后再多收录，这样也提高了效率，让用户搜索到更好的页面而不是更多的页面。而且Google的爬虫占用服务器的资源较少，通常是先用head来查看网页是否更新，如果更新了再抓取整个页面，这种方法耗费流量较少。而百度则不管三七二十一上来就抓整个站，而且其爬虫数量非常庞大，对于页面较多的网站通常会耗费惊人的流量，并且常常造成恶劣的后果。例如我以前的月光软件站有一段时间CPU耗费极大，IIS连接数也逼近1000，每天流量高达10多G，电信机房总威胁要限制我的带宽，我以前一直以为是被别人DDOS攻击，但是我购买了新的服务器，换了几个IP，甚至更换了几个机房，依然无法解决问题，不得已只好将服务器托管到外地流量充裕的机房，但CPU负荷还总是居高不下。直到我网站被百度封了后，百度爬虫也不再光故，这时我才惊奇地发现，我的CPU和流量终于处于一种稳定合理的状态了，到目前为之，我站每天流量也有十多G，但CPU一直都没有超过5%，服务器也很少出现死机和大量IIS连接的状况，因此我开始怀疑，以前的所谓被DDOS攻击，其实只是大量的百度爬虫在抓取我的网站而已，由于其爬虫数量庞大，才引起我服务器的超负荷运转以至濒于崩溃。 <br/><br/>　　当然，百度这种“贪婪”爬虫抓取方法，虽然会让用户能够在百度搜索出一些Google里搜索不到的页面，但这实在是损人利己。其带给网站站长不少负面效果：服务器和带宽资源过度消耗，垃圾站被变相鼓励了，原创的有特色的网站则被边缘化，MP3音乐网站则更苦不堪言－自己的MP3被百度盗链后带来大量文件下载却没有带来页面访问。 <br/><br/>　　因此，中国的网民也出现了很奇怪的现象：大量的新网民和菜鸟新手喜欢用百度搜索，因为百度往往搜索到很多别处搜索不到的页面，但内容的匹配度则令人质疑，而专业人士和老鸟则更喜欢用Google，个人站长则普遍和百度有“个人恩怨”。因此百度在业界的Blog以及社区中口碑都不太好，但在普通的低层次的网民心中却不错，这些大量的普通网民给百度带来了大量流量。 <br/><br/>　　其实百度也发现这样所带来的问题。网络新手和普通网民的影响力微不足道，被Hao123这样的流氓网站强奸了，也不会反抗，用Hao123时间长了反而会依赖和喜欢上这样的低级网站。而IT专业人士则不同，他们建网站、写博客、开论坛，他们可以影响一大批普通用户，如果百度长期依靠低端用户而和大量站长结怨的话，其发展前景也是令人质疑的。<br/><br/>转载自:http://google-google.blog.sohu.com/23789516.html<br/>Tags - <a href="http://www.bloghuman.com/tags/baidu/" rel="tag">baidu</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E9%25A1%25B5%25E7%25BA%25A7%25E5%2588%25AB/" rel="tag">网页级别</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E9%25A1%25B5%25E6%2594%25B6%25E5%25BD%2595/" rel="tag">网页收录</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/238/</link>
<title><![CDATA[搜索引擎中网络爬虫的设计分析]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 04 Dec 2006 04:18:17 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/238/</guid> 
<description>
<![CDATA[ 
	下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。<br/><br/>说的简单易懂一些，网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线，其实还是要跟网络联结，否则怎么抓东西下来？那么不同的地方在哪里？<br/><br/>1】 网络爬虫高度可配置性。<br/>2】 网络爬虫可以解析抓到的网页里的链接<br/>3】 网络爬虫有简单的存储配置<br/>4】 网络爬虫拥有智能的根据网页更新分析功能<br/>5】 网络爬虫的效率相当的高<br/><br/>那么依据特征，其实也就是要求了，如何设计爬虫呢？要注意哪些步骤呢？<br/><br/>1】 url 的遍历和纪录<br/>这点 larbin 做得非常的好，其实对于url的遍历是很简单的，例如：<br/><div class="code"><br/>cat &#91;what you got&#93;&#124; tr &#92;&quot; &#92;&#92;n &#124; gawk &#039;&#123;print $2&#125;&#039; &#124; pcregrep ^http:// <br/></div><br/>就可以得到一个所由的 url 列表<br/><br/>2】多进程 VS 多线程<br/>各有优点了，现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。<br/><br/>3】时间更新控制<br/>最傻的做法是没有时间更新权重，一通的爬，回头再一通的爬。<br/><strong>通常在下一次爬的的数据要跟上一次进行比较，如果连续5次都没有变化，那么将爬这个网页的时间间隔扩大1倍。</strong><br/><br/><strong>如果一个网页在连续5次爬取的时候都有更新，那么将设置的爬取时间缩短为原来的1／2。</strong><br/><br/>注意，效率是取胜的关键之一。<br/><br/>4】爬的深度是多少呢？<br/>看情况了。如果你比较牛，有几万台服务器做网络爬虫，我劝您跳过这一点。<br/>如果你同我一样只有一台服务器做网络爬虫，那么这样一个统计您应该知道：<br/><br/>网页深度：网页个数：网页重要程度<br/>0 : 1 : : 10<br/>1 :20 : :8<br/>2: :600: :5<br/>3: :2000: :2<br/>4 above: 6000: 一般无法计算<br/><br/>好了，爬到三级就差不多了，再深入一是数据量扩大了3／4倍，二是重要度确下降了许多，这叫做“种下的是龙种，收获的是跳蚤。<br/><br/>5】爬虫一般不之间爬对方的网页，一般是通过一个Proxy出去，这个proxy有缓解压力的功能，因为当对方的网页没有更新的时候，只要拿到 header 的 tag就可以了，没有必要全部传输一次了，可以大大节约网络带宽。<br/><br/>apache webserver里面纪录的 304 一般就是被cache的了。<br/><br/>6】请有空的时候照看一下robots.txt<br/><br/>7】存储结构。<br/>这个人人见智，google 用 gfs 系统，如果你有7／8台服务器，我劝你用NFS系统，要是你有70／80个服务器的话我建议你用afs 系统，要是你只有一台服务器，那么随便。<br/><br/>给一个代码片断，是我写的新闻搜索引擎是如何进行数据存储的：<br/><br/><br/><div class="code"><br/>NAME=`echo $URL &#124;perl -p -e &#039;s/(&#91;^&#92;w&#92;-&#92;.&#92;@&#93;)/$1 eq &quot;&#92;n&quot; ? &quot;&#92;n&quot;:sprintf(&quot;%%%2.2x&quot;,ord($1))/eg&#039;`<br/>mkdir -p $AUTHOR<br/>newscrawl.pl $URL --user-agent=&quot;news.booso.com+(+http://booso.com)&quot; -outfile=$AUTHOR/$NAME<br/></div><br/><br/><hr/><br/><br/>以上转载的是一篇关于搜索引擎网络爬虫（即搜索引擎蜘蛛程序）的设计分析的文章，介绍了一些蜘蛛设计的常识，这些信息对<a href="http://www.bloghuman.com/" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a></a>都很有帮助，特别是注意以下几句：<br/><br/>1.<strong>通常在下一次爬的的数据要跟上一次进行比较，如果连续5次都没有变化，那么将爬这个网页的时间间隔扩大1倍，如果一个网页在连续5次爬取的时候都有更新，那么将设置的爬取时间缩短为原来的1／2。</strong><br/><br/>网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行，爬取次数越多意味着网页收录几率会越大、收录数量越多，收录是<a href="http://www.bloghuman.com/" target="_blank"><a href="http://www.rambosem.com/seo.html" target="_blank" title="http://www.rambosem.com/seo.html" class="mykeyword">SEO优化</a></a>最基础的一个环节。<br/><br/>2.<strong>好了，爬到三级就差不多了，再深入一是数据量扩大了3／4倍，二是重要度确下降了许多，这叫做“种下的是龙种，收获的是跳蚤。</strong><br/><br/>尽量将网站保持在三级目录内，深层次的网页会给搜索引擎带来很大的压力，当然，我想Google有足够的服务器来承担这些压力，但从侧面来说，3层目录下的网页被抓取及更新的频度要低很多。前面，我说过，要想办法使网站物理结构和逻辑结构吻合，这体现于URL的良好设计，现在你可以检查下前台生成的静态网页的实际目录有几层，考虑是否可以优化。<br/>关于网站逻辑结构和URL设计，请参考“<a href="http://www.bloghuman.com/post/224/" target="_blank">网站内部链接优化是SEO的第一要素</a>”和“<a href="http://www.bloghuman.com/post/190/" target="_blank">二级域名与一级目录之间该如何选择？”</a><br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 黑色梦中<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中的<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a></a><br/>版权所有。转载时请以链接形式注明作者和原始出处及本声明。</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E7%25BB%259C%25E7%2588%25AC%25E8%2599%25AB/" rel="tag">网络爬虫</a> , <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E5%25BC%2595%25E6%2593%258E%25E4%25BC%2598%25E5%258C%2596/" rel="tag">搜索引擎优化</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/237/</link>
<title><![CDATA[郝聪对搜索引擎作弊的看法]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Fri, 01 Dec 2006 04:06:18 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/237/</guid> 
<description>
<![CDATA[ 
	以下内容转自Google黑板报 Google 研究员 吴军<br/>关于搜索引擎作弊问题，黑色梦中谈一下自己的看法：<br/><br/><strong>自从有了搜索引擎，就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的，用句俗话说，闪光的不一定是金子。</strong><br/><br/>搜索引擎的作弊，虽然方法很多，目的只有一个，就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站，重复地罗列各种数码相机的品牌，如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词，聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实，这种做法很容易被搜索引擎发现并纠正。<br/><br/>在有了网页排名(page rank)以后，作弊者发现一个网页被引用的连接越多，排名就可能越靠前，于是就有了专门卖链接和买链接的生意。比如，有人自己创建成百上千个网站，这些网站上没有实质的内容，只有到他们的客户网站的连接。这种做法比重复关键词要高明得多，但是还是不太难被发现。因为那些所谓帮别人提高排名的网站，为了维持生意需要大量地卖链接，所以很容易露马脚。（这就如同造假钞票，当某一种假钞票的流通量相当大以后，就容易找到根源了。）再以后，又有了形形色色的作弊方式，我们就不在这里一一赘述了。<br/><br/>几年前，我加入Google做的第一件事就是消除网络作弊。在Google最早发现搜索引擎作弊的是Matt Cutts，他在我加入Google前几个月开始研究这个问题，后来，辛格，马丁和我先后加入进来。我们经过几个月的努力，清除了一半的作弊者。(当然，以后抓作弊的效率就不会有这么高了。）其中一部分网站从此"痛改前非"，但是还是有很多网站换一种作弊方法继续作弊，因此，抓作弊成了一种长期的猫捉老鼠的游戏。虽然至今还没有一个一劳永逸地解决作弊问题的方法，但是，Google基本做到了对于任何已知的作弊方法，在一定时间内发现并清除它，从而总是将作弊的网站的数量控制在一个很小的比例范围。<br/><br/>抓作弊的方法很像信号处理中的去噪音的办法。学过信息论和有信号处理经验的读者可能知道这么一个事实，我们如果在发动机很吵的汽车里用手机打电话，对方可能听不清；但是如果我们知道了汽车发动机的频率，我们可以加上一个和发动机噪音相反的信号，很容易地消除发动机的噪音，这样，收话人可以完全听不到汽车的噪音。事实上，现在一些高端的手机已经有了这种检测和消除噪音的功能。消除噪音的流程可以概括如下：<br/><br/><a href="http://www.bloghuman.com/attachment/noise-channel.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/noise-channel.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>在图中，原始的信号混入了噪音，在数学上相当于两个信号做卷积。噪音消除的过程是一个解卷积的过程。这在信号处理中并不是什么难题。因为第一，汽车发动机的频率是固定的，第二，这个频率的噪音重复出现，只要采集几秒钟的信号进行处理就能做到。从广义上讲，只要噪音不是完全随机的、并且前后有相关性，就可以检测到并且消除。（事实上，完全随机不相关的高斯白噪音是很难消除的。）<br/><br/>搜索引擎的作弊者所作的事，就如同在手机信号中加入了噪音，使得搜索结果的排名完全乱了。但是，这种人为加入的噪音并不难消除，因为作弊者的方法不可能是随机的（否则就无法提高排名了）。而且，作弊者也不可能是一天换一种方法，即作弊方法是时间相关的。因此，搞搜索引擎排名算法的人，可以在搜集一段时间的作弊信息后，将作弊者抓出来，还原原有的排名。当然这个过程需要时间，就如同采集汽车发动机噪音需要时间一样，在这段时间内，作弊者可能会尝到些甜头。因此，有些人看到自己的网站经过所谓的优化（其实是作弊），排名在短期内靠前了，以为这种所谓的优化是有效的。但是，不久就会发现排名掉下去了很多。这倒不是搜索引擎以前宽容，现在严厉了，而是说明抓作弊需要一定的时间，以前只是还没有检测到这些作弊的网站而已。<br/><br/>还要强调一点，Google抓作弊和恢复网站原有排名的过程完全是自动的(并没有个人的好恶），就如同手机消除噪音是自动的一样。<span style="color: #FF0000;">一个网站要想长期排名靠前，就需要把内容做好，同时要和那些作弊网站划清界限</span>。<br/><br/><hr/><br/><br/>黑色梦中个人理解，这是一篇具有技术含量的公关稿，Google想要告诉我们：<br/>1。Google完全可以通过自身算法的不断完善来判断作弊行为<br/>2。Google并不想把作弊网站排在搜索结果前面，而是搜索结果遭到了人为的破坏，而解决这样的问题需要一定的时间和证据<br/>3。Google正在收集、研究目前已知的作弊行为，并对其进行研究，并在合适的时期将结论分析应用于算法中，体现结果会是全面惩罚作弊行为<br/>4。Google对作弊站点的惩罚可能会株连很多无辜的站点，请在交换链接时注意。<br/>5。如果你遇到了这样的网站：他没有实际内容，网页上几乎都是导出链接，但他PR很高。请不要购买这种站点的链接，不仅价值不高，还可能被列出重点“关照”对象<br/><br/>当然，还有一些疑问，说出来大家一起想一想：<br/>把内容做好是必需的，但是不是保持内容的持续不断更新就可以？否则Google如何解决内容可复制性的问题？<br/>Google指定不会告诉我们其算法中是如何检测到重复关键词的，我想利用搜索引擎的信息片算法就可以解决这个问题，但像吴军所言：<br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">比如一个卖数码相机的网站，重复地罗列各种数码相机的品牌，如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词，聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实，这种做法很容易被搜索引擎发现并纠正。</div></div><br/>这点值得商榷，何为重复，尺度如何，我想即便是不了解<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>的人也知道，网页中的文字也不可能写成”尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康“吧，难道他不觉得碍眼？？但写成”尼康数码相机&nbsp;&nbsp;佳能数码相机&nbsp;&nbsp; 柯达数码相机。。。“算不算在重复”数码相机“这个关键词呢？？？可“尼康&#124;尼&#124;康尼[]康&#124;！·￥#尼#！康%（*#……尼—PADG康、&#124;”这种形式，无论从密度或绝对匹配情况都无法用一个极限值去衡量，不是吗？？？当然，希望Google有更好的方法.<br/><br/><strong>对于搜索引擎作弊，黑色梦中持反对态度，为什么？很简单，没有必要。</strong><br/><br/>我个人认为<a href="http://www.bloghuman.com/" target="_blank">SEO</a>是持久性的优化（前提是保证网站内容的持续更新、市场营销活动铺开、线上合作、网站维护等）。当然，不持久的也未必是作弊，我希望大家<strong>从网站整体的角度去看待SEO</strong>，SEO不仅仅是要把某一个或几个<a href="http://www.rambosem.com/keywords_rank_optimization.html" target="_blank" title="http://www.rambosem.com/keywords_rank_optimization.html" class="mykeyword">关键词优化</a>上去，实际情况是：如果你不能对关键词进行合理的布置，对整站结构及内容体现有一个很清晰的把握的话，优化效果也无法持久，而花费在后期维护的时间、精力却是大量而没有效果的，就好比人在犯了错误的时候，没能从根本原因入手去解决问题，而从导致错误的直接原因入手，结果是错上加错。SEO的前期准备工作更加重要，你试图去了解网站的业务模式、网站技术实现方式、网站架构、网站的营销策略、网站内容的表现形式，然后转换一下角色，以一个需求者的角度去模拟用户访问行为，可能你会发现的确需要做很多事情来满足用户，利用上你对SEO的了解去做这些事情，最终结果会让你很惊喜的。祝你好运！！！<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a></a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/spam/" rel="tag">spam</a> , <a href="http://www.bloghuman.com/tags/sec/" rel="tag">sec</a> , <a href="http://www.bloghuman.com/tags/pagerank/" rel="tag">pagerank</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/236/</link>
<title><![CDATA[Yahoo统计到的用户行为分析]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 29 Nov 2006 14:22:27 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/236/</guid> 
<description>
<![CDATA[ 
	《商业周刊》的一篇“How Yahoo! Gave Itself A Face-Lift”（雅虎是如何对它进行“面部整容”的，Justin Hibbard撰写）非常有意思。文中介绍了雅虎公司对yahoo.com首页的改版方案，决定新首页布局的是一个名叫SDS（Strategic Data Solutions，战略数据解决方案）部门的统计数据。 <br/><br/>SDS部门的前身是一家数据挖掘咨询机构，雅虎在2004年将其收购。该部门专门负责研究用户的访问、点击行为，并从海量的统计中摸准用户的真实心理。根据这篇文章披露的资料，到目前为止，雅虎的用户行为统计数据量足以填满1000个美国国会图书馆。 <br/><br/>SDS的研究成果对雅虎的页面设计提供了非常直接的建议，比如： <br/><br/>1、网民“所声称的”和他们的实际点击行为往往有较大的出入。用户吵着闹着“需要看严肃的国际新闻”，而且常常抱怨：“我不希望我浏览的网页上到处都是Britney Spears的消息，要是我的老板经过时看到了怎么办？”但实际上关注Britney Spears的消息点击率是最高的。 <br/><br/>这个矛盾的结果让yahoo做出了一个改版决定——保留国际新闻在显著位置，但娱乐版也被放在重要位置。 <br/><br/>2、用户更喜欢方便，而非简洁。通常的观点会认为网民更偏好于一个简约的首页，但SDS的数据显示网民希望能在一个页面上就看到所有东西，诸如邮箱、即时消息、新闻、专栏等等。 <br/><br/>马云曾经让雅虎中国的页面变成Google，现在又换成了美国风格，不知道雅虎中国的不断“变脸”是不是也在SDS的数据左右之下。 <br/><br/>3、有时候页面载入速度过快也是问题所在。雅虎推出的Personal Assistant功能利用AJAX技术实现了“把光标放在图标上就能浏览到其中的内容，比如电子邮件”。本来一个看似非常棒的功能，但结果却并不讨用户的喜欢，SDS分析的结果是——页面载入速度太快。设计团队加入延迟载入之后，问题迎刃而解。 <br/><br/>无独有偶，上次见李开复的时候，他提到了在微软工作时一个有趣的试验——有些初级网民不会使用关键字，常常输入“去哪找工作啊？”这样啼笑皆非的搜索词，于是他们采用了一个简单的处理方法解决了问题——将文字输入框缩短。这便是用户心理学，和SDS干得事是一样的。 <br/><br/>不知道国内门户是否有类似的部门（据我所知，多数网站的这一工作，被用户体验部门和应用平台技术部门包办了），但我想这项工作对任何商业站点都有非常重要的意义。恰好最近网易和奇虎已经完成首页及各频道的改版，而新浪和搜狐也正在对页面进行调整，不知道它们又是凭什么做“Face-Lift”的。<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/yahoo%2521/" rel="tag">yahoo!</a> , <a href="http://www.bloghuman.com/tags/%25E7%2594%25A8%25E6%2588%25B7%25E8%25A1%258C%25E4%25B8%25BA/" rel="tag">用户行为</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/234/</link>
<title><![CDATA[Google Adsense高价关键词列表－Highest Paying Google AdSense Keywords]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Tue, 21 Nov 2006 06:08:28 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/234/</guid> 
<description>
<![CDATA[ 
	<span style="font-size: 14px;"><strong>FREE Top Paying Google Adsense Keywords List </strong></span><br/><br/>Here is a list of free best paying keywords for google adsense. Rates given here is the average for top three postion, updated 5 th June, 2006. The data provided here is just for the information only. We do not encourage or support any kind of spamming including MFA(Made for Adsense) sites. We also want to make it clear that the actual earning could be much lower than listed here, depending on the site, location of the visitor and a number of other factors. Google adsense, Yahoo YPN or any other PPC programs are not money making machines. Creating a successfull website needs a lot of hardwork and dedication, selecting the top paying keywords is not really a criteria. In fact, all the MFA sites earn practically nothing, it is the quality of the content that matters in long term. Another interesting fact is that, there is high paying keywords( say above 10$ per click) in almost every niche. It is always better to select a topic of your interest rather than selecting a high paying niche. Our personal experince proves that the keywords showing 10$-15$ ultimately earns only 2$-3$ for the publisher. Google has a keyword bidding mechanism, so that the first ad pays only one cent more than the competitor. <br/> <br/>The data is obtained directly from google's tools itself. I hope publishing the rates doesn't break any adsense/adwords TOS, if anybody feel otherwise, please let us know. <br/><br/>Disclaimer: &nbsp;Google, Adsense, Adwords are registerd trademarks. We are not affiliated with google and make any claims about the accuracy of the data. <br/><br/>Now that you have been warned, take a look at the high paying Top Google Adsense Keywords. <br/><br/><br/><span style="font-size: 14px;"><strong>google adsense高价关键词价格排名</strong></span><br/> <br/> $78.30 chicago personal injury lawyer<br/> &nbsp;$73.01 chicago personal injury attorney<br/> &nbsp;$69.17 lasik new york city<br/> &nbsp;$64.27 new york personal injury lawyer<br/> &nbsp;$64.17 new jersey car insurance<br/> &nbsp;$63.10 new york personal injury attorney<br/> &nbsp;$61.64 chicago personal injury lawyers<br/> &nbsp;$61.17 mesothelioma lawyers<br/> &nbsp;$60.74 atlanta personal injury lawyer<br/> &nbsp;$60.29 new york personal injury lawyers<br/> &nbsp;$59.00 lasik dallas<br/> &nbsp;$58.68 new york personal injury lawyers<br/> &nbsp;$58.38 miami personal injury attorney<br/> &nbsp;$58.25 what is mesothelioma<br/> &nbsp;$58.08 best equity loan<br/> &nbsp;$57.95 lasik new york<br/> &nbsp;$56.88 whole life insurance quote<br/> &nbsp;$56.75 new york car insurance<br/> &nbsp;[...]<br/> &nbsp;$53.46 whole life insurance quotes<br/> &nbsp;$53.42 car insurance in new jersey<br/> &nbsp;$53.12 las vegas personal injury lawyer<br/> &nbsp;$53.12 term life insurance quotes<br/> &nbsp;$52.57 mesothelioma treatments<br/> &nbsp;$52.41 equity loan rate<br/> &nbsp;$51.78 equity loan<br/> &nbsp;$51.50 new york personal injury lawyer<br/> &nbsp;$51.29 equity loan rates<br/> &nbsp;$51.15 fixed rate equity loan<br/> &nbsp;$50.54 causes of mesothelioma<br/> &nbsp;[...]<br/> &nbsp;$45.33 los angeles botox<br/> &nbsp;$45.07 new lasik<br/> &nbsp;$44.86 fixed equity loan<br/> &nbsp;$44.51 san diego personal injury attorney<br/> &nbsp;$44.19 125 equity loans<br/> &nbsp;$43.58 mesothelioma cases<br/> &nbsp;$43.57 car insurance in new york<br/> &nbsp;$42.97 equity refinance<br/> &nbsp;$42.70 asbestos and mesothelioma<br/> &nbsp;$42.52 auto insurance quote<br/> &nbsp;[...]<br/> &nbsp;$40.47 [cosmetic surgery los angeles]<br/> &nbsp;$40.04 personal injury attorney atlanta<br/> &nbsp;$39.67 car insurance california<br/> &nbsp;$39.66 oregon personal injury lawyer<br/> &nbsp;$39.43 auto insurance<br/> &nbsp;$39.35 albany personal injury lawyer<br/> &nbsp;$39.21 fixed equity loans<br/> &nbsp;$39.11 personal injury lawyers<br/> &nbsp;$38.84 ameriquest mortgage<br/> &nbsp;$38.31 auto insurance quotes<br/> &nbsp;$38.19 mortgage refinance<br/> &nbsp;$38.17 lump sum settlement<br/> &nbsp;$37.43 cause of mesothelioma<br/> &nbsp;[...]<br/><br/> &nbsp;TOP PAYING FINANCIAL KEYWORDS &nbsp;<br/> &nbsp; <br/>auto insurance quote $57.18 &nbsp;<br/>college loan consolidation $53.52 &nbsp;<br/>car insurance quote $46.89 &nbsp;<br/>federal loan consolidation $46.62 &nbsp;<br/>online car insurance $41.92 &nbsp;<br/>term life insurance quote $40.43 &nbsp;<br/>cheap car insurance $39.79 &nbsp;<br/>student loan consolidation $39.45 &nbsp;<br/>auto insurance quotes $39.24 &nbsp;<br/>online insurance quotes $37.63 &nbsp;<br/>student loan information $37.32 &nbsp;<br/>equity loan rates $36.53 &nbsp;<br/>nj auto insurance $36.31 &nbsp;<br/>student loan consolidation center $35.89 &nbsp;<br/>debt consildation $35.83 &nbsp;<br/>chase credit cards $35.02 &nbsp;<br/>student loan refinancing $34.89 &nbsp;<br/>discount car insurance $34.34 &nbsp;<br/>life insurance quote $34.26 &nbsp;<br/>homeowners insurance quotes $33.61 &nbsp;<br/>mortgage loans $33.17 &nbsp;<br/>mortgage loans $33.17 &nbsp;<br/>mortgage refinancing $33.08 &nbsp;<br/>equity line of credit $33.05 &nbsp;<br/>college loans $32.91 &nbsp;<br/>best mortgage rates $32.65 &nbsp;<br/>student loans $32.54 &nbsp;<br/>loan refinancing $32.44 &nbsp;<br/>us mortgage rates $32.38 &nbsp;<br/>instant insurance quote $32.37 &nbsp;<br/>term life insurance quotes $32.11 &nbsp;<br/>consolidation loan $32.03 &nbsp;<br/>loan refinance $31.95 &nbsp;<br/>car insurances $31.92 &nbsp;<br/>safe auto insurance $31.82 &nbsp;<br/>insurance auto florida $31.38 &nbsp;<br/>auto insurance $31.38 &nbsp;<br/>equity line of credit $30.71 &nbsp;<br/>gmac mortgages $30.46 &nbsp;<br/>mortgages for self employed $30.45 &nbsp;<br/>car insurance california $30.17 &nbsp;<br/>in car insurance $29.84 &nbsp;<br/>best mortgage $29.53 &nbsp;<br/>refinancing mortgages $29.43 &nbsp;<br/>line of credit $29.27 &nbsp;<br/>prequalify loan $28.98 &nbsp;<br/>loans com $28.75 &nbsp;<br/>business credit report $28.40 &nbsp;<br/>whole life insurance quotes $28.17 &nbsp;<br/>new york auto insurance $27.72 &nbsp;<br/>online mortgages $27.71 &nbsp;<br/>student loan $27.61 &nbsp;<br/>cheap house insurance $27.45 &nbsp;<br/>low cost life insurance $27.25 &nbsp;<br/>school loan consolidation $26.99 &nbsp;<br/>citi credit $26.80 &nbsp;<br/>manhattan mortgages $26.70 &nbsp;<br/>school loans $26.61 &nbsp;<br/>term insurance $26.58 &nbsp;<br/>second mortgage $26.56 &nbsp;<br/>credit report com $26.48 &nbsp;<br/>auto ins $26.21 &nbsp;<br/>consolidation $25.90 &nbsp;<br/>line of credit $25.57 &nbsp;<br/>landlords insurance $25.46 &nbsp;<br/>low mortgage $25.45 &nbsp;<br/>commercial vehicle insurance $25.37 &nbsp;<br/>credit consolidation $25.32 &nbsp;<br/>bad credit mortgages $25.22 &nbsp;<br/>bad credit mortgages $25.22 &nbsp;<br/>discount life insurance $25.22 &nbsp;<br/>More Financial Keywords ..... <br/> &nbsp;<br/>TOP HOSTING AND DOMAIN NAMES KEYWORDS <br/> &nbsp;<br/>register a domain name $34.51 &nbsp;<br/>domain registrations $31.39 &nbsp;<br/>servers dedicated $29.47 &nbsp;<br/>how to register a domain name $26.84 &nbsp;<br/>domaine names $26.00 &nbsp;<br/>register domain names $25.83 &nbsp;<br/>search domain name $24.75 &nbsp;<br/>domain register $24.25 &nbsp;<br/>domain registration $23.97 &nbsp;<br/>internet domain registration $23.58 &nbsp;<br/>yahoo webhosting $22.05 &nbsp;<br/>domain registering $21.78 &nbsp;<br/>counter strike dedicated servers $21.65 &nbsp;<br/>buy domain name $21.23 &nbsp;<br/>registering domain names $20.71 &nbsp;<br/>domain check $20.21 &nbsp;<br/>buy a domain name $20.12 &nbsp;<br/>domain search $19.83 &nbsp;<br/>dedicated server $19.73 &nbsp;<br/>managed dedicated servers $19.56 &nbsp;<br/>domain name registrations $19.55 &nbsp;<br/>eu domain registration $19.52 &nbsp;<br/>domain searches $19.28 &nbsp;<br/>domain names $19.06 &nbsp;<br/>domain name registration $19.01 &nbsp;<br/>dedicated linux hosting $18.35 &nbsp;<br/>available domain name $18.31 &nbsp;<br/>linux dedicated hosting $18.20 &nbsp;<br/>dedicated web hosting $18.04 &nbsp;<br/>hosting domain registration $17.87 &nbsp;<br/>dedicated windows server hosting $17.74 &nbsp;<br/>dedicated web hosting $17.63 &nbsp;<br/>hosting dedicated $17.58 &nbsp;<br/>dedicated hosting $17.30 &nbsp;<br/>managed dedicated hosting $17.30 &nbsp;<br/>domain name availability $16.99 &nbsp;<br/>ca domain name $16.64 &nbsp;<br/>web domain $16.58 &nbsp;<br/>dedicated web server $16.56 &nbsp;<br/>domain names canada $16.53 &nbsp;<br/>dedicated server hosting $16.14 &nbsp;<br/>dedicated hosting server $16.03 &nbsp;<br/>cheap domain names $16.00 &nbsp;<br/>register domains $15.92 &nbsp;<br/>dedicated windows hosting $15.90 &nbsp;<br/>mohaa dedicated server $15.87 &nbsp;<br/>inexpensive domain $15.70 &nbsp;<br/>domain name $15.69 &nbsp;<br/>dedicated server web hosting $15.44 &nbsp;<br/>Domain $15.38 &nbsp;<br/>domain name registration search $15.37 &nbsp;<br/>uk dedicated hosting server $15.36 &nbsp;<br/>unix dedicated server $15.17 &nbsp;<br/>cheap domain register $15.03 &nbsp;<br/>dedicated sql server $15.03 &nbsp;<br/>More Web Hosting & Domain Name Keywords &nbsp;<br/> &nbsp; <br/>HIGHEST PAYING ELECTRONICS KEYWORDS <br/> &nbsp; <br/>laptop data recovery $23.60 &nbsp;<br/>vaio notebook $22.88 &nbsp;<br/>laptop pcs $18.85 &nbsp;<br/>computer notebooks $18.49 &nbsp;<br/>sony cyber shot dsc w7 digital camera $17.61 &nbsp;<br/>laptop computers $16.18 &nbsp;<br/>notebooks $13.79 &nbsp;<br/>rugged laptop $13.55 &nbsp;<br/>pc laptops $13.43 &nbsp;<br/>laptops $13.34 &nbsp;<br/>vaio laptop battery $12.56 &nbsp;<br/>toshiba laptop computers $12.07 &nbsp;<br/>macintosh laptop $12.00 &nbsp;<br/>laptop notebook $11.51 &nbsp;<br/>notebook pc $11.48 &nbsp;<br/>laptop mounts $11.32 &nbsp;<br/>notebook computers $11.31 &nbsp;<br/>vehicle laptop $10.32 &nbsp;<br/>dsc p10 digital camera $10.05 &nbsp;<br/> &nbsp; <br/>HIGH PAYING DATING KEYWORDS &nbsp;<br/> &nbsp;<br/>singles in las vegas $20.95 &nbsp;<br/>las vegas singles $19.21 &nbsp;<br/>albuquerque singles $12.32 &nbsp;<br/>pensacola singles $12.19 &nbsp;<br/>african american singles $11.79 &nbsp;<br/>american christian singles $10.60 &nbsp;<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/adsense/" rel="tag">adsense</a> , <a href="http://www.bloghuman.com/tags/%25E5%2585%25B3%25E9%2594%25AE%25E8%25AF%258D/" rel="tag">关键词</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/233/</link>
<title><![CDATA[Page Rank Export List History]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Tue, 21 Nov 2006 06:05:35 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/233/</guid> 
<description>
<![CDATA[ 
	This <strong>Page Rank Update/Export List History</strong> contains the dates that Google Toolbar <strong>Pagerank</strong> (<strong>PR</strong>) was exported. As of November 20th, there has not been a Toolbar <strong>PR</strong> export for 53 day(s). The longest time between toolbar PR exports recorded in the below <strong>Page Rank Export List</strong> was 122 days (Oct 19/2005 to Feb 18/2006).<br/><strong>*Note</strong>: Toolbar Pagerank update, Google Directory Pagerank update, and Backlink updates as of Sept 04/2005 will be referred to as <strong>Toolbar Pagerank Export</strong>, <strong>Google Directory Pagerank Export</strong>, and <strong>Backlink Export</strong> on this page.<br/>This better reflects what is happening when there is a visible change in these three items. There is only an export not an update. The word update will be reserved for Algorithm Updates which will cause a change in the search engine rankings.<br/>The Toolbar Pagerank, Google Directory Pagerank, and Backlink exports don't cause a change in search engine rankings. Any ranking changes during the export of the values of these three items is due to on going everflux changes - unless there is an algorithm update happening at the same time.<br/>Read Matt Cutt's blog on <br/><a href="http://www.mattcutts.com/blog/whats-an-update/" target="_blank">What's An Update</a><br/> and his <br/><a href="http://www.mattcutts.com/blog/more-info-on-pagerank/" target="_blank">More info on PageRank</a>.<br/><br/><br/><span style="font-size: 14px;"><strong>Page Rank Export Table Definitions</strong></span><br/><br/>TBPR Export: Toolbar PageRank Export - export of Real PR to the Toolbar PR 11 unit scale (no longer called a PR update as Real PR is updated continously and the Toolbar PR change is just an export of that updated value).<br/>GDPR Export: Google Directory Export - export of Real PR to the Google Directory 8 unit scale (no longer called a PR update as Real PR is updated continously and the Google directory PR change is an export of that updated value).<br/>BL Export: Backlink Export - export of a sample of the number of backlinks which is almost meaningless as it is only a sample number. This number can be seen with the link:www.domain.tld command (no longer called a BL update as backlinks are updated continously and the visible BL number change is an export of that updated value).<br/>Algo Update: Algorithm Update - a major update in the Ranking algorithm that causes a large SERP change.<br/>TB Program Version Change: Toolbar Program Version Change - a software version change to the Google toolbar that displays PR.<br/>Days: Days between toolbar PR exports.<br/> Tooltip information:<br/><a href="http://www.bloghuman.com/attachment/icon-book.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/icon-book.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a>Mouseover this icon and it provides further information. : Mouseover this icon and it provides further information. Click the icon takes you to forum coverage. <br/><br/><br/><span style="font-size: 14px;"><strong>Page Rank Export List History Table</strong></span><br/><br/><div class="code"><br/>&lt;table width=&quot;65%&quot;&gt;<br/>&lt;tr&gt;&lt;td colspan=&quot;4&quot; style=&quot;color:red;&quot;&gt;PR/BL Estimations: Average days between the last 5 exports.&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;&lt;b&gt;Year&lt;/b&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;Date&lt;/b&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;Info&lt;/b&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;Days&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;<br/>&lt;td&gt;2006&lt;/td&gt;<br/>&lt;td&gt;Waiting&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;TBPR Export &lt;span style=&quot;color:red;&quot;&gt;Estimation&lt;/span&gt; Jan 28&lt;/b&gt;&lt;/td&gt;<br/>&lt;td&gt;53&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2006&lt;/td&gt;<br/>&lt;td&gt;Waiting&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;GDPR Export &lt;span style=&quot;color:red;&quot;&gt;Estimation&lt;/span&gt; Mar 19&lt;/b&gt;&lt;/td&gt;<br/>&lt;td&gt;336&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2006&lt;/td&gt;<br/>&lt;td&gt;Waiting&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;BL Export &lt;span style=&quot;color:red;&quot;&gt;Estimation&lt;/span&gt; Oct 28&lt;/b&gt;&lt;/td&gt;<br/>&lt;td&gt;53&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;&lt;td&gt;2006&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=148674&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Sep 28 TBPR &amp;amp; BL Export:&lt;/b&gt; Toolbar Pagerank &amp;amp; BL Export.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=148674&lt;br /&gt;<br/>http://www.mattcutts.com/blog/new-toolbar-pageranks-visible/&lt;br /&gt;<br/><br/><br/>Estimated Oct 11/2006&lt;/span&gt;&lt;/a&gt; Sep 28&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Export&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;76&lt;/b&gt;/76&lt;/td&gt;&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;&lt;td&gt;2006&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=107899&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Jul 13 TBPR &amp;amp; BL Export:&lt;/b&gt; Toolbar Pagerank &amp;amp; BL Export.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=107899&lt;/span&gt;&lt;/a&gt; Jul &amp;nbsp;13&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Export&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;100&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2006&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=71901&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Apr 05 TBPR Export:&lt;/b&gt; Toolbar Pagerank Export.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=71901&lt;/span&gt;&lt;/a&gt; Apr &amp;nbsp;04&lt;/td&gt;<br/>&lt;td&gt;TBPR Export&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;45&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2006&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://blog.searchenginewatch.com/blog/060406-090216&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Mar 28/2006 TB Program Update:&lt;/b&gt; Google launched a new toolbar update <br/>(v 2.0f) for Fire Fox.&lt;br /&gt;<br/>http://blog.searchenginewatch.com/blog/060406-090216&lt;/span&gt;&lt;/a&gt; Apr 07&lt;/td&gt;<br/>&lt;td&gt;TB Program Update FF v2.0f&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt; <br/><br/>&lt;tr&gt;&lt;td&gt;2006&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=59164&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Feb 18 TBPR &amp;amp; BL Export:&lt;/b&gt; Toolbar Pagerank &amp;amp; BackLink Export.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=59164&lt;/span&gt;&lt;/a&gt; Feb &amp;nbsp;18&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Export&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;122&lt;/b&gt;/60&lt;/td&gt;&lt;/tr&gt; <br/><br/>&lt;tr&gt;&lt;td&gt;2006&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://blog.searchenginewatch.com/blog/060406-090216&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Mar 30/2006 TB Program Update:&lt;/b&gt; Google launched a new toolbar update <br/>(v 4.0.513.2948 Beta) for IE.&lt;br /&gt;<br/>http://blog.searchenginewatch.com/blog/060406-090216&lt;/span&gt;&lt;/a&gt; Jan 30&lt;/td&gt;<br/>&lt;td&gt;TB Program Update IE v4.0.513.2984 Beta&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt; <br/><br/>&lt;tr id=&quot;bigdaddy&quot;&gt;&lt;td&gt;2006&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.mattcutts.com/blog/bigdaddy-progress-update/&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Jan 4 to Mar 27 Infra Update:&lt;/b&gt; Infrastructure update.&lt;br /&gt;<br/>&lt;b&gt;Matt coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.mattcutts.com/blog/indexing-timeline/<br/>http://www.mattcutts.com/blog/q-a-thread-march-27-2006/<br/>http://www.mattcutts.com/blog/bigdaddy-status-update-almost-there/&lt;br /&gt;<br/>http://www.mattcutts.com/blog/bigdaddy-progress-update/&lt;br /&gt;<br/>http://www.mattcutts.com/blog/bigdaddy-on-the-move/&lt;br /&gt;<br/>http://www.mattcutts.com/blog/bigdaddy/&lt;br /&gt;<br/>http://www.mattcutts.com/blog/seo-advice-discussing-302-redirects/&lt;br /&gt;<br/>&lt;/span&gt;&lt;/a&gt; Jan 4&lt;/td&gt;<br/>&lt;td&gt;Infra Update - &lt;b&gt;BigDaddy&lt;/b&gt;&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.seo-guy.com/forum/thread10675.html&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Dec 19 GDPR &amp;amp; BL Export:&lt;/b&gt; Google Directory &amp;amp; BackLink Export.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.seo-guy.com/forum/thread10675.html&lt;/span&gt;&lt;/a&gt; Dec 19&lt;/td&gt;<br/>&lt;td&gt;GDPR &amp;amp; BL Export&lt;/td&gt;<br/>&lt;td&gt;106&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.mattcutts.com/blog/jagger-winding-down/&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Nov 04 to Nov 18 Algo Update:&lt;/b&gt; Algorithm Update - Jagger 3.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.mattcutts.com/blog/jagger-winding-down/&lt;br /&gt;<br/>http://www.mattcutts.com/blog/the-little-301-that-could/&lt;/span&gt;&lt;/a&gt; Nov 04&lt;/td&gt;<br/>&lt;td&gt;Algo Update - &lt;b&gt;Jagger 3&lt;/b&gt;&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.mattcutts.com/blog/jagger-2-update-info/&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 27 to Nov 06 Algo Update:&lt;/b&gt; Algorithm Update - Jagger 2.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.mattcutts.com/blog/jagger-2-update-info/&lt;/span&gt;&lt;/a&gt; Oct 27&lt;/td&gt;<br/>&lt;td&gt;Algo Update - &lt;b&gt;Jagger 2&lt;/b&gt;&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.mattcutts.com/blog/page/6/&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 19 TBPR &amp;amp; BL Export:&lt;/b&gt; Google Toolbar Pagerank &amp;amp; BackLink Export.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.mattcutts.com/blog/page/6/&lt;/span&gt;&lt;/a&gt; Oct 19&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Export&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;97&lt;/b&gt;/45&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.mattcutts.com/blog/more-info-on-updates/&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 16 to Nov 07 Algo Update:&lt;/b&gt; Algorithm Update - Jagger 1.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.mattcutts.com/blog/more-info-on-updates/&lt;/span&gt;&lt;/a&gt; Oct 16&lt;/td&gt;<br/>&lt;td&gt;Algo Update - &lt;b&gt;Jagger 1&lt;/b&gt;&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=27100&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Sep 4 GDPR &amp;amp; BL Export:&lt;/b&gt; Google Directory Pagerank &amp;amp; BackLink export.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=27100&lt;/span&gt;&lt;/a&gt; Sep 04&lt;/td&gt;<br/>&lt;td&gt;GDPR &amp;amp; BL Export&lt;/td&gt;<br/>&lt;td&gt;85&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=21294&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Jul 14 PR Update:&lt;/b&gt;Toolbar Pagerank &amp;amp; BackLink update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=21294&lt;/span&gt;&lt;/a&gt; Jul 14&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;83&lt;/b&gt;/33&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum80/934.htm&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Jun 11 GDPR Update:&lt;/b&gt; Goggle Directory Pagerank update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=18363&lt;/span&gt;&lt;/a&gt; Jun 11&lt;/td&gt;<br/>&lt;td&gt;GDPR Update&lt;/td&gt;<br/>&lt;td&gt;18&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum80/934.htm&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;May 27 BL Update:&lt;/b&gt; Backlink update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.searchenginewatch.com/showthread.php?t=6162&lt;/span&gt;&lt;/a&gt; Jun 08&lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum80/934.htm&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;May 27 TBPR Goes Blank:&lt;/b&gt; Toolbar PageRank Goes Grey Everywhere For 3 Days. Most claim it is dead.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webmasterworld.com/forum80/934.htm&lt;/span&gt;&lt;/a&gt; May 27&lt;/td&gt;<br/>&lt;td&gt;TBPR Goes Grey For 3 Days&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.searchenginewatch.com/showthread.php?t=5852&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;May 24 GDPR &amp;amp; BL Update:&lt;/b&gt; Google PageRank &amp;amp; Backlink Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.searchenginewatch.com/showthread.php?t=5852&lt;/span&gt;&lt;/a&gt; May 24&lt;/td&gt;<br/>&lt;td&gt;GDPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;32&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=12268&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Apr 22 TBPR, GDPR &amp;amp; BL Update:&lt;/b&gt;Toolbar PageRank, Google Directory &amp;amp; Backlink update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.searchenginewatch.com/showthread.php?t=5356&lt;/span&gt;&lt;/a&gt; Apr 22&lt;/td&gt;<br/>&lt;td&gt;TBPR, GDPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;111&lt;/b&gt;/50&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;#&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Mar 04/2005 BL Update:&lt;/b&gt;Backlink Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.searchenginewatch.com/showthread.php?t=4505&lt;/span&gt;&lt;/a&gt; Mar 04&lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=10635&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Mar 3/2005 GDPR Update:&lt;/b&gt;Google Directory PR Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=10635&lt;/span&gt;&lt;/a&gt; Mar 03&lt;/td&gt;<br/>&lt;td&gt;GDPR Update&lt;/td&gt;<br/>&lt;td&gt;28&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2005&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;#&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Feb 23/2005 TB Program Update:&lt;/b&gt; Google launched a new toolbar update <br/>(v 3.0.119.6) with a change algorithm for computing the checksum.&lt;/span&gt;&lt;/a&gt; Feb 23&lt;/td&gt;<br/>&lt;td&gt;TB Program Update IE 3.0.119.6&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2005&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=9219&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Feb 04 GDPR Update:&lt;/b&gt;Google Directory PR Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=9219&lt;/span&gt;&lt;/a&gt; Feb 04&lt;/td&gt;<br/>&lt;td&gt;GDPR Update&lt;/td&gt;<br/>&lt;td&gt;24&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2005&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=9022&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Feb 03 BL &amp;amp; Algo Update:&lt;/b&gt;Google Backlink &amp;amp; Algorithm update.&lt;br /&gt;<br/>Lots of <a href=\"http://www.bloghuman.com\" target=\"_blank\" title=\"http://www.bloghuman.com\" class=\"mykeyword\">SEO</a> sites seemed to just drop out of the SERP.&lt;br /&gt; <br/>http://www.webmasterworld.com/forum30/27801.htm<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=9022&lt;/span&gt;&lt;/a&gt; Feb 03&lt;/td&gt;<br/>&lt;td&gt;BL &amp;amp; Algo Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2005&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.seochat.com/t21038/s.html&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Jan 10 GDPR Update:&lt;/b&gt;Google Directory PageRank Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.seochat.com/t21038/s.html&lt;/span&gt;&lt;/a&gt; Jan 10&lt;/td&gt;<br/>&lt;td&gt;GDPR Update&lt;/td&gt;<br/>&lt;td&gt;88&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2005&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.v7n.com/forums/showthread.php?t=16258&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Jan 1 TBPR &amp;amp; BL Update:&lt;/b&gt;Toolbar PageRank &amp;amp; Backlink Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.v7n.com/forums/showthread.php?t=16258&lt;/span&gt;&lt;/a&gt; Jan 1&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;87&lt;/b&gt;/16&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.v7n.com/forums/showthread.php?t=16258&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Dec 16 BL Update:&lt;/b&gt;Google Backlink update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.v7n.com/forums/showthread.php?t=16258&lt;/span&gt;&lt;/a&gt; Dec 16&lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.seo-guy.com/forum/thread4727.html&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Nov 25 BL Update:&lt;/b&gt;Google Backlink update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.seo-guy.com/forum/thread4727.html&lt;/span&gt;&lt;/a&gt; Nov 25&lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.seochat.com/t17631/s.html&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 28 GDPR Update:&lt;/b&gt;Google Directory PR Update?&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.seochat.com/t17631/s.html&lt;/span&gt;&lt;/a&gt; Oct 28&lt;/td&gt;<br/>&lt;td&gt;GDPR Update?&lt;/td&gt;<br/>&lt;td&gt;??&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.searchenginewatch.com/showthread.php?p=20199&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 28 BL Update:&lt;/b&gt;Google Backlink update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.searchenginewatch.com/showthread.php?p=20199&lt;/span&gt;&lt;/a&gt; Oct 28&lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=4141&amp;amp;page=5&amp;amp;pp=10&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 18 BL Update Roll Back:&lt;/b&gt;Oct 16th Backlink Update Was Rolled Back.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=4141&amp;amp;page=5&amp;amp;pp=10&lt;/span&gt;&lt;/a&gt; Oct 18&lt;/td&gt;<br/>&lt;td&gt;BL Update Rolled Back&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.seochat.com/t17053/s.html&quot; &amp;nbsp;<br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 17 GDPR Update:&lt;/b&gt;Google Directory update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.seochat.com/t17053/s.html&lt;/span&gt;&lt;/a&gt; Oct 17&lt;/td&gt;<br/>&lt;td&gt;GDPR Update&lt;/td&gt;<br/>&lt;td&gt;67&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.seochat.com/t17003/s.html&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 16 BL Update:&lt;/b&gt;Backlink update - Was rolled back Oct 18.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.seochat.com/t17003/s.html&lt;/span&gt;&lt;/a&gt; Oct 16&lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=3833&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Oct 6/2004 Toolbar Update:&lt;/b&gt; Longest wait for a toolbar update. 106 <br/>days.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=3833&lt;/span&gt;&lt;/a&gt; Oct 6&lt;/td&gt;<br/>&lt;td&gt;TBPR Update; No BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;106&lt;/b&gt;&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum3/25686.htm&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Sept 10/2004 Backlinks (BL) Update:&lt;/b&gt; Fourth BL update since the last June 23 <br/>PR toolbar update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webmasterworld.com/forum3/25686.htm&lt;/span&gt;&lt;/a&gt; Sept 10&lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;#&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Sept 8/2004 Toolbar Update:&lt;/b&gt; Google launched a new toolbar update <br/>(v 2.0.114).&lt;/span&gt;&lt;/a&gt; Sept 8&lt;/td&gt;<br/>&lt;td&gt;TB Program Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.seochat.com/t14908/s.html&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Aug 30/2004 Backlinks (BL) Update:&lt;/b&gt; Third BL update since the last June 23 <br/>PR toolbar update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.seochat.com/t14908/s.html&lt;br /&gt;<br/>http://searchguild.com/tpage14349-0.html&lt;/span&gt;&lt;/a&gt; Aug 30&lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.seroundtable.com/archives/000747.html&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Aug 10/2004 Google Directory Update:&lt;/b&gt; First Google PR update since the <br/>last June 23 PR toolbar update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.seroundtable.com/archives/000747.html&lt;/span&gt;&lt;/a&gt; Aug 10 &lt;/td&gt;<br/>&lt;td&gt;GDPR Update&lt;/td&gt;<br/>&lt;td&gt;158?&lt;/td&gt;&lt;/tr&gt;<br/><br/><br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.ozzu.com/ftopic29477.html&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>&lt;b&gt;Aug 9/2004 Backlinks (BL) Update:&lt;/b&gt; Second BL update since the last June 23 <br/>PR toolbar update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.ozzu.com/ftopic29477.html&lt;/span&gt;&lt;/a&gt; Aug 9 &lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.seochat.com/showthread.php?t=13196&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;July 16/2004 Backlink (BL) Update:&lt;/b&gt; First BL updated since the June 23 PR <br/>update; No PR update; discussion on the forums of Google going to quarterly <br/>toolbar PR update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.seochat.com/showthread.php?t=13196<br/>&lt;/span&gt;&lt;/a&gt;Jul 16 &lt;/td&gt;<br/>&lt;td&gt;BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=1329&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt; &lt;span&gt;<br/>From this date to May 6th 2003 Web Rank Info&#039;s list from <br/>http://www.webrankinfo.com/google/google-dance/historique-google-dance.php is <br/>the source for the dates used. &amp;nbsp;Web Rank Info&#039;s dates are a bit different than <br/>I found from other sources, (they are based on EU time and use a Monday date if <br/>the update happened over the weekend), but they are more complete.&lt;br /&gt;<br/>I changed the EU Jun 23 date to Jun 22.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=1329&lt;br /&gt;<br/>&lt;b&gt;Forum dates for updates:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.seochat.com/t11000/s.html #8 McDar Nov 20 through Apr 23 dates.<br/>&lt;/span&gt;&lt;/a&gt;Jun 22 &lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;22&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=860&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;May 31/2004 Toolbar PR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Backlink and toolbar PR update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=860<br/>&lt;/span&gt;&lt;/a&gt;May 31 &lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;38&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=411&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Apr 7/2004 Toolbar PR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Backlink and toolbar PR update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=411<br/>&lt;/span&gt;&lt;/a&gt;Apr 23&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;16&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=284&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Apr 7/2004 Toolbar PR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Backlink and toolbar PR update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=284<br/>&lt;/span&gt;&lt;/a&gt;Apr 7&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;22&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://forums.digitalpoint.com/showthread.php?t=110&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Mar 16/2004 Toolbar PR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Backlink and toolbar PR update. &amp;nbsp;Google Directory<br/>PR update also http://www.webmasterworld.com/forum3/10706.htm .&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://forums.digitalpoint.com/showthread.php?t=110<br/>&lt;/span&gt;&lt;/a&gt;Mar 16&lt;/td&gt;<br/>&lt;td&gt;TBPR, GDPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;&lt;b&gt;50&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webproworld.com/viewtopic.php?t=13845&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Feb 11/2004 Algorithm Update:&lt;/b&gt;&lt;br /&gt; <br/>Algorithm Update, perhaps BL Update. &amp;nbsp;No TBPR change.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webproworld.com/viewtopic.php?t=13845<br/>&lt;/span&gt;&lt;/a&gt;Feb 11&lt;/td&gt;<br/>&lt;td&gt;Brandy: Algo Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.seroundtable.com/archives/000092.html&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Jan 26/2004 BL TBPR Update:&lt;/b&gt;&lt;br /&gt; <br/>TBPR &amp;amp; BL Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.seroundtable.com/archives/000092.html<br/>&lt;/span&gt;&lt;/a&gt;Jan 26&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;15&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2004&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webproworld.com/viewtopic.php?t=11631&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Jan 11/2004 Toolbar PR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>TBPR &amp;amp; BL update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webproworld.com/viewtopic.php?t=11631<br/>&lt;/span&gt;&lt;/a&gt;Jan 11&lt;/td&gt;<br/>&lt;td&gt;Austin: TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;19&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webproworld.com/viewtopic.php?t=10618&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Jan 23/2004 Toolbar PR Update:&lt;/b&gt;&lt;br /&gt; <br/>Toolbar PR update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webproworld.com/viewtopic.php?t=10618<br/>&lt;/span&gt;&lt;/a&gt;Dec 23&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;17&lt;/td&gt;&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.jimworld.com/apps/webmaster.forums/action::thread/forum::google/thread::1070753785&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Dec 6/2003 Toolbar PR Update:&lt;/b&gt;&lt;br /&gt; <br/>Toolbar PR update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.jimworld.com/apps/webmaster.forums/action::thread/forum::google/thread::1070753785<br/>&lt;/span&gt;&lt;/a&gt;Dec 6&lt;/td&gt;<br/>&lt;td&gt;TBPR Update&lt;/td&gt;<br/>&lt;td&gt;20&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webproworld.com/viewtopic.php?t=9034&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Nov 16-24/2003 TBPR, BL &amp;amp; Algo Update:&lt;/b&gt;&lt;br /&gt; <br/>Toolbar PR, Backlinks and Algorithm Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webproworld.com/viewtopic.php?t=9034<br/>&lt;/span&gt;&lt;/a&gt;Nov 16&lt;/td&gt;<br/>&lt;td&gt;Florida: TBPR, BL &amp;amp; Algo Update&lt;/td&gt;<br/>&lt;td&gt;21&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;Oct 26&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;35&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webproworld.com/viewtopic.php?t=7829&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Oct 2/2003 GDPR Update&lt;/b&gt;&lt;br /&gt; <br/>Google Directory Update. Last GDPR Update was 7 months ago.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webproworld.com/viewtopic.php?t=7829<br/>&lt;/span&gt;&lt;/a&gt;Oct 2&lt;/td&gt;<br/>&lt;td&gt;GDPR Update&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;Sept 21&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;23&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;Aug 29&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;21&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;Aug 8&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;54&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;Jun 15&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;40&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;May 6&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;25&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2003&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;#&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;&lt;span&gt;<br/>All the below dates are from eSavvyMarketing <br/>www.esavvymarketing.com/index.php?nic=google-dance-history and double checked <br/>against the WebmasterWorld list found at <br/>www.webmasterworld.com/forum3/2657.htm&lt;/span&gt;&lt;/a&gt; Apr 11&lt;/td&gt;<br/>&lt;td&gt;&lt;/td&gt;<br/>&lt;td&gt;36&lt;/td&gt;<br/>&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;Mar 6&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;41&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;Jan 25&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;24&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2003&lt;/td&gt;&lt;td&gt;Jan 1&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;35&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2002&lt;/td&gt;&lt;td&gt;Nov 27&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;27&lt;/td&gt;&lt;/tr&gt;<br/><br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2002&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum3/6459.htm&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Oct 31/2002 Toolbar PR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Toolbar PR &amp;amp; BL Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webmasterworld.com/forum3/6459.htm<br/>&lt;/span&gt;&lt;/a&gt;Oct 31&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;35&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2002&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum3/5628.htm&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Sept 26/2002 TBPR, GDPR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Toolbar PR, Google Directory PR &amp;amp; Backlink Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webmasterworld.com/forum3/5628.htm<br/>&lt;/span&gt;&lt;/a&gt;Sept 26&lt;/td&gt;<br/>&lt;td&gt;TBPR GDPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;36&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2002&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum3/4925.htm&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Aug 21/2002 TBPR, GDPR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Toolbar PR, Google Directory PR &amp;amp; Backlink Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webmasterworld.com/forum3/4925.htm<br/>&lt;/span&gt;&lt;/a&gt;Aug 21&lt;/td&gt;<br/>&lt;td&gt;TBPR GDPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;27&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2002&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum3/4367.htm&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;July 25/2002 Toolbar PR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Toolbar PR &amp;amp; BL Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webmasterworld.com/forum3/4367.htm<br/>&lt;/span&gt;&lt;/a&gt;Jul 25&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;32&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;<br/>&lt;td&gt;2002&lt;/td&gt;<br/>&lt;td&gt;&lt;a class=&quot;info&quot; href=&quot;http://www.webmasterworld.com/forum3/3778.htm&quot; <br/>onclick=&quot;this.target = &#039;_blank&#039;; return true;&quot;&gt;<br/>&lt;img src=&quot;http://www.bloghuman.com/attachment/icon-book.gif&quot; alt=&quot;&quot; /&gt;<br/>&lt;span&gt;&lt;b&gt;Jun 23/2002 Toolbar PR &amp;amp; BL Update:&lt;/b&gt;&lt;br /&gt; <br/>Toolbar PR &amp;amp; BL Update.&lt;br /&gt;<br/>&lt;b&gt;Forum coverage:&lt;/b&gt;&lt;br /&gt;<br/>http://www.webmasterworld.com/forum3/3778.htm<br/>&lt;/span&gt;&lt;/a&gt;Jun 23&lt;/td&gt;<br/>&lt;td&gt;TBPR &amp;amp; BL Update&lt;/td&gt;<br/>&lt;td&gt;30&lt;/td&gt;&lt;/tr&gt;<br/><br/>&lt;tr&gt;&lt;td&gt;2002&lt;/td&gt;&lt;td&gt;May 24&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;29&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2002&lt;/td&gt;&lt;td&gt;Apr 25&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;19&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2002&lt;/td&gt;&lt;td&gt;Apr 6&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;45&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2002&lt;/td&gt;&lt;td&gt;Feb 20&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;26&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2002&lt;/td&gt;&lt;td&gt;Jan 25&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;29&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Dec 27&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;32&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Nov 25&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;28&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Oct 28&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;42&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Sept 16&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;28&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Aug 19&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;31&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Jul 19&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;30&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Jun 22&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;32&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;May 21&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;28&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Apr 23&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;28&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Mar 26&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;35&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Feb 19&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;29&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2001&lt;/td&gt;&lt;td&gt;Jan 21&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;33&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2000&lt;/td&gt;&lt;td&gt;Dec 19&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;31&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2000&lt;/td&gt;&lt;td&gt;Nov 18&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;27&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2000&lt;/td&gt;&lt;td&gt;Oct 22&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;54&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2000&lt;/td&gt;&lt;td&gt;Aug 29&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;34&lt;/td&gt;&lt;/tr&gt;<br/>&lt;tr&gt;&lt;td&gt;2000&lt;/td&gt;&lt;td&gt;Jul 26&lt;/td&gt;&lt;td&gt;&lt;/td&gt;&lt;td&gt;Unknown&lt;/td&gt;&lt;/tr&gt;<br/>&lt;/table&gt;<br/></div><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/pagerank/" rel="tag">pagerank</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/232/</link>
<title><![CDATA[Google Adsense建议与技巧]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Tue, 21 Nov 2006 01:25:37 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/232/</guid> 
<description>
<![CDATA[ 
	1.AdSense 收入 = 广告展示次数 x 点击率 x 点击单价 x 智能定价因素（Smart Price）<br/><br/>2.广告展示次数基于你的网站流量，该项代表Adsense广告展示次数。（译注：废话－。－！）<br/><br/>3.点击率为广告被点击次数÷广告展示次数，基本范围为0.1%-30%，大多数为1%-10%（译注：中文广告偏低，大陆地区平均点击率约0.2%）。<br/><br/>4.点击单击为每次点击的收入，一般根据广告商付出的点击单价决定。<br/><br/>5.智能定价机制为Google衡量你的网站刊登广告价值的系统，如果你的网站上用户点击广告后转化为购买用户的比例较低，您只能获得较低的收入。<br/><br/>6.通过 blogger.com 申请Adsense项目，帐号批准速度更快。 <br/><br/>7.不要点击自己网站上的广告，也不要让朋友去点击，包括使用代理服务器的情况下。（译注：Google会实时反查服务器代理服务并拥有大量代理服务器地址）<br/><br/>8.不要使用自动点击程序。<br/><br/>9.不要要求访客点击广告，Adsense广告周围仅允许放置“赞助商链接”或“广告”字样。（译注：推介广告可放置正面宣传文字。）<br/><br/>10.不要在放置Adsense的网页放置网页内容匹配广告，例如Yahoo Publisher Network，百度主题推广。可以放置与页面不自动相关的广告。<br/><br/>11.不要将广告放置在成人站点，违反法律的站点或有版权问题（如MP3下载）的站点等。<br/><br/>12.访问你自己的网站不会使帐号被封停，但不要点击任何广告。<br/><br/>13.不断的刷新自己的网页可能使你的帐号被封停。（译注：这将影响展示次数和点击率）<br/><br/>14.不要欺骗Google Adsense，Google的经验永远比你多。<br/><br/>15.对条款有疑问时主动联系Google，他们会很快答复你。<br/><br/>16.同一页面不要放置过多广告。<br/><br/>17.可以通过 cwire.org 寻找高价关键字，但请注意，竞争者会很多。<br/><br/>18.通过 Overture 的关键字分析工具寻找合适的关键字（译注：Google Adwords和Google Trends也有类似功能。）<br/><br/>19.考虑加入Google AdWords并小额投放广告，这将有助于你理解Adsense的运作机制。<br/><br/>20.将你的目标关键字放置在网页标题中。（译注：在网页文件名和目录上体现更佳）<br/><br/>21.在正文中重复你的关键字。（译注：不要超过5%，最好为3%）<br/><br/>22.学习HTML。<br/><br/>23.在关键字上使用粗体标签如、等。<br/><br/>24.域名中尽量包含目标关键字。<br/>25.将你的站点提交到知名网页目录系统，如dmoz.org, Yahoo目录等。<br/><br/>26.将你的站点提交到各个搜索引擎。<br/><br/>27.使用Google Sitemap。<br/><br/>28.不要仅面向<a href="http://www.rambosem.com/google_rank_optimization.html" target="_blank" title="http://www.rambosem.com/google_rank_optimization.html" class="mykeyword">Google优化</a>网页，还有很多搜索引擎。<br/><br/>29.软广告（枪稿）是最好的<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>方法，在文章作者信息中包含你的网页链接，然后投稿到知名网站。<br/><br/>30.不要使用恶意手段留下用户，如间谍软件，浏览器劫持等方法，这将可以能使你的帐号被封停。<br/><br/>31.新访客比经常浏览你网站的人更容易点击广告。<br/><br/>32.经常浏览你网站的人将更容易向他人推荐你的网站。<br/><br/>33.新访客大多数来自于搜索引擎，做好网页优化工作（SEO）。<br/><br/>34.不要建立镜像站点，即URL不同而内容相同的网站。<br/><br/>35.建立多个点击单价网站比几个高点击单价网站更容易。<br/><br/>36.论坛通常是展示次数多而点击率低。<br/><br/>37.点击率不是最重要的，如果转化率过低（点击用户转化为广告商客户），广告单价也不会高。<br/><br/>38.遵循好的网页设计，避免常规错误。<br/><br/>39.优化网站导航设计，这将有助于延长用户在网站的停留时间。<br/><br/>40.使用Google Analytics统计访问信息，这有助于SEO。<br/><br/>41.不同的论坛有不同的广告热区，通常是左侧控制面板，第一贴下边和页脚前边。<br/><br/>42.论坛是互通交流，注意关注热点问题。<br/><br/>43.尝试300×250, 336×280,160×600等高点击率广告格式。<br/><br/>44.使用网页主色调编辑调色板，即将广告和内容混合在一起。<br/><br/>45.让文章正文围绕广告单元。<br/><br/>46.广告周围紧挨图片有助于提高点击率。<br/><br/>47.使用广告渠道跟踪不同位置、不同颜色的广告单元。<br/><br/>48.文字广告和图片广告都选择。<br/>Adsense 包含CPM广告，Adsense将自动选择展示。（译注：通常需要广告商指定网站进行展示，CPM：每千次展示付费。）<br/><br/>49.图片广告和文字广告都可能有CPM广告。<br/><br/>50.页面底部可放置广告 链接单元。<br/><br/>51.尝试在底部放置 Adsense For Search 搜索框。<br/><br/>52.在提高内容质量上多下功夫，Adsense不是一夕致富的项目。<br/><br/>53.去掉低质量网站的链接。<br/><br/>54.在Google中搜索“AdSense Tips”，有许多站长会与你分享经验。<br/><br/>55.这里是在Blog投放Adsense的建议。<br/>关注Inside AdSense（Google Adsense官方博客）。（译注：大陆用户可通过此Feed订阅：Http://feeds.feedburner.com/blogspot/GjwI）<br/><br/>56.你可以从AdSense Help Group获取更多经验和帮助。<br/><br/>57.如果你希望以Adsense维生，购买AdSense Secrets。（译注：谨慎参考）<br/><br/>58.少放置广告单元，通过渠道寻找到页面上单价最高的广告单元，去掉其它广告单元。<br/><br/>59.不停的试验，不断尝试新的广告格式。<br/><br/>60.除非你的网站规模足够大，否则去掉“在本网站刊登广告”链接，这可以避免许多MFA网站(Made For Adsense，为Adsense制作的网站)。你可以在账户设置中禁用它。<br/><br/>61.广告展示基于访客地理位置，尝试Adsense 广告预览工具。<br/><br/>62.使用“竞争性广告过滤器”去除劣质网站广告，包括盗窃他人网站内容，提供大量无用链接等。<br/><br/>62.使用“竞争性广告过滤器”去除不相关广告。<br/><br/>63.AdsBlackList.com包括一些可以过滤掉的广告URL。<br/><br/>64.尝试不断的变化广告位置、颜色、样式，使访客对广告更不可预知。<br/><br/>65.学习简单的CSS<br/><br/>66.如果放置多个广告单元，将单价高的广告单元放置在HTML中靠前的位置，可以使用CSS定位。<br/><br/>67.对动态网页地址使用URL导向变为静态网页地址。（译注：即不包含?及参数的网址）<br/><br/>68.验证网页HTML和CSS。<br/><br/>69.多大文章拆为多个小文章。（译注：按主题分拆，一个文章分为多页不利于广告匹配。）<br/><br/>70.每篇文章重点关注一个主题。<br/><br/>71.关注统计系统，注意那些带来较多访客的文章。<br/><br/>72.发布更吸引访客的主题的文章。<br/><br/>73.熟悉电脑网络的人较少点击广告。<br/><br/>74.有耐心，提高流量需要时间。<br/><br/>75.做长期规划，分析你的访客需要什么，提高网站价值。<br/><br/>76.关注每日的收入，感觉数据有异常时及时通知Google，你的竞争者可能恶意点击你的广告或者你的朋友会多77.点击你的广告，并认为他是在帮你。<br/><br/>78.使用“区段定位”以提高广告匹配度。<br/><br/>79.使用“替代广告链接”以防Google无法匹配你的网页。<br/><br/>80.使用多个调色板，防止用户对广告形成盲区。<br/><br/>81.尝试Yahoo Publisher Network，百度主题推广等项目。但不要在放置Adsense广告单元的网页。<br/><br/>82.页面上可以放置Amazon广告联盟等销售联盟的广告，但应该是不会自动匹配网页内容的广告。<br/><br/>83.不遵守条款和协议将使你的账户被封停并且该个人将永远不能再申请Adsense项目。<br/><br/>84.如果你遵守条款和协议而帐号被封停，写信给Google，注意要客气，不要灰心，可以提供你的服务器访问日志，尽量证明你的清白。<br/><br/>85.多链接你的网站，如电子邮件签名、论坛签名、Blog评论等。<br/><br/>86.将你的文章提交到网摘网站，如digg、del.icio.us等。<br/><br/>87.提供“将本文E-mail给朋友”链接。<br/><br/>88.掌握你的Adsense报告，根据广告收入来源确定网站未来内容。<br/><br/>89.提供网站更新通知。（译注：如邮件列表或RSS文档）<br/><br/>90.你可以在Adsense帮助中找到大部分你需要的信息。 <br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/adsense/" rel="tag">adsense</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/231/</link>
<title><![CDATA[几个主流搜索引擎的404页面]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 20 Nov 2006 16:57:45 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/231/</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp; 前天，我写了一篇文章“<a href="http://www.bloghuman.com/post/227/" target="_blank">404错误的处理方式及对<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>的影响</a>”，介绍了对404错误的理解、一些常用的HTTP状态码、404对SEO的影响、自定义404错误页面的原则以及在不同的服务器环境下的处理方式。自定义404错误页面的合理设计体现着一个网站是否具备人性化，也是提高用户体验的一种方式。同时，在自定义404错误页面的技术实现上，充分考虑到适用于搜索引擎，尽量不要增加额外的负担，这是提供网站搜索引擎友好性的一种体现。<br/><br/>&nbsp;&nbsp; 先来介绍下黑色梦中处理自定义404错误页面的方式，再探求下目前主流搜索引擎在这方面的一个表现。<br/><br/>&nbsp;&nbsp; 我为这个<a href="http://www.bloghuman.com/" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a></a>自定义了一个404错误页面，地址是：<acronym title="">http://www.bloghuman.com/notfound.php</acronym> 。这个页面是我手写的，主要想用户介绍下我的博客是干什么的，它能为用户提供什么内容，并提供快速链接到主要分类及特色页面的链接。注意，对404错误页面实施<a href="http://www.bloghuman.com/" target="_blank">SEO</a>是完全没有必要的，因为它向搜索引擎返回的是404状态码，搜索引擎并不会索引。<br/><br/>&nbsp;&nbsp; 下一步该做的是：如何让notfound.php向搜索引擎反回404状态码，而不反馈“302”+“200”的状态码。我采用的方式是：在网站的.htaccess文件里写入：<br/><br/><div class="code">ErrorDocument 404 /notfound.php</div><br/><br/>&nbsp;&nbsp; 写入后，使用<a href="http://www.seoconsultants.com/tools/headers.asp" target="_blank">Server Header检测工具</a>检查一下当发生404错误时，是否返回了”404“状态码，如图：<br/><br/><a href="http://www.bloghuman.com/attachment/404-error-page-bloghuman.png" target="_blank"><img src="http://www.bloghuman.com/attachment/404-error-page-bloghuman.png" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>大功告成！！！<br/><br/>下面，我们关注下几个主流搜索引擎的404错误处理方式：<br/><br/>1。Yahoo!<br/>Yahoo!的404错误页面如图：<br/><a href="http://www.bloghuman.com/attachment/404-error-page-yahoo.png" target="_blank"><img src="http://www.bloghuman.com/attachment/404-error-page-yahoo.png" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>10秒后，会自动跳转到另外一个URL：http://www.yahoo.com/?l=1164038682，不清楚最后的参数表示什么意思，但用工具检测反馈的状态码是：HTTP/1.1 404 NOT FOUND，可见已经成功返回了404状态码。不过，奇怪的是，404页面中LOGO的链接设置为：http://www.yahoo.com/404/*http://www.yahoo.com，我不太清楚这样的用意何为，也许是一种特殊的处理。Yahoo!不愧为Yahoo!，确实不一般。<br/><br/>2。Google<br/>Google的404错误页面我想很多人都见过，用的人太多了。譬如，我最开始用google sitemap时，因为URL很长，经常打错地址，特别是webmasters经常写成wembasters，可以说几乎每天都要和报错页面打个招呼。<br/><br/><a href="http://www.bloghuman.com/attachment/404-error-page-google.png" target="_blank"><img src="http://www.bloghuman.com/attachment/404-error-page-google.png" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>Google的404错误页面很简单，也没有跳转，没有任何链接，这个页面是动态页面，接收了url显示在网页内容之中。经检测，正确返回了”404“状态码。<br/><br/><a href="http://www.bloghuman.com/attachment/404-error-page-google-status.png" target="_blank"><img src="http://www.bloghuman.com/attachment/404-error-page-google-status.png" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>注意，Google反馈的状态码和Yahoo!的有区别，前者是 HTTP/1.0 404 NOT FOUND，而后者是HTTP/1.1 404 NOT FOUND<br/><br/>3。Baidu<br/><br/><a href="http://www.bloghuman.com/attachment/404-error-page-baidu.png" target="_blank"><img src="http://www.bloghuman.com/attachment/404-error-page-baidu.png" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>从用户体验角度来评价百度的404错误页面还是不错的，提供了一个搜索框，便于用户转为搜索行为，此外，还有”百度更多“页面、”百度帮助中心“、”百度吧“的链接，这些链接对用户是非常有帮助的，就好象用户通过搜索引擎进入一个感兴趣的站点，但是怎么都不到急需的信息，那这时候怎么办？搜索+人工服务的方式是留住用户的最佳方式。这方面百度做的很好。<br/><br/>而很遗憾的是，百度自定义的404错误页面返回的是”302“+200“的状态码，作为站长我们都考虑到从用户及搜索引擎两个角度去优化站点，而作为搜索引擎的百度却对自己的”行为“如此不规范，由此可见，百度在技术上的不考究。<br/><a href="http://www.bloghuman.com/attachment/404-error-page-baidu-status.png" target="_blank"><img src="http://www.bloghuman.com/attachment/404-error-page-baidu-status.png" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>4。LIVE<br/>MSN的404页面最让我吃惊，默认的IIS 404错误页面，不过可以理解，LIVE上线没多久。<br/><br/>其他的就不分析了。像搜狗、SOSO、中搜的，大家都可以自己去研究下，感觉国内的搜索引擎在这方面不如国外的搜索引擎。<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中SEO博客</a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/404/" rel="tag">404</a> , <a href="http://www.bloghuman.com/tags/yahoo%2521/" rel="tag">yahoo!</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/live/" rel="tag">live</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/229/</link>
<title><![CDATA[刘建国：那五年百度在做什么]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Sat, 18 Nov 2006 14:59:34 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/229/</guid> 
<description>
<![CDATA[ 
	　　首席技术官对刘建国的报道：这位与李彦宏一起创立百度的“技术新官僚”，对搜索引擎技术运用的思考，在一定程度上体现了这个新上市公司的商业方向及这个团队的技术想象力。 <br/><br/>　　采访中，刘建国不断接到要求解封的“作弊网站”的电话，大多是熟人才会直接将电话打到他这里，或是打给李彦宏。采访由此而展开。<br/><br/>　　反作弊是我们的技术<br/><br/>　　《21世纪》：李彦宏选择搜索引擎作为百度的主业，当时是怎么确定的？<br/><br/>　　刘建国：2000年之前，中国有许多搜索引擎公司，Goyoyo是香港一个公司做的；科学院有一个网站，还有北大天网。当时创立公司时搜索引擎已经很多了。我们机会在哪里？在当时我和李彦宏的通信中，他说要做就做最好的。当时已有的搜索引擎速度慢，索引小，用户体验很差。我们都认为做一个中文搜索引擎有很大前景，所以我就从北大出来，跟李彦宏一起创业了。<br/><br/>　　《21世纪》：现在来看，当时搜索的核心技术是什么？<br/><br/>　　刘建国：分成好几块，一块是网页抓取，由蜘蛛程序选择、抓取互联网中的网页，还要持续不断地更新网页，将过期的网页剔除掉；二是超链分析和内容分析；三是针对用户的搜索服务：如何处理海量数据和大规模的用户访问？如何提供稳定的服务？有很多技术问题需要解决。<br/><br/>　　《21世纪》：你们是一帮人在做？<br/><br/>　　刘建国：好多个组，重点是相关性的评价。哪些网页是用户想要的？后面就有好多技术；比如超链分析；这里有李彦宏的专利。超链在Infoseek之前就有成熟的技术，李彦宏在那儿工作时就研究得很细，但我们没有仅用这套方法，而是根据当时搜索引擎全球的发展做了改进。<br/><br/>　　《21世纪》：百度在相关性方面有什么特色？<br/><br/>　　刘建国：有两个基本方面：超链分析和内容分析。我们这帮技术人员，包括李彦宏，根据搜索引擎当时的技术发展，做出了一套百度自己的超链分析系统。另外还得分析网页内容，比如中文处理就很重要，要理解中文的语法和特定文字意义，因为中文与英文还是不一样的，只有判断文字是什么意思，才能给用户提供搜索结果。<br/><br/>　　《21世纪》：“欺骗搜索”是什么意思？你们有什么独特的技术来对付它？<br/><br/>　　刘建国：就是所谓的网络优化，比如<a href="http://www.bloghuman.com/" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a></a>之类，链接一些域名，好象链接很多，但实际上是人为做出来的。还有一些链接，就是专门帮别人做链接，这也是超链分析。你不是链接分析吗？专门针对你。还有一些网站，专门给别人做，相关度也高，我们必须发现哪些是LINKFORM，然后分析出来。<br/><br/>　　《21世纪》：这如何看得出来？有简单工具吗？<br/><br/>　　刘建国：我们已经可以通过技术手段及时发现这种欺骗或者叫作弊。是否作弊，有一个很简单的标准：用户看到的内容和搜索引擎看到的内容是否一致？前一段搜索“芙蓉姐姐”，进去之后很多是买手机的，买其他信息，这就是作弊。我们就分析，他们是通过什么方法来“欺骗搜索”。比如LINKFARM，我们靠技术发现出来，它已经“堆砌关键词”了，我们看出它是作弊的，我就不要它。这就是为何后来反弹这么大，有了“反百度联盟”的原因。有“反百度联盟”成员说，你为什么屏蔽我？前一段搜狐网的一个峰会，一个医药网的说我们很好啊，你为什么把我给封了？它的“堆砌”是作弊的，如果我们把它放开，对用户是一种欺骗。<br/><br/>　　《21世纪》：比如在百度搜“芙蓉姐姐”，你们把有些“芙蓉姐姐”链接给屏蔽了，那就不能给用户提供更多的结果了？<br/><br/>　　刘建国：是更准确，比如用户到这里来搜，得到的是真正的“芙蓉姐姐”而不是手机铃声。这样做的目的是给用户很好的用户体验。<br/><br/>　　《21世纪》：在反作弊技术里，有什么可以明确识别作弊？<br/><br/>　　刘建国：比如，来回互相链接、堆砌关键词等。还有前景色和背景色完全一致，在HTML里面，用户看不见，可以骗搜索引擎，就这样骗用户。<br/><br/>　　《21世纪》：仅仅背景色也可以用来作弊？<br/><br/>　　刘建国：背景是黑色的，搜索看见的仅仅是内容，是看不到背景的。前景与后景一样，机器看不着，人能看出来，景色也是识别的因素。其中的文字就是有些网站想欺骗的东西。有很多方法作弊，层出不穷的。搜索与作弊网站是永远不会结束的战争。<br/><br/>　　《21世纪》：有没有可以“招安”的作弊网站？<br/><br/>　　刘建国：不会的。他们的利益很大，骗一点是一点，不会到这里来做。<br/><br/>　　《21世纪》：有多少这样的网站？<br/><br/>　　刘建国：每天碰到成千这样的网站。<br/><br/>　　《21世纪》：他们到哪里拉客户？<br/><br/>　　刘建国：不一定拉客户，他们可以自己做铃声、短信，SEO会拉企业，给钱，我给你排位。<br/><br/>　　另一个“敌人”是Google吗？<br/><br/>　　《21世纪》：与Google的反作弊比，你们有什么优势？<br/><br/>　　刘建国：说Google的技术比我们好，我不认同，他们主要是不够集中。比如反作弊的，Google中文就做不过我们，这有技术问题，还有人力，要知道作弊惯用的手法，而Google不知道。这个模式我们比Google发展得更快，我们更接近用户。我们中文的理解做得比他们好，比如像分词、切词，中文是一个一个字，放一块儿，那些字和词是不一样的。我做得比Google好。他们没有专门研究中文。<br/><br/>　　《21世纪》：你们是用自己的技术？<br/><br/>　　刘建国：是的。我们中文分词，这个技术里面没有英文，中文本身的处理我们已经到位，还有语法的应用，我们做得很好。语法是主谓宾，如何用，老外不理解。<br/><br/>　　《21世纪》：你们用以前的文字识别技术吗？<br/><br/>　　刘建国：对中文我们有一套独特的做法，现在成熟的技术都不太适合我们。<br/><br/>　　《21世纪》：有没有用哪个平台？比如大的软件？<br/><br/>　　刘建国：这个软件是我们自己做的。<br/><br/>　　《21世纪》：是应用软件？<br/><br/>　　刘建国：不是一套。我们直接用自己的东西。比如说词典、分词、词汇。这不是释义的词典，可能有很多资源。比如我们用人民日报的语料库，我们购买这样的资料。更多的平台是我们自己的搜索引擎。我们有日志，总结新的词汇。我们对10亿计的网页也能分析。这是Google中文做不到的。至少没有聚焦。另外从中文用户体验来说，我们也做得比他们好，比如用户体验是什么、习惯是什么。比如相关搜索，在中文里面，用户心里想的一个事情，比如“软件”这个词，用户心里想的是软件下载，但搜索的是“软件”这个词，他输入“软件”，与搜索不符。百度会提示得更加精细化，到底是软件下载还是加密，全自动服务，这样用户会觉得很好。类似的工作我们下了很多功夫。其他像拼音检索，错别字纠正，我们也能正确提示。现在有些搜索正在抄我们。我认为不能崇洋。<br/><br/>　　从竞价排名平衡用户体验<br/><br/>　　《21世纪》：从用户体验来看，曾经一度Google要比你们好些，比如竞价排名不是他们主要标准，信息的直接有效很重要。<br/><br/>　　刘建国：这是另外一个误区。搜索结果的首页我们有多少竞价排名呢？没多少，最多不超过20%，我们的原则是用户体验是第一位的，而且是真正相关的。现在20%是被人定制的，其他是免费体现的，是有用的。实际上，20%的竞价排名也是在严格的人工审核下去通过的。<br/><br/>　　《21世纪》：人工审核能不能有一个例子？<br/><br/>　　刘建国：我们有一个30人的组，比如用户提一个词，看是不是真正跟商品有关的。第二，链接的这个网站，是不是做商品的。即使是客户定制的竞价，竞的是某个关键词，我们也要看是不是商品、是不是服务。<br/><br/>　　《21世纪》：如何决定？<br/><br/>　　刘建国：人工能查出来，当然也有很多调整。比如IBM，我们考虑把IBM放在最前，后来还是把IBM中国放在前面。虽然阿里商城(IT销售商)交钱了，但第一个仍是IBM中国，我们也是考虑到用户的体验。<br/><br/><br/>　　《21世纪》：就是说要在用户与客户之间平衡？在网页上还有哪些直接体现？<br/><br/>　　刘建国：收费的内容均有标志，比如“百度快照”不是收费的。<br/><br/>　　《21世纪》：你们卖得最好的关键词是哪些？<br/><br/>　　刘建国：比如“鲜花”，就有很多人买。第一条是买的，是实时变化的，谁的价高就买到最前面去了。<br/><br/>　　百度不再用“插件”营销<br/><br/>　　《21世纪》：你们的营销方式曾经是以“一个插件”(业界通称为“流氓软件”)来解决？<br/><br/>　　刘建国：这不是最关键的。当时主要是与3721打，竞争太激烈了，这是环境所致的。<br/><br/>　　《21世纪》：现在“插件”还用吗？<br/><br/>　　刘建国：我们插件装得挺少的。与有的搜索比，百度这种“流氓软件”最少，插件不是主流的，现在都已经走向正规了。插件只是推广手段，今后变成用户自己主动。百度的插件是可以卸掉的，比如搜霸。但有些搜索，没有点就生成了，这种推广手段我们以前做过，但后来停了。如果用户要觉得好，可以自主选择，我们可以保证，用户不会被动选择、不遵从他的意愿——被动强制性的。<br/><br/>　　《21世纪》：你们去掉了哪些“插件”呢？<br/><br/>　　刘建国：我们的不会自动弹出来，也不会误装。<br/><br/>　　《21世纪》：我们可不可以说，百度以前用过“插件”，现在不用了？<br/><br/>　　刘建国：现在都不用了。我们就是一个搜霸，百度联盟，而且推广方式不是强制性的。搜霸确实也有好处，节省了用户时间，一步到位。我们不会用以前的推广方式。但有些网站点进去就是网络实名，就是靠弹出，非意愿的。我们原来也用得很少，也是百度联盟成员自己用的因为装上后有收益。现在谁利用这种方式装，就不让加入联盟了。<br/><br/>　　《21世纪》：有多少个联盟成员？<br/><br/>　　刘建国：现在有好几万。如何管理这些联盟也是一个大问题。<br/><br/>　　技术与人工、谁排第一？<br/><br/>　　《21世纪》：刚才提到相关性、超链分析、反作弊，结合起来形成了你们的核心价值吗？<br/><br/>　　刘建国：是。但如何调节这些东西，各家都不一样。超链分析是共用的。大家都在用。没有一个公司去公布搜索技术，因为这是一个商业秘密。我们是经过5年多积累才出来这样好的结果。这些都是核心技术，一定得积累。<br/><br/>　　《21世纪》：共享的经验有哪些？<br/><br/>　　刘建国：各个公司不一样，不能公布细节。<br/><br/>　　《21世纪》：你们重要在分析用户还是客户？<br/><br/>　　刘建国：重要的是分析网页，网页与网页之间的分析。WEB的方式，是由HTML组成的。网页与网页之间的是URL，最大好处是网页与网页之间可以用超链来指，叫HYPERLINK，指向另外一个网页是做什么的。比如“中国人民银行”会指向很多东西，每个都是链。他们指向他，LINK有一个叫评价，U1对U2的评价。第一是指向，第二是评价。这是一个网页，“中国人民银行”就是超链，他指向另外一个——有说明中国银行是做什么的，指向后，另一个是指向的U2，另外还有U3。很相关的排前面，找到最权威的。最后综合加权，中国人民银行大，其他商业银行小，那么就加权，算出来结果谁排前面。<br/><br/>　　《21世纪》：你们做这些，有没有编辑？<br/><br/>　　刘建国：有的网站有，我们没有，但我们有人工。网站不需要编辑，我们是靠技术，要把这些东西都拿过来。刚才说的抓取、分析是否相关，生成抓取的排名。抓取要分析，之后建立索引，把内容到URL的一个检索，之后提供服务。抓取，分析、检索、服务四个环节。<br/><br/>　　《21世纪》：你们的技术部门是按四个环节来分的？<br/><br/>　　刘建国：我们有很多组，做不同工作。<br/><br/>　　《21世纪》：你们的生产环节与通常的产品定义不一样。<br/><br/>　　刘建国：是有些怪。比如说我们是如何攻关：要分析、提出问题，每个部门都提，李彦宏也会参与。<br/><br/>　　《21世纪》：你们最近提过什么问题？<br/><br/>　　刘建国：我还不想透露太多的细节，比如抓取。我最近要提出一个问题：网站的覆盖率。要研究中国所有的网站。我们平常与Google比较，我们来看交集，相同的内容是多少？各自抓多少？我们发现交集不多，我们独自的较多，这是所有搜索的共性。我提出说，要去调研，为什么会有这种差距，这种差别是如何产生的，没抓的是什么特性？Google抓的是什么特性？Google是海外的吗？这都是一种猜想。我们要去调查，然后去做方案，方案再讨论是不是可行。这样持续不断地做，技术的含量很高。效果都是很客观的，都是真刀真枪的。<br/><br/>　　《21世纪》：技术队伍如何分工？<br/><br/>　　刘建国：除了研发还有测试的，另外还有运营的，给我们提供服务是在中国电信或网通，另外要管机器，硬盘坏了，负责换，系统要上线，数据有哪些问题，都得分析。研发、运营、测试还有客服(有面向用户及企业的)。有问题可以直接发到电子邮件，我们暂时没有呼叫中心。为用户解决问题，先整理一些问题，再传到其他部门。<br/><br/>　　《21世纪》：你们的产品，是以什么形态呈现出来的？<br/><br/>　　刘建国：网页、MP3、“知道”等等，每个频道都是一个产品。<br/><br/>　　《21世纪》：光靠技术行不行？还是需要编辑？<br/><br/>　　刘建国：主要靠技术，这么大量信息处理，靠人工不行。有人工，也是IT辅助下的人工。<br/><br/>　　《21世纪》：专业性的频道，比如百度传情、影视频道，百度“知道”，也是技术生产出来的？<br/><br/>　　刘建国：这是搜索“人脑”，技术生成就行了。<br/><br/>　　《21世纪》：你们作为纯技术派的人，认为百度在技术上与微软、Google竞争，真得那么轻松吗？<br/><br/>　　刘建国：我认为百度这么多年为何能成功一个主要的原因，就是我们的专注，只做搜索，中文搜索。对于要赶超的人，第一是专注，要超越自我。我们在不同的场合说过，我们的对手是我们自己，不是其他的人。我们能否保持旺盛的斗志，我们在艰难岁月里保持的那些东西能否保留下来，我们每个人是不是都很进取、协作。这是决定我们最关键的东西。此外还要继续招优秀的人。<br/><br/>　　“知道”、贴吧核心解密<br/><br/>　　《21世纪》：搜索技术会有大的变化吗？<br/><br/>　　刘建国：有可能要变化，一句说不清楚。我觉得要保持创新，要监控业界的变化，要跟得上变化。以后的方向很多，比如说个性化需求，不同的人查到不同的结果，也许真有不同的发展。<br/><br/>　　《21世纪》：解决个性化需求依靠什么技术？<br/><br/>　　刘建国：了解这个人的个性，知道这个人的背景、身份、年龄和习惯，这样来调整搜索；另外无线搜索也是新市场。通过手机搜索及其他智能终端，针对不同的需求，专门建立无线搜索频道；其他的应用，比如地图搜索，现在Google正在做，百度是否要做，现在还没有完成研发。<br/><br/>　　《21世纪》：让我们来说说“知道”，它的哪一点技术比较关键？<br/><br/>　　刘建国：“百度知道”是用来找知识的。没有所谓核心技术，它是一个平台，让问的人和回答的人都能在这里自动滚动，提问和回答都很方便。平台的界面和流程都要建得好，另外评价的系统很好，加权平均的系统，没有一个核心的技术。<br/><br/>　　《21世纪》：你们对客户进行管理用什么系统？<br/><br/>　　刘建国：竞价的用户，一个是客户(企业)，一个是用户(网民)，我们不需要管理，我们只需要服务就行了。比如对客户，主要是提升服务效果，对生意有帮助。<br/><br/>　　《21世纪》：那你们不要考虑客户的忠诚度，也就是贴性？<br/><br/>　　刘建国：我们是看效果，不怕他流失，他能找到知识就来，要靠产品的价值来吸引，而不是管理。如何建立很有粘性的平台，比如“知道”有评分，我们还有百度币、贴吧。<br/><br/>　　《21世纪》：贴吧的关键技术是什么？<br/><br/>　　刘建国：用户量大、发言多，如何把平台做到能够支持，网页检索定期更新，这都很难。现在暂时不是完全实时的。我们专门有TEAM，叫搜索应用组，实时性、数据量大，这两个很难。<br/><br/>　　《21世纪》：贴吧可以无尽的扩展？<br/><br/>　　刘建国：我们现在有82万个吧，理论上可以无尽地扩展。一个吧里面的话题帖子有的话就会保留着。<br/><br/>　　《21世纪》：有人管贴吧吗？<br/><br/>　　刘建国：有，比如作广告的。BBS只有几类，不能无尽的扩展，我们可无尽地扩，用户可以自己申请成为吧主。<br/><br/>　　《21世纪》：贴吧能产生哪些作用？<br/><br/>　　刘建国：网民以兴趣为单位组成社区，这样就很有粘性，可以倾诉、发表看法、言论，志趣相投的人讨论东西，这是比较独特的。<br/><br/>　　《21世纪》：贴吧之外，还有没有体现技术含量的东西？<br/><br/>　　刘建国：有许多，比如MP3，要有用户习惯的积累；新闻频道，我们的新闻是靠技术分析，没有人工、零成本。哪套新闻出现得多，转载得多，它就是权威。而且是实时的。新闻是分类，国内、国际、财经没有分类，暂时没有更细的了。<br/><br/>　　《21世纪》：比如你们转载新浪新闻，需他们给授权吗？<br/><br/>　　刘建国：不需要。我们只是直接链接。我们也能带来广告的，如有编辑内容的，可以定制新闻。<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/%25E5%2588%2598%25E5%25BB%25BA%25E5%259B%25BD/" rel="tag">刘建国</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/225/</link>
<title><![CDATA[Google产品经理:网站地图对优化搜索非常重要]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 13 Nov 2006 09:37:38 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/225/</guid> 
<description>
<![CDATA[ 
	在搜索引擎战略大会的第二天上午，Google公司总部负责研发的李文飚（音）先生作了一场关于Google Sitemap的专题讲座。 <br/><br/>他在演讲中称在互联网的今天，一个网站的成功与否很大程序取决于他是不是跟搜索引擎有一个很好的配合，所谓的网站可搜索性，其实有两个方面，一个方面就说他的相关性或者搜索结果的排序，另外一方面也是很重要，就是你的网页的覆盖率，Google专门设计一个产品Google Sitemap是专门来帮助提高网页的覆盖率，然后他并详细讲述了Google Sitemap的功能使用。以下是他的精彩发言的全文实录。 <br/><br/><br/>大家好，我是从Google的总部过来是负责研发的工作，今天我讲的主要是有关网站建造Google的产品，这个产品就叫做Google Sitemap，叫网站地图。 <br/><br/>互联网的今天，一个网站的成功与否很大程序取决于他是不是跟搜索引擎有一个很好的配合，所谓的网站可搜索性，其实有两个方面，一个方面就说他的相关性或者搜索结果的排序，另外一方面也是很重要，就是你的网页的覆盖率，我们设计一个产品Google Sitemap是专门来帮助提高网页的覆盖率，Google Sitemap可以做什么事情呢？ <br/><br/>Google Sitemap主要做三个事情，第一个可以主动提交网站里面的网页，还可以提供额外的信息，你网站更新的频率，以及上一次更新的时间，有了这些东西Google抓取引擎就更加智能化去抓取你的网页，第三个提供非常有用的统计信息，可以告诉你这个网站在我们搜索引擎上的效果是怎么样。我自己有一个领域是负责无线搜索的，我特别讲到Google Sitemap里的一个功能就是无线Sitemap，无线网页就像一个没有联系的小岛，对于抓取非常难，所以移动搜索非常重要，包括有一些比较特别于无线网页的内容，这个网页应该在怎么样终端上显示是诺基亚还是摩托罗拉，有很多无线特别的资料都可以在Google Sitemap表现出来，有一个问题说，我们为什么要提供Google Sitemap，我跟看一下冰山的地图，你看到的是网页上面其实有两种，一种是表面的网页他跟外围有很多的链接，是比较容易让网络爬虫或者抓取引擎抓到的，很多很高质量的网页都是在底层，这些包括很动态的网页，比如说你是一个大的网站里面有几千个产品，这些产品都是从数据库出来的，都是在HTML搜索户的后面，我们都不容易抓到。你首先是创建Sitemap，另外他更改的频率是多少这个很重要，还有一个是抓取的优先机，是从0到1，这个优先级有什么作用呢，主要是Google进行抓取网页的时候，特别是在你自己的网站你有些网页是很重要，有一些是次要，他就可以在资源有限的时候，抓取优先级比较高的网页。如果是无线网页这里面有更多的信息，包括终端资料和终端语言格式。下一步，你建立到了Sitemap以后，你可以添加一个Google Sitemap文件，这里我具体讲一下，主要是在你的Sitemap账户里面可以得到统计的信息，你这时候可以看到我们上面有每一个网站网址，他会告诉你这个Sitemap信息，这个Sitemap我们是不是已经处理了，还是有待确认。 <br/><br/>我们提供一些很有用的统计的信息，包括在你网站上热门搜索的关键词，另外一个热门搜索的点击率，这些对于网站的优化是非常非常重要。另外我们还提供网页抓取的统计信息，包括抓取的成功率是多少，里面出现的错误是多少，你可以看这是HTML的错误等等，你可以点击里面具体的，知道里面那个网址是有错误，除此之外我们提供一些其他的资料，你的那个网页链接在你的网站是最高的。 <br/><br/>另外一些，右边，就是外部的一些信息，作出链接一些关键词，就是人家的网站是怎么描述你的，这些对你的网站的优化都是非常非常重要的信息，还有一个是错误的报告，告诉你出现的错误是什么，你是不是有播放的错误。 <br/><br/>还提供一个信息让你看到我们怎么解释你的错误，在下面你可以看到所有的Robots txt。 <br/><br/>讲一下我们的一个成功案例，这是一个小型的网站，他是有关出租公寓里面住客的评价，这个网站的特点是这样的，他每天都要进行很频繁的更改，住客就有很多的意见，这个里面有很多新的出租的信息，这个网站利用Sitemap告诉我们他更新的频率，发现他对整个网站都有很好的提高，他们只有三个人管理网站，长期以来更新的网页就没办法很好的管理，用了Sitemap他们确实发现网页的更新可以自动化。 <br/><br/>另外一个是有关内容管理的提供商，这个网站的特点，他是一个动态的网站他是管理所有的酒店、赌场还有度假胜地定房的信息，他的后台是一个数据库这对传统的网络爬虫和抓取引擎是比较困难找到信息的，他们的做法是建立一套他们自己的所谓内容管理软件，这个内容管理软件在数据库有更新资料的时候，他自动产生一个Sitemap，然后就有新的每一行针对数据库里的资料，这样可以保证所有的房间信息都可以在搜索引擎里面得到抓取，结果他们发现他们的网页点击增加了120％。 <br/><br/>第三个是《美国时报》的网站，这是美国最好的35个网站之一，他们利用GoogleSitemap的格式，他们发现这个效果非常非常好。 <br/><br/>这是我讲的一些用Sitemap成功的一些案例总的来讲，Sitemap可以让网站实时提交网页，这个是免费的，除此之外你还可以告诉Google你额外的网页信息。还有就是统计你网站的搜索资料，最终来讲Google还是希望提供这么一个平台让所有的网站有效提供网站的抓取质量，我的想法是这样，最理想的情况是，现在网站管理的软件假如他已经有一个建立的功能，当你增加新的网站创造新的网页的时候，你会主动提交数据，这样跟搜索引擎的配合天衣无缝，谢谢大家！ <br/><br/>主持人：Stephen M. Norton他主要负责的工作就是关于，他也是首批通过Google广告专家的资格之一，他很多的专业只是都是来自于工作的理解，他也是非常著名的名人， <br/><br/>Stephen M. Norton：谢谢大家，可能大家在Google和其他的网站上都看到了怎么建站的消息，在我现在的过程当中，我主要希望把大家以前做的事更加好，我也希望向大家推荐即使非常小的网站也可以使用我们的网站建设经验。 <br/><br/>首先我是<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>和SEM的资深顾问，我在不断的发展和吸取其他的经验，我首先跟大家说一下，刚才正如主持人介绍我，我们Google第一批专业的工程师，也是雅虎的大师，同时也在进行SEM的研究，我对一千多家公司都做了顾问和咨询的工作，我也希望以后能够更好帮助中国的企业进行工作。 <br/><br/>昨天我讲了搜索引擎三个比较重要的方面，现在搜索引擎最热的网站首推Google这也是非常重要的一个方面，他通过IP地址和域名来进行抓取，这是搜索引擎工作的一个方面，他带来的结果也是相当满意，除此之外我们还使用标题栏，就是标题标签来搜索，直接判断搜索人的关键字，用他来搜索，还有我们在网站上放到了标签和栏目的标题时，可以让大家直接搜索这部分的内容。还有比较好的SEO这样的公司我也列出一些，ebay这样的公司，大家可以看到他们利用绝对和相对链接的时候，一个相对链接可能给出一个名字，但是他的绝对链接可能是更长的一点，这种绝对的链接全部的名称加上你页面的名称可以全部例出，一位Google资深的工作人员说，我推荐他们使用绝对链接。雅虎还有其他的一些公司也都是特别推荐大家不要使用相对链接的地址。 <br/><br/>这种抓取的页面，他过来抓链接的时候，就说这个链接叫这个名字，这个链接到底是哪一个公司的呢，这样抓取软件他很难自己分清楚，究竟这是什么样的情况，这样的话你的页面不是很容易被抓取软件找到，给大家介绍一个公司，GKFA公司，大家可以看到他的代码，他们都是把绝对的地址非常全部的写上去。 <br/><br/>大家发现，到底是用中间连结线，还是打全，大家都在想我是不是应该想把所有的词都拼在一起，是不是比较容易被搜索引擎抓到，还是我加了下滑线他会更智能一些，搜索引擎在判断的软件他的想法跟我们不一样，加中间连结线的时候，我们在英文的习惯里面是作为一个词来处理的。搜索引擎他读加下划线的文件名的时候，还是仍然连结在一起的读，所以他就会读到一个很长的词。 <br/><br/>再往后面一个我们在中间加连结线的，这种命名的方式他就可以被绝大多数搜索引擎阅读出来，他可以判断这个文件名的意义到底是什么，可以从语言的角度来分析，这些显然比前两个好得多，这样你的文件名给他认出来的话，对你的访问是有帮助的。 <br/><br/>我举一个例子，eBay.COM，大家在进行自己的网站建设的时候，在超级链接方面要特别注重超级链接的原则，这些非常小的地方可能会对我们的访问量有很大的影响，在产品页面上，我们要考虑一下，Google一直在强调在建设网站产品的这几个页面上，大家一开始有一个非常宏观的网站设计思维，最后落到细化，我们在想的时候，我们专著于页面需要大的方面，以前的这些问题是像产品介绍、照片、评价等等，还有产品的特性全部统统放到一个页面这些大家感觉比较困惑，我们现在用另外一种，扩展的产品页面是这样做，产品的描述是一页、产品的照片是一页、产品最后的特性，相关信息又一页，这样的四页，就要前面过去看一下，反过来又看，在浏览其做不断前进后退的工作，搜索引擎能不能做到这一点，也是非常困难的，这样用户的体验未必是非常好，Google也不希望人们这样前后不断看来看去，这样对于搜索引擎吸引用户继续保留在这个页面上的可能性有所下降，这样给出的信息很多但是能吸收多少也是另外一个问题，这也是我们不推荐的。 <br/><br/>比如有一个统一的产品页面之后，每一个都可以下拉出来很多的页面，但是他的页面设计非常合理，但是他在进行链接的时候他设计的非常合理，而不会让用户在大量的信息中淹没，他们的排名非常好，这样可以让搜索引擎和用户非常清楚，这个页面有什么样的信息可以很快判断，绝对不会让客户在页面中不断的跳转，Google在Sitemap也是有非常成熟的一套技术，可以给我们很多的帮助，我这边可以给大家SEO方面有什么问题，可以寻找到帮助的网站，头一个是Google Sitemap，我不大家去这几个网站访问过没有，如果没有的话可以过去看一下，上面有很多值得大家借鉴的东西，我们可以一直不断上去看，Google经常会对这些页面进行升级，或者不断增加新的信息，我在Google在这产业方面一直引领行业的发展。而且他们的页面设计的格式也都是非常可爱的，我觉得实际上你在上面可以问一些Google技术专家的问题，可以得到很快的反馈，所以有什么问题可以上这些专家的页面去问一下他们的问题，我想他们讲了很多关于对于网站结构问题的诊断还有其他各方面提出的一些帮助，看大家有什么问题可以问我们，我也非常乐意给大家提供力所能及的帮助。谢谢大家！<br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/sitemap/" rel="tag">sitemap</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/223/</link>
<title><![CDATA[Yahoo支持在网站robots.txt文件内使用通配符]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Fri, 03 Nov 2006 17:52:45 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/223/</guid> 
<description>
<![CDATA[ 
	　　黑色梦中曾经在<a href="http://www.bloghuman.com/post/67/" target="_blank">"搜索引擎蜘蛛及Robots详解"</a>文章中讲解了几大主流搜索引擎的蜘蛛、Robots.txt文件以及RobotMeta标签的使用。我们知道：robots.txt 是一个标准文本文件档，意在阻止搜索引擎的Spider(或robots）从 Web 服务器下载某些或全部信息，控制Spider的搜索范围。引导搜索引擎只爬行网站重要的信息是非常必要的，而跳过隐私内容或者特殊程序，这样可以节省大量的带宽。<br/><br/>　　不过，在标准的robots.txt语法中，只可在 User-agent 项中使用通配符，即使用“*”来代表所有搜索引擎的robots，而在 Disallow 项中，则不能使用通配符以灵活配置robots.txt。<br/><br/><br/>　　Google率先提供了对在robots.txt中使用通配符的扩展支持——至于是不是唯一一个支持通配符语法的搜索引擎则不敢确定——，在Disallow 项中可使用“*”与“$”，其中，”*”匹配任意字符串，而”$”则标志Disallow项目中任意名称的结尾。如下面的例子中，将禁止Googlebot索引收录gif文件：<br/><br/><br/><div class="code">User-agent:Googlebot<br/>Disallow:/*.gif$</div><br/><br/>　　近日，Yahoo Search Blog 宣布 Yahoo Slurp也提供了在 robots.txt 中使用通配符的支持，其语法与Google大同小异，同样提供了两个通配符： “*” 与“&”，其中，“*”匹配url中的任意字符串，而“&”则类似于Google的“$”，告诉Yahoo Slurp已到达匹配字符串的结尾。——不知道Yahoo在此使用不同的字符标志结尾是否刻意为之。不过，总的说来，Yahoo最近逐渐呈现出切实满足用户的趋势，包括前不久提供对“NOODP”属性的支持，这是一个好趋势。 <br/><br/>　　不过，在标准的robots.txt语法中，只可在 User-agent 项中使用通配符，即使用“*”来代表所有搜索引擎的robots，而在 Disallow 项中，则不能使用通配符以灵活配置robots.txt。<br/><br/>　　Google率先提供了对在robots.txt中使用通配符的扩展支持——至于是不是唯一一个支持通配符语法的搜索引擎则不敢确定——，在Disallow 项中可使用“*”与“$”，其中，”*”匹配任意字符串，而”$”则标志Disallow项目中任意名称的结尾。如下面的例子中，将禁止Googlebot索引收录gif文件：<br/><br/><br/><div class="code">User-agent:Googlebot<br/>Disallow:/*.gif$</div><br/><br/>　　近日，Yahoo Search Blog 宣布 Yahoo Slurp也提供了在 robots.txt 中使用通配符的支持，其语法与Google大同小异，同样提供了两个通配符： “*” 与“&”，其中，“*”匹配url中的任意字符串，而“&”则类似于Google的“$”，告诉Yahoo Slurp已到达匹配字符串的结尾。——不知道Yahoo在此使用不同的字符标志结尾是否刻意为之。不过，总的说来，Yahoo最近逐渐呈现出切实满足用户的趋势，包括前不久<a href="http://seo.highdiy.com/index.php/seo/yahoo-adds-noodp-support/" target="_blank">提供对“NOODP”属性的支持</a>，这是一个好趋势。 <br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>博客</a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/yahoo%2521/" rel="tag">yahoo!</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/robots/" rel="tag">robots</a> , <a href="http://www.bloghuman.com/tags/noodp/" rel="tag">noodp</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/212/</link>
<title><![CDATA[查看Google网页Cache的方法]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Sat, 21 Oct 2006 15:55:45 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/212/</guid> 
<description>
<![CDATA[ 
	我在Google中搜索"<a href="http://www.bloghuman.com/tags/seo%E5%8D%9A%E5%AE%A2/" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a>博客</a>"时，<a href="http://www.bloghuman.com/" target="_blank">我的这个<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a></a>排在第9位，Google提供的缓存网页URL是：http://72.14.235.104/search?q=cache:svO7mXYAdI0J:www.bloghuman.com/+SEO%E5%8D%9A%E5%AE%A2&hl=zh-CN&gl=cn&ct=clnk&cd=9<br/><br/>点击发现打不开，从URL中可以看出，Goolge的缓存服务器IP地址是：72.14.235.104 。这个IP地址却发现可以PING通，但URL不可以访问，以前普遍认为是关键字过滤导致的（据说在搜索引擎里搜索"search?q=cache"时无法找到网页）。我试图按照更换参数位置以及使用其他URL渠道访问，但都没有成功。<br/><br/>对于我们这些从事SEO研究、对Goolge一往情深的人来说，缓存网页是我们需要时常关注的。有什么办法可以看到缓存网页？<br/><br/>我找到了Goolge另外一个缓存服务器的IP地址：72.14.203.104，大家只需要将上面URL中的IP由72.14.235.104换成72.14.203.104即可看到网页快照。<br/><br/>从两个两个IP可以发现Goolge的网页快照服务器的IP大致范围，回头继续研究。先去睡觉喽<br/><br/><hr/><br/><br/><span style="font-size: 12px;"><strong>小皮</strong>同学提供了一个新方法，这个方式更佳，推荐大家使用：<br/>在Google中搜索"cache:URL地址"即可查看该URL的网页快照</span>。<br/><br/>譬如：在Google搜索框中输入"cache:http://www.bloghuman.com/tag.php"，点击搜索，则会自动跳转到该网页的快照。<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中SEO博客</a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E9%25A1%25B5%25E5%25BF%25AB%25E7%2585%25A7/" rel="tag">网页快照</a> , <a href="http://www.bloghuman.com/tags/seo%25E5%258D%259A%25E5%25AE%25A2/" rel="tag">seo博客</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E9%25A1%25B5%25E7%25BC%2593%25E5%25AD%2598/" rel="tag">网页缓存</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/209/</link>
<title><![CDATA[Google正式收购YouTube 16.5亿创最高收购记录]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 18 Oct 2006 11:47:24 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/209/</guid> 
<description>
<![CDATA[ 
	Google在周一收盘后宣布已16.5亿美元的股票收购视频网站YouTube,这一收购价格创下了Google自创办以来的最高收购价格记录。 <br/><br/>由于市场之前就对此消息有预期，Google的股价在周一被推高了8.50美元，涨幅达到2％，股价达到了429美元，这一价位是自去年4月以来的最高价。Google收盘后宣布这一消息后，在盘后交易中，Google的股价出现了小幅下跌，至当地时间下午5:00时为427.63美元。 <br/><br/>自从上周五传出Google即将收购YouTube的消息后，当天Google的股价就上涨了2％，加上今天的交易，连续2个交易日的上涨，已让Google的市值增加了近40亿美元，而这比Google这次收购付出的代价的2倍还要多。<br/><br/>分析师认为，Google通过收购YouTube，将快速杀入刚刚兴起的视频广告领域，直接对阵Yahoo。 <br/><br/><span style="color: #FF0000;">Google收购YouTube＝傻冒？ </span><br/><br/><span style="color: #0000FF;">Google要做"傻冒"？</span> <br/><br/>美国著名亿万富翁、互联网界知名人士马克-库班9月底曾毫不不客气地对视频共享网站YouTube进行了批评，称只有“傻冒”才会去冒险购买这个短时间内窜红的互联网新秀。 查看详细 <br/><br/><span style="color: #0000FF;">Google：真的是傻冒吗？ </span><br/><br/>自IPO之后，对于收购，Google一直只是小打小闹地收购一些小型的软件公司，那么一向在收购上比较谨慎的Google这次会冒险收购被很多业内人士不看好的YouTube吗？收购YouTube是不是真的就是傻冒呢？ <br/><br/><br/>就在国庆前夕，美国著名亿万富翁、互联网老兵马克·库班豪不客气地对视频共享网站YouTube进行了批评，称只有“傻冒”才会去冒险购买这个短时间内窜红的互联网新秀，但是，就在我们还在享受国庆假期的时候，搜索引擎巨头Google似乎有意充当这个“傻冒”角色——据国外权威媒体报道，Google目前正在与YouTube进行商谈，考虑以近16亿美元的价格收购YouTube。 <br/><br/>如今，Google的市值高达1200亿美元、现金也达100亿美元之多，所以，财大气粗的Google以16亿 美元的价格收购YouTube当然是小事一桩，不值一提！但是，自IPO之后，对于收购，Google一直只是小打小闹地收购一些小型的软件公司，那么一向在收购上比较谨慎的Google这次会冒险收购被很多业内人士不看好的YouTube吗？收购YouTube是不是真的就是傻冒呢？ <br/><br/>YouTube现在虽然如日中天，但确实存在着不少的问题，而最大的两个问题即是版权问题和盈利模式问题，这两大问题才是其真正的软肋。 <br/><br/>先来看其版权问题。自推出一年来，YouTube一直深受版权问题困扰，因为很多用户时常在上面发布受版权保护的内容，包括知名艺术家制作的视频音乐和影像，因此，YouTube受到了严格的检查，而一旦被确定侵权的内容一经发现都会立即被YouTube卸载。但是，被YouTube卸载的所有涉及版权的内容却也大多数是专业制作的内容，也就是说被其卸载的内容一般是比较精彩的能够为其真正贡献流量的内容，而剩下的影片都是“几近乏味”的内容。如此，则矛盾产生了：若YouTube选择不被官司缠身，就必须大量卸载具有版权内容的精彩作品，而这势必造成网站流量的急剧下降，也必将造成大量用户流失景况的发生；若YouTube选择保持高质量的影像作品的存在，则又必须面临着侵权的指控。而一旦遭受指控，以国外对知识产权的保护力度来说，YouTube败诉的可能性非常大，另外一旦被诉，就会具有连锁反应，势必被多家公司追诉。 <br/><br/>另外，还有盈利模式问题。到目前为止，视频共享仍是一项高投入、低利润、不赢利的业务。YouTube每月的投入为90万到150万美元，绝大部分的投入交给了服务器提供商和宽带提供商手中。而且，由于YouTube正在解决盗版视频的问题，如果面临法律起诉，其成本会进一步上涨。因此，探索盈利模式也是YouTube的当务之急。广告是大家最容易想到的盈利模式，但是，由于害怕用户不接受广告从而导致用户的流失，因此，YouTube的创始人Chad Hurley和Steve Chen对广告业务既不正面回应，也不急于推行。可以说，盈利模式问题不独是YouTube的问题，而是所有的Web2.0网站都必须考虑、并为之继续探索的问题，但这个探索的时间到底有多久，恐怕还没有一个人心里有底，也许就在明天，也许即使是倒在互联网泡沫里也还找不到。 <br/><br/>正是存在着上述两大问题，所以，很多人并不看好YouTube，那么Google真的是傻冒吗？ <br/><br/>Google当然不是傻冒！收购YouTube将有助于Google的网络视频服务发展，能使Google立即登上网络视频的顶峰。根据市场调研公司Hitwise今年8月的统计数据显示，YouTube已占据了美国在线视频网站流量46%的份额，而MySpace的市场份额仅为23%，Google Video的份额仅为10%。另外，根据YouTube此前披露的数据显示，目前每日用户在线观看短片的次数已突破1亿次，而日上传视频文件的数量也已超过6.5万份。正是如此，因此很多人认为，YouTube已经是一家具有全球影响力的公司，其品牌价值并不亚于Google、可口可乐等国际知名公司，另外，随着YouTube日益大众化，Google收购YouTube能确保其基础设施跟上发展速度。 <br/><br/>最关键的是，困扰YouTube的两大问题，也并非没有解决之道。首先，版权问题既可以通过合作来解决，也可以通过技术手段来解决。比如，华纳音乐公司已与YouTube达成协议，前者的版权内容可以通过YouTube进行销售。其它的音乐公司也准备与YouTube合作推出版权内容。而且，Google的规模使其在与版权所有者谈判时拥有更有利的地位。再者，通过开发可识别和阻挡侵权内容的软件也是一种可行之法。 <br/><br/>至于盈利模式，虽然Google也不可能在短时间内为YouTube找到盈利模式，但是以Google的盈利能力和充足的现金来看，其并不急于让YouTube盈利，这就让其有足够的时间来探索，而且即使互联网泡沫真的会到来，有了Google这个大靠山，YouTube也比较容易渡过难关。 <br/><br/>所以，Google并不是傻冒，只是要经过一段时间的考验罢了，好在Google有资本去等待！<br/><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/youtube/" rel="tag">youtube</a> , <a href="http://www.bloghuman.com/tags/web2.0/" rel="tag">web2.0</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/208/</link>
<title><![CDATA[Google Sitemap新增两项功能：抓取速度和增强型图片搜索]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 18 Oct 2006 03:20:38 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/208/</guid> 
<description>
<![CDATA[ 
	今天到<a href="http://www.google.com/webmasters/sitemaps" target="_blank">Google Sitemap</a>发现Google推出了两项新功能，分别是：<strong>抓取速度</strong>和<strong>增强性图片搜索</strong>。光听名字就足够让我感到兴奋。<br/><br/>抓取速度可以理解为<a href="http://www.bloghuman.com/tags/googlebot/" target="_blank">Google网页爬虫GoogleBot</a>爬行网页的频度。通常，如果网页爬虫GoogleBot对某个网站感兴趣（或者说网站对搜索引擎友好）便会经常性的爬行该站点，好处不言而预，将会极大的促进新网页的收录及网页内容更新效率<br/><br/>增强型图片搜索立刻让我想起了我们经常谈到的<strong>图片优化</strong>：<strong>ALT TAG</strong>、<strong>图片与相关介绍文字的结合处理</strong>。<br/><br/>这两项新功能能为网站带来什么好处？Google希望网站站长做什么呢？新功能对<a href="http://www.bloghuman.com/" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a></a>将会产生什么影响呢？<br/><br/>下图即是Google Sitemap新增功能：<br/><br/><a href="http://www.bloghuman.com/attachment/google-sitemap-new-function.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-sitemap-new-function.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><span style="font-size: 14px;"><strong>抓取速度：</strong></span><br/><a href="http://www.bloghuman.com/attachment/google-crawl-rate.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-crawl-rate.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><span style="font-size: 12px;"><strong>我们可以通过使用诊断摂标签上提供的抓取速度工具来要求Google更改抓取网站的速度以及查阅GoogleBot 在90天内对网站的抓取量</strong></span>。<br/><br/>Googlebot宣称：<span style="color: #FF0000;"><strong>Googlebot采用复杂的算法来确定对每个网站的抓取量</strong></span>；在不过分占用服务器带宽的情况下，尽可能在每次访问时抓取最多的网页。您可以。也可以查阅 Googlebot 在过去 90 天内对您网站的抓取量信息。如果您希望我们降低抓取您网站的速度，只需选择慢速摂选项并点击保存摂即可。新设置的较慢速度将在 90 天内有效。如果我们断定对您网站的抓取量不够（也就是说，如果我们断定您的服务器可以负荷额外的带宽，则会更多地抓取您的网站），我们会就此通知您并提供选项让您选择更快的抓取速度。如果您希望 Googlebot 以更快的速度抓取您的网站，只需选择更快摂选项并点击保存摂即可。您可以随时返回此工具并选择正常摂将抓取速度恢复原始设置。如果 90 天后您不想使用恢复正常的抓取速度，可以返回此工具并再次选择更慢摂或更快摂。 <br/><br/><br/><span style="font-size: 14px;"><strong>增强型图片搜索：</strong></span><br/><a href="http://www.bloghuman.com/attachment/google-images-search.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-images-search.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>如果启用增强型图片搜索，Google 将使用<a href="http://images.google.com/imagelabeler" target="_blank">Google Image Labeler</a>等工具<span style="color: #FF0000;"><span style="font-size: 12px;"><strong>将网站所包含的图片与标签相关联，以优化这些图片的索引并提高搜索质量。</strong></span></span><br/><br/>要使用这些工具启用您网站上的图片，只需选择"诊断">"增强型图片搜索"。选择启用后，可通过返回此页面并取消选择该复选框随时取消该功能。 <br/><br/><span style="font-size: 14px;"><strong>对SEO的影响？</strong></span><br/><br/><span style="font-size: 12px;"><strong>关于网页抓取</strong></span><br/><br/>以前，我们普遍认为Google对网页爬行频度以及抓取质量取决于网站结构（内链对搜索引擎的友好性）和反响链接的数量及质量。反向链接越多的站点GoogleBot天天爬行，因为这些站点被更多的站点推崇，重要性相对要高很多，Google自然也会重视，因此，抓取的网页也越多。<br/><br/>但目前Google推出的 <strong>抓取速度</strong> 却将搜索机器人的爬行"平民化"了，也就是说，只要网站有能力负载GoogleBot的大幅度爬行，网页抓取自然不成问题，Google愿意派出蜘蛛去爬行进而获取更多有价值的网页；同时，请注意标红的那句话“Googlebot采用复杂的算法来确定对每个网站的抓取量”，这说明Google对不同质量网站的抓取数量是不同的而且有一个指标参数再控制。举例说：一个新站点每日更新1000条数据，而Google可能只抓取其中的100条；而对于一个大站，即便每日更新200条数据，Google就会将这200条数据全部抓取保存在数据库中，而这个指标参数无非是：<a href="http://www.bloghuman.com/post/88.htm" target="_blank">网站内链结构</a>、网站内容更新频率、网站链接广泛度、<a href="http://www.bloghuman.com/post/49.htm" target="_blank">网站知名度</a>、网站域名信任度。<br/><br/>Google提到：如果我们断定对您网站的抓取量不够（也就是说，如果我们断定您的服务器可以负荷额外的带宽，则会更多地抓取您的网站），我们会就此通知您并提供选项让您选择更快的抓取速度。独立服务器及大容量带宽是一个正规网站或者说是一个打算正式经营的网站的必备条件，这两个条件也是搜索引擎对网站信任的一个表现。<span style="font-size: 12px;"><strong><span style="color: #0000FF;">我认为：抓取速度这个新功能已经超出了功能本身。</span></strong></span><br/><br/><span style="font-size: 12px;"><strong>关于增强型图片搜索</strong></span><br/><br/>Google宣称：通过增强型图片搜索，可以将网站所包含的图片与标签相关联，以优化这些图片的索引并提高搜索质量。我们都知道，<a href="http://www.google.com/imghp?hl=zh-CN&tab=wi&q=" target="_blank">Google有图片搜索功能</a>，譬如我搜索关键词"美女"：<br/><br/><a href="http://www.bloghuman.com/attachment/google-images-search-keyword-meinv.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-images-search-keyword-meinv.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>可以看到，前8个图片结果中有6个标题文字中包含关键词"美女"，这些文字描述来源于哪里呢？？？<br/>我认为：这和图片的ALT描述文字、图片周围的文字以及网页内容主体有着密切的关系。也就是说，Google收集图片ALT标签内容、图片周围的文字以及整个网页的内容以决定如何对图片进行阐述，并当用户发生相关搜索时提供最相关的图片给用户。<br/><br/>看来，Google是要告诉我们图片的ALT标签、图片与相关文字的搭配对搜索有帮助，Google提倡这样。<br/><br/>当然，以上是我的个人臆测，没准这是Google为了遏制图片ALT标签内容堆积关键词而采取的一项策略。<br/><br/>不管怎样，我都愿意尝试Google提供的任意一个产品或功能，也许通过两个新功能，我们可以帮助Google。<br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a></a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/sitemap/" rel="tag">sitemap</a> , <a href="http://www.bloghuman.com/tags/%25E6%258A%2593%25E5%258F%2596%25E9%2580%259F%25E5%25BA%25A6/" rel="tag">抓取速度</a> , <a href="http://www.bloghuman.com/tags/%25E5%25A2%259E%25E5%25BC%25BA%25E5%259E%258B%25E5%259B%25BE%25E7%2589%2587%25E6%2590%259C%25E7%25B4%25A2/" rel="tag">增强型图片搜索</a> , <a href="http://www.bloghuman.com/tags/alt/" rel="tag">alt</a> , <a href="http://www.bloghuman.com/tags/googlebot/" rel="tag">googlebot</a> , <a href="http://www.bloghuman.com/tags/%25E9%2593%25BE%25E6%258E%25A5%25E5%25B9%25BF%25E6%25B3%259B%25E5%25BA%25A6/" rel="tag">链接广泛度</a> , <a href="http://www.bloghuman.com/tags/%25E5%259F%259F%25E5%2590%258D%25E4%25BF%25A1%25E4%25BB%25BB%25E5%25BA%25A6/" rel="tag">域名信任度</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/207/</link>
<title><![CDATA[Google搜索教程及高级搜索技巧]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Wed, 18 Oct 2006 02:31:04 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/207/</guid> 
<description>
<![CDATA[ 
	<span style="font-size: 12px;"><strong>一，Google简介</strong></span><br/><br/>Google(www.google.com)是一个搜索引擎，由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明，Google Inc. 于1999年创立。2000年7月份，Google替代Inktomi成为Yahoo公司的搜索引擎，同年9月份，Google成为中国网易公司的搜索引擎。98年至今，Google已经获得30多项业界大奖。<br/><br/><span style="font-size: 12px;"><strong>二，Google特色</strong></span><br/><br/>Google支持多达132种语言，包括简体中文和繁体中文；<br/><br/>Google网站只提供搜索引擎功能，没有花里胡哨的累赘；<br/><br/>Google速度极快，据说有8000多台服务器，200多条T3级宽带；<br/><br/>Google的专利网页级别技术PageRank能够提供高命中率的搜索结果；<br/><br/>Google的搜索结果摘录查询网页的部分具体内容，而不仅仅是网站简介；<br/><br/>Google智能化的“手气不错”功能，提供可能最符合要求的网站；<br/><br/>Google的“网页快照”功能，能从GOOGLE服务器里直接取出缓存的网页。<br/><script type="text/javascript"><!--<br/>google_ad_client = "pub-5376776771027414";<br/>google_ad_output = "textlink";<br/>google_ad_format = "ref_text";<br/>google_cpa_choice = "CAAQ9cm1_wEaCBkyusVe5rXbKOm84YcB";<br/>google_ad_channel = "";<br/>//--></script><br/><script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"><br/></script><br/><br/><span style="font-size: 12px;"><strong>三，基本搜索：+，-，OR</strong></span><br/><br/>GOOGLE无需用明文的“+”来表示逻辑“与”操作，只要空格就可以了。<br/><br/>示例：搜索所有包含关键词“易筋经”和“吸星**”的中文网页<br/><br/>搜索：“易筋经 吸星**”<br/><br/>结果：已搜索有关易筋经 吸星**的中文(简体)网页。共约有726项查询结果，这是第1-10项。搜索用时0.13秒。<br/><br/>注意：文章中搜索语法外面的引号仅起引用作用，不能带入搜索栏内。<br/><br/>GOOGLE用减号“-”表示逻辑“非”操作。<br/><br/>示例：搜索所有包含“易筋经”而不含“吸星**”的中文网页<br/><br/>搜索：“易筋经 -吸星**”<br/><br/>结果：已搜索有关易筋经 -吸星**的中文(简体)网页。共约有5,440项查询结果，这是第1-10项。搜索用时0.13秒。<br/><br/>注意：这里的“+”和“-”号，是英文字符，而不是中文字符的“＋”和“－”。此外，操作符与作用的关键字之间，不能有空格。比如“易筋经 - 吸星**”，搜索引擎将视为逻辑“与”操作，中间的“-”被忽略。<br/><br/>GOOGLE用大写的“OR”表示逻辑“或”操作。但是，关键字为中文的或查询似乎还有BUG，无法得到正确的查询结果。<br/><br/>示例：搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。<br/><br/>搜索：“britney OR beatles”<br/><br/>结果：已搜索有关britney OR beatles的中文(简体)网页。共约有14,600项查询结果，这是第1-10项。搜索用时0.08秒。<br/><br/>搜索：“布兰妮 OR 披头士”<br/><br/>结果：找不到和您的查询-布兰妮 OR 披头士-相符的网页。<br/><br/>注意：小写的“or”，在查询的时候将被忽略；这样上述的操作实际上变成了一次“与”查询。<br/><br/>“+”和“-”的作用有的时候是相同的，都是为了缩小搜索结果的范围，提高查询结果命中率。<br/><br/>例：查阅天龙八部具体是哪八部。<br/><br/>分析：如果光用“天龙八部”做关键字，搜索结果有26,500项，而且排前列的主要与金庸的小说《天龙八部》相关，很难找到所需要的资讯。可以用两个方法减少无关结果。<br/><br/>1，如果你知道八部中的某一部，比如阿修罗，增加“阿修罗”关键字，搜索结果就只有995项，可以直接找到全部八部，“天龙八部 阿修罗”。<br/><br/>2，如果你不知道八部中的任何一部，但知道这与佛教相关，可以排除与金庸小说相关的记录，查询结果为1,010项，可以迅速找到需要的资料，“天龙八部 佛教 -金庸”。<br/><br/><span style="font-size: 12px;"><strong>四，辅助搜索：通配符、大小写、句子、忽略字符以及强制搜索</strong></span><br/><br/>GOOGLE不支持通配符，如“*”、“?”等，只能做精确查询，关键字后面的“*”或者“?”会被忽略掉。<br/><br/>GOOGLE对英文字符大小写不敏感，“GOD”和“god”搜索的结果是一样的。<br/><br/>GOOGLE的关键字可以是词组(中间没有空格)，也可以是句子(中间有空格)，但是，用句子做关键字，必须加英文引号。<br/><br/>示例：搜索包含“long, long ago”字串的页面。<br/><br/>搜索：“"long, long ago"”<br/><br/>结果：已向英特网搜索"long, long ago". 共约有28,300项查询结果，这是第1-10项。搜索用时0.28秒。<br/><br/>注意：和搜索英文关键字串不同的是，GOOGLE对中文字串的处理并不十分完善。比如，搜索“"啊，我的太阳"”，我们希望结果中含有这个句子，事实并非如此。查询的很多结果，“啊”、“我的”、“太阳”等词语是完全分开的，但又不是“啊 我的 太阳”这样的与查询。显然，GOOGLE对中文的支持尚有欠缺之处。<br/><br/>GOOGLE对一些网路上出现频率极高的词(主要是英文单词)，如“i”、“com”，以及一些符号如“*”、“.”等，作忽略处理，如果用户必须要求关键字中包含这些常用词，就要用强制语法“+”。<br/><br/>示例：搜索包含“Who am I ?”的网页。如果用“"who am i ?"”，“Who”、“I”、“?”会被省略掉，搜索将只用“am”作关键字，所以应该用强制搜索。<br/><br/>搜索：“"+who +am +i"”<br/><br/>结果：已向英特网搜索"+who +am +i". 共约有362,000项查询结果，这是第1-10项。搜索用时0.30秒。<br/><br/>注意：英文符号(如问号，句号，逗号等)无法成为搜索关键字，加强制也不行<br/><br/><span style="font-size: 12px;"><strong>五，高级搜索：site，link，inurl，allinurl，intitle，allintitle</strong></span><br/><br/>“site”表示搜索结果局限于某个具体网站或者网站频道，如“sina.com.cn”、“edu.sina.com.cn”，或者是某个域名，如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面，只需用“-网站/域名”。<br/><br/>示例：搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。<br/><br/>搜索：“金庸 site:edu.cn”<br/><br/>结果：已搜索有关金庸 site:edu.cn的中文(简体)网页。共约有2,680项查询结果，这是第1-10项 。搜索用时0.31秒。<br/><br/>示例：搜索包含“金庸”和“古龙”的中文新浪网站页面，<br/><br/>搜索：“金庸 古龙 siteina.com.cn”<br/><br/>结果：已在sina.com.cn搜索有关金庸 古龙的中文(简体)网页。共约有869项查询结果，这是第1-10项。搜索用时0.34秒。<br/><br/>注意：site后的冒号为英文字符，而且，冒号后不能有空格，否则，“site:”将被作为一个搜索的关键字。此外，网站域名不能有“http”以及“www”前缀，也不能有任何“/”的目录后缀；网站频道则只局限于“频道名.域名”方式，而不能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。<br/><br/>“link”语法返回所有链接到某个URL地址的网页。<br/><br/>示例：搜索所有含指向华军软件园“www.newhua.com”链接的网页。<br/><br/>搜索：“link:www.newhua.com”<br/><br/>结果：搜索有链接到www.newhua.com的网页。共约有695项查询结果，这是第1-10项。搜索用时0.23秒。<br/><br/>注意：“link”不能与其他语法相混合操作，所以“link:”后面即使有空格，也将被GOOGLE忽略。<br/><br/>inurl语法返回的网页链接中包含第一个关键字，后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中，比如“MP3”、“GALLARY”等，于是，就可以用INURL语法找到这些相关资源链接，然后，用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于，前者通常能提供非常精确的专题资料。<br/><br/>示例：查找MIDI曲“沧海一声笑”。<br/><br/>搜索：“inurl:midi 沧海一声笑”<br/><br/>结果：已搜索有关inurl:midi 沧海一声笑的中文(简体)网页。共约有14项查询结果，这是第1-10项。搜索用时0.01秒。<br/><br/>示例：查找微软网站上关于windows2000的安全课题资料。<br/><br/>搜索：“inurlecurity windows2000 site:microsoft.com”<br/><br/>结果：已在microsoft.com内搜索有关 inurlecurity windows2000的网页。共约有198项查询结果，这是第1-10项。搜索用时0.37秒。<br/><br/>注意：“inurl:”后面不能有空格，GOOGLE也不对URL符号如“/”进行搜索。GOOGLE对“cgi-bin/phf”中的“/”当成空格处理。<br/><br/>allinurl语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页的链接字符串。<br/><br/>示例：查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的)，表现在链接中就是“域名/cgi-bin/phf”。<br/><br/>语法：“allinurl:"cgi-bin" phf +com”<br/><br/>搜索：已向英特网搜索allinurl:"cgi-bin" phf +com. 共约有40项查询结果，这是第1-10项。搜索用时0.06秒。<br/><br/>allintitle和intitle的用法类似于上面的allinurl和inurl，只是后者对URL进行查询，而前者对网页的标题栏进行查询。网页标题，就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此，只查询标题栏，通常也可以找到高相关率的专题页面。<br/><br/>示例：查找日本明星藤原纪香的照片集。<br/><br/>搜索：“intitle:藤原纪香 写真”<br/><br/>结果：已搜索有关intitle:藤原纪香 写真的中文(简体)网页。共约有284项查询结果，这是第1-10项。搜索用时0.03秒。<br/><br/>GOOGLE的罕用高级搜索语法：related，cache，info<br/><br/>related用来搜索结构内容方面相似的网页。例：搜索所有与中文新浪网主页相似的页面(如网易首页，搜狐首页，中华网首页等)，“related:www.sina.com.cn/index.shtml”。<br/><br/>cache用来搜索GOOGLE服务器上某页面的缓存，这个功能同“网页快照”，通常用于查找某些已经被删除的死链接网页，相当于使用普通搜索结果页面中的“网页快照”功能。<br/><br/>info用来显示与某链接相关的一系列搜索，提供cache、link、related和完全包含该链接的网页的功能。<br/><br/>示例：查找和新浪首页相关的一些资讯。<br/><br/>搜索：“infwww.sina.com.cn”<br/><br/>结果：有关www.sina.com.cn的网页信息。<br/><br/>新浪首页<br/><br/>北京站 上海站 广东站. ... 游戏世界, &#124;, 影音娱乐, &#124;, Club缘, &#124;, 男<br/><br/>人女人, &#124;, 论坛聊天, &#124;, 时尚潮流, &#124;, 文教育儿, &#124;, 车行天下, &#124;,<br/><br/>软件下载. ...<br/><br/>Google 提供这个网址的信息:<br/><br/>查看Google网页快照里www.sina.com.cn的存档<br/><br/>寻找和www.sina.com.cn类似的网页<br/><br/>寻找网页有链接到www.sina.com.cn<br/>寻找网页包含有www.sina.com.cn<br/><br/><span style="font-size: 12px;"><strong>六，其他重要功能</strong></span><br/><br/>目录服务<br/><br/>如果不想搜索网页，而是想寻找某些专题网站，可以访问GOOGLE的分类目录“http://directory.google.com/”，中文目录是“http://directory.google.com/Top/World/Chinese_Simplified/”。不过由于GOOGLE的目录由志愿者服务，而GOOGLE在国内名气相对比较小，因此中文目录下收录站点很少。<br/><br/>工具条<br/><br/>为了方便搜索者，GOOGLE提供了工具条，集成于浏览器中，用户无需打开GOOGLE主页就可以在工具条内输入关键字进行搜索。此外，工具条还提供了其他许多功能，如显示页面PageRank等。最方便的一点在于用户可以快捷的在GOOGLE主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。欲安装GOOGLE的工具条，可以访问“http://toolbar.google.com/”，按页面提示可以自动下载并安装。<br/><br/>新闻组(USENET)搜索<br/><br/>新闻组中有大量的有价值信息，DEJA一直是新闻组搜索引擎中的佼佼者。2001年2月份，GOOGLE将DEJA收购并提供了所有DEJA的功能。现在，除了搜索之外，GOOGLE还支持新闻组的WEB方式浏览和张贴功能。<br/><br/>输入“http://groups.google.com/”后，便进入GOOGLE新闻组界面。可惜现在还没有中文界面。因为新闻组中的帖子实在是多，所以我点击“Advaced Groups Search”进入高级搜索界面http://groups.google.com/advanced_group_search。新闻组高级搜索界面提供对关键字、新闻组、主题、作者、帖子序号、语言和发布日期的条件搜索。其中作者项指作者发帖所用的唯一识别号电子信箱。比如要在alt.chinese.text内搜索著名老牌网络写手图雅的帖子，可以用下列指令“group:alt.chinese.text author:tuya@ccmail.uoregon.edu”。不过一般而言，我更推荐使用图形搜索界面，方便而且直观。<br/><br/>搜索结果翻译<br/><br/>曾经为那些你不懂的法文、西班牙文页面烦恼么？现在，GOOGLE支持一项搜索结果翻译功能，可以把非英文的搜索结果翻译成英文！！虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文，但是我不得不承认，这是个伟大的改进。<br/><br/>不过，目前只能在英文状态GOOGLE下实现这个功能。进入GOOGLE的设置页面，http://www.google.com/preferences，有一个“BETA: Enable translation of search results into your interface language. ”的选项，把它选中，就OK了。<br/><br/>搜索结果过滤<br/><br/>网络上的成人内容浩如烟海，而且很多站点具有欺骗或者其他不良企图，浏览者很容易掉入其中的陷阱。为此，GOOGLE新设立了成人内容过滤功能，见GOOGLE的设置页面，http://www.google.com/preferences，最底下有一个选项SafeSearch Filtering。不过，中文状态下的GOOGLE尚没有这个功能。<br/><br/>PDF文档搜索<br/><br/>我对GOOGLE尤其欣赏的一点就是它提供对PDF文档内文的检索。目前GOOGLE检索的PDF文档大约有2500万左右。这真是太美妙了。PDF是ADOBE公司开发的电子文档格式，现在已经成为互联网的电子化出版标准。PDF文档通常是一些图文并茂的综合性文档，提供的资讯一般比较集中全面。<br/><br/>示例：搜索关于电子商务(ECOMMERCE)的PDF文档。<br/><br/>搜索：“inurldf ecommerce”<br/><br/>结果：已向英特网搜索inurldf ecommerce. 共约有19,200项查询结果，这是第1-10项。搜索用时0.11秒。<br/><br/>下面是某项搜索结果：<br/><br/>[PDF] www.usi.net/pdf/outsoucing-ecommerce.pdf<br/><br/>Outsourcing Electronic Commerce Business Case White Paper By: John P. Sahlin, Product<br/><br/>Marketing Professonial (PMP) Implementation Manager, Web Engineering ...<br/><br/>一般文字档 - 类似网页<br/><br/>可以看到，GOOGLE在PDF档前加上了[PDF]的标记，而且，GOOGLE把PDF文件转换成了文字档，点击“一般文字档”，可以粗略的查看该PDF文档的大致内容。当然，PDF原有的图片以及格式是没有了。<br/><br/>图像文档搜索<br/><br/>GOOGLE提供了Internet上图像文件的搜索功能！！目前该功能尚在B测试阶段，但已经非常好用。访问地址是“images.google.com”。你可以在关键字栏位内输入描述图像内容的关键字，如“britney spears”，也可以输入描述图像质量或者其他属性的关键字，如“high quality”。<br/><br/>GOOGLE给出的搜索结果具有一个直观的缩略图(THUMBNAIL)，以及对该缩略图的简单描述，如图像文件名称，以及大小等。点击缩略图，页面分成两祯，上祯是图像之缩略图，以及页面链接，而下祯，则是该图像所处的页面。屏幕右上角有一个“Remove Frame”的按钮，可以把框架页面迅速切换到单祯的结果页面，非常方便。GOOGLE还提供了对成人内容图像的限制功能，可以让搜索者免受不必要的骚扰。<br/><br/>不过，非常遗憾的是，图像搜索功能还不支持中文。<br/><br/><span style="font-size: 12px;"><strong>七，搜索技巧杂谈</strong></span><br/><br/>关键词的选择在搜索中起到决定性的作用，所有搜索技巧中，关键词选择是最基本也是最有效的。<br/><br/>例一：查找《镜花缘》一书中淑士国酒保的酸话原文。<br/><br/>分析：如果按照一般的思路，找某部小说中的具体段落，就需要用搜索引擎先找到这本书，然后再翻到该段落。这样做当然可以，但是效率很低。如果了解目标信息的构成，用一些目标信息所特有的字词，可以非常迅速的查到所需要的资料。也就是说，高效率的搜索关键字不一定就是目标信息的主题。在上面的例子中，酒保谈到酒的浓淡与贵贱的关系时，之乎者也横飞。因此，可以用特定的词语一下子找到目标资料。<br/><br/>搜索：“酒 贵 贱 之”，OK，找到的第一条信息就是镜花缘的这一段落：“先生听者：今以酒醋论之，酒价贱之，醋价贵之。因何贱之？为甚贵之？真所分之，在其味之。酒昧淡之，故而贱之；醋味厚之，所以贵之。...”<br/><br/>以上的关键字选择技巧可以谓之“特定词法”。<br/><br/>例二：“黄花闺女”一词中“黄花”是什么意思。<br/><br/>分析：“黄花闺女”是一个约定的俗语，如果只用“黄花闺女 黄花”做关键词，搜索结果将浩如烟海，没什么价值，因此必须要加更多的关键词，约束搜索结果。选择什么关键词好呢？备选的有“意思”、“含义”、“来历”、“由来”、“典故”、“出典”、“渊源”等，可以猜到的是，类似的资料，应该包含在一些民俗介绍性的文字里，所以用诸如“来历”、“由来”、“出典”等词汇的概率更高一些。<br/><br/>搜索：“黄花闺女 黄花 由来”，查到“黄花”原来出典于《太平御览》，与南朝的寿阳公主相关。如果想获得第一手资料，那就可以用“太平御览 寿阳公主”做搜索了。<br/><br/>以上的关键字选择技巧可以谓之“近义词法”。<br/><br/>例三：刘德华同志的胸围是多少。<br/><br/>分析：首先声明，这是某个MM要我做的搜索，我把它作为搜索案例而已，没其他的意思。非常直接的搜索是，“刘德华 胸围”，但事实上，这么搜索出来的结果，尽是一些诸如“刘德华取笑莫文蔚胸围太小”之类的八卦新闻，无法快速得到所需要的资料。可以想到的是，需要的资料应该包含在刘德华的全面介绍性文字中，除了胸围，应该还包括他的身高，体重，生日等一系列相关信息。OK，这样就可以进一步的增加其他约束性关键词以缩小搜索范围。<br/><br/>搜索：“刘德华 胸围 身高”，没有料到的情况发生了，网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键字，阿泰“改编自刘德华《忘情水》的变态歪歌”、“用身高体重三围和生日来加以编号”。好办，把这部小说去掉，“刘德华 胸围 身高 -阿泰”，OK，结果出来了，华仔胸围84cm。说明一下，为什么用“阿泰”而不用“第一次亲密接触”呢？这是因为小说的名字被转载的时候可能有变动，但里面角色的名字是不会变的。<br/><br/>以上的关键字选择技巧可以谓之“相关词法”。<br/><br/>其他常用搜索个案<br/><br/>例一：找人<br/><br/>分析：一个人在网上揭示的资料通常有：姓名，网名，性别，年龄，毕业学校，工作单位，外号，住址，电话，信箱，BP，手机号码，ICQ号，OICQ号等等。所以，如果你要了解一下你多年没见过的同学，那不妨用上述信息做关键字进行查询，也许会有大的收获。<br/><br/>例二：找软件<br/><br/>分析一：最简单的搜索当然就是直接以软件名称以及版本号为关键字查询。但是，仅仅有软件名称和目标网站，显然还不行，因为搜索到的可能是软件的相关新闻。应该再增加一个关键字。考虑到下载页面上常有“点击此处下载”或者“download”的提示语，因此，可以增加“下载”或者“download”为关键字。<br/><br/>搜索：“winzip 8.0 下载”<br/><br/>结果：已搜索有关winzip 8.0 下载的中文(简体)网页。共约有6,670项查询结果，这是第1-10项。搜索用时0.22秒。<br/><br/>分析二：很多网站设有专门的下载目录，而且就命名为“download”，因此，可以用INURL语法直接搜索这些下载目录。<br/><br/>搜索：“winzip 8.0 inurlownload”<br/><br/>结果：已搜索有关winzip 8.0 inurlownload的中文(简体)网页。共约有358项查询结果，这是第1-10项。搜索用时0.44秒。<br/><br/>在互联网上随意的下载软件是不安全的，因为供下载的软件有可能带有病毒或者捆绑了木马，所以，对下载网站作一个限定，是一个稳妥的思路。可以用SITE语法达到这个目的。<br/><br/>共享软件下载完之后，使用的时候，软件总跳出警示框，或者软件的功能受到一定限制。由于中国的网民多是穷棒子，所以应该再找一个注册码。找注册码，除了软件的名称和版本号外，还需要有诸如“serial number”、“sn”、“序列号”等关键字。现在，来搜索一下winzip8.0的注册码。<br/><br/>搜索：“winzip 8.0 sn”<br/><br/>结果：已向英特网搜索winzip 8.0 sn. 共约有777项查询结果，这是第1-10项。搜索用时0.30秒。<br/><br/>例三：找图片<br/><br/>除了GOOGLE提供的专门图片搜索功能，还可以组合使用一些搜索语法，达到图片搜索之目的。<br/><br/>分析一：专门的图片集合，提供图片的网站通常会把图片放在某个专门目录下，如“gallary”、“album”、“photo”、“image”等。这样就可以使用INURL语法迅速找到这类目录。现在，试着找找小甜甜布兰妮的照片集。<br/><br/>搜索：“"britney spears" inurlhoto”<br/><br/>结果：已向英特网搜索"britney spears" inurlhoto. 共约有2,720项查询结果，这是第1-10项。搜索用时0.23秒。<br/><br/>分析二：提供图片集合的网页，在标题栏内通常会注明，这是谁谁的图片集合。于是就可以用INTITLE语法找到这类网页。<br/><br/>搜索：“intitle:"britney spears" picture”<br/><br/>结果：已向英特网搜索intitle:"britney spears" picture. 共约有317项查询结果，这是第1-10项。搜索用时0.40秒。<br/><br/>分析三：明星的FANS通常会申请免费个人主页来存放他们偶像的靓照。于是用SITE语法指定某免费主页提供站点，是个迅速找到图片的好办法。<br/><br/>搜索：“"britney spears" site:geocities.com”<br/><br/>结果：已在geocities.com内搜索有关"britney spears"的网页。共约有5,020项查询结果，这是第1-10项。搜索用时0.47秒。<br/><br/>例四：找MP3<br/><br/>分析一：提供MP3的网站，通常会建立一个叫做MP3的目录，目录底下分门别类的存放各种MP3乐曲。所以，可以用INURL语法迅速找到这类目录。现在用这个办法找找老歌“say you say me”。<br/><br/>搜索：“"say you say me" inurl:mp3”<br/><br/>结果：已向英特网搜索inurl:mp3 "say you say me". 共约有155项查询结果，这是第1-10项。搜索用时0.17秒。<br/><br/>分析二：也可以通过网页标题，找到这类提供MP3的网页。<br/><br/>搜索：“"say you say me" intitle:mp3”<br/><br/>结果：已向英特网搜索"say you say me" intitle:mp3. 共约有178项查询结果，这是第1-10项。搜索用时0.73秒。<br/><br/>当然，如果你知道某个网站的下载速度快，而且乐曲全，就可以用SITE语法先到该网站上看看有没有目标乐曲。<br/><br/>例五：找书<br/><br/>分析一：对我而言，常访问的电子图书馆类网站就那么几个，比如文艺类的“www.shuku.net”。于是可以用SITE语法很简单的找到某本书(如果该网站上有的话)。比如，“旧唐书 sitehuku.net”，就可以马上找到该书。如果没有，通常别的网站上也很难找到。因此，找书的关键，是你了解一大批著名的图书馆网站。<br/><br/>分析二：我上面介绍的第一项关键字选择技巧特定词法，对于迅速找到某书或者文章也是极其有用的，当然，这得建立在你已经读过该书，对书的内容有印象的基础上。比如如果了解堂吉诃德一书战风车的大致内容，就可以用“吉诃德 风车 桑乔”迅速找到该书。<br/><br/><span style="font-size: 12px;"><strong>八，GOOGLE搜索FAQ</strong></span><br/><br/>Q：如何全面的了解google.com？<br/><br/>A：查看网站相关页面“http://www.google.com/about.html”。<br/><br/>Q：如何切换google.com的初始语言界面？<br/><br/>栏右边的“使用偏好”(Preferences)，选择“界面语言”(Interface Language)中你期望的语言，点击最下面的“设定使用偏好”(Save Preferences)按钮。需要提醒的是，GOOGLE用cookie记录这个偏好，所以如果你把浏览器的cookie功能关掉，就无法进行设定。<br/><br/>Q：如何设定每页搜索结果显示数量？<br/><br/>A：同上，进入使用偏好，在该页的“查看结果”(Number of Results)选择显示结果数，数目越大，显示结果需要的时间越长，默认是10项。<br/><br/>Q：搜索到的链接无法打开怎么办？<br/><br/>A：链接无法打开的原因很多，比如网站当机，或者ISP过滤等，可以点击GOOGLE的“网页快照”查看在GOOGLE服务器上的网页缓存。<br/><br/>Q：打开搜索结果的链接，可是该页面太大，很难找到一下子找到目的资料怎么办？<br/><br/>A：直接打开“网页快照”，GOOGLE会把关键词用不同颜色标记出来，很容易找到.<br/><br/><span style="font-size: 12px;"><strong><span style="color: #0000FF;">下一页为Google高级搜索技巧</span></strong></span><br/><br/><span style="color: #FF0000;"><span style="font-size: 12px;"><strong>Google高级搜索技巧</strong></span></span><br/><br/>这里有一些Google搜索引擎的基本搜索技巧以及高级技巧，你可能对其中大 部分已经了解，但是如果你知道了另外的那一部分，它可能会给你将来的搜索过程带来很大的便利。 <br/><br/>1. 双引号可以用减号代替,比如搜索["like this"]与搜索[like-this]是一个效果<br/><br/>2. Google不会处理一些特殊的字符,比如[#](几年前还不行,现在可以了,比如搜索[c#]已经可以搜到相应的 结果),但是还有一些字符它不认识,比如搜索[t.]、[t-]与[t^]的结果是一样的<br/><br/>3. Google允许一次搜索最多32个关键词<br/><br/>4. 在单词前加~符号可以搜索同义词，比如你想搜索[house]，同时也想找[home]，你就可以搜索[~house] <br/><br/>5. 如果想得到Google索引页面的总数，可以搜索[* *]<br/><br/>6. Google可以指定数字范围搜索。搜索[2001..2005]相当于搜索含有2001、2002直到2005的任意一个数的 网页<br/><br/>7. 搜索[define:css]相当于搜索css的定义，这招对想学习知识的人很 有效;也可以用[what is css]搜索;对中文来说，也可以用[什么是css]之类的<br/><br/>8. Google有一定的人工智能，可以识别一些简单的短语如[when was Einstein born?]或[einstein birthday]<br/><br/>9. 通过[link:]语法，可以寻找含有某个链接的网页，比如[link:blog.outer-court.com]将找到包括指向 blog.outer-court.com超级链接的网页(最新的Google Blog Search也支持这个语法)，但是Google并不会给出所有的包含此链接的网页，因为它要保证pagerank算法 不被反向工程(呵呵，可以参见那两个Google创始人关于pagerank的论文，可下载)<br/><br/>10. 如果在搜索的关键词的最后输入[why?]，就会在结果中出现链接到 Google Answers的链接http://answers.google.com ，在里面可以进行有偿提问<br/><br/>11. 现在出现了一种兴趣活动，叫做Google Hacking，其内容是使用Google搜索一些特定的关键词，以便找到有漏洞的、易被黑客攻击的站点。这个 网站列出了这些关键词:Google Hacking Database( http://johnny.ihackstuff.com/index....ule=prodreviews )<br/><br/>12. 在Google 中输入一组关键词时，默认是“与”搜索，就是搜索包含有所有关键词的网页。如果要“或”搜索，可以使 用大写的[OR]或 [&#124;]，使用时要与关键词之间留有空格。比如搜索关键词[Hamlet (pizza &#124; coke)]，是让Google搜索页面中或页面链接描述中含有Hamlet，并含有pizza与coke两个关键词中任意一 个的网页。<br/><br/>13. 并非所有的Google服务都支持相同的语法，比如在Google Group中 支持 [insubject:test]之类的主题搜索。可以通过高级搜索来摸索这些关键词的用法:进入高级搜索之后设置 搜索选项，然后观察关键字输入窗口中的关键字的变化<br/><br/>14. 有时候Google懂得一些自然语言，比如搜索关键词[goog], [weather new york, ny], [new york ny]或[war of the worlds]，此时Google会在搜索结果前显示出一个被业内称为“onebox”的结果，试试看吧!<br/><br/>15. 并非所有的Google都是相同的，它因国家版本(或是说语言版本)而异。在US版下，搜索 [site:stormfront.org]会有成千上万的结果，而在德语版下，搜索[site:stormfront.org]的结果，嗯 ，自己看吧。Google的确与各国政府有内容审查协议，比如德国版，法国版(网页搜索)，中国版Google 新闻<br/><br/>16. 有时候Google会提示你搜索结果很烂，比如你搜索关键词[jew]试试，Google会告诉你它给出的搜索结果 很烂，然后给你一个解释:http://www.google.com/explanation.html<br/><br/>17. 以前，搜索某些关键词如[work at Google] 时会看到Google给自己打的广告。可以去http://www.google.com/jobs/了解Google的工作<br/><br/>18. 对于一些“Googlebombed”(大概意思是指Google搜索的结果出问题了)的关键词，会有一个广告链接 到:http: //googleblog.blogspot.com/2005/09/googlebombing-failure.html (中国大陆需要代理才能访问)。比如搜索[failure]，第一条是美国布什总统介绍<br/><br/>19. 虽然现在Google还没有支持自然语言，但这里有一段录像显示了支持自然语言的搜索引擎的使用效 果:http://blog.outer-court.com/videos/googlebrain.wmv<br/><br/>20. 有人说在Google中搜索[president of the internet]，其结第一条表明了president of the internet是谁，我也是这么认为的，而且你还可以使用这个logo支持本文作者:http://blog.outer- court.com/files/president.gif<br/><br/>21. Google现在不再有“stop words”(被强制忽略的关键词)，比如搜索 [to be or not to be], Google返回的结果中间还列有相关的完整短语搜索结果<br/><br/>22. 在Google 计算器(http://www.google.com/help/features.html#calculator )中有个彩蛋:输入[what is the answer to life, the universe and everything?]时，会返回42。(关键词翻译过来的意思是指“生命、宇宙和一切的答案”，这是一个著名科 幻小说中的情节，详情参见http: //en.wikipedia.org/wiki/The_Answer_to_Life,_the_Universe, _and_Everything)。试试吧，哈哈<br/><br/>23. 你可以在搜索时使用通配符[*]，这在搜索诗词时特别有效。比如你 可以搜一下["love you twice as much * oh love * *"] 试试<br/><br/>24. 同样，你的关键词可以全部都是通配符，比如搜索["* * * * * * *"]<br/><br/>25. www.googl.com是在输错网址后的结果，也是个搜索网站，但搜索结果与Google完全不同。而且此网站也 赚Google的钱，因为它使用Google AdSense<br/><br/>26. 如果你想把搜索结果限制在大学的网站之中，可以使用[site:.edu]关键词，比如[c-tutorial site:.edu]，这样可以只搜索以edu结尾的网站。你也可以使用Google Scholar来达到这个目的。也可以使用[site:.de]或[site:.it]来搜索某个特定国家的网站。 <br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E6%258A%2580%25E5%25B7%25A7/" rel="tag">搜索技巧</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/205/</link>
<title><![CDATA[利用网站robots.txt文件探索Google、Baidu隐藏的秘密]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Fri, 13 Oct 2006 02:28:09 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/205/</guid> 
<description>
<![CDATA[ 
	<span style="font-size: 14px;">搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。但是，如果网站的某些信息不想被别人搜索到，可以创建一个纯文本文件robots.txt，放在网站根目录下。这样，搜索机器人会根据这个文件的内容，来确定哪些是允许搜寻的，哪些是不想被看到的。 <br/><br/>有趣的是，这种特性往往用来作为参考资料，猜测网站又有什么新动向上马，而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。</span><br/><br/><br/><span style="font-size: 14px;">有兴趣的读者可以看一下Google的robots.txt文件，注意到前几行就有“Disallow: /search”，而结尾新加上了“Disallow: /base/s2”。<br/><br/>现在来做个测试，按照规则它所隐藏的地址是http://www.Google.com/base/s2，打开之后发现Google给出了一个错误提示：“服务器遇到一个暂时性问题不能响应您的请求，请30秒后再试。”</span><br/><br/><a href="http://www.bloghuman.com/attachment/google-robots-base-s2.jpg" target="_blank"><img src="http://www.bloghuman.com/attachment/google-robots-base-s2.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><br/><span style="font-size: 14px;">但是把s2最后的数字换成1、3或者别的什么数字的时候，错误提示又是另一个样子：“我们不知道您为什么要访问一个不存在的页面。”</span><br/><br/><a href="http://www.bloghuman.com/attachment/google-robots-base-s3.jpg" target="_blank"><img src="http://www.bloghuman.com/attachment/google-robots-base-s3.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><span style="font-size: 14px;">很显然“/base/s2”是一个特殊的页面，鉴于Google曾表示过今年的主要焦点是搜索引擎，我们推测一下，所谓的“s2”是否表示“search2”，也就是传说中的第二代搜索引擎。<br/><br/>出于好奇，尝试了一下百度的robots.txt，比密密麻麻的Google简洁了许多，只有短短几行： <br/><br/><br/>User-agent: Baiduspider<br/><br/>Disallow: /baidu<br/><br/>User-agent: *<br/><br/>Disallow: /shifen/dqzd.html<br/><br/>第一段就不用说了，第二段也遇到了同样打不开的错误，不过，按以前的资料来看，这是百度曾经的竞价排名的区域核心代理一览表以及地区总代理一览表，出于某些可以理解的原因做了模糊处理。</span><br/><br/><a href="http://www.bloghuman.com/attachment/baidu-robots-shifen-dqzd.jpg" target="_blank"><img src="http://www.bloghuman.com/attachment/baidu-robots-shifen-dqzd.jpg" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/>Tags - <a href="http://www.bloghuman.com/tags/%25E7%2599%25BE%25E5%25BA%25A6/" rel="tag">百度</a> , <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/robots/" rel="tag">robots</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/200/</link>
<title><![CDATA[Google另一项链接分析专利LocalRank]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Tue, 10 Oct 2006 05:43:28 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/200/</guid> 
<description>
<![CDATA[ 
	商业周刊发表一篇文章谈<a href="http://www.businessweek.com/technology/content/oct2006/tc20061004_441574.htm?chan=top+news_top+news+index_technology" target="_blank">搜索引擎市场的竞争情况</a>，<a href="http://www.mattcutts.com/blog/competition-in-search/" target="_blank">Matt Cutts很快发了个贴子评论了下</a>。<br/><br/>搜索引擎各自的商业模式，关注点和优缺点就不多说了。引起我兴趣的是Matt Cutts特意提到一个<a href="http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&r=1&f=G&l=50&s1=6526440.PN.&OS=PN/6526440&RS=PN/6526440" target="_blank"><strong>Google链接分析的专利</strong></a>；这个专利是Google在2001年申请，2003年2月批准的，美国专利号号6526440。Google和其他搜索引擎公司都有大把的专利，但拿出来谈的很少，哪些已经用在排名算法里外人就更不知道了。所以是否在用，自己判断吧。<br/><br/><a href="http://www.bloghuman.com/" target="_blank"><a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO</a></a>业界一般把这个专利称为<span style="font-size: 14px;"><strong>LocalRank</strong></span>。<br/><br/><span style="font-size: 14px;"><strong>LocalRank的执行过程</strong>：</span><br/><br/>用户搜索某个关键词后，搜索引擎首先按原有算法计算的相关值列出一系列原始相关文件。<br/><br/>然后计算特定文件的”本地值”(local score value，也就是所谓LocalRank)，这个LocalRank是按照原始相关文件系列中参考这个特定文件的数目计算的。所谓参考也就是链接。最后，LocalRank影响这个文件的相关排名。<br/><br/>根据这项专利，搜索引擎按照原始相关文件系列中文件间的相互连接性再次修改相关分值，具有高连接性的文件被认为是有更多的来自原始相关文件系列的支持，因此这样的文件排名进一步提高。用这种方法搜索引擎对原有算法得出的结果再次排名。<br/><br/>对<a href="http://www.rambosem.com/" target="_blank" title="http://www.rambosem.com/" class="mykeyword">搜索引擎优化</a>人员的启示，<strong>不仅<a href="http://www.bloghuman.com/post/23/" target="_blank">高质量的链接</a>重要，来自高度相关文件的链接可能也很重要</strong>。有时候可能要联系竞争对手。<br/><br/>还一个值得注意的是，专利用了一个词，相互连接性(interconnectivity)，不限于反向链接。那么导出链接向其他已经排在前面的网页会不会增加这个相互连接性和LocalRank呢?<br/><br/><br/><span style="font-size: 14px;"><strong>如何建立高质量的外部链接呢？也许你应该考虑以下因素：</strong></span><br/><br/>1。对方网站是否具有相同或非常相关的主题内容，这种相关性体现在：网页标题、网页内容、内部链接文本、外部链接锚文本、整站主题等<br/>2。对方网站的导出链接是否能满足条件1<br/>3。对方网站在我站主打关键词及扩展关键词排名中的地位，以及对方网站是否有资格占据这个位置及理论性分析<br/>4。主动的单向链接和尽量去实现相互链接均有布置<br/>5。绝对不单纯为了获得外部链接数量而与各类型站点交换链接<br/>6。对方网站的反向链接同样也是重点考虑的外部链接<br/>7。博客站点链接的重要性要搞于普通站点<br/><br/><span style="font-size: 14px;"><strong>如何理解LocalRank</strong></span><br/><br/>大家都记得<a href="http://local.google.com/" target="_blank">Google推出过的本地化搜索</a>吧:http://local.google.com/<br/>本地化搜索用一句通用的话来表达就是：根据用户的搜索需求，将结构信息按照区域、话题等进行分类后提供给用户最符合他自身环境并最相关的结果信息。<br/><br/>如果你打算通过搜索找一家北京的搬家公司，你肯定不希望搜索引擎提供给你的是南京的搬家公司的网站，即便它在北京有子公司。<br/><br/><span style="color: #FF0000;"><strong>我认为LocalRank是评价一个网站在某个领域或某个话题权威性的参数。而PageRank是评价一个网站知名度的参数。LocalRank是通过形成某个话题或者某个领域的圈子来评价你在这个圈子中的影响力。于是，我们需要做的是通过导出链接来帮助Google扩大这个圈子，同时，通过相关性反向链接来逐渐增大在这个圈子内的影响力。</strong></span><br/><br/><br/><span style="font-size: 14px;"><strong>我们来对以上理论作个试验观察：</strong></span><br/><strong>本站在关键词"<a href="http://www.bloghuman.com" target="_blank" title="http://www.bloghuman.com" class="mykeyword">SEO博客</a>"的SERP中排在13位</strong><br/><a href="http://www.bloghuman.com/attachment/keyword-seoblog.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/keyword-seoblog.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><strong>关键词"SEO博客"排名第一的是9lolo.com</strong><br/><br/><a href="http://www.bloghuman.com/attachment/keyword-seoblog-9lolo.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/keyword-seoblog-9lolo.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><strong>于是，我针对关键词"SEO博客"在导出链接上做了如下处理：</strong><br/>在博客所有页添加指向9lolo.com的导出链接，并将链接锚文本写成"SEO博客"，<br/>在博客所有页添加指向seoblog.com.cn的导出链接，并将链接锚文本写成"SEO博客"<br/><br/><span style="font-size: 12px;">以上两个导出链接纯粹自发性的单向链接，本月底，我们再来观察9lolo.com、seoblog.com.cn以及bloghuman.com在关键词"SEO博客"上的排名，看看这两个导出链接对9lolo.com、seoblog.com.cn以及bloghuman.com的排名有什么影响、在什么程度上以及结果导向是否验证以上对LocalRank的分析</span><br/><br/><div class="quote"><div class="quote-title">引用</div><div class="quote-content">作者: 郝聪<br/>原载: <a href="http://www.bloghuman.com" target="_blank">黑色梦中SEO博客</a><br/>版权所有,转载时请注明作者并以链接形式标注原始出处!</div></div><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/localrank/" rel="tag">localrank</a> , <a href="http://www.bloghuman.com/tags/seo/" rel="tag">seo</a> , <a href="http://www.bloghuman.com/tags/seo%25E5%258D%259A%25E5%25AE%25A2/" rel="tag">seo博客</a> , <a href="http://www.bloghuman.com/tags/%25E5%258F%258D%25E5%2590%2591%25E9%2593%25BE%25E6%258E%25A5/" rel="tag">反向链接</a> , <a href="http://www.bloghuman.com/tags/%25E5%25AF%25BC%25E5%2587%25BA%25E9%2593%25BE%25E6%258E%25A5/" rel="tag">导出链接</a> , <a href="http://www.bloghuman.com/tags/%25E5%25A4%2596%25E9%2583%25A8%25E9%2593%25BE%25E6%258E%25A5/" rel="tag">外部链接</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/197/</link>
<title><![CDATA[Google收购Youtube的可能性分析]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Tue, 10 Oct 2006 02:31:58 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/197/</guid> 
<description>
<![CDATA[ 
	最近视频站很火爆，各大互联网巨头纷纷推出自己的视频服务。国内也出现了很多视频网站。不过视频网站的王者不可争议的还是<a href="http://www.youtube.com/" target="_blank">Youtube</a>。<br/><br/>Youtube建立后迅速成为互联网上最受欢迎的网站之一。到现在为止，好像还在大把烧钱。<br/><br/>据说Youtube每个月花在带宽上的钱就达几百万美金。有人猜测Youtube每个月<a href="http://www.bloghuman.com/post/198/" target="_blank"><span style="font-size: 12px;"><strong>从Google Adsense得到的广告收入</strong></span></a>大概在100万美金左右。Adsense广告如下：<br/><br/>近几个月以来，一直有Youtube准备出售的消息，微软和雅虎都曾经被传要收购Youtube，这两天又盛传<a href="http://www.techcrunch.com/2006/10/06/completely-unsubstantiated-googleyoutube-rumor/" target="_blank">Google会以16亿美元的价格收购Youtube</a>。<br/><br/><a href="http://www.gseeker.com/50226711/aeeiegoogleeyoutubeie_45078.php" target="_blank">幻灭觉得可能性不高</a>，<a href="http://blog.donews.com/keso/archive/2006/10/07/1054892.aspx" target="_blank">Keso觉得可能性很高</a>。外人谁也不知道准确的情况。<br/><br/><a href="http://www.chinamyhosting.com/seoblog/2006/04/07/million-dollar-in-3-months-adsense/" target="_blank">ZAC</a>认为Google收购Youtube的可能性比较高的， 从以下几个角度来分析：<br/><br/>1）视频网的热度无法否认，用户数和粘性也有目共睹，Google出手收购，就把最大竞争对手微软和雅虎的后路断掉。<br/><br/>2）现在运行Youtube的最大成本是带宽，而带宽问题对Google来说，负担并不重。以前看过报道，Google一直在秘密购买闲置的电缆，而且拥有大量闲置的带宽。如果带宽这个问题能够解决，对Google来说，一次性投资获得这么庞大的用户群和流量，代价不算太高。<br/><br/>3）Google拥有大量闲置现金必须要花出去，这一点人人羡慕的流口水。这些现金不花出去也要上税，或者被股东分红，把它投资在Youtube，相比之下还是一个不错的方法。<br/><br/>4）Google最了解Youtube的潜能。目前Youtube在使用Google Adsense，每个月能赚多少钱，除了Youtube之外，Google最清楚。现在Google能从Youtube广告中得到的只是一部分，把它纳为己有后，所有的广告收入就都是Google的了。<br/><br/>5）前些天有人评论，只有傻瓜才会买Youtube，因为，有很多严重的版权问题，之所以目前还没有人把Youtube告上法庭，是还没有出现有足够财力的版权拥有者愿意出头。<br/><br/>版权问题对Google来说，也不算太大的问题。也许很多人有财力和Youtube打官司，那还能剩下几个人有财力和Google打官司呢？而且Google已经有了很多关于版权的纠纷，债多了不愁，Google甚至把图书馆的图书扫描下来公布在网上都不在乎。<br/><br/>就我看来，Google收购Youtube利大于弊。<br/><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/youtube/" rel="tag">youtube</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/180/</link>
<title><![CDATA[发现搜索的价值：走出语义搜索的误区]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Mon, 25 Sep 2006 05:25:26 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/180/</guid> 
<description>
<![CDATA[ 
	第三代搜索，作为对以Google为代表的第二代搜索范式的超越或者说革新，时下正逼近一个重要的时间拐点。这股范式转型潮流由多条支流组成，其中一个支流是包含本地化搜索、社区内容搜索、知识问答社区等在内的社会化搜索，另一个支流则是人工智能、模式识别、语义分析、神经网络等智能搜索。<br/><br/>可以说，就技术门槛而言，智能搜索代表了下一代搜索的主流趋势。但鉴于基于神经网络、人工智能的搜索耗资巨大，目前还处在试验阶段，尚无一家成型的搜索引擎上线；至于全球搜索界穷20年之力埋首研发的自然语言分析或者语义分析，由于语言本身的复杂性，其结果及性能迄今还不能解决现实世界的问题，也因此，迄今还没有一家完全基于语义分析的搜索引擎获得商业成功。<br/><br/>语义搜索的局限<br/><br/>完全采用语法和词汇原则来理解文字信息的语义搜索的一大局限，是不能处理例如双关语、多义词等模糊信息。这是因为计算机本身缺乏理解能力，尤其是缺乏理解不确定性信息或模糊信息的能力，所以当计算机尝试通过解析整段话来提取含义时，就会颇为棘手。一些高级的系统能够建立一套使机器解决不确定性所遵循的原则。但是，其指令集极为烦杂而且难以维护，基本没有可操作性。<br/><br/>与基于关键字的搜索方法一样，语义搜索方法也不能确定思想的相对重要性。换句话说，计算机会给一句话中的不同词汇分配相同的重要性值，而这与自然语言的实际内涵可能大相径庭。<br/><br/>固然，在最好的情况下，语义搜索方法可以处理少数简单的句子，但在采用包含大量概念的大型文件时，要从整段话、整篇文章中提取含义，其语言模式就只能望洋兴叹了。由于语义分析是基于真/假决策树和规则结构进行推理的，一个不正确的决策或者一个未知的查询的出现，会导致整个分析全盘皆错。<br/><br/>此外，语义分析都是基于特定语言及其语法结构的，这意味着它在俚语或语法方面非常容易出错。而且一旦有新单词或者变更出现，则必须对系统进行调整，从而保证系统能够理解这些新单词或变更，对系统进行拓展是一项复杂的工程。通常，语义搜索引擎只能支持有限的一些语言，如果要增加一种新的比较难的语言，则会产生很多问题。此前国内的问一问、21ilink、悠游等基于自然语言处理的搜索引擎之所以昙花一现，然后即迅速地被甚嚣尘上的第二代关键词搜索所淹没，与此有关。<br/><br/>另一种方法<br/><br/>与完全基于语法结构分析的语义搜索不同，以Autonomy为代表的核心概念匹配技术并不单纯依赖于一种语言的语法结构，而是把文字当作语意的抽象符号或者另一种“类型”的信息，采用可预测的统计词方式表示概念和功能，并通过有意义的概念词出现的上下文环境（而不是通过严格的语法定义）来形成对该概念词的理解，以此确定文档中每个主题的相关性及重要性。由于其系统由所输入的实际数据驱动，而不是由与内容无关的辅助规则所驱动，所以，Autonomy的系统可以支持基于俚语、行业术语、自然语言的检索。<br/><br/>因为同样的原因，Autonomy还能够不受语言语种限制（支持超过80种语言），支持任意信息片断的检索，只要该语言的信息足够多，就可以让系统形成对该语言的理解。例如将一句话、一段或者整页文本作为输入的搜索条件，由此可返回与搜索条件概念相关的结果，这些结果可按照概念相关性或文档上下文关联排序。Autonomy 的技术甚至能自动检测输入文档的语言并改变相应配置以自动处理每一种语言。<br/><br/>Autonomy的技术内核，是一个被称为IDOL的智能信息处理层。IDOL由动态推理引擎 (DRE)、分类服务器、用户服务器等模块组成，DRE 可实现概念识别、自动摘要、有效识别、自动超链接、自然语言检索等核心操作，分类服务器可实现自动聚类、自动分类、自动目录生成等功能操作，用户服务器则可以实现个人化信息创建、个性化信息提示、个性化信息训练、专家定位等个性化操作。<br/><br/>可以说， IDOL提供了一个对语言模式进行文字分析、进而推断出有序概念的智能内核。正是以此为基础，Autonomy才能够发展出一整套基于“模式匹配”的功能应用，比如二维岛图、二维趋势图、三维立体图等图形化结果，比如自动建档、社区及协作、专家搜索、信息推送等行业应用，比如电子通讯和管理技术的安全监控、诉讼及风险管理自动化的Aungate，比如下一代呼叫中心技术Qfiniti（现在是Autonomy etalk部门的一部分），比如视频关键帧识别技术和语音识别技术，如此等等。而这些Autonomy早在上世纪90年代末即已研发成熟并投入使用的搜索应用，正是眼下第三代搜索潮流中最被看好的主流应用。<br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/%25E8%25AF%25AD%25E4%25B9%2589%25E5%25BC%2595%25E6%2593%258E/" rel="tag">语义引擎</a> , <a href="http://www.bloghuman.com/tags/autonomy/" rel="tag">autonomy</a>
]]>
</description>
</item><item>
<link>http://www.bloghuman.com/post/179/</link>
<title><![CDATA[GOOGLE搜索引擎剖析]]></title> 
<author>黑色梦中 &lt;haocong81@gmail.com&gt;</author>
<category><![CDATA[搜索引擎研究]]></category>
<pubDate>Sun, 24 Sep 2006 06:35:29 +0000</pubDate> 
<guid>http://www.bloghuman.com/post/179/</guid> 
<description>
<![CDATA[ 
	<span style="font-size: 18px;"><strong>GOOGLE搜索引擎剖析</strong></span><br/><br/>撰文/Sergey Brin.&nbsp;&nbsp; Lawrence Page&nbsp;&nbsp;&nbsp;&nbsp; 翻译/万思<br/><br/>文章来自《程序员》<br/>英文原文可以在这里找到http://dev.csdn.net/develop/article/12/12657.shtm<br/><br/>作为一种功能强大的搜索引擎，Googic的背后似乎隐藏着巨大的奥秘，本文是Googic的两位创始人在1998年国际互联网大会上发表的论文，通过对Google进行完整地剖析，帮助读者理解Google的实现过程<br/><br/><br/>1。<strong>为什么要用Google</strong><br/>&nbsp;&nbsp;&nbsp;&nbsp;Web结构的特殊性为信息收集工作带来了新的挑战。Web上的信息数量迅速增长的同时，对于Web毫无使用经验的新用户也在与日俱增。使用高质量的搜索引擎，无疑可以缩短Web同新用户之间的距离。大家关心的问题是，搜索质量和效率。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;Yahoo曾一度是用户的最佳选择。Yahoo的人工维护方式可以有效涵盖最流行的主题。然而，维护人员的主观性、高昂的维护代价、较慢的更新速度都是Yahoo的缺陷。更重要的事，这种方式并不能覆盖所有用户所关心的话题。所有这些制约了Yahoo的进一步发展。基于关键字的搜索引擎随之出现，但新的问题接踵而来：搜索引擎制造出的大量“垃圾”结果遮住了用户的视线，也考验了更多人的耐心。一些广告商为了吸引用户的目光，采用一些手段欺骗搜索引擎，这使事情变得更糟。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;Google为上述问题提供了新的解决方案。首先，Google是基于关键字的，这样突破了查询主题的限制；其次，Google利用网页超级连接的深度和独创的PageRank算法，为网页赋予了“级别（Rank）”含义：用户的检索结果，是按照网页的级别（Rank）进行排序的．级别高的网页链接排在前面．<br/><br/>　　Google这个名字的来历也很有意思：Google的创建者参考了单词googol（１０１００）的拼写，也许这和作者要建立大规模的搜索引擎的目标不谋而合．<br/><br/><br/>2．<strong>设计目标</strong><br/>　　正如你想到的，GOOGLE的主要目标是提高搜索引擎的搜索质量和易用性．１９９７年１１月的一项调查中，排名前四位的商业化搜索引擎，在执行以它自身的名字作为关键字的查询时，仅有一个搜索引擎在其搜索结果的前１０条查询结果中找到自己．问题已经变得很明显：用户关心的不是搜索引擎所能提供的查询结果，而是在搜索引擎中所能提供的前数十条查询结果中，能否找到自己的满意答案．正因为如此，当Web文档成倍增长时，如何提供一个既易于操作，又能提供准确查询的新的搜索引擎技术．这成为了关注的焦点．<br/><br/>　　近几年的一些相关研究为Google打开了思路．这些研究的主要方向是：如何从页面的超链接文本中获取对开发人员有用的信息．正是通过对HTML文档中超文本链接的深度分析，Google为自己的精确度算法提供了理论依据．<br/><br/>　　Google希望通过自己的努力，把原本只属于商业领域的搜索引擎技术带到理论研究的范畴，并能让更多的人参与和完善．Google把自己的系统比喻为一个大的实验室环境，并欢迎其他领域的研究人员参与其中．正是在千千万万如Google这样的组织的带动下，Web获取了它前所未有的发展动力．<br/><br/>3.<strong>技术分析</strong><br/>　　Google之所以能获取高效率的查询结果，得益于其两相重要的技术特性：第一，Google分析整个Web的链接结构，然后计算出每一个网页的级别，并进行综合评分，这就是Google所采用的PageRank技术；第二，Google充分利用链接提供的信息以进一步改善查询质量．<br/>　3.1 PageRank：页面的排序技术<br/>　　Google的核心技术称为PageRank，这是Google的创始人Larry Page和Sergey Brin在斯坦福大学开发出的一套用于网页评级的系统．作为组织管理工具，PageRank利用了互联网独特的明主特性及其巨大的链接结构．在浩瀚的链接资源中，Google提取出上亿个超级链接进行分析，制作出一个巨大的网络地图（Map）．依据此地图，PageRank技术能够快速的计算出网页的级别（Rank）．这个级别的依据是：当从网页A连接到网页B时，Google就认为＂网页A投了网页B一票＂．Google根据网页的得票数评定其重要性．然而，除了考虑网页得票数（即链接）的纯数量之外，Google还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重，并且有助于提高其他网页的“重要性”。<br/>&nbsp;&nbsp;&nbsp;&nbsp;Google以其复杂而全面自动的搜索方法排除了人为因素对搜索结果的影响。所以说，PageRank相对是公平的。在这个意义上，对于基于关键字搜索的引擎技术来说，PageRank无疑是一项优秀的技术，Google可以方便、诚实、客观地帮您在网页上找到任何有价值的资料。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; 3.1.1 PageRank算法描述<br/>&nbsp;&nbsp;&nbsp;&nbsp; 近些年来，大量的学术研究成果被应用到Web中，主要被用来统计网页的引用或返回链接。这些数据为网页的重要性和价值分析提供了粗略的依据。基于此, PageRank还进一步统计链接在所有网页中出现的次数。PageRank定义如下所述：<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; 假定页面A有很多指向他的链接，分别定义为页面T1...Tn。我们再定义阻尼系数d（0〈=d〈=1）。通常指定d=0.85（译者注：下一节给出实例分析）。函数C（A）表示页面A中指向其他页面的链接的个数。那么，页面A的PageRank（PR（A））可以通过下面的公式计算出：<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; PR（A）=（1-d）+d（PR（T1）/C（T1）+...PR（Tn）/c（Tn））<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; 注意到PageRank的值是通过整个Web计算出来的，所以，所有页面的PageRank值的和必然为1。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; 通过简单的递归计算，并参照Web中规范型链接矩阵的主特征向量，我们就可以计算出一个页面的PageRank（PR（A））。假设计算大约26，000，000个页面的PageRank，使用一台中等规模的工作站，大约需要数个小时的时间。具体实现的细节已经超出文本的讨论范围，读者可以参考相关文档。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;3.1.2 PageRank模型<br/>&nbsp;&nbsp;&nbsp;&nbsp;为了更好地理解 PageRank，我们建立以下一个假想的模型。我们假定有一个Web用户正在随机浏览某个网页，随着兴趣的变化，他也可能随机点击页面中的另一个链接，跳转到其他页面（暂且假定该用户没有使用返回按钮）。在这个模型中，吸引用户点击指向某个页面的链接的概率就是页面的PageRank。而由于某些因素导致用户选择了其他链接的概率就是该页面的阻尼系数d。有一些极端的情况，如有些页面可能很少被人访问，这些页面就会积累起很高的阻尼系数。所以说，PageRank的技术可以公平有效到避免有些系统为了获取较高级别而采取一些欺骗搜索引擎的行为。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;一般来说。网页的链接指向越多，PageRank的值就会越高。同样，被一些“重量级”的网站（例如yahoo)引用的次数越多，PageRank的值同样也会很高。相反，那些设计不佳，或者被链接破坏指向的网页，将逐渐被用户所遗忘。所有的这些因素都在PageRank技术的综合考虑之中。&nbsp;&nbsp;<br/><br/>&nbsp;&nbsp;3.2锚文本（anchor text）<br/>&nbsp;&nbsp;&nbsp;&nbsp;在Google中，链接文本（text of link ）被使用一种特殊的方式进行处理。大多数的搜索引擎都是把链接文本和它所在的页面相关联，而Google则把链接文本和它指向的文档联系到一起（想想的确应该如此）。这样做的优点很多：首先，锚（anchor ）一般都会提供它所指向的文档的准确的描述，而这样信息，页面本身往往不能提供；第二，对于那些不能被基于文本的搜索引擎建立索引的文档，例如图象，程序以及数据库等，指向它们的链接却可能存在，这样就使得那些不能被引擎取回分析的文档也能作为查询结果返回。但是，这样做也可能会引起一些问题，因为这些文档在返回给用户之前并未经过搜索引擎的有效性检查。在这种情况下，搜索引擎就可以简单地返回查询结果，甚至不用考虑页面是否存在，而只管是否有指向它们的超级链接存在。也许你会问，这合适吗？不用担心，由于查询结果是经过级别排序输出的，这种特殊的情况也许根本看不到。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;其实，这种使用锚文本技术的思想更早可以追溯到World Wide Web Worm搜索引擎。它使得WWWW可以检索到非文本信息，甚至扩展到一些可以下载的文档，Google继承了这种思路，因为它可以帮助提供更好的搜索结果。然而，使用这种技术需要克服很多的技术难题，首当其冲的就是如何处理如此庞大的数据量。我们来看看一组数据，在Google爬虫取回的24，000，000个网页数据中，需要处理的链接数高达259，000，000之多。<br/><br/>&nbsp;&nbsp;3.3其它功能<br/>&nbsp;&nbsp;&nbsp;&nbsp;除了PageRank和锚文本技术之外，Google还有一些其它的技术。首先，对于所有命中（hits),Google都记录了单词在文档中的位置信息，这些信息在最终的查询中可以被用来进行单词的相似度分析。第二，Google还记录了页面中的字体大小、大小写等视觉信息。有的时候，大号字体和粗体的设置可以用来表示一些重要的信息。第三，在repository数据库中保存所有页面的HTML代码。<br/>&nbsp;&nbsp;&nbsp;&nbsp;(译注：命中(hit)是Google定义的一个数据结构，有关命中和相似度的描述，详见下文。)<br/><br/>4.<strong>系统剖析</strong><br/>&nbsp;&nbsp;&nbsp;&nbsp;从上文中，我们已经了解Google的一些工作原理。在这一章节中，我们将一起深入探讨Google的体系框架，然后具体介绍Google用到的一些数据结构。最后，我们再一起分析Google用到的三个关键技术：网页抓取(crawling)、索引(indexing)以及基于关键字的搜索(searching)。<br/><br/>&nbsp;&nbsp;4.1 Google体系框架<br/>&nbsp;&nbsp;&nbsp;&nbsp;本节中，我们共同探讨Google体系框架的运行流程，如图1所示。下面的几个章节将详细的介绍所用到的技术和数据结构。考虑到执行效率，Google 中的大部分代码都是用C/C++语言实现的，并且可以同时运行在Solaris和Linux系统中。<br/><br/><a href="http://www.bloghuman.com/attachment/google-search-theory-image1.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-search-theory-image1.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a>图1<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;在Google的体系框架中，网页爬行技术(Crawling，指网页的下载过程)是由若干个分布式的网络爬虫(Crawler)软件实现的。其中，一个叫做URL Server的服务器负责把需要分析的URL地址列表分派给这些网络爬虫进行处理。网页数据如果被取回，将立即被送到Store Server中。Store Server对网页数据进行压缩，然后保存到Repository数据库中。每一个文档都拥有一个与之相关的唯一的ID编号，Google称它为docID。每当有一个新的链接从页面中被解析(parse)出来，它所指向的文档就将自动获得一个docID。建立索引的任务则交给索引器(Indexer)和排序器(Sorter)来完成。Indexer依次从Repository中取出文档，对文档解压缩，然后对文<br/><br/>档进行解析。随后文档被解析为一组命中。在Google中，命中(hit)是一种数据结构，用来记录单词在文中每一次出现的信息。在命中结构中，记录了每个词(word)、词在页面中的位置、大小写、字体相对大小等信息。这样，每个词都有很多不同的命中，这些命中的组合又称为该词的命中列表(hit list)。索引器把这些命中再写入到一组桶(barrel) 中，并建立一个部分排序的前叙索引(foward index)。索引器还同时把网页中所有的链接的重要信息解析出来，并记录到一个叫做Anchors的文件中。该文件包含了足够多的信息，从中可以查询出每一个链接的来源、指向以及该链接的文本。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;（译注：索引器还把解析出的词写入到一个词典(Lexicon中，这将在下文中提到。）<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; URL Resolver服务器负责从 Anchors文件中读取这些链接，把相对路径改为绝对路径，再转换为相应的 docID。通过docID的关联，锚文本的信息也被加入到前序索引的anchor hit结构中。URL Resolver同时创建了一个Links数据库，用来存放两两对应的docID。Links数据库被用来计算所有文档的PagePank 。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; 接着排序器接管过这些桶。如前所述，这些桶已经按照 docID进行了排序。排序器的主要任务是按照WordID重新进行排序，从而为这些桶生成一个倒排索引(inverted index)。这个操作是在每个桶中执行的，所以只需要用到很少的临时空间。排序器还建立了一个WordID列表，列表中同时记录了该WordID在倒排索引中的偏移量大小。有一个叫做DumpLexicon的工具，用来把wordID和上文中提到的由索引器产生的词典（Lexicon）相结合，并产生一个新的词典。这个新的词典被用在最终的搜索程序中，连同PageRank和倒排序索引一起，为用户提供查询服务。<br/><br/>&nbsp;&nbsp;4.2 数据结构<br/>&nbsp;&nbsp;&nbsp;&nbsp;Google对数据结构进行了很多优化，其目的主要是为了有效的减少在处理大文档的抓取、索引以及查询时所需要耗费的成本。虽然这些年来计算机的性能得到了很大的改善，但对于磁盘的检索仍然需要大约10ms的时间来完成。基于性能的考虑，Google尽可能地避免使用磁盘操作，而这个想法也很大的影响了数据结构的设计思路。<br/>&nbsp;&nbsp;&nbsp;&nbsp;<br/>&nbsp;&nbsp;&nbsp;&nbsp;4.2.1 巨型文件（BigFile）<br/>&nbsp;&nbsp;&nbsp;&nbsp;巨型文件（BigFile）被设计成为跨越多文件系统地、64位地址空间的虚拟文件，并能够在多文件系统中自动进行文件分配。因为操作系统不能为我们提供有用的支持，巨型文件包（BigFile package）被设计用来负责操作文件描述符的创建和销毁。另外，巨型文件也支持一些初步的压缩喧响。<br/>&nbsp;&nbsp;&nbsp;&nbsp;<br/>&nbsp;&nbsp;&nbsp;&nbsp;4.2.2 数据仓库（Repository）<br/>&nbsp;&nbsp;&nbsp;&nbsp;数据仓库（Repository）中保存了每一个网页完整的HTML代码。为了节省空间，页面在存储前使用zlib技术进行了压缩。压缩技术的选择综合考虑了速度和压缩比的因素。尽管bzip技术在压缩比方面技高一筹（压缩比达到了4：1），Google还是基于速度的考虑最终选择了zlib（压缩比只有3：1）。文档记录在数据仓库中顺序排列，并以docID、length、URL等作为文档记录的前缀，如图2所示。数据仓库的访问不需要使用任何其他的数据结构，这样有助于保持数据的完整性，并且使得开发变得更为容易。<br/><br/><a href="http://www.bloghuman.com/attachment/google-search-theory-image2.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-search-theory-image2.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a>图2 <br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;4.2.3&nbsp;&nbsp;文档索引（Document Index）<br/>&nbsp;&nbsp;&nbsp;&nbsp;文档索引（Document Index）用来跟踪每一个文档的信息。它是一种定宽的ISAM（Index sequential access mode）类型的索引，并按照文档的docID进行了排序。索引中的每一项存储了当前文档的状态、指向数据仓库的指针、文档校验和，以及一些统计信息。如果文档被爬虫取回，则该索引项还将包含一个指向docinfo文件的指针。docinfo文件包含该文档的URL和标题；否则，这个指针就被指向一个仅包含一种比较紧凑的数据结构，以及在一次搜索操作中查找一条磁盘记录的执行效率。<br/><br/>&nbsp;&nbsp; 另外，在转换URLs到docIDs时需要用到一个文件。这个文件其实是一个包含URL校验和（checksum）和与它对应的docID的列表，并且按照checksum进行排序。通常，我们需要根据URL来查找文档的docID。这时，首先计算出该URL的校验和（checksum）进行二进制的检索，然后根据检索结果找到其所对应的docID。其实，URL Resolver正是使用这个办法把URL转换为docID的。在这里使用批处理模式很有必要，否则对于包含322,000,000各链接的数据集来说，要检索所有的链接至少得耗费数月之久。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;4.2.4 词典 （Lexicon）<br/>　　词典有好几种不同的格式．随着内存成本的下降，现在可以实现把词典嵌入到内存中运行，这将可以大大提高运行的效率．在一个256M电脑的内存中，可以运行一个包含14，000，000个词汇的词典。词典由两部分来实现：一个词列表（彼此之间以Null分隔)和一个包含指针的哈希表.<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;4.2.5 命中列表（Hit Lists）<br/>&nbsp;&nbsp;&nbsp;&nbsp;命中列表（hit list）对应于某个特定的词在某个特定的文档中一次或多次的出现，它主要用来记录词在文中出现的位置、字体、大小写等信息。命中列表在前序索引和倒排索引中都占据了绝大部分的空间。因此，命中列表需要尽可能地以一种高效率的方式来实现。有几个可以用来参考的编码方案：一个是简单编码方式（三位整数法），第二是压缩编码方式（对位的分配进行手工优化），最后一种是有名的霍夫曼编码方式。Google在权衡了空间的占用量以及对于位操作的复杂性之后，选择了第二种压缩编码方案。命中的实现细节，参见图3<br/><br/><a href="http://www.bloghuman.com/attachment/google-search-theory-image3.gif" target="_blank"><img src="http://www.bloghuman.com/attachment/google-search-theory-image3.gif" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a>图3。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;在这种压缩编码中，每个命中占用2个字节的空间。命中又可细分为两种类型：特殊命中（fancy hit）和普通命中（plain hit）。特殊命中（fancy hit）是指出现在URL、页面标题、锚文本或者meta标签中的命中，除此之外的全部命中都是普通命中（plain hit）。普通命中（plain hit）包含标识大小写的位（1位）、字体大小位、以及12位的为之心系（如果在文档中的位置大于4095，则一律以4096表示）。字体大小是字体在文档中的相对大小，用3位来表示。字体大小只使用从000到110这七个数，111被用来单独表示一个特殊命中（fancy hit）。特殊命中（fancy hit）也包含一个大小写的位（1位）、字体大小（设为7=111）、4位的类型编码、以及8位的位置信息。对于出现在锚文本的命中（anchor hit）来说，8位的位置信息又细分为锚中的位置信息（4位）以及锚所在的文档docID的hash值（4位）。这样，在针对某些特定的词进行查询时，如果找不到足够的链接匹配，就可以从这些anchor hit中找一些来补充。以后，考虑到对于位置信息和docID的哈希值哈还会有更多的解决方案，anchor hit的存储方式将会有所改变。另外，Google之所以使用字体的相对大小，主要是考虑到在对文档计算级别时，我们不能仅仅因为A文档使用了较大的字体就说A文档比B文档级别高。<br/>&nbsp;&nbsp; <br/>&nbsp;&nbsp;&nbsp;&nbsp;命中列表的长度保存在命中列表的前面。为了节省空间，采用了一些特殊的技巧，从前序索引的worldID自段和后排索引的docID字段中分别压缩出8位和5位空间，用来存储该长度值。如果长度值出现溢出，这些位将使用一个溢出符表示，并在紧接着的下两个字节中包含实际的长度值。<br/> <br/>&nbsp;&nbsp;&nbsp;&nbsp;4.2.6 前序索引 （Forward index）<br/>&nbsp;&nbsp;&nbsp;&nbsp;前序索引实际已经经过部分排序。它由许多个桶组成，每个桶中保存一定范围的wordID。如果某篇文档中词对应到某个桶中的wordID，该文档的wordID也会被记录到该桶中。每个docID后面紧跟着一个属于它的wordID列表，而这些列表中每个wordID的后面又紧跟着该word的命中列表。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;因为大量重复docID的存在，这种存储方案也许会带来更大的空间需求。但是由于索引被分散在许多个桶中，而且这种设计在最后由排序器执行的短语索引操作中可以合理地节省时间上的开销，并降低了编程的复杂度，所以，空间上的这点浪费是完全可以容忍的。而且，wordID中存储的实际上是WordID与其所在的桶中的WordID最小值之间计算出来的相对差。这样，WordID就只需要24位来存储，余下的8位恰好可以被用来存储命中列表中的长度（参见上文）。<br/><br/>&nbsp;&nbsp; 4.2.7倒排索引（Inverted Index)<br/>&nbsp;&nbsp; 和前序索引一样，到排索引也是由同一组桶所组成，只是这些桶经过了排序器的进一步处理。对于每一个有效的WordID，词典中都会有一个指向包含该WordID的桶的指针。这个指针指向一个docID的列表（doclist),列表中的每一项都由docID和该WordID的命中列表组成。该WordID所在的所有的文档的docID都包含在该doclist中.<br/><br/>&nbsp;&nbsp; 一个重要的问题是，doclit列表中的docID应该如何排序？一个比较简单的解决方案是直接根据docID排序。这种方案在对多字词的复合查询时，可以实现多个doclist之间的快速归并（merge)操作。另外一个复杂一点的方案，是按照word在每篇文挡中出现的级别进行排序。<br/><br/>这种放案对于单字词的查询作用不大，但对于多字词的查询，可以实现把最近的查询结果排到前面。两种方案各有自己的不足。首先，归并操作具有一定的难度；而级别计算函数的每一次改变都可能需要对索引进行重建，着无疑会给开发工作增加新的难度。所以，有必要采取一种折中的方案。在这个方案中，保持两组排序的桶，其中一组用来包含在标题或锚文本中出现的命中列表，另一组则包含所有的命中列表。首先，查询第一组桶（short barrel)中进行；如果找不到足够的匹配，则转到另一组桶（full barrel)中继续查找。<br/><br/>&nbsp;&nbsp;4.3 Web爬行技术（Crawling the Web)<br/>　　事实上，在Web上运行一个网络爬虫（crawler)的工作颇具挑战性。这不仅兼顾棘手的性能和可靠性因素之外，更重要的，还需要考虑一些社会因素。由于需要实时的和成千上万台状态不可控的Web服务器进行交互，Web爬行技术也极容易崩溃。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;为了更好的适应Web上数以千亿的网页数量，Google采用了一种分布式的Web爬行系统，由于URL server负责把URL需求提交给若干个爬虫软件进行处理。需要说明的是，URLServer以及爬虫都是用Python语言实现的。每个爬虫一次可以同时打开大约300个连接线程，这样，网页爬行足以保持一个足够快的进度。假如使用4个crawler，系统就可以实现最快每秒抓取超过100个页面，也就是大约600k/秒的数据流。性能上的影响主要来自对于DNS（域名服务）的查询，因此，每个爬虫都配有一个单独的DNS高速cache，这样可以有效的避免影响效率的DNS查询。爬虫拥有的线程分为下列几种状态：DNS查询阶段，正在连接主机，发送请求阶段，以及处理服务器响应过程。依据状态的不同，线程被分别放在不同的队列中。当线程的状态发生改变时，异步IO的方式被用来发出事件通知，同时线程被转移到另一个相关队列中。<br/><br/>&nbsp;&nbsp; 事实上，由于面对如此巨大的数据处理，总会有一些难以预料的事情发生。举个例子来说，如果爬虫试图处理的链接是一个在线游戏，那会出现什么情况？情况的确很糟，自作聪明的爬虫将取回大量的垃圾页面，而当你发现问题并试图处理时，你将面对的是数以千万计的已经被下载的网页。看来，有些导致错误的因素也许根本是无法预测的。系统必须经过认真的测试。然而，Internet如此之大，测试工作从何开始？这个时候，合理处理用户的反馈信息显得尤为重要。<br/><br/>&nbsp;&nbsp;4.4 Web索引技术（Indexing the Web)<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 解析技术（Parsing)--任何一种为Web设计的解析技术必须能够有效处理各种各样可能出现的错误，包括HTML标签的拼写错误，标签定义中缺少的空格，非ASCII字符，错误嵌套的HTML标签以及形形色色的其它错误类型。这些错误都在挑战着设计者的想象力，促使他们拿出创造性的设计方案。考虑到速度的最大化，Google没有采用由YACC来产生CFG解析器的做法，而使用Flex（一种快速的词典分析器制作工具）设计了一个具有自己堆栈的词典分析器。当然，分析器必须同时实现稳定性和高速度的要求。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;文档的哈希索引（Indexing Documents into Barrels)--文档被解析之后，就会被编码并放入有许多桶组成的哈希表中。文档中的每一个词，通过检索在内存中运行的词典哈希表，被映射成其所对应的WordID。词典中没有的词被纪录到一个日志文件中。当一个word被映射成WordID时，它在当前文档中的出现信息将被同时构造成相应的命中列表，然后命中列表被纪录到前序索引相对应的桶中。在这个过程中，词典必须被共享，所以如何解决索引阶段的并发操作问题成为一个难题。有一个方案，可以避免词典的共享。在这个方案中，使用一个基词典，其中固定使用大约14，000，000个词。扩增的词都写入到日志中。这样，多感索引器就可以并发的执行，而把这个包含扩增词汇的日志文件交给最后剩下的一个索引器处理就够了。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;排序技术（Sorting)--为了建立倒排索引，排序排序器接管过前叙索引中的桶，并按照WordID进行重新排序，从而产生了两组倒排序的桶：一组是对于标题和锚命中的倒排序索引（short barrle),一组是对于所有命中列表的倒排序索引（full barrle)。由于排序的过程每次仅再一个桶中进行，所以只需要很少的临时空间。另外，排序的阶段被尽可能多的分派到多台计算机上运行，这样，多个排序器就可以并行处理多个不同的bucket。因为捅不适合被放入内存中运行，排序器便把它细分为一系列适合放进内存中的bucket，这些bucket是基于WordID和docID的。然后，排序器把每一个bucket加载到内存中，并执行排序，最后把它的内容分别写入到short barrle和full barrle这两组倒排的桶中。<br/><br/>&nbsp;&nbsp;4.5 搜索技术（Searching)<br/>&nbsp;&nbsp;&nbsp;&nbsp;能够高效地提供高质量的搜索结果，是每一个搜索技术的最终目标。很多大型的商业化搜索引擎已经在执行效率方面取得了很大的进步。所以Google就把更多的精力投放到搜索结果的质量研究上来。当然，Google的执行效率同商业化的搜索引擎相比同样毫不逊色。<br/><br/>Google的搜索过程如下。 <br/>&nbsp;&nbsp;<br/>&nbsp;&nbsp;&nbsp;&nbsp;1.解析查询字符串；<br/>&nbsp;&nbsp;&nbsp;&nbsp;2.把word映射成wordID；<br/>&nbsp;&nbsp;&nbsp;&nbsp;3.对每一个word，首先从short barrel中doclist的开头进行检索； <br/>&nbsp;&nbsp;&nbsp;&nbsp;4.遍历整个doclist直到发现有一个文档能够匹配所有的搜索项目；&nbsp;&nbsp; <br/>&nbsp;&nbsp;&nbsp;&nbsp;5.为此查询计算文档的级别；<br/>&nbsp;&nbsp;&nbsp;&nbsp;6.如果到了short barrel中doclist的结尾，则从full barrel中doclist的开头继续进行检索，并跳转到步骤4；<br/>&nbsp;&nbsp;&nbsp;&nbsp;7.如果没有到达doclist的结尾，跳转到步骤4；<br/>&nbsp;&nbsp;&nbsp;&nbsp;8.对所有通过rank匹配的文档进行排序，并返回前K个查询结果。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;为了控制响应时间，一旦匹配的文档数目达到某个指定的值（例如40，000），如图4所示，搜索器就直接跳转到第8步。这就意味着可能有一些没有完全优化的查询结果被返回。尽管如此，PageRank技术的存在有效地改善了这种状况。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;4.5.1级别审定系统(The Panking System)<br/>&nbsp;&nbsp;&nbsp;&nbsp;与其它的搜索引擎相比，Google利用了更多的Web文档所提供的信息。每一个命中列表纪录了词的位置、字体、大小写等信息。另外,包含在锚文本中的命中和文党的PageRank一样被Google所关注。要把所有这些信息都综合起来给出一个页面的级别有点难度，级别判定功能必定被设计成不会受到任何个别因素的影响。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;首先考虑一种最简单的情况--单词查询。为了在单词汇查询中计算出一个文档的级别，Google首先分析该词汇在这个文档中的命中列表。Google为每一个命中定义了以下几种不同的类型：标题、锚、URL、普通的大字体文本、普通的小字体文本 ，每一种类型都有自己的类型权重（type-weight).Google把命中的类型权重组合到一起形成一个以类型为索引的向量，接着统计出命中列表中每一种类型的命中所占的数量。每一个计数值又被转换为一个计数权重（count-weight)，计数权重随计数值呈线性增长，到达某个计数值之后就会趋于停止。最后，把类型权重组成向量和计数权重组成的向量进行点乘得到的矢量积作为该文档的IR分值。IR分值和PageRank再进行组合从而得出文档最终的级别。<br/><br/>&nbsp;&nbsp; 对于多词汇的查询，情况变得更加复杂。多个命中列表需要被同步分析，在文档中出现位置比较靠近的命中就会比位置离的教远的命中具有较高的权重。多个命中列表中的命中被综合到一起一使得邻近的命中最终被分配到一起。对于每一组经过匹配的命中，他们之间的相似度（proximity)接着被计算出来。相似度基于命中的文档（或锚）中距离的远近，并且被划分为10个不同的值“bins”，这些bins的范围被定义为从短语匹配（phrase match)到根本不匹配（not even close).除了对每一种类型的命中进行计数之外，同时也对每一种类型和相似度进行计数。每一对类型和相似度的组合称作一个类型相似度权重（type-prox-weight),命中的计数则被转换为计数权重。最后，把计数权重组成的向量和类型相似度权重组成的向量进行点乘也得到一个IR分值。在Google的一种特殊的调试模式中，这些数字和矩阵可以随查询结果一同显示，这将为级别审定系统的开发工作带来很大的帮助。<br/><br/><br/>&nbsp;&nbsp;&nbsp;&nbsp; 译者后记<br/>&nbsp;&nbsp;&nbsp;&nbsp;前不久读到一篇文章，《Google搜索引擎算法的秘密》（《程序员》合订本2002下）。读完后对Google的数据处理有了初步的了解，但对于搜索引擎的设计，仍然一头雾水。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;偶然找到这篇由Google的设计者Sergey Brin 和Lawrence Page在1998年第7届国际互联网大会上发表的论文《The Anatomy of Large-Scale Hyperttextual Web Search Engine》，读完介绍为之一振。然而，全篇各种专业性的词汇和大量晦涩难懂的语句不断扼杀着我继续读下去的勇气。我担心自己就这么放弃，于是我决定把它翻译出来。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;一连两个星期，我翻阅了大量的资料来消化文中提及的各种专业术语，从而在翻译时尽量保持作者的本意。尽管如此，仍然会有一些误译的地方，希望读者能够谅解。文章比较长，我斩头去尾，留其精华。<br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;读完全文，相信读者和我一样，已经对搜索引擎（尤其是Google）的实现有了一个初步的认识。这是一个全新的领域，希望我的努力能为更多的朋友带去一点微薄的帮助。<br/><br/><br/>Tags - <a href="http://www.bloghuman.com/tags/google/" rel="tag">google</a> , <a href="http://www.bloghuman.com/tags/pr/" rel="tag">pr</a> , <a href="http://www.bloghuman.com/tags/%25E7%25BD%2591%25E7%25BB%259C%25E7%2588%25AC%25E8%2599%25AB/" rel="tag">网络爬虫</a> , <a href="http://www.bloghuman.com/tags/%25E6%2590%259C%25E7%25B4%25A2%25E7%25AE%2597%25E6%25B3%2595/" rel="tag">搜索算法</a>
]]>
</description>
</item>
</channel>
</rss>