分页: 2/4 第一页 上页 1 2 3 4 下页 最后页 [ 显示模式: 摘要 | 列表 ]

Google一直在致力于提高搜索结果的准确性、合理性、公正性。举两个例子,比如,早前钓鱼网站盛行时期,Google有效识别了钓鱼站点并成功阻止了模仿站点在搜索结果获得较好的排名,无论是利用人工数据库还是复制网页、网站权威度这样的系数,这样的调整的确降低了搜索用户受到利益危害的可能性;再比如,Google不断惩罚SPAM SEO站点,对无实际价值的站点进行降低权重或直接在数据库中删除,这无疑都是在力报搜索结果质量。

在SEO优化研究中,我需要不断了解搜索结果的变化趋势,这个过程也使我切身感受到Google在提高用户搜索体验的过程中可谓不於余力。这的确需要每个SEO人都认真思考,到底是SEO在改变搜索结果还是搜索结果在改变SEO!

互联网企业正成为当下的市场热点———就在阿里巴巴赴港IPO进入倒计时之际,前期股价步步飙升的百度(BIDU.US)又抛出了重磅炸弹:百度宣布进军C2C市场,与阿里巴巴集团旗下的淘宝网和腾讯旗下的拍拍网展开争夺战。至此,三家市值最大的中国互联网公司(皆超过百亿美元)都将目光瞄向了发展潜力无限的C2C市场。

iResearch艾瑞咨询根据Hitwise发布的美国搜索引擎搜索量市场份额数据发现,2007年7月美国搜索引擎搜索量市场份额中Google占据了64.4%;雅虎搜索居其次,占据搜索量市场份额的22.1%;而MSN/Live搜索占市场份额的8.8%;ASK搜索则占搜索量市场份额的3.2%.

谷歌网站管理员工具不仅能帮助我们和网站管理员沟通,也提供了举报垃圾网站的在线渠道。感谢我们的用户,我们收到了很多垃圾网站举报。这些举报对我们改进搜索质量,给出更相关、有用的结果有很大帮助。谷歌用户可以很方便地通过两个渠道(认证的和不需认证的)进行垃圾网站举报。我们往往优先处理通过认证的渠道(譬如站长工具)递交的垃圾网站。当然,你也可以提交未经认证报告。由于未经认证报告是匿名举报,我们给他们赋予的优先级会相对较低。这里我们想讲一讲我们是如何处理从站长管理员工具得到的垃圾网站举报的。  

你知道google和百度两个关键词的相关度是多少么?--最后我将来回答这个问题

通常我们对于文本信息之间得相关性得计算都是采用向量的办法,我在以前的PPT里曾经提到过。然而对于文本信息更深层次的分析不能单纯从字面上分析一篇文章的关键词,更重要的是它隐含的扩展的意义。

传统的关于计算文本相关度和【网页和查询的相关性】的计算都是采用匹配的方式进行的,然而这只能是基于字面意义上的统计计算。这里介绍的做法是采用关键词相关性扩展的做法从而得到更加精确的相关度计算。

【最短路径】  åœ†æ˜Žå›­çš„北部有一个迷宫,据说古时候每次有庆典在圆明园的时候,皇帝会派一些宫女走迷宫,看谁最先走到迷宫内的亭子,会有不错的奖赏。  è¿·å®«é—®é¢˜å¯¹æ•°å­¦å®¶ä»¬æ¥è®²è™½ç„¶æ˜¯å°å„¿ç§‘但在计算机课程上却非常重要,因为不同的求解会涉及到递归,广度优先和深度优先等算法。  è¿·å®«æ¯•ç«Ÿæ˜¯ä¸€ä¸ªæ”¾ç½®åœ¨2维空间的有限联系的网络,也就是说,迷宫里的每一个点,最多只和周围的4个点(上下左右)发生关系,而且这些点的位置是固定的。

本文通过搜索结果归纳分析+切词通用算法分析的方式对百度预处理阶段的查询处理和中文分词两项技术进行了阐述、总结,如果你对数据结构、算法有一定了解的话,理解起来会相对容易些;个人感觉,得出正向最大匹配算法不够准确,无论是专用词典还是普通词典里的词,都是有不同权重的,这根搜索频率应该有一定关系,基于这点,在出现多个专用词典里的词时,是需要采用双向最大匹配算法来检测到底哪一个专有词汇应该先被切出来,当然,这是个人猜想,有待考究。

理解分词技术对SEO工作具有极大意义,可以从科学的角度来分析关键词,并构想关键词部署策略;如果正向最大匹配算法的结论是正确的,那基本上可以断定,切词后的分词的权重是按照正向排序的

我还想搞明白的是专用词典和普通词典,哪一个权重会更高?

好网站的特性

好的网站通常内容丰富、更新及时。好的网站往往链接其他好网站,同时也吸引更多点击。自然的链接是谷歌页面排名算法决定排名的因素之一,但是,很多网站管理员认为“反向链接越多,网站的排名越高”。这一理论是错误的。  è°·æ­Œçš„排名算法对网站的评价是一个多元化的系统。在考虑反向链接的同时会甄别有效链接和自动产生的链接。一个明显的例子就是 2007 å¹´ 5 月份结束的渡虎谷大赛,谷歌排名第一的网站的反向链接总数是 3,600 个左右, 其他许多低排名网站的反向链接超过了 10,000 个,大多数的链接是程序产生的链接。  

  所谓的“补充材料”,也即Google搜索结果里的“Supplemental Results”标记。简单地说,Google有两大索引数据库,一个是主索引数据库,当你在Google里搜索时,得到的常规搜索结果就是直接来自主索引数据库;当网站的某些网页链接过于复杂(比如参数过多),或者网页的PR值很低,又或者网页内容和其它网页重复等等,这些原因都可能导致Google将网页收录进补充索引数据库里。被收录进补充索引数据库的网页,一般会被Google标记为“补充材料”。这种做法始于2003年。
Google AdSense防欺骗原理:

     éšç€åœ¨çº¿å¹¿å‘Šçš„流行,pay by per click (每次点击付钱)的模式 逐渐被大家接受。可是随之而来的问题就是fraud clicking的预防迫在眉捷,因为这将直接关系到这种广告模式能否长久生存和能否成为一种真正的网站拥有者的收入来源。

下面介绍Google Adsense系统如何从系统角度出发防止点击欺骗,希望对其它的在线广告系统防止虚假点击能有很好的指导作用:
Tags: ,
最近在Google搜索结果中发现一些新的情况,某些网站在SERP中被标识了“该网站可能会损害您的计算机”的提示语句。病毒、木马的危害对于中国网民而言,将会使非常可怕的事情;试想,如果网民在SERP页面发现即将点击的站点被列在有危害可能的网站,可想而知,该网站的点击率将会下降。
今天偶然的机会拜访了下SEO爱好者,看到这样一篇文章:PR的下降与网站内容质量有关?
Tags: , ,
      4月6日消息,Google(è°·æ­Œ)正式发布网站优化器。据称。该工具是可以帮助AdWords 广告主将更多的访问量转化为销售量、注册量或下载量。

  据悉,谷歌网站优化器是一款多功能的登陆页面优化工具,可以让营销人员得以测试各种有关网页内容的想法,例如标题、促销性副本或图像等。该应用提供了易于阅读的报告,让广告主清晰地看到究竟哪一种变化最能引起站点访问者的共鸣。它是一种自助式应用,让站长自己动手设置和运行不同类型的登陆页面实验。

  官方透露,Google(谷歌)网站优化器(www.google.com/websiteoptimizer)目前为试用版,它整合到了Google(谷歌)AdWords计划中,并免费提供给AdWords广告主。

  据称今后的几个星期,谷歌网站优化器应用自动对所有广告主的帐号开放。站长可以根据最高的转化率来判断哪些内容是最有效的。
百度分词算法的进一步分析

上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.  
Spelling Checker拼写检查错误提示(以及拼音提示功能)   
拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的.
  我们分析拼写检查系统关注以下几个问题:
  (1)系统如何判断用户的输入是有可能发生错误的查询呢?  
  (2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?
查询处理以及分词技术

随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。
搜索引擎爬行抓取蜘蛛(机器人)程序HTTP头用户代理名称列表大全
Search engine spider(bot) id list
百度网站的“百度与站长”部分的内容更新了,里面很多信息又可以值得我们挖掘。通过阅读文字信息,大家可以看到百度似乎也在转变先前自己对SEO的看法,合理的搜索引擎优化终于被它所接受。而且相比之前的百度与站长,这次修改比较大,而且也透露了一些积极的信号。有幸跟百度的相关人员交流过,感觉百度跟站长,跟seo,需要一个相互了解的过程。抛弃偏见,互相沟通,才能共同维护好搜索生态圈的和谐。
  很多做AdSense的站长都会想尽办法使广告点击数增加,当然,我们在这里只讨论合法的手段,除非你想被Google删除帐号。在优化了网站程序架构和提高了内容的质量后,有不少站长开始钻Google AdSense的灰色地带,即在AdSense广告单元的旁边加上额外的图片,以吸引访客的注意,从而增加广告的点击率。
Tags: ,
    å•†ä¸š2.0å°±"在2007å¹´,如何获得成功"向50个人做了定向调查,其中Google的两个决定人物谈论了在新的一年中,Google的意图和计划.用几个关键词归纳起来就是: 简单化、整合、个性化。

    ä¸‹é¢æ˜¯è°¢å°”ç›–.布林的回答:
    â€œç®€å•åŒ–是一个重要的趋势,所以我们非常关注。就科技这条路来说,它已经变得过分复杂了,而同时,简单化确是人们使用Google的最基本吸引力。对于互联网技术而言,这种复杂已经成为了一个不得不努力解决的问题,而用设备或者计算机来解决是非常困难的。成功是来自于简单化的。看看苹果公司,他们正在做的使得他们非常成功。”
    â€œæˆ‘们更应该关注特色,而不是产品本身。我们必须解决一个糟糕的问题,就是产品的过分复杂。我们不想采用20种不同的方式来使用20种不同的产品。我个人感觉,我们已经失去了持续吸引用户的一切。我更想拥有少数几个共同特色的产品。”
  全球首个收录100亿网页的中文搜索引擎即将诞生

  日前,搜狐公司旗下自主品牌搜狗搜索引擎宣布,搜狗网页搜索3.0版本将于2007年1月1日正式上线,新版本将凭借其自主研发的服务器集群并行的抓取技术,成为全球首个中文网站收录量达到100亿的搜索引擎,并以每天5亿网页的更新速度及独一无二的搜狗网页评级体系,在海量、及时、精准等搜索引擎基本指标上全面升级中文搜索引擎的用户体验,再次掀起搜索引擎新一轮技术革命。
  我用一句话来形容,就是Google更乐于收录大站的页面,百度则乐于收录新站的页面。

  Google和Baidu收录网站页面的标准是不同的。

  为了验证这一点,我做一个实验:我申请了一个新域名www.moon-blog.com,不再其他任何网站做链接,而直接往百度和Google搜索引擎的提交页面进行提交。一个月过去了,百度收录的网页是24,900篇,Google收录的网页是0,这证实了我以前的猜测。
下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。

说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?

1】 网络爬虫高度可配置性。
2】 网络爬虫可以解析抓到的网页里的链接
3】 网络爬虫有简单的存储配置
4】 网络爬虫拥有智能的根据网页更新分析功能
5】 网络爬虫的效率相当的高

那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?
分页: 2/4 第一页 上页 1 2 3 4 下页 最后页 [ 显示模式: 摘要 | 列表 ]