分页: 5/7 第一页 上页 1 2 3 4 5 6 7 下页 最后页 [ 显示模式: 摘要 | 列表 ]
商业周刊发表一篇文章谈搜索引擎市场的竞争情况Matt Cutts很快发了个贴子评论了下

搜索引擎各自的商业模式,关注点和优缺点就不多说了。引起我兴趣的是Matt Cutts特意提到一个Google链接分析的专利;这个专利是Google在2001年申请,2003年2月批准的,美国专利号号6526440。Google和其他搜索引擎公司都有大把的专利,但拿出来谈的很少,哪些已经用在排名算法里外人就更不知道了。所以是否在用,自己判断吧。
最近视频站很火爆,各大互联网巨头纷纷推出自己的视频服务。国内也出现了很多视频网站。不过视频网站的王者不可争议的还是Youtube

Youtube建立后迅速成为互联网上最受欢迎的网站之一。到现在为止,好像还在大把烧钱。

据说Youtube每个月花在带宽上的钱就达几百万美金。有人猜测Youtube每个月从Google Adsense得到的广告收入大概在100万美金左右。Adsense广告如下:

近几个月以来,一直有Youtube准备出售的消息,微软和雅虎都曾经被传要收购Youtube,这两天又盛传Google会以16亿美元的价格收购Youtube
Tags: ,
第三代搜索,作为对以Google为代表的第二代搜索范式的超越或者说革新,时下正逼近一个重要的时间拐点。这股范式转型潮流由多条支流组成,其中一个支流是包含本地化搜索、社区内容搜索、知识问答社区等在内的社会化搜索,另一个支流则是人工智能、模式识别、语义分析、神经网络等智能搜索。

可以说,就技术门槛而言,智能搜索代表了下一代搜索的主流趋势。但鉴于基于神经网络、人工智能的搜索耗资巨大,目前还处在试验阶段,尚无一家成型的搜索引擎上线;至于全球搜索界穷20年之力埋首研发的自然语言分析或者语义分析,由于语言本身的复杂性,其结果及性能迄今还不能解决现实世界的问题,也因此,迄今还没有一家完全基于语义分析的搜索引擎获得商业成功。
GOOGLE搜索引擎剖析

撰文/Sergey Brin.   Lawrence Page     翻译/万思

文章来自《程序员》
英文原文可以在这里找到http://dev.csdn.net/develop/article/12/12657.shtm

作为一种功能强大的搜索引擎,Googic的背后似乎隐藏着巨大的奥秘,本文是Googic的两位创始人在1998年国际互联网大会上发表的论文,通过对Google进行完整地剖析,帮助读者理解Google的实现过程
《The Anatomy of a Large-Scale Hypertextual Web Search Engine》
    这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24000000个网页。我们可以从Http://google.stanford.edu/ 下载。

    设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。
    本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。
    本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google
 2005年,Google在中国搜索市场的占有率大概为32.8%,次于百度;到2006年第一季度,Google的国内占用率跌至13.2%,次于百度及雅虎。现在呢?Google,或者说"谷歌"的国内搜索市场份额到底怎样了呢?

  今天新华网发布了CNNIC的2006年中国搜索引擎市场调查报告,结果显示百度是中国搜索市场绝对的领先者,而谷歌只能成为其补充。
  百度的相关数据:
Tags: , , ,
最近关于社会搜索的关注越来越多了。最恐怖的社会搜索,还是人肉搜索。

人肉搜索引擎,我直接把它归入社会性搜索中的问答式搜索(Q&A),其实就是在一个社区里面提出一个问题,由人工参与解答而非搜索引擎通过机器自动算法获得结果的搜索机制。从这个角度理解,新浪爱问、百度知道、雅虎知识堂本质上都是人肉搜索引擎。显然,人肉搜索引擎由于通过人工参与来提炼搜索引擎结果,更有针对性,理论上来讲应该比自然检索结果更能满足搜索者的需求,尤其对于八卦搜索、没有唯一答案的多选结果搜索,人肉搜索的结果更有吸引力。
 AOL于几个月前公布了其用户3-5月的用户统计数据。在获取其公布的原始日志后,对搜索排名1-18位置的用户点击情况进行统计,结果如下(乔东 整理 2006-08):

·AOL-user-ct 基本信息

总日志条数:36,389,567条 (约3639万条)
有点击搜索条数:19,442,628 (约1944万条)

·排名点击率分布小结

1。1-18名占据九成三的点击次数,1-18名占据总点击数比率:93.42%
2。前10名占据点击率9成,89.65%的点击来自于第1页。第2页及以后所占有的点击率约10%
3。大致的情况。第1名与第2、3名点击率有关明显的差异。(相对分布:3.5)第2、3名间差异在50%以内。(相对分布:1.4)第4名起至第18名(除非第10名与11名外),前/后两名间的差异在20%以内。(相对分布:1.0-1.2)
      在Google上打广告回报率之高几乎世人皆知,但其繁琐的过程却令成千上万的中小型企业望而却步,因此只能眼巴巴地望着白花花的银子从手边溜走。

  但遭受多次挫折之后,美国In Touch传媒集团雇员Steve Blom通过自学成为了该领域的专家,并成功破解了Google Adwords点击付费系统。目前,他的视频破解教程已经通过blog公布在互联网上,教程共3张CD。blog地址为http://www.adwordstraining.org,教程名称为“30天Adwords Bootcamp”。

  Google Adwords是一种点击付费广告系统,商家广告会根据关键字或短语显示在Google搜索页面的右半部。但对于商家而言,选择有效的关键字或短语是相当困难的,因为Google的系统与其他在线广告程序存截然不同。

  但是,一旦成功地选择了有效的关键字,那么Google的广告系统就会比其他任何系统都要节省和有效。Blom称:“要想充分利用Google系统,首先必须要了解她。如果利用得当,可以节省50%的成本。”

  Google Adwords不容易上手的问题正日益凸现,5月初CNN财富网站就曾报道,称广告商抱怨Google Adwords系统让他们倍感困惑。据调查结果显示,40%的企业由于Google Adwords系统不易上手而放弃作广告。

  据Blom称,他利用自己所掌握的方法,投入300美元便得到了8000美元的利润。In Touch董事长Bob Cefail表示:“即使你不用Google系统,那么你的竞争对手也会使用。”
Tags: ,
Google Groups是个很方便的交流场所,同时也是Google官方一向推荐的交流方式。Google用户在使用Google的各种产品或服务的过程中遇上问题,最有效的方法就是先上Google Groups上面相应的论坛向世界上其他用户请教,并且Google的专家们也会作出解答。不过对于国内用户而言英文可能并不是很友好,这就造成了一定的交流障碍了。半年前,Google在Groups上面开设了AdSense互助论坛以方便AdSense用户交流,但很可惜的是,它只有英文版。现在,AdSense官方blog里发出通告,Google已经正式增加了中文及德文版的AdSense互助论坛。
  如果你是AdSense用户,或者想了解AdSense相关的知识,请收藏下面的地址:
  
http://groups.google.com/group/adsense-help-zhs
  中文版的AdSense互助论坛同样也包含了以下分类内容:

点击在新窗口中浏览此图片

同样,也有AdSense专家负责回复,他的ID是"AdSensePro"。目前已经有195名成员加入了这个论坛,你还等什么?
Tags: , ,
  前几天我们报道了Google的Matt Cutts确认了AdSense的Mediabot的确是会帮助Googlebot抓取网页的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作为Matt Cutts的blog的一名忠实读者,我觉得完全没必要花费篇幅再去特别说明Matt Cutts的权威性。我想说的是,Matt Cutts在是Google品质管理部门的一名高级软件工程师,外界所知的是他负责研发阻止Spam与恶性控制排名的技术。因此,信不信当然由你。

  其实上次Matt所透露的仅仅是其中一方面的内容。今天,Matt再次写了一篇非常详细的文章,解释了Google的各种bot是怎样抓取网页的,以及Google最新的BigDaddy在抓取网页方面有什么新的变化等等,内容非常的精彩,所以和大家分享一下。
  Google的网页收录的其中一种途径是通过Googlebot的爬行来实现的,也就是说,Google派出它自己的网络蜘蛛,主动去抓取有价值的网页内容。类似地,Google的AdSense也有自己的bot,它的名字为MediaBot。它会自动去到放置了AdSense广告代码的网页,然后对网页内容进行分析,以投放与网页内容相关的广告。但一直以来都有一个争论,那就是到底AdSense的MediaBot与Googlebot有什么区别?MediaBot在判断广告相关网页的时候,会不会也对这个网站在Google收录及排名等方面有一定的好处呢?也就是说,投放了AdSense广告,会不会有助于改善自己的网站的Google收录及排名呢


  根据SEJ的消息,Google的一名高级工程师及主管Matt Cutts已经正式确认,AdSense派出来的MediaBot在抓取网页内容后,会把部分结果提交至BigDaddy的数据库里。Matt解释说,这是因为两种bot都在不断地抓取网页,因此为了节省资源,MediaBot会帮Googlebot完成部分网页抓取工作。但Matt同时也给出警告,如果你的网站提供给MediaBot的内容与提供给Googlebot的内容完全不同,那么你就会"有麻烦"。因为Google会认为你在作弊。

  从Matt给出的讯息里可以证明,在网站上投放了AdSense的广告,的确是有助于你的网站被Google收录。比如,收录得更快更多。但并不一定会提高你的网站排名。有这方面经验的朋友应该会想到其它办法,从Matt的话出发。


   请注意,这是"雅虎",不是"Yahoo!",它们之间的区别相信大陆地区的读者们早已有深刻体会。另外,这也与"蜘蛛侠"完全无关,因为这里的"蜘蛛"指的是Yahoo!搜索引擎的爬虫即"Spider",类似于Googlebot

  继早前Google决定亲自讲授SEO课程后,今天雅虎搜索日志里登出一则很有趣的招聘启事,即雅虎也决定公开招聘SEO专家,只不过雅虎把这个职位叫做"蜘蛛福利专员",非常有意思。
  雅虎希望应聘者:是一名搜索引擎的重度使用者,了解世界主流"蜘蛛"种群的特性,了解它们的生活习惯和在网上的活动特征。你将在雅虎搜索引擎专家们指导下优化雅虎的产品,让它们和蜘蛛和谐相处,形成良性的生物链,互相促进和发展。

  同时,雅虎认为"SEO是和蜘蛛的友谊和战斗"。这句话说出了SEO与搜索引擎之间的关系,既是友也是敌。运用得当,对于网站和搜索引擎都是有利的;反之则有害。

  读者"an songsan"在邮件里也发表了他自己对于SEO与搜索引擎之间的关系的看法:

  "google要亲自教授如何SEO,yahoo要找SEOer,这个世界变得越来越好了(...)世界在变,搜索引擎在变,网站优化不是一个关键词做到位了,就高兴了。最本质的是你的流量和业务量要提高。(...)半年时间,一个3个人的公司经过网站优化后发展到一个50多人的公司,这就是网站优化的力量。电话接都接不过来,再也不用业务员了,这就是搜索引擎时代。我相信再不久的将来,各大搜索引擎也会推出网站优化学习栏目,因为搜索引擎优化可以提高网民搜索引擎体验,更好的促进搜索引擎与搜索者的良性关系。有人曾说搜索引擎与网站优化人员关系是死对头,因为他们觉得网站优化后的网站就不用做关键词广告了,本人认为搜索和关键词广告本来就应该是分开的,这一点google做的好。如今这种说法可不成立了,至少google和yahoo不反对网站优化了。这能不是好事吗。"

  Google和Yahoo!等搜索引擎一直以来并非反对网站优化,Google和Yahoo!官方早就有网站优化指南,目的就是想网站管理员能正确地进行SEO。但很可惜的是,很多网站都错误地理解了SEO的初衷,使用不正当的手法,给SEO这个词添上了贬义的色彩。身为站长,从长远利益考虑,任何网站管理员都不应该与搜索引擎作对,因为它是网站的朋友,而不是敌人。

  最后,雅虎给出的这张图很生动:

点击在新窗口中浏览此图片
     在编写网页搜索的过程中,网页臃余和内容臃余是个非常严重的问题,信息片算法就是为了解决这个问题而设计的算法。

    传统的搜索引擎对网页原代码基本上都是完全保存的,baidu,google都有他们的网页快照,而这些快照的内容就是他们的蜘蛛程序在发现连接后读取到的内容,仔细想一下我们有必要将网页全文收录吗?假设你和我一样追求最低成本,最快速度,回答便是否定的,尽管搜索的是索引文件,而非这个全文目录。首先一个网站他的网页有可能好多都是重复的,当然你非说你的网站网页完全不重复我也没意见,毕竟这只是最坏的打算,其次,网页的内容块可能存在很多重复的,比如网页的导航条,页脚的版权信息,最新文章10篇等等,假设有一种算法可以获得每张网页的新信息,抛弃臃余,这样不是很好吗?
分页: 5/7 第一页 上页 1 2 3 4 5 6 7 下页 最后页 [ 显示模式: 摘要 | 列表 ]