更多



郝聪对搜索引擎作弊的看法 晴

郝聪 , 2006/12/01 12:06 , 搜索引擎研究 , 评论(4) , 阅读(12612) , Via 本站原创 | |

以下内容转自Google黑板报 Google 研究员 吴军
关于搜索引擎作弊问题,黑色梦中谈一下自己的看法:

自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。

搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正。

在有了网页排名(page rank)以后,作弊者发现一个网页被引用的连接越多,排名就可能越靠前,于是就有了专门卖链接和买链接的生意。比如,有人自己创建成百上千个网站,这些网站上没有实质的内容,只有到他们的客户网站的连接。这种做法比重复关键词要高明得多,但是还是不太难被发现。因为那些所谓帮别人提高排名的网站,为了维持生意需要大量地卖链接,所以很容易露马脚。(这就如同造假钞票,当某一种假钞票的流通量相当大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我们就不在这里一一赘述了。

几年前,我加入Google做的第一件事就是消除网络作弊。在Google最早发现搜索引擎作弊的是Matt Cutts,他在我加入Google前几个月开始研究这个问题,后来,辛格,马丁和我先后加入进来。我们经过几个月的努力,清除了一半的作弊者。(当然,以后抓作弊的效率就不会有这么高了。)其中一部分网站从此"痛改前非",但是还是有很多网站换一种作弊方法继续作弊,因此,抓作弊成了一种长期的猫捉老鼠的游戏。虽然至今还没有一个一劳永逸地解决作弊问题的方法,但是,Google基本做到了对于任何已知的作弊方法,在一定时间内发现并清除它,从而总是将作弊的网站的数量控制在一个很小的比例范围。

抓作弊的方法很像信号处理中的去噪音的办法。学过信息论和有信号处理经验的读者可能知道这么一个事实,我们如果在发动机很吵的汽车里用手机打电话,对方可能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不到汽车的噪音。事实上,现在一些高端的手机已经有了这种检测和消除噪音的功能。消除噪音的流程可以概括如下:

点击在新窗口中浏览此图片

在图中,原始的信号混入了噪音,在数学上相当于两个信号做卷积。噪音消除的过程是一个解卷积的过程。这在信号处理中并不是什么难题。因为第一,汽车发动机的频率是固定的,第二,这个频率的噪音重复出现,只要采集几秒钟的信号进行处理就能做到。从广义上讲,只要噪音不是完全随机的、并且前后有相关性,就可以检测到并且消除。(事实上,完全随机不相关的高斯白噪音是很难消除的。)

搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可能是随机的(否则就无法提高排名了)。而且,作弊者也不可能是一天换一种方法,即作弊方法是时间相关的。因此,搞搜索引擎排名算法的人,可以在搜集一段时间的作弊信息后,将作弊者抓出来,还原原有的排名。当然这个过程需要时间,就如同采集汽车发动机噪音需要时间一样,在这段时间内,作弊者可能会尝到些甜头。因此,有些人看到自己的网站经过所谓的优化(其实是作弊),排名在短期内靠前了,以为这种所谓的优化是有效的。但是,不久就会发现排名掉下去了很多。这倒不是搜索引擎以前宽容,现在严厉了,而是说明抓作弊需要一定的时间,以前只是还没有检测到这些作弊的网站而已。

还要强调一点,Google抓作弊和恢复网站原有排名的过程完全是自动的(并没有个人的好恶),就如同手机消除噪音是自动的一样。一个网站要想长期排名靠前,就需要把内容做好,同时要和那些作弊网站划清界限




黑色梦中个人理解,这是一篇具有技术含量的公关稿,Google想要告诉我们:
1。Google完全可以通过自身算法的不断完善来判断作弊行为
2。Google并不想把作弊网站排在搜索结果前面,而是搜索结果遭到了人为的破坏,而解决这样的问题需要一定的时间和证据
3。Google正在收集、研究目前已知的作弊行为,并对其进行研究,并在合适的时期将结论分析应用于算法中,体现结果会是全面惩罚作弊行为
4。Google对作弊站点的惩罚可能会株连很多无辜的站点,请在交换链接时注意。
5。如果你遇到了这样的网站:他没有实际内容,网页上几乎都是导出链接,但他PR很高。请不要购买这种站点的链接,不仅价值不高,还可能被列出重点“关照”对象

当然,还有一些疑问,说出来大家一起想一想:
把内容做好是必需的,但是不是保持内容的持续不断更新就可以?否则Google如何解决内容可复制性的问题?
Google指定不会告诉我们其算法中是如何检测到重复关键词的,我想利用搜索引擎的信息片算法就可以解决这个问题,但像吴军所言:
引用
比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正。

这点值得商榷,何为重复,尺度如何,我想即便是不了解SEO的人也知道,网页中的文字也不可能写成”尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康“吧,难道他不觉得碍眼??但写成”尼康数码相机  佳能数码相机   柯达数码相机。。。“算不算在重复”数码相机“这个关键词呢???可“尼康|尼|康尼[]康|!·¥#尼#!康%(*#……尼—PADG康、|”这种形式,无论从密度或绝对匹配情况都无法用一个极限值去衡量,不是吗???当然,希望Google有更好的方法.

对于搜索引擎作弊,黑色梦中持反对态度,为什么?很简单,没有必要。

我个人认为SEO是持久性的优化(前提是保证网站内容的持续更新、市场营销活动铺开、线上合作、网站维护等)。当然,不持久的也未必是作弊,我希望大家从网站整体的角度去看待SEO,SEO不仅仅是要把某一个或几个关键词优化上去,实际情况是:如果你不能对关键词进行合理的布置,对整站结构及内容体现有一个很清晰的把握的话,优化效果也无法持久,而花费在后期维护的时间、精力却是大量而没有效果的,就好比人在犯了错误的时候,没能从根本原因入手去解决问题,而从导致错误的直接原因入手,结果是错上加错。SEO的前期准备工作更加重要,你试图去了解网站的业务模式、网站技术实现方式、网站架构、网站的营销策略、网站内容的表现形式,然后转换一下角色,以一个需求者的角度去模拟用户访问行为,可能你会发现的确需要做很多事情来满足用户,利用上你对SEO的了解去做这些事情,最终结果会让你很惊喜的。祝你好运!!!

引用
作者: 郝聪
原载: 黑色梦中SEO博客
版权所有,转载时请注明作者并以链接形式标注原始出处!


最后编辑: 郝聪 编辑于2008/02/19 16:14
Tags: , , , ,
123
2007/04/28 15:10
百度goole有自己的运算方式,你们搞的个真的一样,自己懂点了皮毛就在这里吹牛
黑色梦中 回复于 2007/04/28 20:49
我写我的经验和文章,这是我个人的爱好,你当成吹牛也好,皮毛也罢,都跟我没关系。
借用KESO的一句话:我按我的想法写,你用你的智力读,千万别认为我有误导你的兴趣。非要认为自己被误导了的智力半残者,对不住您了。
跑跑
2006/12/14 10:08
可以用其他的方式!
2006/12/11 10:00
兄弟。你置顶的文章太多,不知道那些是新的。对于经常看你网站的用户非常麻烦。还是像ZAC的博客那样的好。
黑色梦中 回复于 2006/12/11 10:08
这个问题我已经注意到了,以前KALO兄也提过,置顶的文章都是个人认为非常重要的,希望用户第一时间看到;接下来,我会用另外一种形式来体现,谢谢你的建议!
氧气层
2006/12/01 23:38
黑色梦中大哥,您网站上的广告真多grin

赚了多少钱挖?
黑色梦中 回复于 2006/12/02 12:07
博客的广告价值并不大,这是众所周知的,尤其是针对IT专业人士、站长这个小众群体
分页: 1/1 第一页 1 最后页
发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]