Google的网页收录的其中一种途径是通过Googlebot的爬行来实现的,也就是说,Google派出它自己的网络蜘蛛,主动去抓取有价值的网页内容。类似地,Google的AdSense也有自己的bot,它的名字为MediaBot。它会自动去到放置了AdSense广告代码的网页,然后对网页内容进行分析,以投放与网页内容相关的广告。但一直以来都有一个争论,那就是到底AdSense的MediaBot与Googlebot有什么区别?MediaBot在判断广告相关网页的时候,会不会也对这个网站在Google收录及排名等方面有一定的好处呢?也就是说,投放了AdSense广告,会不会有助于改善自己的网站的Google收录及排名呢


  根据SEJ的消息,Google的一名高级工程师及主管Matt Cutts已经正式确认,AdSense派出来的MediaBot在抓取网页内容后,会把部分结果提交至BigDaddy的数据库里。Matt解释说,这是因为两种bot都在不断地抓取网页,因此为了节省资源,MediaBot会帮Googlebot完成部分网页抓取工作。但Matt同时也给出警告,如果你的网站提供给MediaBot的内容与提供给Googlebot的内容完全不同,那么你就会"有麻烦"。因为Google会认为你在作弊。

  从Matt给出的讯息里可以证明,在网站上投放了AdSense的广告,的确是有助于你的网站被Google收录。比如,收录得更快更多。但并不一定会提高你的网站排名。有这方面经验的朋友应该会想到其它办法,从Matt的话出发。


信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。

搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

URL网址规范化问题

[晴 2006/09/04 01:58 | by 黑色梦中 ]
网址URL规范化(URL canonicalization)是近一年来在Google搜索结果中出现的一个很大的问题。它指的是搜索引擎挑选最好的URL网址作为真正网址的过程。举例来说,下面这几个URL一般来说指的是同一个文件或网页:


http://www.domainname.com
http://domainname.com
http://www.domainname.com/index.html
http://domainname.com/index.html


但是从技术上来讲,这几个URL网址都是不同的。虽然在绝大部分情况下,这些网址所返回的都是相同的文件,也就是你的主页。但是从技术上来说,主机完全可以对这几个网址返回不同的内容。
本文作者马特-卡兹(Matt Cutts)是Google公司品质管理部门的软件工程师。他的工作主要是给好的网站评定等级,并负责开发阻止虚假或垃圾网站出现在Google搜索结果上的技术。

图书馆管理员们提出最多的问题之一是:“对于什么样的结果应该位于搜索列表的最上方,Google是如何选择的?”现在品质工程师马特-卡兹介绍了快速入门的知识,解释了Google是如何在网上爬行和索引,以及如何评定搜索结果等级的。马特也向学校图书馆管理员提出建议,告诉他们如何辅导学生。
Tags: , ,

网络营销策划方案书

[晴 2006/09/04 01:17 | by 黑色梦中 ]
Tags: ,
词干技术(keyword stemming)在英文网站优化中比较明显,但对中文网站优化也有一定的借鉴意义。

词干技术指的是英文中某些词是由一个主要的词干衍生出来的,比如说work是一个词干,由这个词可以产生很多意义相同或相关但不同的时态,语态,单复数等形式,如working,worked,worker, works, workers。

在网页内容的写作中,应该尽量把同一词干衍生出的不同形式自然的融合在句子当中,而不要仅使用单一形式。也就是说,如果你的目标关键词是work,最好working,worked,worker, works, workers等这些词也要适当出现。
今天搜索引擎界有一件被Matt Cutts称为九级地震的事,Danny Sullivan将离开SEW(搜索引擎观察)SES(搜索引擎战略大会),详细的介绍大家可以在点石论坛SeoVista看到。

SEO的技术含量

[晴 2006/08/30 22:20 | by 黑色梦中 ]
  近几日网上随处可见关于SEO究竟有没有技术含量的讨论,老实说,这很让人奇怪,在本人以前的意识中,总觉得SEO有无技术含量是个已成定论的问题 ,Anyway,王通先生的一篇文章能引起这么广泛的反响也说明他在国内SEO界的重要地位,换成别的一个无关紧要的人,也许就算观点再吸引眼球,没准大家也会提不起兴致支持或驳斥。

  应如何看待SEO有无技术含量这个问题呢?虽然王通先生那篇名为SEO没太多技术含量的文章提出了鲜明的观点,不过,恕我愚笨,并没有找到足够支持该观点成立的论据,事实上,细细揣摩那篇文章,与其说王通先生在阐述SEO没有技术含量,倒不如说是在强调对SEO而言“经验”与“资源”的重要性——由此也可看出
网页标题的重要性,无论对搜索引擎还是对用户 ——,而相对而言,经验与资源对“专业的SEO公司”总是最不缺的,在许多“专业SEO公司”的宣传材料均可看到将此部分作为重点,毕竟,用户技术能力的不足可以通过学习与研究得以弥补,但缺乏经验、资源之类的神圣东东,尤其是资源则是用户的主观努力所无法解决的,当然,这也无可厚非,毕竟这是人家的优势嘛,当然要教育用户清醒地认识到,所谓的宣传本便如何,就象女人化装一样,只有恰当地掩盖缺陷并突出优点,方能达到展现诱惑的目的。
Tags: ,
 搜索引擎营销的基本思想是让用户发现信息,并通过点击进去网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从目前的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点进率,更不能保证将访问者转化为顾客或者潜在故顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。

  利用搜索引擎工具可以实现4个层次的营销目标:

  (1)被搜索引擎收录;
  (2)在搜索结果中排名靠前;
  (3)增加用户的点击(点进)率;
  (4)将浏览者转化为顾客。
某设计公司的网站刚刚被搜索引擎google收录才几天,就发现网站再次用site:命令检测为结果0。
到底是何原因导致被google删除,必须分析清楚网站被删除的原因

1。分析网站的外部链接:网站拥有的反向链接整体质量不高,是一些不知名的网址站、分类目录站,但因为这些网站本身并没有被google删除,链接页面有正常的PR值,也非“链接基地”网站,因此排除了外部链接不当导致除名的可能。

2。分析网站自身情况:没有诸如隐藏文字、超小文字、超淡文本、堆砌关键词等;网站没有跳转程序,没有桥页,不过是一个普普通通的静态企业网站;

3:用IP检测工具检测网站所在IP下的其他网站被GOOGLE收录的情况,发现其他网站均在google上有收录,说明服务器IP并没有被GOOGLE列入黑名单;

4:再检查域名的历史情况,这的确是一个新域名,以前没有使用过,排除域名因素;

5:该公司网站以前并未做过搜索引擎优化SEO

到底是什么原因导致的呢?按理说,Google删除一个网站,一定是有原因的。

看到这里,可能你也在想问题所在。。。
为解决问题,我们来说说网站的情况吧

这个网站是企业网站,与其它众多设计公司网站一样,网站是自己做的,完全采用平面设计的思维来做网页。网页铺天盖地的大图片,首页创意非凡,看得出花了很多心思打造这个网站。导航和菜单全部采用图片;内容页面的业务介绍2/3的面积是高深莫测的创意拼图,1/3为文字——文字同样以图片的方式呈现,而且为了表现创意,文字说明都在图片中表达了。网页中唯一的文本内容是他们在每个页面底部老老实实放置了与网站业务有关的文本链接及一些文字介绍,各自链接到业务介绍页面。

也许你找到问题所在了——复制网页。

虽然这个网站的每个页面有不同的设计画面、文字介绍、菜单名称,但是由于这些核心内容全部被做到图片或FLASH中,底部有限的文本内容又是全站统一的格式及内容,因此在无法分析图片的搜索引擎蜘蛛眼中,每个页面的内容全部相同。页面底部的文字链接到的不同URL,而这些URL的页面内容一模一样,这就无意间触犯了搜索引擎关于复制网页作弊的禁忌

所有 HTTP 状态代码及其定义。

代码 指示
2xx  成功
200  正常;请求已完成。
201  正常;紧接 POST 命令。
202  正常;已接受用于处理,但处理尚未完成。
203  正常;部分信息 — 返回的信息只是一部分。
204  正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx  重定向  
301  已移动 — 请求的数据具有新的位置且更改是永久的。
302  已找到 — 请求的数据临时具有不同 URI。
303  请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304  未修改 — 未按预期修改文档。
305  使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306  未使用 — 不再使用;保留此代码以便将来使用。
4xx  客户机中出现的错误
400  错误请求 — 请求中有语法问题,或不能满足请求。
401  未授权 — 未授权客户机访问数据。
402  需要付款 — 表示计费系统已有效。
403  禁止 — 即使有授权也不需要访问。
404  找不到 — 服务器找不到给定的资源;文档不存在。
407  代理认证请求 — 客户机首先必须使用代理认证自身。
410   请求的网页不存在(永久);
415  介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx  服务器中出现的错误
500  内部错误 — 因为意外情况,服务器不能完成请求。
501  未执行 — 服务器不支持请求的工具。
502  错误网关 — 服务器接收到来自上游服务器的无效响应。
503  无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

比如说:
2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/119.htm - 304 Baiduspider+(+http://www.baidu.com/search/spider.htm)
这就意味着百度蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是没有更新过的。

再比如说:2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/120.htm - Googlebot/2.1
(http://www.google.com/bot.html)
这就意味着Google蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是新的,并全部爬完。

ZCOM的SEO做的"不错"

[晴 2006/08/28 14:54 | by 黑色梦中 ]
最近由于求职需要在关注电子杂志,作为SEOer,很自然就想起GOOGLE一下"电子杂志"看看孰轻孰重

点击在新窗口中浏览此图片

第一位是ZCOM电子杂志,Zcom名气很大,据说刚刚收购了flashget和verycd。。。

查了网页源文件,首先我们来关注一下ZCOM首页的TAGS:
Tags: , , ,

SEO未来的研究方向

[晴 2006/08/23 14:20 | by 黑色梦中 ]
SEO职业化早已经不是新闻了,但需要关注的SEO未来的发展,搜索引擎优化道路会往何方?因为从现在关注的国外的 搜索引擎优化的动向来看,搜索引擎优化已经发展到一个涵盖各个网络层次范围的一个特殊的职业。现在对于我们而言,国内的SEO处于刚起步不久但发展速度异常迅速的阶段,虽然日渐成熟,但整体上还不能说与国际上接轨,那么我给出一些想法和建议,希望大家都能参与这样的讨论。

搜索引擎优化未来研究的走向主要分成策略化和技术全面化。
怎样针对动态生成的不同页面中,keywords和description,写不同的关键字和描述?

我想针对这个问题可以更宽泛的谈一下CMS系统(content management system,内容管理系统)和SEO的关系。

现在很多网站都是由CMS系统建成的,电子商务网站,新闻类网站还有博客等等,绝大部分都是用CMS系统做成的。CMS优点很多,做的不好的话缺点也不少。

使用CMS系统制作页面和管理网站都变得容易,但缺点是大部分CMS系统都不够搜索引擎友好。

我觉得一个好的CMS系统在搜索引擎优化方面应该做到以下这些功能,读者在选择系统的时候可以注意看有没有这些功能,开发CMS系统的读者也可以做参考。
Andy HagansAaron Wall昨天写了一篇”增加反向链接的101个方法“,非常有参考价值

他们的帖子发出不到几小时,几乎所有重要的SEO bloggers都建议大家去看。这就是好内容的重要性,链接诱饵的样板。

文章很长,ZAC转成了PDF格式并供大家下载。

点击附件下载"增加反向链接的101个方法"
下载文件
这个文件只能在登入之后下载。请先 注册登入


blog(博客)的SEO优化建议

[晴 2006/08/14 18:18 | by 黑色梦中 ]
blog(博客)怎么做SEO(搜索引擎优化), 比如主流的几个个人型BLOG、bo-blog、sablog、pjblog等。。。

说实话我对这几个blog软件完全没听说过,我的博客是使用WordPress,不过博客软件功能都应该是差不多的。今天介绍一下我自己在这个博客上所做的一点点优化。

首先一点,我觉得博客更多的是一个分享交流工具,它生成的网站结构,网页代码与很多网站相比算是比较搜索引擎友好。

但是Blog页面都是用模板生成,有很多因素是不能控制的。在挑好了一个你觉得比较好的模板之后,页面上的大部分代码就定下来了,你没办法一页一页,一个目录一个目录的去做特殊优化。

所以博客并不是一个很适合做完整搜索引擎优化的系统。对很多不太热门的关键词,我们可以看到博客能排到前面。但是最热门的关键词还是以手写网页为好,除非你是你这个行业特别牛的人,你写什么大家都会连向你。如Matt Cutts
Tags: ,
Matt Cutts第10段视频

有没有可能只搜索主页

Matt Cutts说这个建议很好,他将会提出来,不过应该优先度不高。

关于黑体字的补充

第一段视频里面,Matt Cutts曾经提到黑体字,Google给bold的权重比strong要高一点。他做了更正,Google对这两种黑体的权重完全一样,对两种斜体em和i两种标签的处理也完全一样。

对复制内容的补充

前面有说Google进行非常复杂的复制内容检测,Matt Cutts建议,如果你的网页有差不多相同的内容,那么尽量使它们看起来不同。


如果有相似的内容在不同的域名上,一个是法语一个是英语,那么完全不必担心。但是如果内容相似,一个是在加拿大网站,一个是在.com网站,那么一般来说,Google就会判断哪个看起来更好点,就显示哪个。但是复制内容被检测出后,并不一定会带来惩罚。

如果你想避免的话,你可以试着确保网站的模板非常非常不一样。一般来说如果内容差不多,Google就会自行判断,然后选出一个他们认为最好的。

Google在索引和排名博客的时候,是不是和普通网站不一样

并不是。

以前曾经有人问gov和edu域名的链接是不是比普通域名的权重要高?实际上我们并不会看这个链接来自开放目录,或者来自gov或edu域名,就给它特殊的对待。只是这些网站一般都有比较高的PR值,有更多的网站链接向他们。

博客和普通网站没有什么大的区别,除非你做的是博客搜索(blog search)。

理论上来说我们可以给他们做不同的排名处理,但实际上如果是普通搜索,我们不会这么做。
Matt Cutts第9段视频

很多人喜欢观察Google的不同数据中心返回的不同搜索结果,希望从中看出些算法的端倪。

Matt Cutts 在第9段视频比较详细地谈了Google的数据中心。

在很久很久以前,一台电脑就可以运行一个搜索引擎,现在基本上你得有一个数据中心。在数据中心你可以利用DNS的设置做负载平衡。Google利用很聪明的负载平衡办法,使所有数据中心都能运行正常。

在大部分情况下,这些数据中心应该是一样的,应该有同样的数据设置。但是也并不总是这样,比如说一个数据中心出了故障,或者数据中心不在你访问的地理位置,在这种情况下,即使你通过IP地址访问,你也会被转到不同的数据中心。看起来你是在一直访问同一个数据中心,但实际上后台通过Google的负载平衡,你可能完全是在访问不同的数据中心。

虽然这种情况比较少见,但是也不太少。

在Google进行算法更新的时候,或者测试新的功能的时候,我们都在一个数据中心先进行,确认质量达到我们的期望。

这些数据中心之间确实是有不同的,同样一个C class的IP地址,你应该看到的是同一个数据中心,但并不总是这样。

对一个普通的用户来说,通过查看同一个数据中心,来研究或者猜测在数据中心所进行的变化是非常困难的。

所以完全不必要去观察不同数据中心返回的搜索结果,最好把时间花在别的东西上,观察每一个数据中心是根本不值得的。
Tags: ,
Matt Cutts第8段视频

在视频8里面,Matt Cutts解释了Google索引更新index update,算法更新algorithm update,数据刷新data refresh,这三个术语都是什么意思。

2003年的时候,Google差不多每个月爬行一次互联网,抓取网页,这个过程是索引更新index update。算法可能改变,数据也改变,差不多什么都改变了,一次过,这也就是人们常说的Google Dance,站长世界会给这些Google Dance命名。

现在Google是每一天都在爬行和刷新索引,这是个不间断的过程。现在人们能看到的最大的变化是算法更新algorithm update,那种每个月一次的索引更新不再进行了。只是在出现旧索引不匹配的时候,比如说重建CJK(中日韩文)索引的时候,才可能会出现这种完整的索引更新。

算法更新基本上就是算法的改变,比如说对某一个网页的排名,PR权重是多一点还是少一点。这个改变可能是随时发生的。

最小的改变是数据刷新data refresh,这其实是改变给算法的输入,也就是改变算法所要处理的数据。

拿车来做比喻的话,索引更新是把整个车都换了。算法更新是换了车的一部分,比如引擎之类的。数据刷新相当于换了汽油。

数据更新是很常见的,我们会对结果做观察,比如Google不间断的在计算和改变PR。

相比之下,某些算法是每个星期都会改变,或者几个星期做改变。

很多人注意到6月27号和7月27号网页各有一次排名的变化,实际上那些算法已经运行了一年半了,大家所看到的是数据刷新。

如果你的网站受到了影响,你就要回头看一看你的网页是不是过度优化,或者找一个专家替你看一下网站有什么问题。如果你确认都很正常,那我建议你继续建新网页内容,使网页对用户有用,Google自然会解决其他的。

Matt Cutts第7段视频

Google Analytics是否影响Google排名

Google Analytics是Google的免费流量统计服务,很多人怀疑Google在排名算法中会使用其收集的数据。

Matt Cutts回答,就我所知,没有。当然我也不能笼统的说在Google所有地方都不使用Google Analytics的数据。去年我被问到这个问题的时候,我也曾经肯定的说,我们反垃圾组(webspam team)不会使用Google Analytics的数据。垃圾只是质量的一部分,质量只是Google的一部分。

反垃圾组绝没有使用Google Analytics的数据。就我所知,Google其他地方也没有,因为我们希望人们能放心的使用它。

Google怎样检测复制网页

简单的说,我们进行很多的复制内容检测。这种检测并不是一次性的,而是从爬行,索引,排名到最后返回搜索结果的前几毫秒,都存在复制内容检测。

有各种不同的复制内容,比如说完全一样的网页,也有的是近乎复制的网页,我们有很多非常复杂的逻辑来进行检测。

如果你觉得你可能有复制内容网页的问题,那就要确保你的网页之间全都不同。

是否可以在下拉菜单中放入链接

Matt Cutts回答,可以,但不建议这样做,这也不是标准的制作手法。他建议还是把链接放在网页底部或网站地图上。

分页: 4/6 第一页 上页 1 2 3 4 5 6 下页 最后页 [ 显示模式: 摘要 | 列表 ]