搜索引擎中网络爬虫的设计分析
[
2006/12/04 12:18 | by 黑色梦中 ]
2006/12/04 12:18 | by 黑色梦中 ]
下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。
说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?
1】 网络爬虫高度可配置性。
2】 网络爬虫可以解析抓到的网页里的链接
3】 网络爬虫有简单的存储配置
4】 网络爬虫拥有智能的根据网页更新分析功能
5】 网络爬虫的效率相当的高
那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?
说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?
1】 网络爬虫高度可配置性。
2】 网络爬虫可以解析抓到的网页里的链接
3】 网络爬虫有简单的存储配置
4】 网络爬虫拥有智能的根据网页更新分析功能
5】 网络爬虫的效率相当的高
那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?
郝聪对搜索引擎作弊的看法
[
2006/12/01 12:06 | by 黑色梦中 ]
2006/12/01 12:06 | by 黑色梦中 ]
以下内容转自Google黑板报 Google 研究员 吴军
关于搜索引擎作弊问题,黑色梦中谈一下自己的看法:
自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。
关于搜索引擎作弊问题,黑色梦中谈一下自己的看法:
自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。
Yahoo统计到的用户行为分析
[
2006/11/29 22:22 | by 黑色梦中 ]
2006/11/29 22:22 | by 黑色梦中 ]
《商业周刊》的一篇“How Yahoo! Gave Itself A Face-Lift”(雅虎是如何对它进行“面部整容”的,Justin Hibbard撰写)非常有意思。文中介绍了雅虎公司对yahoo.com首页的改版方案,决定新首页布局的是一个名叫SDS(Strategic Data Solutions,战略数据解决方案)部门的统计数据。
SDS部门的前身是一家数据挖掘咨询机构,雅虎在2004年将其收购。该部门专门负责研究用户的访问、点击行为,并从海量的统计中摸准用户的真实心理。根据这篇文章披露的资料,到目前为止,雅虎的用户行为统计数据量足以填满1000个美国国会图书馆。
SDS的研究成果对雅虎的页面设计提供了非常直接的建议,比如:
SDS部门的前身是一家数据挖掘咨询机构,雅虎在2004年将其收购。该部门专门负责研究用户的访问、点击行为,并从海量的统计中摸准用户的真实心理。根据这篇文章披露的资料,到目前为止,雅虎的用户行为统计数据量足以填满1000个美国国会图书馆。
SDS的研究成果对雅虎的页面设计提供了非常直接的建议,比如:
白鸦:如何了解用户和需要了解什么?
[
2006/11/29 22:18 | by 黑色梦中 ]
2006/11/29 22:18 | by 黑色梦中 ]
1、如何了解用户和需要了解用户什么,很多时候取决于你的需求,搞清楚它是开展工作的基础。
2、前天晚上突然来兴趣研究了半天的"数据挖掘和分析",搜索了很多资料。
其中让我印象最深的只有一句话:"尿布旁边放上啤酒"不是用户告诉超市的,而是超市通过记录用户行为发现的。
3、HFI的CEO在UF2006上讲了他们让用户选择表情面具 来表明自己使用过程中的心情,这确实是一个很不错的方法。
我们也曾经让用户来选择不同颜色的笔,画出来他们想要的界面,然后去综合分析这些草图得出我们的结果。事实证明很多时候这个方法也十分的有效。
但所有这些方法一样不能被认为是"用户告诉你啤酒要放在尿片的旁边",一样需要你自己去总结用户的行为和想法。
2、前天晚上突然来兴趣研究了半天的"数据挖掘和分析",搜索了很多资料。
其中让我印象最深的只有一句话:"尿布旁边放上啤酒"不是用户告诉超市的,而是超市通过记录用户行为发现的。
3、HFI的CEO在UF2006上讲了他们让用户选择表情面具 来表明自己使用过程中的心情,这确实是一个很不错的方法。
我们也曾经让用户来选择不同颜色的笔,画出来他们想要的界面,然后去综合分析这些草图得出我们的结果。事实证明很多时候这个方法也十分的有效。
但所有这些方法一样不能被认为是"用户告诉你啤酒要放在尿片的旁边",一样需要你自己去总结用户的行为和想法。
Google Adsense建议与技巧
[
2006/11/21 09:25 | by 黑色梦中 ]
2006/11/21 09:25 | by 黑色梦中 ]
1.AdSense 收入 = 广告展示次数 x 点击率 x 点击单价 x 智能定价因素(Smart Price)
2.广告展示次数基于你的网站流量,该项代表Adsense广告展示次数。(译注:废话-。-!)
3.点击率为广告被点击次数÷广告展示次数,基本范围为0.1%-30%,大多数为1%-10%(译注:中文广告偏低,大陆地区平均点击率约0.2%)。
4.点击单击为每次点击的收入,一般根据广告商付出的点击单价决定。
5.智能定价机制为Google衡量你的网站刊登广告价值的系统,如果你的网站上用户点击广告后转化为购买用户的比例较低,您只能获得较低的收入。
2.广告展示次数基于你的网站流量,该项代表Adsense广告展示次数。(译注:废话-。-!)
3.点击率为广告被点击次数÷广告展示次数,基本范围为0.1%-30%,大多数为1%-10%(译注:中文广告偏低,大陆地区平均点击率约0.2%)。
4.点击单击为每次点击的收入,一般根据广告商付出的点击单价决定。
5.智能定价机制为Google衡量你的网站刊登广告价值的系统,如果你的网站上用户点击广告后转化为购买用户的比例较低,您只能获得较低的收入。
几个主流搜索引擎的404页面
[
2006/11/21 00:57 | by 黑色梦中 ]
2006/11/21 00:57 | by 黑色梦中 ]
前天,我写了一篇文章“404错误的处理方式及对SEO的影响”,介绍了对404错误的理解、一些常用的HTTP状态码、404对SEO的影响、自定义404错误页面的原则以及在不同的服务器环境下的处理方式。自定义404错误页面的合理设计体现着一个网站是否具备人性化,也是提高用户体验的一种方式。同时,在自定义404错误页面的技术实现上,充分考虑到适用于搜索引擎,尽量不要增加额外的负担,这是提供网站搜索引擎友好性的一种体现。
先来介绍下黑色梦中处理自定义404错误页面的方式,再探求下目前主流搜索引擎在这方面的一个表现。
先来介绍下黑色梦中处理自定义404错误页面的方式,再探求下目前主流搜索引擎在这方面的一个表现。
刘建国:那五年百度在做什么
[
2006/11/18 22:59 | by 黑色梦中 ]
2006/11/18 22:59 | by 黑色梦中 ]
首席技术官对刘建国的报道:这位与李彦宏一起创立百度的“技术新官僚”,对搜索引擎技术运用的思考,在一定程度上体现了这个新上市公司的商业方向及这个团队的技术想象力。
采访中,刘建国不断接到要求解封的“作弊网站”的电话,大多是熟人才会直接将电话打到他这里,或是打给李彦宏。采访由此而展开。
采访中,刘建国不断接到要求解封的“作弊网站”的电话,大多是熟人才会直接将电话打到他这里,或是打给李彦宏。采访由此而展开。
TrackBack群发盯上了黑色梦中的SEO博客
[
2006/11/18 17:21 | by 黑色梦中 ]
2006/11/18 17:21 | by 黑色梦中 ]
俺的SEO博客自从6月份开办以来,没少出过事情,真可谓经历了风风雨雨,服务器搬家、被无聊人士攻击,前段时间为了解决无法登陆的问题,连续忙了2天装BLOG系统、恢复数据库,害怕丢数据,加上自身技术也不是很强,来来回回折腾,没少让偶费心,最后总算数据恢复的还比较完整,心理舒坦好多。
一般每天都会过来转转,看看有没有留言,有的话特别是求助的问题就及时回复,有时间就写写作为挨踢人士的工作、生活、SEO、个人研究的项目等,此外,它还肩负着SEO试验的重任。
一直以来,我都有点疑惑:网上很多朋友转载我的文章,但却没一个人TrackBack???这是为何?不可能这么多人都像我一样压根不明白TrackBack的原理吧或者很少使用。
不过,TrackBack在SEO领域的使用我却见识过,在拜读其他高人的博客中,经常会看到,TB中留下了网站链接。现在群发TrackBack也已经成为SEO SPAM的一种策略,甚至相应的工具已经被一些人掌握并在使用中。
一般每天都会过来转转,看看有没有留言,有的话特别是求助的问题就及时回复,有时间就写写作为挨踢人士的工作、生活、SEO、个人研究的项目等,此外,它还肩负着SEO试验的重任。
一直以来,我都有点疑惑:网上很多朋友转载我的文章,但却没一个人TrackBack???这是为何?不可能这么多人都像我一样压根不明白TrackBack的原理吧或者很少使用。
不过,TrackBack在SEO领域的使用我却见识过,在拜读其他高人的博客中,经常会看到,TB中留下了网站链接。现在群发TrackBack也已经成为SEO SPAM的一种策略,甚至相应的工具已经被一些人掌握并在使用中。
404错误的处理方式及对SEO的影响(更新)
[
2006/11/17 20:08 | by 黑色梦中 ]
2006/11/17 20:08 | by 黑色梦中 ]
在“通过HTTP状态码查看搜索引擎蜘蛛如何爬行你的网站”一文中,我介绍了一些经常涉及到的HTTP状态码及含义,譬如大家经常探讨并且与本文相关的Http状态码:
404:服务器找不到指定的资源,请求的网页不存在(譬如浏览器请求的网页被删除或者移位,但不排除日后该链接有效的可能性);
410:请求的网页不存在(注意:410表示永久性,而404表示临时性);
200:服务器成功返回请求的网页;
301:网址永久性重定向
302:网址临时性重定向
注意:大部分搜索引擎将“404”与“410”状态同等对待,如Google。(参见Matt Cutts的说明)
404:服务器找不到指定的资源,请求的网页不存在(譬如浏览器请求的网页被删除或者移位,但不排除日后该链接有效的可能性);
410:请求的网页不存在(注意:410表示永久性,而404表示临时性);
200:服务器成功返回请求的网页;
301:网址永久性重定向
302:网址临时性重定向
注意:大部分搜索引擎将“404”与“410”状态同等对待,如Google。(参见Matt Cutts的说明)
SNS网站的几种商业模式
[
2006/11/15 10:13 | by 黑色梦中 ]
2006/11/15 10:13 | by 黑色梦中 ]
“网络社交”(social networking)的产生和应用是建立在1967年美国社会心理学家米尔格伦提出的“六度分割理论(Six Degrees of Separation)基础上。简单地说,”六度分离“理论认为在人际脉络中,要结识任何一位陌生的朋友,这中间最多只要通过五个朋友就能达到目的。通过6个人你就可以找到克林顿或拉登。
SNS大致划分为三大类:第一类是综合交友类型,以某种共同爱好、共同话题为核心,建立一般意义上的朋友关系。第二类是婚恋类型,这些网站目标用户大多是白领阶层。第三类是商务类型的SNS,这一类型主要面向企业商务应用收费和多样线下商业活动收费。
SNS大致划分为三大类:第一类是综合交友类型,以某种共同爱好、共同话题为核心,建立一般意义上的朋友关系。第二类是婚恋类型,这些网站目标用户大多是白领阶层。第三类是商务类型的SNS,这一类型主要面向企业商务应用收费和多样线下商业活动收费。
Google产品经理:网站地图对优化搜索非常重要
[
2006/11/13 17:37 | by 黑色梦中 ]
2006/11/13 17:37 | by 黑色梦中 ]
在搜索引擎战略大会的第二天上午,Google公司总部负责研发的李文飚(音)先生作了一场关于Google Sitemap的专题讲座。
他在演讲中称在互联网的今天,一个网站的成功与否很大程序取决于他是不是跟搜索引擎有一个很好的配合,所谓的网站可搜索性,其实有两个方面,一个方面就说他的相关性或者搜索结果的排序,另外一方面也是很重要,就是你的网页的覆盖率,Google专门设计一个产品Google Sitemap是专门来帮助提高网页的覆盖率,然后他并详细讲述了Google Sitemap的功能使用。以下是他的精彩发言的全文实录。
他在演讲中称在互联网的今天,一个网站的成功与否很大程序取决于他是不是跟搜索引擎有一个很好的配合,所谓的网站可搜索性,其实有两个方面,一个方面就说他的相关性或者搜索结果的排序,另外一方面也是很重要,就是你的网页的覆盖率,Google专门设计一个产品Google Sitemap是专门来帮助提高网页的覆盖率,然后他并详细讲述了Google Sitemap的功能使用。以下是他的精彩发言的全文实录。
Yahoo支持在网站robots.txt文件内使用通配符
[
2006/11/04 01:52 | by 黑色梦中 ]
2006/11/04 01:52 | by 黑色梦中 ]
黑色梦中曾经在"搜索引擎蜘蛛及Robots详解"文章中讲解了几大主流搜索引擎的蜘蛛、Robots.txt文件以及RobotMeta标签的使用。我们知道:robots.txt 是一个标准文本文件档,意在阻止搜索引擎的Spider(或robots)从 Web 服务器下载某些或全部信息,控制Spider的搜索范围。引导搜索引擎只爬行网站重要的信息是非常必要的,而跳过隐私内容或者特殊程序,这样可以节省大量的带宽。
不过,在标准的robots.txt语法中,只可在 User-agent 项中使用通配符,即使用“*”来代表所有搜索引擎的robots,而在 Disallow 项中,则不能使用通配符以灵活配置robots.txt。
不过,在标准的robots.txt语法中,只可在 User-agent 项中使用通配符,即使用“*”来代表所有搜索引擎的robots,而在 Disallow 项中,则不能使用通配符以灵活配置robots.txt。
SEO应用的九个层次
[
2006/11/03 12:40 | by 黑色梦中 ]
2006/11/03 12:40 | by 黑色梦中 ]
SEO融入网页布局设计案例分析
[
2006/11/01 19:47 | by 黑色梦中 ]
2006/11/01 19:47 | by 黑色梦中 ]
从搜索引擎的角度来看,用一些基本的HTML代码实现网页设计对搜索引擎会更具有友好性。
假设你的网站有如下2个选择:
1。The Left Section:通常包含 导航信息、广告、推荐等等
2。The Main Content Area:网站主题内容
假设你的网站有如下2个选择:
1。The Left Section:通常包含 导航信息、广告、推荐等等
2。The Main Content Area:网站主题内容
随意上传电影音乐将受罚 网络侵权盗版打击加严
[
2006/11/01 10:28 | by 黑色梦中 ]
2006/11/01 10:28 | by 黑色梦中 ]
未经授权,随意在网络上传播电影、音乐、软件、教科书等,将被按照侵权盗版严厉查处。昨天,国家版权局启动打击网络侵权盗版专项行动,在被划定的19个重点打击地区中,北京名列首位。
此次打击网络侵权盗版专项行动由国家版权局、商务部、信息产业部等部门共同开展,确定的重点地区包括北京、上海、浙江等19个省市和地区,其中北京因网络侵权最严重名列首位。行动将对从事侵权盗版活动的“三无”网站,通过通信管理部门一律将其关闭;对于情节严重的按大案要案查处;打击通过互联网非法传播音乐、电影、软件、教科书等作品的侵权行为;加大对私服、外挂的打击力度;对故意避开或破坏技术保护措施的行为,故意删除或改变权利管理电子信息的行为,以及生产、销售专门用于规避、破坏他人技术保护措施的工具、设备的行为,将予以严厉查处。
此次打击网络侵权盗版专项行动由国家版权局、商务部、信息产业部等部门共同开展,确定的重点地区包括北京、上海、浙江等19个省市和地区,其中北京因网络侵权最严重名列首位。行动将对从事侵权盗版活动的“三无”网站,通过通信管理部门一律将其关闭;对于情节严重的按大案要案查处;打击通过互联网非法传播音乐、电影、软件、教科书等作品的侵权行为;加大对私服、外挂的打击力度;对故意避开或破坏技术保护措施的行为,故意删除或改变权利管理电子信息的行为,以及生产、销售专门用于规避、破坏他人技术保护措施的工具、设备的行为,将予以严厉查处。
关键词"SEO博客"的LocalRank试验总结
[
2006/10/31 19:13 | by 黑色梦中 ]
2006/10/31 19:13 | by 黑色梦中 ]
10月10日,我写一篇介绍Google LocalRank的文章“Google另一项链接分析专利LocalRank“,在文章结尾处,我提出要做一个试验项目,针对关键词”SEO博客“,来观察下LocalRank对关键词排名的影响。
在文章写作时,我这个SEO博客在Google的搜索结果页面中排在13位,当时的URL是:http://www.bloghuman.com/tag?tag=博客。第1位是9lolo.com,第2位是seoblog.com.cn,URL均为顶级域名。下面,说一说在整个过程中出现的现象:
在文章写作时,我这个SEO博客在Google的搜索结果页面中排在13位,当时的URL是:http://www.bloghuman.com/tag?tag=博客。第1位是9lolo.com,第2位是seoblog.com.cn,URL均为顶级域名。下面,说一说在整个过程中出现的现象:
如何精确查询网站的反向链接数量
[
2006/10/30 18:39 | by 黑色梦中 ]
2006/10/30 18:39 | by 黑色梦中 ]
反向链接又被称为链接广泛度,说白了就是网络中其他站点对自身站点投的支持票;反向链接数量越多,越说明站点具备很高的价值,越应该受到搜索引擎及用户的重视。各大搜索引擎的排名算法中早已将反向链接数量计算其中,并将反向链接绝对数量作为一个重要的参考数值。
反向链接作为三大SEO策略之一,其重要性不言而喻,同时,建立丰富的反向链接也是SEO工作的重要组成部分,获取反向链接有很多方法,比如:链接诱饵、友情链接、网络广告、站点合作等等,大家可以参看文章“建立反向链接的一性原则”。
掌握反向链接可以使我们对SEO外部链接策略有一个整体的把握,并可作为排名优化的研究点,最重要的是总结并创新出更多更好的链接策略。
下面介绍下如何使用搜索引擎提供的高级命令查询网站的反相链接数量:
反向链接作为三大SEO策略之一,其重要性不言而喻,同时,建立丰富的反向链接也是SEO工作的重要组成部分,获取反向链接有很多方法,比如:链接诱饵、友情链接、网络广告、站点合作等等,大家可以参看文章“建立反向链接的一性原则”。
掌握反向链接可以使我们对SEO外部链接策略有一个整体的把握,并可作为排名优化的研究点,最重要的是总结并创新出更多更好的链接策略。
下面介绍下如何使用搜索引擎提供的高级命令查询网站的反相链接数量:
以下提供给大家的是PHP版的捕捉搜索引擎蜘蛛爬行的代码。我们可以通过生成的文本文件查看每天都有哪几种搜索引擎蜘蛛爬行站点以及爬行频率,便于大家了解蜘蛛动向。
但是,从SEO工具需求角度来说,这段代码实现的功能还是很有局限性,从我个人需求而言,我希望能体现更多的信息,比如:蜘蛛爬行的页面URL、返回的状态码、每日爬行持续多长时间等等,甚至可以汇总于数据库中便于随时查询。因此,强烈呼吁编程高手开发数据库版的捕捉蜘蛛的程序。
但是,从SEO工具需求角度来说,这段代码实现的功能还是很有局限性,从我个人需求而言,我希望能体现更多的信息,比如:蜘蛛爬行的页面URL、返回的状态码、每日爬行持续多长时间等等,甚至可以汇总于数据库中便于随时查询。因此,强烈呼吁编程高手开发数据库版的捕捉蜘蛛的程序。
Google排名下降30位惩罚
[
2006/10/26 12:43 | by 黑色梦中 ]
2006/10/26 12:43 | by 黑色梦中 ]
排名下降30位惩罚(minus thirty penalty)是个新名词,这个概念来自前几天在站长世界热烈讨论的一个帖子。
楼主发现他的一个网站很长时间排名第一,不过近几天排名降到31,整整下降30位,并且排名稳稳的就停在那里了。
不少跟帖的人也发现类似的问题,都是原来排名第一的,下降整整30位。
这个惩罚不是线性的,如果原来排名在第二的,可能下降的就是50位60位了。
楼主发现他的一个网站很长时间排名第一,不过近几天排名降到31,整整下降30位,并且排名稳稳的就停在那里了。
不少跟帖的人也发现类似的问题,都是原来排名第一的,下降整整30位。
这个惩罚不是线性的,如果原来排名在第二的,可能下降的就是50位60位了。
昌平之行应该是10月12日,今天才抽出时间来写写感受。
也许是做不完的事情在捆饶我的生活,也许我应该改变一下思路重新认识,也许在SEO之外同样有着无边的乐趣,开始探索与发现。
SEO工作真的很考验一个人的耐心,时而琐碎、时而完整,时而苦恼、时而兴奋,喜怒唉乐交织与此,SEO工作要求细致到位,时时刻刻不再想收录的增长、蜘蛛的爬行、关键词的排名
不谈工作了,尝试一次这个完全没有SEO、没有博客、没有网站的日子。
也许是做不完的事情在捆饶我的生活,也许我应该改变一下思路重新认识,也许在SEO之外同样有着无边的乐趣,开始探索与发现。SEO工作真的很考验一个人的耐心,时而琐碎、时而完整,时而苦恼、时而兴奋,喜怒唉乐交织与此,SEO工作要求细致到位,时时刻刻不再想收录的增长、蜘蛛的爬行、关键词的排名

不谈工作了,尝试一次这个完全没有SEO、没有博客、没有网站的日子。





