更多



搜索引擎有效避免重复内容的信息片算法 晴

郝聪 , 2006/09/06 16:02 , 搜索引擎研究 , 评论(0) , 阅读(13434) , Via 本站原创 | |

     在编写网页搜索的过程中,网页臃余和内容臃余是个非常严重的问题,信息片算法就是为了解决这个问题而设计的算法。

    传统的搜索引擎对网页原代码基本上都是完全保存的,baidu,google都有他们的网页快照,而这些快照的内容就是他们的蜘蛛程序在发现连接后读取到的内容,仔细想一下我们有必要将网页全文收录吗?假设你和我一样追求最低成本,最快速度,回答便是否定的,尽管搜索的是索引文件,而非这个全文目录。首先一个网站他的网页有可能好多都是重复的,当然你非说你的网站网页完全不重复我也没意见,毕竟这只是最坏的打算,其次,网页的内容块可能存在很多重复的,比如网页的导航条,页脚的版权信息,最新文章10篇等等,假设有一种算法可以获得每张网页的新信息,抛弃臃余,这样不是很好吗?

在描述算法实现之前请思考一下问题:
  1:如何避免同一网站多个域名的问题?比如bczs.com完全抄袭csdn.net如何避免收录bczs.com的内容?
  2:还以CSDN为例,网站的每一频道都有个导航条,第2书店,人才,外包等,如何避免收录这些内容?

  好,现在搜索蜘蛛来到CSDN,抓取首页,为首页拆分信息片,注意不是全文一股脑地去除HTML标签,而是首先分成信息片,大家都知道在html中标签是成对的,这也为信息片算法提供了可能,比如当标签内的有效信息超过10字符时可以作为信息片,有效字符的判断完全取决于你的要求,比如为实现搜索,把<>算为有效信息<>片,以下是我的测试结果:

第1片:

CSDN.NET - 中国最大的开发者网络,为开发人员和相关企业提供全面的信息服务和技术服务

第2片:
这一行因为每个
  • 的内容均不满10个,所以取上级标签
  • 发表评论

    昵称

    网址

    电邮

    打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]