September 4, 2006


更多



搜索引擎系统一般由蜘蛛(也叫网页爬行器)、切词器、索引器、查询器几部分组成。蜘蛛负责网页信息的抓取工作,一般情况下切词器和索引器一起使用,它们负责将抓取的网页内容进行切词处理并自动进行标引,建立索引数据库。查询器根据用户查询条件检索索引数据库并对检索结果进行排序和集合运算,如并集、交集运算,再提取网页简单摘要信息反馈给查询用户。

Google搜索引擎从功能上同样分为三大部分:网页爬行、标引入库和用户查询。网页爬行主要负责网页的抓取,由URL服务器、爬行器、存储器、分析器和URL解析器组成, 爬行器是该部分的核心;标引入库主要负责对网页内容进行分析,对文档进行标引并存储到数据库里,由标引器和分类器组成,该模块涉及许多文件和数据,有关于桶的操作是该部分的核心;用户查询主要负责分析用户输入的检索表达式,匹配相关文档,把检索结果返回给用户,由查询器和网页级别评定器组成,其中网页等级的计算是该部分的核心。

搜索引擎的主要工作流程是:首先从蜘蛛开始,蜘蛛程序每隔一定的时间,自动启动并读取网页URL服务器上的URL列表,按深度优先或广度优先算法,抓取各URL所指定的网站,将抓取的网页分配一个唯一文档ID(DocId),存入文档数据库。一般在存入文档数据库之前进行一定的压缩处理。并将当前页上的所的超连接存入到URL服务器中。在进行抓取的同时,切词器和索引器将已经抓取的网页文档进行切词处理,并按词在网页中出现的位置和频率计算权值,然后将切词结果存入索引数据库。整个抓取工作和索引工作完成后更新整个索引数据库和文档数据库,这样用户就可以查询最新的网页信息。查询器首先对用户输入的信息进行切词处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序并进行集合运算,最后从文档数据库中提取各网页的摘要信息反馈给查询用户。
相关日志
谷歌穿越搜索-谷歌官方愚人节玩笑
谷歌穿越搜索-谷歌官方愚人节玩笑
Google将在搜索结果排名算法中考虑来自Twitter、Quora等社会化网络社区的内容
Google将在搜索结果排名算法中考虑来自Twitter、Quora等社会化网络社区的内容
桥页SEO:网站自我毁灭工具
桥页SEO:网站自我毁灭工具
《Google官方SEO入门指南》十四: 对网站管理员有用的资源(完)
《Google官方SEO入门指南》十四: 对网站管理员有用的资源(完)
《Google官方SEO入门指南》十三:充分利用网站分析工具
《Google官方SEO入门指南》十三:充分利用网站分析工具

最后编辑: 郝聪 编辑于2008/02/19 16:48
0 Comment(s)
发表评论
昵称
密码 [ 游客无需密码 ]
电邮
网址
打开HTML 打开UBB 打开表情 隐藏 记住我