Google搜索引擎从功能上同样分为三大部分:网页爬行、标引入库和用户查询。网页爬行主要负责网页的抓取,由URL服务器、爬行器、存储器、分析器和URL解析器组成, 爬行器是该部分的核心;标引入库主要负责对网页内容进行分析,对文档进行标引并存储到数据库里,由标引器和分类器组成,该模块涉及许多文件和数据,有关于桶的操作是该部分的核心;用户查询主要负责分析用户输入的检索表达式,匹配相关文档,把检索结果返回给用户,由查询器和网页级别评定器组成,其中网页等级的计算是该部分的核心。
搜索引擎的主要工作流程是:首先从蜘蛛开始,蜘蛛程序每隔一定的时间,自动启动并读取网页URL服务器上的URL列表,按深度优先或广度优先算法,抓取各URL所指定的网站,将抓取的网页分配一个唯一文档ID(DocId),存入文档数据库。一般在存入文档数据库之前进行一定的压缩处理。并将当前页上的所的超连接存入到URL服务器中。在进行抓取的同时,切词器和索引器将已经抓取的网页文档进行切词处理,并按词在网页中出现的位置和频率计算权值,然后将切词结果存入索引数据库。整个抓取工作和索引工作完成后更新整个索引数据库和文档数据库,这样用户就可以查询最新的网页信息。查询器首先对用户输入的信息进行切词处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序并进行集合运算,最后从文档数据库中提取各网页的摘要信息反馈给查询用户。
相关日志
《Google官方SEO入门指南》十四: 对网站管理员有用的资源(完)
《Google官方SEO入门指南》十三:充分利用网站分析工具
《Google官方SEO入门指南》十二:充分利用免费的网站管理员工具
《Google官方SEO入门指南》十一:以恰当的方式推广你的网站
《Google官方SEO入门指南》十:为链接添加nofollow属性
《Google官方SEO入门指南》九:有效使用robots.txt
《Google官方SEO入门指南》八:网页图片优化
《Google官方SEO入门指南》七:合理应用heading标签
《Google官方SEO入门指南》六:链接锚文本
《Google官方SEO入门指南》五:提供优质的内容和服务
《Google官方SEO入门指南》十四: 对网站管理员有用的资源(完)
《Google官方SEO入门指南》十三:充分利用网站分析工具
《Google官方SEO入门指南》十二:充分利用免费的网站管理员工具
《Google官方SEO入门指南》十一:以恰当的方式推广你的网站
《Google官方SEO入门指南》十:为链接添加nofollow属性
《Google官方SEO入门指南》九:有效使用robots.txt
《Google官方SEO入门指南》八:网页图片优化
《Google官方SEO入门指南》七:合理应用heading标签
《Google官方SEO入门指南》六:链接锚文本
《Google官方SEO入门指南》五:提供优质的内容和服务
最后编辑: 黑色梦中 编辑于2008/02/19 16:48
中文搜索引擎技术揭密:中文分词
Google亲自教授SEO课程
2006/09/04 02:52 | by






















