搜索引擎工作原理 搜索引擎检索系统概述

来源:www.tkxgw.cn       编辑:导航
2022-07-31 15:51

前面简要介绍过了搜索引擎的索引系统,事实上在打造倒排索引的最后还需要有一个入库写库的过程,而为了提升效率这个过程还需要将全部term与偏移量保存在文件头部,并且对数据进行压缩,这涉及到的过于技术化在此就不多提了。今天简要给大伙介绍一下索引之后的检索系统。

检索系统主要包括了五个部分,如下图所示:

(1)Query串切词分词马上用户的查看词进行分词,对之后的查看做筹备,以10号线地铁问题为例,可能的分词如下(近义词问题暂时略过):

10 0x123abc

号0x13445d

线0x234d

地铁0x145cf

问题0x354df

(2)查出含每一个term的文档集合,即找出待选集合,如下:

0x123abc 1 2 3 4 7 9..

0x13445d 2 5 8 9 10 11

(3)求交,上述求交,文档2和文档9可能是大家需要找的,整个求交过程事实上关系着整个系统的性能,这里面包括了用缓存等等方法进行性能优化;

(4)各种过滤,举例可能包括过滤掉死链、重复数据、色情、垃圾结果与你懂的;

(5)最后排序,将最能满足用户需要的结果排序在最前,可能包含的有用信息如:网站的整体评价、网页水平、内容水平、资源水平、匹配程度、分散度、时效性等等,之后会详细给大伙介绍。

假如大伙对搜索引擎检索还有别的疑问,大伙可以到[学院同学汇][学习讨论]《搜索引擎检索系统概述》讨论帖中发表我们的怎么看,大家的员工会关注这里并与大伙进行探讨。

相关阅读