搜索引擎搜索结果排名

从文档列表组中获取的每个文档都需要与查询词一起进行矢量化处理。通过计算文档向量与查询向量夹角的余弦得到向量相似度(可量化值),并根据数字的大小关系进行排序。由于搜索结果庞大,深圳SEO也认为用户很难忍受看到所有的搜索结果。一项调查显示,大多数用户在获得搜索结果页面时不会拒绝页面,而只关注搜索结果的第一页。也就是说,只需要将前n个结果加回去,称为“top-n查询”。
由于文档列表是按照PageRank排序的(参见前面的相关章节),索引系统中已经提到过(实际上,文档列表是根据PageRank和文档编号进行排序的),所以本次矢量化只提取PageRank排名靠前的一部分页面,然后进行比较与查询相似。不需要对关键字doclist的所有文档进行这样的计算,这样可以大大减少向量化和向量相似度计算的规模。
例如,一个查询词可以通过布尔模型的交集过程得到20万个包含查询词的文档。假设只需要查询排名在2596(前256位)之前的结果,因此可以从20万份文档中提取一定比例的文档。例如,取出前5000份文件。请注意,由于这200000个文档是按PageRank排序的,因此前5000个文档可以理解为200000个文档中最重要的文档。其次,通过对5000个文档进行矢量化和相似度计算,分别得到5000个文档和查询词的匹配方案。在这里我们可以称之为“matchrank”,这意味着与查询词的匹配程度。例如,使用堆排序或快速排序等经典排序算法对5000个文档的matchrank进行排序,最终选出前256个文档。这种方法检索到的文档不仅具有较高的PageRank特征,而且具有向量空间模型所要求的强相关性。
在公共中心排序算法中,堆排序具有元素移动量小、空间复杂度低、支持top-N查询等优点,因此被用于对检索结果进行排序。

搜索引擎的检索结果排序

版权声明:本文由守候(www.rc58.com.cn)发表于 2020-07-02 15:37:58 , 转载请注明,本文转载自守候网络工作室:搜索引擎搜索结果排名

在线留言

评论记录:

未查询到任何数据!