zoukankan      html  css  js  c++  java
  • 倒排索引

    为什么我们要说倒排索引呢?
    因为倒排索引是目前 搜索引擎公司最对搜索引擎最常用的存储方式.也是搜索引擎的核心内容!
    在搜索引擎实际的引用之中,有时需要按照关键字的某些值查找记录,所以我们是按照关键字建立索引,这个索引我们就称之为: 倒排索引, 而带有倒排索引的文件我们又称作: 倒排索引文件 也可以叫它为: 倒排文件 来实现快速的检索与高速的效率!

    那我想问下 什么是倒排表呢?
    倒排文件中的 次关键字索引 我们称做: 倒排表
    其主要优点是: 在处理复杂的多关键字查询时,可在倒排表中先完成查询的交、并等逻辑运算,得到结果后再对记录进行存取。这样不必对每个记录随机存取,把对记录的查询转换为地址集合的运算,从而提高查找速度!



    下面就是整个倒排表的建立过程(组图):

    数据表


    索引表

    右项归并后的索引表

    那我最后问下 我们因该怎样建立倒排索引呢?
    关于建立倒排索引其实就象我们写一本小说一样 目录是章节标题对应的页码 对全文搜索来讲 倒排索引就是词对应文档编号!
    下面我们举个例子:
    案例1:
    普通文档存在形式:(从文件到关键字的搜索)
    PPT (从头看起.....)==> keywords1,keywords2,keywords3,keywords4,keywords5,.............
    案例2:
    倒排索引翻转后的结果显示:(从关键字到文件的搜索)
    keywords1,keywords2,keywords3,keywords4,keywords5,............. (直接找关键字 然后在找内容页)==> PPT


  • 相关阅读:
    [bzoj1500][luogu2042][cogs339][codevs1758]维修数列(维护数列)
    无旋treap的简单思想以及模板
    [hdu2036]改革春风吹满地
    (treap)[bzoj3224][洛谷3369][cogs1829]Tyvj 1728 普通平衡树
    [bzoj3875][Ahoi2014]骑士游戏
    [bzoj1433][ZJOI2009]假期的宿舍
    <struct、union、enum>差异
    LeetCode(50) Pow(x,n)
    LeetCode(49)Group Anagrams
    LeetCode(48)Rotate Image
  • 原文地址:https://www.cnblogs.com/baoendemao/p/3804694.html
Copyright © 2011-2022 走看看