本文提出了一种可重构倒排索引(Rii)以解决近似最近邻搜索系统的两个重要问题:运行子集搜索困难和新项目增加后性能下降。基于标准 IVFADC 系统,Rii 设计了一种数据布局方法,使得项目被线性存储。由于线性布局,数据结构可以动态调整,维护系统的高速度。大量比较表明,Rii 与 Faiss 等最先进的系统相比具有可比较的性能。
Aug, 2018
该论文提出了一种耦合多索引 (c-MI) 框架,借助局部颜色特征融合 SIFT 特征,增强了图像检索的准确性和召回率。实验证明 c-MI 基于 Bag-of-Words 的图像检索方法,可显著提高检索精度,且比基线方法运行更快且兼容先前技术。
Feb, 2014
本文提出了一种在高维向量的压缩域内重新排列邻居猜想的方法,通过短量化码优化估算距离,以避免从磁盘中读取完整向量,实验证明该方法准确高效且占用较少内存。
Feb, 2011
本文提出了一种基于图遍历和压缩表征的方法,该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时,在 64-128 字节每向量的操作点上,优于现有技术在二十亿规模公共基准测试中的表现。
Apr, 2018
提出一种新的双相 IVFPQ 框架,结合了两种类型特征:潜在主题和显式术语,通过从深层语义模型中提炼知识来学习文档对不同 IVF 条目的成员资格,从而显著提高索引质量和检索准确性。
Oct, 2022
提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题,并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法(LSH)
Dec, 2015
提出了一种高效的隐私保护多生物特征识别系统,通过利用来自不同类型生物特征的频繁二进制模式中包含的低类内变异属性,设计了一种多生物特征分箱方案,实验结果表明,该多生物特征识别系统可以将计算工作量降低约 57%(索引最多三种生物特征类型)和 53%(索引最多两种生物特征类型),同时提高了基准生物特征系统在高安全阈值下的生物特征性能。
Oct, 2023
本研究旨在探究在大规模数据索引时使用密集低维表示与传统稀疏表示(如 BM25)相比的效能,研究发现在连续增加索引大小时,密集表示的性能下降速度比稀疏表示快,甚至可能出现稀疏表示优于密集表示的拐点,而这一现象与表示的维度数量有密切关系,维度越低,误判(即返回不相关文件的可能性)越高。
Dec, 2020
本研究针对高维数据,提出了两种基于产品量化方法的最近邻搜索系统,并通过实验证明这些系统在检索效率与精度方面优于现有的系统。
Apr, 2014
本文研究基于稀疏表达的 SPLADE 检索器的训练提升方法,结合蒸馏、硬负例挖掘以及预训练语言模型初始化,证明其在效率和效果方面同样具有优势,能够在领域内和零样本情况下实现最先进的结果。
May, 2022