重访用于亿级近似最近邻的倒排索引

ECCVFeb, 2018

重访用于亿级近似最近邻的倒排索引

Revisiting the Inverted Indices for Billion-Scale Approximate Nearest Neighbors

Dmitry Baranchuk, Artem Babenko, Yury Malkov

TL;DR本文提出一种新的基于倒排索引的检索系统，相比于现有的基于多重索引的系统，在相同内存消耗和构建复杂度下，在十亿级深度描述符数据集上，取得了数倍于现有最先进方法的检索性能。

Abstract

This work addresses the problem of billion-scale nearest neighbor search. The state-of-the-art retrieval systems for billion-scale databases are currently based on the inverted multi-index, the recently proposed

nearest neighbor search inverted index multi-index deep descriptors sift descriptors

发现论文，激发创造

可重构倒排索引

本文提出了一种可重构倒排索引（Rii）以解决近似最近邻搜索系统的两个重要问题：运行子集搜索困难和新项目增加后性能下降。基于标准 IVFADC 系统，Rii 设计了一种数据布局方法，使得项目被线性存储。由于线性布局，数据结构可以动态调整，维护系统的高速度。大量比较表明，Rii 与 Faiss 等最先进的系统相比具有可比较的性能。

Aug, 2018

装箱和补齐：用于准确图像检索的耦合多索引方法

该论文提出了一种耦合多索引 (c-MI) 框架，借助局部颜色特征融合 SIFT 特征，增强了图像检索的准确性和召回率。实验证明 c-MI 基于 Bag-of-Words 的图像检索方法，可显著提高检索精度，且比基线方法运行更快且兼容先前技术。

Feb, 2014

在十亿个向量中搜索：用源编码重新排序

本文提出了一种在高维向量的压缩域内重新排列邻居猜想的方法，通过短量化码优化估算距离，以避免从磁盘中读取完整向量，实验证明该方法准确高效且占用较少内存。

Feb, 2011

基于图形和紧凑回归码的快速索引

本文提出了一种基于图遍历和压缩表征的方法，该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时，在 64-128 字节每向量的操作点上，优于现有技术在二十亿规模公共基准测试中的表现。

Apr, 2018

双相增强 IVFPQ 用于时间高效的 Ad-hoc 检索

提出一种新的双相 IVFPQ 框架，结合了两种类型特征：潜在主题和显式术语，通过从深层语义模型中提炼知识来学习文档对不同 IVF 条目的成员资格，从而显著提高索引质量和检索准确性。

Oct, 2022

基于动态连续索引的快速 K 最近邻搜索

提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题，并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法（LSH）

Dec, 2015

基于频繁二进制模式的隐私保护多生物特征索引

提出了一种高效的隐私保护多生物特征识别系统，通过利用来自不同类型生物特征的频繁二进制模式中包含的低类内变异属性，设计了一种多生物特征分箱方案，实验结果表明，该多生物特征识别系统可以将计算工作量降低约 57%（索引最多三种生物特征类型）和 53%（索引最多两种生物特征类型），同时提高了基准生物特征系统在高安全阈值下的生物特征性能。

Oct, 2023

大规模索引的密集低维信息检索的诅咒

本研究旨在探究在大规模数据索引时使用密集低维表示与传统稀疏表示（如 BM25）相比的效能，研究发现在连续增加索引大小时，密集表示的性能下降速度比稀疏表示快，甚至可能出现稀疏表示优于密集表示的拐点，而这一现象与表示的维度数量有密切关系，维度越低，误判（即返回不相关文件的可能性）越高。

Dec, 2020

提升双层产品量化在高维度亿级近似最近邻搜索中的效率

本研究针对高维数据，提出了两种基于产品量化方法的最近邻搜索系统，并通过实验证明这些系统在检索效率与精度方面优于现有的系统。

Apr, 2014

从蒸馏到硬负采样：使稀疏神经 IR 模型更加有效

本文研究基于稀疏表达的 SPLADE 检索器的训练提升方法，结合蒸馏、硬负例挖掘以及预训练语言模型初始化，证明其在效率和效果方面同样具有优势，能够在领域内和零样本情况下实现最先进的结果。

May, 2022