双相增强 IVFPQ 用于时间高效的 Ad-hoc 检索

Oct, 2022

双相增强 IVFPQ 用于时间高效的 Ad-hoc 检索

Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval

Peitian Zhang, Zheng Liu

TL;DR提出一种新的双相 IVFPQ 框架，结合了两种类型特征：潜在主题和显式术语，通过从深层语义模型中提炼知识来学习文档对不同 IVF 条目的成员资格，从而显著提高索引质量和检索准确性。

Abstract

ivfpq is a popular index paradigm for time-efficient ad-hoc retrieval. Instead of traversing the entire database for relevant documents, it accelerates the retrieval operation by 1) accessing a fraction of the database guided the activation of latent topics in IVF (→

ivfpq inverted file system product quantization bi-phase ivfpq deep semantic models

发现论文，激发创造

Distill-VQ：通过密集嵌入提取知识进行检索导向量化

该论文提出了一种基于知识蒸馏框架的 Distill-VQ 算法，通过将密集的嵌入作为 “教师” 来预测查询与样本文档的相关性，并将 VQ 模块作为 “学生” 学习以复现预测的相关性，得出的检索结果可以完全保留密集嵌入的检索结果，从而使未标记的数据可以给出丰富的训练信号，无需标记数据的高质量向量量化，该算法在实践中具有很强的适用性。

Apr, 2022

可重构倒排索引

本文提出了一种可重构倒排索引（Rii）以解决近似最近邻搜索系统的两个重要问题：运行子集搜索困难和新项目增加后性能下降。基于标准 IVFADC 系统，Rii 设计了一种数据布局方法，使得项目被线性存储。由于线性布局，数据结构可以动态调整，维护系统的高速度。大量比较表明，Rii 与 Faiss 等最先进的系统相比具有可比较的性能。

Aug, 2018

重访用于亿级近似最近邻的倒排索引

本文提出一种新的基于倒排索引的检索系统，相比于现有的基于多重索引的系统，在相同内存消耗和构建复杂度下，在十亿级深度描述符数据集上，取得了数倍于现有最先进方法的检索性能。

Feb, 2018

共同优化查询编码器和产品量化来提高检索性能

本文介绍了一种名为 JPQ 的联合优化方法，该方法结合了查询编码和 Product Quantization，以实现高效的 Dense Retrieval，并在两个公开的评估基准测评中获得了显着的性能提升。

Aug, 2021

VRFP：利用网络图像和快速 Fisher 向量产品进行即时视频检索

该研究提出了一种基于 Fisher Vector 的 VRFP 实时视频检索框架，利用基于 CNN 特征的单个 Fisher Vector 处理代表查询和每个数据库视频的检索 web 图像，可通过算法加速内积计算进行实时匹配，与标准表示法相比具有更好的准确性，并在自动检索方法方面优于现有技术。

Dec, 2015

多查询图像检索的 Pareto-depth

本文提出用于不同图像语义的多个查询图像的基于内容的图像检索算法，其中将 Pareto 前沿方法与有效流形排名相结合，证明该算法优于现有多个查询结果检索算法，并将该性能提高归因于 Pareto 前沿的凹性特性。

Feb, 2014

选择查询包作为信息寻求对话中的伪相关反馈

本论文提出了一种 Query-bag 基于伪相关反馈的框架（QB-PRF），通过构建与查询相关的查询包作为伪信号来指导信息检索对话，采用对比学习训练无监督方式中的同义查询选择模块（QBS），通过多维注意力计算融合同义查询的查询包融合模块（QBF），验证其在两个预训练骨干模型（BERT 和 GPT-2）上的优越性能。实验结果表明，QB-PRF 框架在两个基准数据集上的表现比强基线模型更好。

Mar, 2024

提升双层产品量化在高维度亿级近似最近邻搜索中的效率

本研究针对高维数据，提出了两种基于产品量化方法的最近邻搜索系统，并通过实验证明这些系统在检索效率与精度方面优于现有的系统。

Apr, 2014

适用于内存高效密集检索的领域适应

本文探讨了二进制文档向量的性能及传统压缩技术的局限性，并提出了一个基于 GPL 的领域自适应策略，可在不需要标注训练数据的情况下，将 BPR 和 JPQ 调整适应任何语料库，提高了 nDCG@10 平均 11.6 - 19.3 分，并且仍保持了 32 倍的内存效率。

May, 2022

基于产品量化嵌入索引的深度检索模型联合学习

本文提出了一种称为 Poeem 的新方法，它采用了产品量化嵌入索引与深度检索模型联合训练的方法，将嵌入学习和索引构建两个步骤统一起来，从而提高了检索准确率，减少了索引时间，并公开了我们的方法以便于比较和重现。

May, 2021