双相增强 IVFPQ 用于时间高效的 Ad-hoc 检索
该论文提出了一种基于知识蒸馏框架的 Distill-VQ 算法,通过将密集的嵌入作为 “教师” 来预测查询与样本文档的相关性,并将 VQ 模块作为 “学生” 学习以复现预测的相关性,得出的检索结果可以完全保留密集嵌入的检索结果,从而使未标记的数据可以给出丰富的训练信号,无需标记数据的高质量向量量化,该算法在实践中具有很强的适用性。
Apr, 2022
本文提出了一种可重构倒排索引(Rii)以解决近似最近邻搜索系统的两个重要问题:运行子集搜索困难和新项目增加后性能下降。基于标准 IVFADC 系统,Rii 设计了一种数据布局方法,使得项目被线性存储。由于线性布局,数据结构可以动态调整,维护系统的高速度。大量比较表明,Rii 与 Faiss 等最先进的系统相比具有可比较的性能。
Aug, 2018
本文提出一种新的基于倒排索引的检索系统,相比于现有的基于多重索引的系统,在相同内存消耗和构建复杂度下,在十亿级深度描述符数据集上,取得了数倍于现有最先进方法的检索性能。
Feb, 2018
本文介绍了一种名为 JPQ 的联合优化方法,该方法结合了查询编码和 Product Quantization,以实现高效的 Dense Retrieval,并在两个公开的评估基准测评中获得了显着的性能提升。
Aug, 2021
该研究提出了一种基于 Fisher Vector 的 VRFP 实时视频检索框架,利用基于 CNN 特征的单个 Fisher Vector 处理代表查询和每个数据库视频的检索 web 图像,可通过算法加速内积计算进行实时匹配,与标准表示法相比具有更好的准确性,并在自动检索方法方面优于现有技术。
Dec, 2015
本文提出用于不同图像语义的多个查询图像的基于内容的图像检索算法,其中将 Pareto 前沿方法与有效流形排名相结合,证明该算法优于现有多个查询结果检索算法,并将该性能提高归因于 Pareto 前沿的凹性特性。
Feb, 2014
本论文提出了一种 Query-bag 基于伪相关反馈的框架(QB-PRF),通过构建与查询相关的查询包作为伪信号来指导信息检索对话,采用对比学习训练无监督方式中的同义查询选择模块(QBS),通过多维注意力计算融合同义查询的查询包融合模块(QBF),验证其在两个预训练骨干模型(BERT 和 GPT-2)上的优越性能。实验结果表明,QB-PRF 框架在两个基准数据集上的表现比强基线模型更好。
Mar, 2024
本文探讨了二进制文档向量的性能及传统压缩技术的局限性,并提出了一个基于 GPL 的领域自适应策略,可在不需要标注训练数据的情况下,将 BPR 和 JPQ 调整适应任何语料库,提高了 nDCG@10 平均 11.6 - 19.3 分,并且仍保持了 32 倍的内存效率。
May, 2022
本文提出了一种称为 Poeem 的新方法,它采用了产品量化嵌入索引与深度检索模型联合训练的方法,将嵌入学习和索引构建两个步骤统一起来,从而提高了检索准确率,减少了索引时间,并公开了我们的方法以便于比较和重现。
May, 2021