适用于内存高效密集检索的领域适应

May, 2022

适用于内存高效密集检索的领域适应

Domain Adaptation for Memory-Efficient Dense Retrieval

Nandan Thakur, Nils Reimers, Jimmy Lin

TL;DR本文探讨了二进制文档向量的性能及传统压缩技术的局限性，并提出了一个基于 GPL 的领域自适应策略，可在不需要标注训练数据的情况下，将 BPR 和 JPQ 调整适应任何语料库，提高了 nDCG@10 平均 11.6 - 19.3 分，并且仍保持了 32 倍的内存效率。

Abstract

dense retrievers encode documents into fixed dimensional embeddings. However, storing all the document embeddings within an index produces bulky indexes which are expensive to serve. Recently, BPR (Yamada et al., 2021) and JPQ (Zhan et al., 2021a) have been proposed which train the mod

dense retrievers binary embedding models domain adaptation gpl beir benchmark

发现论文，激发创造

共同优化查询编码器和产品量化来提高检索性能

本文介绍了一种名为 JPQ 的联合优化方法，该方法结合了查询编码和 Product Quantization，以实现高效的 Dense Retrieval，并在两个公开的评估基准测评中获得了显着的性能提升。

Aug, 2021

使用哈希的高效开放域问答过程检索

本篇论文介绍一种名为 Binary Passage Retriever (BPR) 的神经检索模型，它将学习哈希技术集成到 Dense Passage Retriever (DPR) 中，以紧凑的二进制代码表示待检索文本，从而大幅降低了内存成本，同时保证了一致的精度，这适用于开放领域的问答。

Jun, 2021

腾讯的基于二进制编码的检索

提出了一种基于二进制嵌入的检索引擎，利用轻量级的转换模型和残差多层感知器 (MLP) 块将完整精度的查询和文档嵌入压缩成多个二进制向量的组合，并使用嵌入到嵌入的策略来实现无需任务的高效训练。对离线基准和在线 A/B 测试进行了广泛的实验，证明了该方法的效率和有效性，在几乎不损失系统准确性的情况下，显著节省了 30%~50% 的索引成本。

Feb, 2023

面向可扩展嵌入式检索的逐步优化的双粒度文档表示

通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术，采用基于深度学习的文档表示和 ANN 搜索技术，设计 Progressive Optimization 框架，实现了大规模的 EB 检索，并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率，同时在一个搜索平台上实现了较大的回报、回忆和 CTR 这些度量方面的提升。

Jan, 2022

稠密通道检索器的复制研究

本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型（DPR）进行了复制研究，其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术，使用与原论文相同的模型获得更好的端到端问题答案准确性。

Apr, 2021

GPL: 密集检索的生成伪标签用于无监督域适应

该研究论文提出了一种新的无监督领域适应方法 Generative Pseudo Labeling，该方法结合查询生成器和交叉编码器的伪标记，证明该方法可以在数据集较小的目标领域中进行更加鲁棒的训练，并且在检索任务上比最先进的密集检索方法提高了近 9.3 个百分点的 nDCG@10 指标。

Dec, 2021

基于产品量化嵌入索引的深度检索模型联合学习

本文提出了一种称为 Poeem 的新方法，它采用了产品量化嵌入索引与深度检索模型联合训练的方法，将嵌入学习和索引构建两个步骤统一起来，从而提高了检索准确率，减少了索引时间，并公开了我们的方法以便于比较和重现。

May, 2021

域和相关性分离建模用于可适应的密集检索

提出一种名为 Disentangled Dense Retrieval（DDR）的新型 Dense Retrieval 框架来支持 DR 模型的有效和灵活的领域自适应，该框架包括一个 Relevance Estimation Module（REM）和几个 Domain Adaption Modules（DAMs），通过使 REM 和 DAMs 分离，DDR 实现了一种灵活的训练范式，在不同的领域和语言中都表现出比强大的 DR 基线更好的排名性能。

Aug, 2022

冻结的预训练语言模型可用于实体中心问题的零 - shot 神经检索吗？

本文提出了一种基于预训练语言模型的检索方法，通过利用领域中已有的实体信息来实现领域内检索。实验结果表明，在如 Wikipedia 等领域中，本文提出的检索方法在实体相关问题上的效果要优于传统的 DPR 方法，并且可以在不进行微调的情况下有效利用预训练语言模型的知识资源，从而在实体名称包含常用词的情况下表现出比 BM25 更好的性能。

Mar, 2023

面向开放域问答的渐进式预训练稠密语料库索引

本研究提出了一种简单且资源有效的方法，利用现有的预训练序列到序列模型来建立强大的问题生成器，并通过渐进式预训练算法确保每个批次有效的负样本存在，以预训练段落编码器。通过三个数据集的实验，本方法在使用 7 倍的计算资源进行预训练的现有浓缩检索方法方面取得了更好的效果。

Apr, 2020