适用于内存高效密集检索的领域适应
本文介绍了一种名为 JPQ 的联合优化方法,该方法结合了查询编码和 Product Quantization,以实现高效的 Dense Retrieval,并在两个公开的评估基准测评中获得了显着的性能提升。
Aug, 2021
本篇论文介绍一种名为 Binary Passage Retriever (BPR) 的神经检索模型,它将学习哈希技术集成到 Dense Passage Retriever (DPR) 中,以紧凑的二进制代码表示待检索文本,从而大幅降低了内存成本,同时保证了一致的精度,这适用于开放领域的问答。
Jun, 2021
提出了一种基于二进制嵌入的检索引擎,利用轻量级的转换模型和残差多层感知器 (MLP) 块将完整精度的查询和文档嵌入压缩成多个二进制向量的组合,并使用嵌入到嵌入的策略来实现无需任务的高效训练。对离线基准和在线 A/B 测试进行了广泛的实验,证明了该方法的效率和有效性,在几乎不损失系统准确性的情况下,显著节省了 30%~50% 的索引成本。
Feb, 2023
通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术,采用基于深度学习的文档表示和 ANN 搜索技术,设计 Progressive Optimization 框架,实现了大规模的 EB 检索,并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率,同时在一个搜索平台上实现了较大的回报、回忆和 CTR 这些度量方面的提升。
Jan, 2022
本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型(DPR)进行了复制研究,其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术,使用与原论文相同的模型获得更好的端到端问题答案准确性。
Apr, 2021
该研究论文提出了一种新的无监督领域适应方法 Generative Pseudo Labeling,该方法结合查询生成器和交叉编码器的伪标记,证明该方法可以在数据集较小的目标领域中进行更加鲁棒的训练,并且在检索任务上比最先进的密集检索方法提高了近 9.3 个百分点的 nDCG@10 指标。
Dec, 2021
本文提出了一种称为 Poeem 的新方法,它采用了产品量化嵌入索引与深度检索模型联合训练的方法,将嵌入学习和索引构建两个步骤统一起来,从而提高了检索准确率,减少了索引时间,并公开了我们的方法以便于比较和重现。
May, 2021
提出一种名为 Disentangled Dense Retrieval(DDR)的新型 Dense Retrieval 框架来支持 DR 模型的有效和灵活的领域自适应,该框架包括一个 Relevance Estimation Module(REM)和几个 Domain Adaption Modules(DAMs),通过使 REM 和 DAMs 分离,DDR 实现了一种灵活的训练范式,在不同的领域和语言中都表现出比强大的 DR 基线更好的排名性能。
Aug, 2022
本文提出了一种基于预训练语言模型的检索方法,通过利用领域中已有的实体信息来实现领域内检索。实验结果表明,在如 Wikipedia 等领域中,本文提出的检索方法在实体相关问题上的效果要优于传统的 DPR 方法,并且可以在不进行微调的情况下有效利用预训练语言模型的知识资源,从而在实体名称包含常用词的情况下表现出比 BM25 更好的性能。
Mar, 2023
本研究提出了一种简单且资源有效的方法,利用现有的预训练序列到序列模型来建立强大的问题生成器,并通过渐进式预训练算法确保每个批次有效的负样本存在,以预训练段落编码器。通过三个数据集的实验,本方法在使用 7 倍的计算资源进行预训练的现有浓缩检索方法方面取得了更好的效果。
Apr, 2020