词汇加速的密集检索

SIGIRJul, 2023

Lexically-Accelerated Dense Retrieval

Hrishikesh Kulkarni, Sean MacAvaney, Nazli Goharian, Ophir Frieder

TL;DRLADR 是一种简单而有效的方法，通过利用词法检索技术来提高现有的密集检索模型的效率，同时不影响检索效果，建立了一种新的近似 k 最近邻技术的密集检索效率 - 效果 Pareto 边界。

Abstract

Retrieval approaches that score documents based on learned dense vectors (i.e., dense retrieval) rather than lexical signals (i.e., conventional retrieval) are increasingly popular. Their ability to identify rela

dense retrieval lexical signals retrieval efficiency approximate k nearest neighbor techniques ladr

发现论文，激发创造

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020

LADER: 生物医学文献检索的对数增强稠密检索

LADER 是一种简单的插件模块，可将稠密检索器与类似训练查询的点击日志相结合，从而实现生物医学文献检索的最新技术表现。

Apr, 2023

面向大规模检索的词库增强密集检索器 (LED)

本研究提出一种基于知识蒸馏的方法，将富有知识的词典嵌入模型对齐到密集检索模型中，从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性，并且与标准排名器蒸馏相结合可以进一步提高检索效果。

Aug, 2022

是否已经到达目的地？一种替换基于词项检索的密集检索系统的决策框架

本论文提出具有一套标准的框架来比较两种检索系统，该框架以除了简单效果措施之外的标准来衡量，旨在评估一个系统取代另一个系统的准备情况。在 Web 排名方案中，最先进的 DR 模型不仅在平均性能方面表现出色，而且通过广泛的保护装置测试，在不同的查询特征，词汇匹配，一般化和回归数量方面展现了稳健性。

Jun, 2022

LaPraDoR：无监督的预训练密集型检索器用于零样例文本检索

本文提出了 LaPraDoR，这是一种经过预训练的双塔密集检索器，不需要任何监督数据进行训练。我们使用迭代对比学习 (ICoL) 以及词库增强的密集检索 (LEDR) 提高检索准确性，并且在 BEIR 基准测试中取得了最新的最优表现。

Mar, 2022

生成式密集检索：内存可能成为负担

提出了生成检索（GR）和生成稠密检索（GDR）两种机制，通过克服记忆机制的精度、记忆混淆和记忆更新成本等问题，在小规模语料库中实现了较好的检索性能和可扩展性。

Jan, 2024

基于已学稀疏检索的长文档适应性

本研究探讨了通过使用近似评分适应长文档的已有聚合方法、并给出了将顺序依赖模型（SDM）应用于学习到的稀疏检索（LSR）的两种改进方法：ExactSDM 和 SoftSDM。结果表明，这些改进方法优于现有的 LSR 聚合方法，并且 SoftSDM 对 ExactSDM 并没有提供任何性能优势。这表明，软接近匹配在 LSR 中不是建模词语依赖性的必要条件。

May, 2023

使用插值和扰动增强密集检索中的文档表示

提出一种 DAR 方案，通过对文档的内插和扰动来增强文档表示，实现无监督学习的稠密检索，显著优于相关基线。

Mar, 2022

深度检索：学习大规模推荐系统的可检索结构

本文中介绍了 Deep Retrieval (DR) 算法，通过学习可检索结构来获取最优推荐结果，其编码所有候选项入离散潜在空间，接着使用当前模型下的光束搜索来检索前置候选项，以实现重新排名。实验证明，使用 DR 算法，在两个公共数据集上能够实现近乎于暴力基线的准确性，并且在实时生产推荐系统上，高度优化的 DR 算法显著优于 ANN 基准线。DR 是非 ANN 的推荐算法在工业推荐系统规模的首批成功部署之一。

Jul, 2020

开放领域问答的低资源稠密检索：一份综合调查报告

本文探讨了基于预训练语言模型的致密检索方法，并提供了在低资源情境下实现致密检索的主流技术概览，根据技术需要的资源将其分为文档、文档和问题，以及文档和问题答案对三个类别，并对每个技术的算法、开放问题和优缺点进行了介绍和总结，最后提出了未来研究的方向。

Aug, 2022