短语检索也学会了段落检索

Sep, 2021

Phrase Retrieval Learns Passage Retrieval, Too

Jinhyuk Lee, Alexander Wettig, Danqi Chen

TL;DR通过研究密集短语检索系统，探讨短语检索是否可以作为粗粒度检索（如段落和文档）的基础，并提出了短语过滤和矢量量化等方法，可以将检索索引的大小减小至原来的 4-10 倍，从而使得密集短语检索成为多粒度检索的实用解决方案。

Abstract

dense retrieval methods have shown great promise over sparse retrieval methods in a range of NLP problems. Among them, dense phrase retrieval-the most fine-grained retrieval unit-is appealing because phrases can

发现论文，激发创造

大规模学习短语的密集表示

该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示，并使用负采样方法提高性能，能够取代当前依赖于稀疏表示的短语检索模型，实现更好的开放域问答准确性并被用作密集知识库。

Dec, 2020

稠密通道检索器的复制研究

本研究对Karpukhin等人于2020年提出的基于稠密编码的全域问答模型（DPR）进行了复制研究，其中发现原作者低估了BM25基准检索的有效性。我们通过改进的答案跨度评分技术，使用与原论文相同的模型获得更好的端到端问题答案准确性。

Apr, 2021

面向语料库的无监督语言模型预训练用于密集文本检索

本文提出了coCondenser方法，将Condenser预训练架构与无监督语料级对比损失相结合，减轻了密集检索器对大规模训练数据和数据工程的依赖，并通过实验表明，该方法具有与RocketQA相当的性能。

Aug, 2021

突出短语感知的密集检索：密集检索器是否能模仿稀疏检索器？

介绍了一种称为Salient Phrase Aware Retriever (SPAR)的密集型检索器，在保留稀疏模型的词法匹配能力的同时，通过加入类似于稀疏模型的词汇模型Lambda来提高其检索性能。SPAR在多个任务上表现出卓越性能，包括问答数据集，MS MARCO段落检索以及EntityQuestions和BEIR评估。

Oct, 2021

会话式搜索中解除密集检索器的快捷依赖

本篇论文探讨了会话式搜索中存在的检索捷径，导致模型仅依赖于模式化的历史信息进行检索，而忽略最新的问题，并提出了拉丁激烈的负面挖掘策略，以训练更加健壮的模型。经过实验证明，使用基于模型的重负面挖掘的方法有效地减缓了依赖捷径的影响，显著提高了最近的CS基准中的密集检索器的效果，尤其是在QReCC中，我们的检索器在Recall@10上的效果比以前的最先进模型高11.0。

Feb, 2022

通过桥接训练-推理差距实现密集短语检索

本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能，在密集短语检索中取得了2~3个关键短语检索准确度和2~4个段落检索准确度的提升。

Oct, 2022

置信度校准的集合稠密短语检索

本文考虑如何优化基于Transformer的密集通道检索算法，具体方法包括在不同短语长度下使用DPR上下文编码器和采取置信度校准的集成预测。研究表明，该方法在Google NQ和SQuAD等标准数据集以及特定领域的数据集上，均取得了最先进的结果。

Jun, 2023

密集检索：我们应该使用什么检索粒度？

密集检索是一种获取相关背景或世界知识的开放领域自然语言处理任务的显著方法，检索单元的选择显著影响检索和下游任务的性能，与传统的段落或句子方法相比，基于命题的检索在密集检索中明显优于传统的检索方法，并通过提供与问题相关的信息来改进下游问答任务的性能。

Dec, 2023

跨语境上下文短语检索

通过利用短语提供的细粒度信息，我们提出了密集检索的新任务形式，即跨语言上下文短语检索，通过使用上下文信息解决多义词问题，实验结果展示了我们方法的有效性。

Mar, 2024

可聚合的上下文化词向量用于有效短语挖掘

当目标短语位于噪音上下文中时，单个密集向量不足以进行有效的短语检索；因此，我们提出了代表多个子句、连续词语片段的概念，每个片段都有自己的密集向量，并引入了一种修改后的对比损失函数用于鼓励词嵌入具备此属性，并展示了该方法在短语挖掘中的改进效果。

May, 2024