通过桥接训练-推理差距实现密集短语检索

Oct, 2022

通过桥接训练-推理差距实现密集短语检索

Bridging the Training-Inference Gap for Dense Phrase Retrieval

Gyuwan Kim, Jinhyuk Lee, Barlas Oguz, Wenhan Xiong, Yizhe Zhang...

TL;DR本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能，在密集短语检索中取得了2~3个关键短语检索准确度和2~4个段落检索准确度的提升。

Abstract

Building dense retrievers requires a series of standard procedures, including training and validating neural models and creating indexes for efficient search. However, these procedures are often misaligned in that train

发现论文，激发创造

大规模学习短语的密集表示

该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示，并使用负采样方法提高性能，能够取代当前依赖于稀疏表示的短语检索模型，实现更好的开放域问答准确性并被用作密集知识库。

Dec, 2020

面向语料库的无监督语言模型预训练用于密集文本检索

本文提出了coCondenser方法，将Condenser预训练架构与无监督语料级对比损失相结合，减轻了密集检索器对大规模训练数据和数据工程的依赖，并通过实验表明，该方法具有与RocketQA相当的性能。

Aug, 2021

短语检索也学会了段落检索

通过研究密集短语检索系统，探讨短语检索是否可以作为粗粒度检索（如段落和文档）的基础，并提出了短语过滤和矢量量化等方法，可以将检索索引的大小减小至原来的 4-10 倍，从而使得密集短语检索成为多粒度检索的实用解决方案。

Sep, 2021

突出短语感知的密集检索：密集检索器是否能模仿稀疏检索器？

介绍了一种称为Salient Phrase Aware Retriever (SPAR)的密集型检索器，在保留稀疏模型的词法匹配能力的同时，通过加入类似于稀疏模型的词汇模型Lambda来提高其检索性能。SPAR在多个任务上表现出卓越性能，包括问答数据集，MS MARCO段落检索以及EntityQuestions和BEIR评估。

Oct, 2021

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

面向大规模检索的词库增强密集检索器(LED)

本研究提出一种基于知识蒸馏的方法，将富有知识的词典嵌入模型对齐到密集检索模型中，从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性，并且与标准排名器蒸馏相结合可以进一步提高检索效果。

Aug, 2022

密集稀疏检索：使用稀疏语言模型进行推理高效密集检索

研究使用稀疏语言模型替代矢量检索系统来提高推理效率，实验结果表明使用MSMARCO数据集，精确度几乎没下降，推理速度最多提高了4.3倍。

Mar, 2023

CONVERSER：基于合成数据生成的小样本对话稠密检索

使用CONVERSER框架，在最多6个领域对话示例的情况下，利用大规模语言模型的上下文学习能力为基于对话的密集重排进行训练，实验结果表明所提出的框架在少样本对话密集重排中取得了可比较的性能。

Sep, 2023

密集检索：我们应该使用什么检索粒度？

密集检索是一种获取相关背景或世界知识的开放领域自然语言处理任务的显著方法，检索单元的选择显著影响检索和下游任务的性能，与传统的段落或句子方法相比，基于命题的检索在密集检索中明显优于传统的检索方法，并通过提供与问题相关的信息来改进下游问答任务的性能。

Dec, 2023

密集检索的缩放定律

文章研究了稠密检索模型的性能是否遵循与其他神经模型相同的缩放定律，并提出使用对比对数似然作为评估指标，并通过大量实验证明，在我们设置下，稠密检索模型的性能遵循与模型大小和注释数量相关的明确的幂律缩放。此外，文章还通过流行的数据增强方法来检验缩放效果，以评估注释质量的影响，并应用缩放定律来找到在预算限制下的最佳资源分配策略，这些研究结果对于理解稠密检索模型的缩放效应并为未来的研究提供有意义的指导具有重要意义。

Mar, 2024