短语检索也学会了段落检索
该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示,并使用负采样方法提高性能,能够取代当前依赖于稀疏表示的短语检索模型,实现更好的开放域问答准确性并被用作密集知识库。
Dec, 2020
本研究对Karpukhin等人于2020年提出的基于稠密编码的全域问答模型(DPR)进行了复制研究,其中发现原作者低估了BM25基准检索的有效性。我们通过改进的答案跨度评分技术,使用与原论文相同的模型获得更好的端到端问题答案准确性。
Apr, 2021
本文提出了coCondenser方法,将Condenser预训练架构与无监督语料级对比损失相结合,减轻了密集检索器对大规模训练数据和数据工程的依赖,并通过实验表明,该方法具有与RocketQA相当的性能。
Aug, 2021
介绍了一种称为Salient Phrase Aware Retriever (SPAR)的密集型检索器,在保留稀疏模型的词法匹配能力的同时,通过加入类似于稀疏模型的词汇模型Lambda来提高其检索性能。SPAR在多个任务上表现出卓越性能,包括问答数据集,MS MARCO段落检索以及EntityQuestions和BEIR评估。
Oct, 2021
本篇论文探讨了会话式搜索中存在的检索捷径,导致模型仅依赖于模式化的历史信息进行检索,而忽略最新的问题,并提出了拉丁激烈的负面挖掘策略,以训练更加健壮的模型。经过实验证明,使用基于模型的重负面挖掘的方法有效地减缓了依赖捷径的影响,显著提高了最近的CS基准中的密集检索器的效果,尤其是在QReCC中,我们的检索器在Recall@10上的效果比以前的最先进模型高11.0。
Feb, 2022
本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能,在密集短语检索中取得了2~3个关键短语检索准确度和2~4个段落检索准确度的提升。
Oct, 2022
本文考虑如何优化基于Transformer的密集通道检索算法,具体方法包括在不同短语长度下使用DPR上下文编码器和采取置信度校准的集成预测。研究表明,该方法在Google NQ和SQuAD等标准数据集以及特定领域的数据集上,均取得了最先进的结果。
Jun, 2023
密集检索是一种获取相关背景或世界知识的开放领域自然语言处理任务的显著方法,检索单元的选择显著影响检索和下游任务的性能,与传统的段落或句子方法相比,基于命题的检索在密集检索中明显优于传统的检索方法,并通过提供与问题相关的信息来改进下游问答任务的性能。
Dec, 2023
当目标短语位于噪音上下文中时,单个密集向量不足以进行有效的短语检索;因此,我们提出了代表多个子句、连续词语片段的概念,每个片段都有自己的密集向量,并引入了一种修改后的对比损失函数用于鼓励词嵌入具备此属性,并展示了该方法在短语挖掘中的改进效果。
May, 2024