密集检索是一种获取相关背景或世界知识的开放领域自然语言处理任务的显著方法,检索单元的选择显著影响检索和下游任务的性能,与传统的段落或句子方法相比,基于命题的检索在密集检索中明显优于传统的检索方法,并通过提供与问题相关的信息来改进下游问答任务的性能。
Dec, 2023
本研究展示了如何使用密集向量表示实现开放领域的问答,通过一个简单的双编码框架,通过从一小部分问题和段落中学习嵌入来实现检索,并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法,为终端 QA 系统的最新性能奠定了基础。
Apr, 2020
该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示,并使用负采样方法提高性能,能够取代当前依赖于稀疏表示的短语检索模型,实现更好的开放域问答准确性并被用作密集知识库。
Dec, 2020
本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能,在密集短语检索中取得了 2~3 个关键短语检索准确度和 2~4 个段落检索准确度的提升。
Oct, 2022
Topic-DPR 是一种基于主题的密集段落检索模型,通过对多个基于主题的提示进行优化和对比学习,使表示与其主题分布对齐,提高空间均匀性,并引入了一种新的正负采样策略来提高检索效率。实验证明,该方法超过了之前最先进的检索技术。
Oct, 2023
密集路径检索(DPR)是提升大型语言模型(LLM)性能的检索增强生成(RAG)范式中的第一步,本研究通过探测、层激活分析和模型编辑的组合,深入研究 DPR fine-tuning,发现 DPR 训练方式中的去中心化存储及其对检索模型的限制,为密集检索提供了几个可能的方向:(1)将更多知识暴露给 DPR 训练过程以实现更多的去中心化,(2)将事实作为分散表示注入,(3)在检索过程中建模和融入知识的不确定性,以及(4)将内部模型知识直接映射到知识库。
Feb, 2024
本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型(DPR)进行了复制研究,其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术,使用与原论文相同的模型获得更好的端到端问题答案准确性。
Apr, 2021
本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展,从架构、训练、索引、集成四个方面总结了主流技术,并提供了网站和代码库等丰富资源以支持读者的研究工作。
Nov, 2022
介绍了一种称为 Salient Phrase Aware Retriever (SPAR) 的密集型检索器,在保留稀疏模型的词法匹配能力的同时,通过加入类似于稀疏模型的词汇模型 Lambda 来提高其检索性能。SPAR 在多个任务上表现出卓越性能,包括问答数据集,MS MARCO 段落检索以及 EntityQuestions 和 BEIR 评估。
Oct, 2021
本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题,并探讨了两种解决方案:第一种解决方法是数据扩充无法解决广义化问题,第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。
Sep, 2021