稠密通道检索器的复制研究
本研究展示了如何使用密集向量表示实现开放领域的问答,通过一个简单的双编码框架,通过从一小部分问题和段落中学习嵌入来实现检索,并在多个开放域QA基准测试中超越了传统的基于TF-IDF或BM25的方法,为终端QA系统的最新性能奠定了基础。
Apr, 2020
本文提出了一种优化的训练方法RocketQA来改进密集问答检索,通过跨批次负样例、去噪硬负样例和数据增强等三种策略的实验,证明该方法在MSMARCO和Natural Questions上都显著优于之前的最先进模型,并提高了end-to-end QA的性能。
Oct, 2020
本文研究了基于密集表示的检索系统如何减少内存占用,并提出了三个方法:降维、量化和过滤。在TriviaQA和NaturalQuestions数据集上进行评估后,发现使用不到6GB的内存就能获得可以与竞品相媲美的系统。
Dec, 2020
本篇论文介绍一种名为Binary Passage Retriever (BPR)的神经检索模型,它将学习哈希技术集成到Dense Passage Retriever (DPR)中,以紧凑的二进制代码表示待检索文本,从而大幅降低了内存成本,同时保证了一致的精度,这适用于开放领域的问答。
Jun, 2021
本文提出了coCondenser方法,将Condenser预训练架构与无监督语料级对比损失相结合,减轻了密集检索器对大规模训练数据和数据工程的依赖,并通过实验表明,该方法具有与RocketQA相当的性能。
Aug, 2021
介绍了一种称为Salient Phrase Aware Retriever (SPAR)的密集型检索器,在保留稀疏模型的词法匹配能力的同时,通过加入类似于稀疏模型的词汇模型Lambda来提高其检索性能。SPAR在多个任务上表现出卓越性能,包括问答数据集,MS MARCO段落检索以及EntityQuestions和BEIR评估。
Oct, 2021
本文介绍了一种基于无监督预训练的 ODQA 方法,通过 recurrent span retrieval 从文档中创建伪例子进行对比学习,控制 pseudo 查询和相关段落之间的术语重叠,从而允许模拟它们之间的词汇和语义关系,得到命名为“Spider”的模型,具有出色的性能,且不需要任何有标签的训练数据。
Dec, 2021
提出了一种新的体系结构,Task-aware Specialization for dense Retrieval (TASER),该模型通过交错共享模块和专用模块在单个编码器中实现参数共享,能够在使用密集检索模型时提高准确性并显著减少了参数数量, 在五个问答数据集上实验表明,与双编码器密集检索器相比,TASER能够在使用大约60%的参数的同时实现卓越的准确性。
Oct, 2022
密集路径检索(DPR)是提升大型语言模型(LLM)性能的检索增强生成(RAG)范式中的第一步,本研究通过探测、层激活分析和模型编辑的组合,深入研究DPR fine-tuning,发现DPR训练方式中的去中心化存储及其对检索模型的限制,为密集检索提供了几个可能的方向:(1)将更多知识暴露给DPR训练过程以实现更多的去中心化,(2)将事实作为分散表示注入,(3)在检索过程中建模和融入知识的不确定性,以及(4)将内部模型知识直接映射到知识库。
Feb, 2024