无监督学习检索文章段落
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
Dec, 2022
本研究展示了如何使用密集向量表示实现开放领域的问答,通过一个简单的双编码框架,通过从一小部分问题和段落中学习嵌入来实现检索,并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法,为终端 QA 系统的最新性能奠定了基础。
Apr, 2020
本篇论文通过系统地研究检索器的预训练,提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法,并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法,并展示了这些方法在性能方面相对于较小模型的一致性提升。实验结果表明这些方法效果显著优于现有的一些模型。
Jan, 2021
提出了一种基于弱监督的多跳检索器预训练方法,该方法包括问题嵌套结构的可伸缩数据生成方法、基于密集编码器的预训练模型结构以及对多跳 QA 和文档检索的性能进行比较实验,结果表明预训练的检索器在有限的数据和计算资源下是有效和稳健的。
Jun, 2021
提出 HyperLink-induced Pre-training (HLP) 方法来解决文档中基于超链接拓扑结构的相关性所面临的问题,为大规模预训练提供更加有效的相关性信号,从而使得在问答过程中的段落检索能够被更好地实现。在各种场景下,HLP 方法都优于其他预训练方法。
Mar, 2022
本文提出了一种基于对中间训练模型的关联系统估计和自适应加权的相关性感知对比度学习方法,应用于无监督稠密 Retriever 模型,提高了其检索效果并且表现出很好的 few-shot 学习能力。
Jun, 2023
本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型(DPR)进行了复制研究,其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术,使用与原论文相同的模型获得更好的端到端问题答案准确性。
Apr, 2021
本文提出了一种新的 open domain question answering 方法,利用问题 - 回答对来同时学习 retriever 和 reader,将 Wikipedia 中的证据检索视为潜在变量,并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试,表明在用户真正寻求答案的数据集上,学习检索至关重要,完全匹配方面的得分比传统的 IR 系统(如 BM25)高达 19 个点。
Jun, 2019
该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示,并使用负采样方法提高性能,能够取代当前依赖于稀疏表示的短语检索模型,实现更好的开放域问答准确性并被用作密集知识库。
Dec, 2020
本文介绍了一种使用维基百科引用构建大规模预训练语料库以满足开放域问答系统的需求的方法,并测试了改进后的 retriever 和 reader 在精确度和 top-20 准确率方面的表现。
Mar, 2022