面向开放检索问答的合成目标领域监督

SIGIRApr, 2022

面向开放检索问答的合成目标领域监督

Synthetic Target Domain Supervision for Open Retrieval QA

Revanth Gangi Reddy, Bhavani Iyer, Md Arafat Sultan, Rong Zhang, Avirup Sil...

TL;DR本研究针对新的神经通道检索方法加以探讨，发现在 COVID-19 的封闭和专业目标域中，SOTA 模型 Dense Passage Retriever 比标准 BM25 差距较大。通过用文本生成器来生成合成训练示例对其进行微调，使其在对外域数据处理中更具鲁棒性，效果有所提高。最终，BM25 与改进的 DPR 模型的集成产生了最佳结果，进一步推动了开放式检索 QA 的 SOTA，适用于多个出域测试集。

Abstract

neural passage retrieval is a new and promising approach in open retrieval question answering. In this work, we stress-test the dense passage retriever (DPR) -- a state-of-the-art (SOTA) open domain neural retrie

neural passage retrieval dense passage retriever covid-19 fine-tuning out-of-domain settings

发现论文，激发创造

COVID-19 端到端问答：通过合成训练实现领域自适应

本文探讨了如何通过合成的问答数据来提高封闭领域检索和机器阅读理解的性能，实验结果表明将神经信息检索系统和机器阅读理解系统组合后，在 CORD-19 数据集上相比于基准开放领域问答系统，有显著的改进。

Dec, 2020

领域定向合成问题生成进行零样本神经网络段落检索

通过合成问题生成技术缩小了零样本训练模型与基于术语技术模型之间的差距，提高了针对特定领域的文档的检索效果。

Apr, 2020

稠密通道检索器的复制研究

本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型（DPR）进行了复制研究，其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术，使用与原论文相同的模型获得更好的端到端问题答案准确性。

Apr, 2021

SpeechDPR: 开放领域口语问答的端到端口语段落检索

提出基于语音密集检索器 (SpeechDPR) 的端到端框架，用于 Open-domain SQA 问题的检索组件，通过从无监督 ASR (UASR) 和文本密集检索器 (TDR) 的级联模型中提取知识来学习句子级语义表示，初步实验表明该方法在语音识别错误较大时表现更为鲁棒。

Jan, 2024

开放领域的会话问答的强大且高效的基线模型

通过研究状况下的密集通道检索（DPR）检索器和解码中的融合（FiD）阅读器的流程，我们提出和评估了强大而简单高效的基准线，通过在检索器和阅读器之间引入快速重新排列组件并执行有针对性的微调步骤，改进了现有方法的性能，并减少了阅读器的延迟 60%。

Oct, 2023

端到端的神经检索器训练，用于开放领域的问答

本篇论文通过系统地研究检索器的预训练，提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法，并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法，并展示了这些方法在性能方面相对于较小模型的一致性提升。实验结果表明这些方法效果显著优于现有的一些模型。

Jan, 2021

用于开放式领域问答的密集式检索

本研究展示了如何使用密集向量表示实现开放领域的问答，通过一个简单的双编码框架，通过从一小部分问题和段落中学习嵌入来实现检索，并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法，为终端 QA 系统的最新性能奠定了基础。

Apr, 2020

质量优于数量：基于基础模型生成的封闭领域抽取式问答的合成数据集

通过针对特定主题和写作风格生成相关数据进行预先训练，我们提出了一种以萃取式问答为目标的领域适应框架，利用 Galactica 生成与特定写作风格和主题相符的合成语料库，并在 COVID-QA 和 RadQA 两个生物医学萃取式问答数据集上取得了最新成果和整体改进。

Oct, 2023

RocketQA: 开放领域问答中基于密集文本检索的优化训练方法

本文提出了一种优化的训练方法 RocketQA 来改进密集问答检索，通过跨批次负样例、去噪硬负样例和数据增强等三种策略的实验，证明该方法在 MSMARCO 和 Natural Questions 上都显著优于之前的最先进模型，并提高了 end-to-end QA 的性能。

Oct, 2020

生物医学问答中的前 K 个相关片段检索

我们在临床领域中通过对现有 DPR 框架的改进，从可靠的 Pubmed 文章中检索答案，使其在 BioASQ QA 数据集上的评估结果为 0.81 的 F1 得分。

Aug, 2023