使用远程监督的证据检索，无需证据标记即可实现问答

EMNLPOct, 2021

使用远程监督的证据检索，无需证据标记即可实现问答

Distantly-Supervised Evidence Retrieval Enables Question Answering without Evidence Annotation

Chen Zhao, Chenyan Xiong, Jordan Boyd-Graber, Hal Daumé III

TL;DR本研究探讨使用仅通过回答标签的远程监督来训练模型，从大规模语料库中学习寻找证据的能力，提出了一种新的方法（DistDR），该方法在多跳和单跳问答基准测试中与全监督的最先进方法不相上下。

Abstract

open-domain question answering answers a question based on evidence retrieved from a large corpus. State-of-the-art neural approaches require intermediate →

open-domain question answering neural approaches evidence annotations distant supervision multi-hop qa

发现论文，激发创造

弱监督开放域问答的潜在检索

本文提出了一种新的 open domain question answering 方法，利用问题 - 回答对来同时学习 retriever 和 reader，将 Wikipedia 中的证据检索视为潜在变量，并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试，表明在用户真正寻求答案的数据集上，学习检索至关重要，完全匹配方面的得分比传统的 IR 系统（如 BM25）高达 19 个点。

Jun, 2019

无监督基于对齐的迭代证据检索用于多跳问答

本文提出了一种简单、快速和无监督的迭代证据检索方法，包括三个步骤：无监督对齐、迭代查询和停止准则。该方法在两个数据集上取得了最好的效果，证据句子被送入 RoBERTa 回答分类组件，我们在这两个数据集上实现了最先进的问答性能。

May, 2020

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022

从阅读器向检索器提取知识以作问答之用

本文提出了一种受到知识蒸馏启发的学习信息检索器的技术，在没有标注的查询和文档对的情况下，利用阅读器模型的注意力分数来获得检索器的合成标签，用于下游任务，最终在问题回答方面达到了最先进的结果。

Dec, 2020

端到端的神经检索器训练，用于开放领域的问答

本篇论文通过系统地研究检索器的预训练，提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法，并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法，并展示了这些方法在性能方面相对于较小模型的一致性提升。实验结果表明这些方法效果显著优于现有的一些模型。

Jan, 2021

概率假设很重要：改进远程监督的文档级问答模型

本文介绍了一种使用 document-level distant super-vision 解决抽取式问答问题的方法，该方法通过将问题及相关文档与答案字符串配对来实现。作者比较了概率空间和远程 supervisions assumptions 的区别，并证明了不同配置提供互补的益处。他们展示了一种多目标模型，可以高效地结合多个假设的优点并表现出更好的性能，超过了此前在 TriviaQA-Wiki 中各方面表现最好的模型 4.3 个 F1 点和 NarrativeQA 摘要中的 1.7 个 Rouge-L 点。

May, 2020

深度强化学习下的强健远程监督关系抽取

研究利用深度强化学习策略生成假阳性指标解决远程监督产生的噪声，进而将它们分配为负面样本以解决误报问题，实验表明该方法显著提高了远程监督方法的性能。

May, 2018

开放域多模式检索问答的逐步证据细化

我们提出了一个基于预训练多模态模型的证据检索和问答的两阶段框架来解决模型面临的两个主要挑战：利用压缩的证据特征会导致丢失细粒度信息以及提取问题关键特征时存在特征提取和问题之间的差距。我们的方法包括渐进证据精炼策略来选择关键证据、半监督对比学习训练策略扩展问题领域范围以及多轮检索和问答策略来处理多模态输入。通过大量实验证明了模型的有效性，在 WebQA 和 MultimodelQA 基准测试上取得了出色的性能。

Oct, 2023

简单有效的半监督问答

本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法，并通过对三个不同领域数据集的实验验证了其有效性。

Apr, 2018

开放领域问答的低资源稠密检索：一份综合调查报告

本文探讨了基于预训练语言模型的致密检索方法，并提供了在低资源情境下实现致密检索的主流技术概览，根据技术需要的资源将其分为文档、文档和问题，以及文档和问题答案对三个类别，并对每个技术的算法、开放问题和优缺点进行了介绍和总结，最后提出了未来研究的方向。

Aug, 2022