使用 ColBERT 进行开放式问题回答的相关性引导监督
本研究提出了一种基于知识库和相关文章文本联合的开放领域问答方法,通过检索和阅读一个包含文本段的图表结构,并采用跨相关段落传播信息的方式更新文本段落表示,从而在 WebQuestions、自然问题和 TriviaQA 三个任务的数据集上实现了 2-11% 的性能提升。
Nov, 2019
本篇论文通过系统地研究检索器的预训练,提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法,并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法,并展示了这些方法在性能方面相对于较小模型的一致性提升。实验结果表明这些方法效果显著优于现有的一些模型。
Jan, 2021
本文提出了一种新的 open domain question answering 方法,利用问题 - 回答对来同时学习 retriever 和 reader,将 Wikipedia 中的证据检索视为潜在变量,并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试,表明在用户真正寻求答案的数据集上,学习检索至关重要,完全匹配方面的得分比传统的 IR 系统(如 BM25)高达 19 个点。
Jun, 2019
本文综述了 OpenQA 领域的最新研究趋势,重点关注采用神经 MRC 技术的系统,介绍了现代 OpenQA 体系结构 Retriever-Reader 及采用该体系结构的各种系统,讨论了开发 OpenQA 系统面临的关键挑战,并对常用的基准进行了分析。
Jan, 2021
在这篇论文中,我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素,其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究,通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上,我们与基于 BM25 和 DPR 的 QA 读取器模型相比,在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统,并将所有的代码、模型和数据集公开提供。
Jan, 2024
本论文介绍了一个基于纯文本书籍进行问答的系统(BookQA),使用记忆网络对问题进行推理,并对前人的工作进行了改进,包括 BERT 检索和基于书句生成的预训练。在最新的 NarrativeQA 语料库的测试中,我们证明了这种方法的可行性和需要进行更多的研究,如文本表示,相关段落的检索和推理。
Oct, 2019
提出一种将问题回答建模为一种对齐问题的结构支持向量机方法,通过将问题和上下文分解成基于语义角色的单元,并将问题与上下文的子图进行对齐以找到答案,该模型可用于跨领域问题回答,且通过对齐得分派生出的限制使模型更加鲁棒。
Apr, 2020
Open-domain Question Answering research investigates the generalization performance of a retrieval-augmented QA model, proposing Corpus-Invariant Tuning as an effective training strategy to mitigate knowledge over-memorization and achieve better generalizability.
Apr, 2024
为 Adobe 产品建立内部问答系统,提出了一种新的框架来编译大型问答数据库并发展了基于检索感知的大型语言模型微调方法,展示了微调检索器在最终生成中带来的重大改进,降低了生成过程中的幻觉并在上下文中保留了最新的检索信息以实现情境基础。
Apr, 2024