机器阅读理解中的答案修正

EMNLPNov, 2020

Answer Span Correction in Machine Reading Comprehension

Revanth Gangi Reddy, Md Arafat Sultan, Efsun Sarioglu Kayi, Rong Zhang, Vittorio Castelli...

TL;DR研究机器阅读理解中回答验证的有效性，提出了一种后处理修正方法，通过单语和多语评估，在现有 MRC 系统的基础上实现了显著的性能提升。

Abstract

answer validation in machine reading comprehension (MRC) consists of verifying an extracted answer against an input context and question pair. Previous work has looked at re-assessing the "answerability" of the q

machine reading comprehension answer validation post-processing correction monolingual evaluation multilingual evaluation

发现论文，激发创造

跨段落答案验证的多段机器阅读理解

提出了一种基于端到端神经模型的多文本阅读理解模式，通过多个模块的共同作用来检测文本间的答案验证，实现对真实网络数据的阅读理解，显著提高了 MS-MARCO 数据集和中文 DuReader 数据集的 MRC 模型性能。

May, 2018

教模型在理解文档后回答问题

提出了一种两阶段知识蒸馏方法，通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档，实验结果表明，使用该方法装备的学生模型具有显著的改进，证明了该方法的有效性。

Jul, 2023

提高多语言机器阅读理解答案边界检测能力

本文提出在 fine-tuning 阶段加入两个辅助任务，建立跨语言问题 - 段落对，并结合从 web 挖掘的知识短语进行跨语言 MRC，实验证明该方法有效。

Apr, 2020

使用组合性解释来教授机器理解

本文提出了一种使用少量半结构化解释 “教” 机器阅读理解的方法，同时提取结构化变量和规则，并组成神经模块作为下游 MRC 模型的训练实例的注释，使用可学习的神经模块和软逻辑来处理语言变化并克服模型覆盖率不足。在 SQuAD 数据集上，使用 26 个解释进行监督训练，该方法实现了 70.14% 的 F1 得分，与使用 1100 个标记实例的普通监督学习相比，速度提高了 12 倍。

May, 2020

基于案例推理的机器阅读理解

提出了一种基于 CBR-MRC 的精确且可解释的答案提取方法，其利用相似问题之间的语义相似性来预测问题的答案，并在 NaturalQuestions 和 NewsQA 数据集上都取得了较高的准确率。

May, 2023

如何提升机器阅读理解模型：基于跨度对比学习的应用

本文提出了一种基于对比学习的跨度方法（spanCL），该方法能够显式地将可回答的问题与其答案跨度级别上的可回答和不可回答的对应项进行对比，并迫使 MRC 模型察觉到多种形式的关键语义变化，实验结果表明 spanCL 在 SQuAD 2.0 数据集上比基线模型具有显著改善，使 EM 提高了 0.86-2.14 个百分点，并且 spanCL 是利用生成的问题的一种有效方法。

Aug, 2022

机器阅读理解 Gold 标准评估框架

本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在，这些都可能降低阅读理解的复杂性和质量。

Mar, 2020

机器阅读理解的回顾式阅读器

本文旨在探索更好的验证模块设计以解决包含难以回答的问题的机器阅读理解任务。我们提出了一个后验阅读器（Retro-Reader），通过将两个阅读和验证策略整合到一起进行机器阅读和理解，旨在模仿人类解决阅读理解问题的过程，并在两个基准 MRC 数据集 SQuAD2.0 和 NewsQA 上取得了最新的最优结果。经过显著性测试，我们的模型明显优于强大的 ELECTRA 和 ALBERT 基线，同时还进行了一系列分析来解释所提出的阅读器的有效性。

Jan, 2020

我应该给出多少个答案？多答案阅读理解的实证研究

本文通过设计分类来分析多答案现象的出现原因以及采用不同策略来更好地解决多答案现象，在实验中发现生成模型可能成为一个有前途的平台来整合不同范例。

Jun, 2023

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019