机器阅读理解的基准评测：心理学视角

ACLApr, 2020

机器阅读理解的基准评测：心理学视角

Benchmarking Machine Reading Comprehension: A Psychological Perspective

Saku Sugawara, Pontus Stenetorp, Akiko Aizawa

TL;DR该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础，要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力，并通过防止捷径的问题和解释来确保实质性有效性。

Abstract

machine reading comprehension (mrc) has received considerable attention as a benchmark for natural language understanding. However, the conventional task design of →

machine reading comprehension mrc explainability model interpretation psychology

发现论文，激发创造

机器阅读理解：任务、评价指标和基准数据集综述

本篇论文主要对机器阅读理解（MRC）领域中的任务、数据集、评估指标等方面进行综合调研和分析，发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现，但与真实的人类阅读理解能力仍存在很大差距，因此提出了一些未来的研究方向和关键问题。

Jun, 2020

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

机器阅读理解可解释性调查

本文系统评述了机器阅读理解中可解释性的基准和方法，并介绍了该领域中表示和推理挑战的演变以及解决这些挑战所采取的步骤。同时，我们还提出了评估解释性系统性能的方法，并确定了存在的开放性研究问题和未来工作的关键方向。

Oct, 2020

机器阅读理解：文献综述

本文总结了机器阅读理解的最新进展，在语料库和技术两个方面进行了重点介绍和比较，详细描述了不同 MRC 语料库的特点以及一些典型 MRC 技术的主要思想。

Jun, 2019

机器阅读理解 Gold 标准评估框架

本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在，这些都可能降低阅读理解的复杂性和质量。

Mar, 2020

教模型在理解文档后回答问题

提出了一种两阶段知识蒸馏方法，通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档，实验结果表明，使用该方法装备的学生模型具有显著的改进，证明了该方法的有效性。

Jul, 2023

神经机器阅读理解：方法与趋势

本文综述了深度学习在机器阅读理解 (MRC) 中的应用，包括典型的 MRC 任务、神经网络 MRC 的体系结构和新兴领域。文章指出了未来需要解决的问题。

Jul, 2019

从定义理解入手进行机器阅读理解测试

该研究确定机器阅读理解的内容，并提出短篇故事的一个理解模板，表明现有系统未达到我们定义的故事理解的任务水平。

May, 2020

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

机器阅读理解：上下文语言模型的作用与发展

本篇综述论文全面比较了机器阅读理解的研究，主要介绍了它的起源、发展历程、对 NLP 社区的影响、定义、数据集、技术方法、研究亮点，并提出了新的分类和分类法，认为机器阅读理解将浅层文本匹配转化为认知推理的领域，同时也深化了从语言处理到语言理解的进展。

May, 2020