机器阅读理解的基准评测:心理学视角
本篇论文主要对机器阅读理解(MRC)领域中的任务、数据集、评估指标等方面进行综合调研和分析,发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现,但与真实的人类阅读理解能力仍存在很大差距,因此提出了一些未来的研究方向和关键问题。
Jun, 2020
本篇研究提出了一种半自动化的消融实验方法,通过检查即使除去与语言理解相关的特征后是否仍然能回答问题,来评估语言理解能力挑战数据集的性能,实验结果表明,很多问题并不需要语法复杂的推理,为了精准评估 MRC 数据集,需要在设计时额外注意。
Nov, 2019
本文系统评述了机器阅读理解中可解释性的基准和方法,并介绍了该领域中表示和推理挑战的演变以及解决这些挑战所采取的步骤。同时,我们还提出了评估解释性系统性能的方法,并确定了存在的开放性研究问题和未来工作的关键方向。
Oct, 2020
本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在,这些都可能降低阅读理解的复杂性和质量。
Mar, 2020
提出了一种两阶段知识蒸馏方法,通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档,实验结果表明,使用该方法装备的学生模型具有显著的改进,证明了该方法的有效性。
Jul, 2023
本文提出了一个新的基准数据集 AdvRACE,用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性,通过提供不同类型的对抗攻击测试,包括基于新的分散干扰的抽取和生成攻击,并表明现有的最先进模型都非常容易受到这些攻击的影响。
Apr, 2020
本篇综述论文全面比较了机器阅读理解的研究,主要介绍了它的起源、发展历程、对 NLP 社区的影响、定义、数据集、技术方法、研究亮点,并提出了新的分类和分类法,认为机器阅读理解将浅层文本匹配转化为认知推理的领域,同时也深化了从语言处理到语言理解的进展。
May, 2020