多跳机器阅读理解数据集和评估指标综述
本篇论文主要对机器阅读理解(MRC)领域中的任务、数据集、评估指标等方面进行综合调研和分析,发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现,但与真实的人类阅读理解能力仍存在很大差距,因此提出了一些未来的研究方向和关键问题。
Jun, 2020
该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础,要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力,并通过防止捷径的问题和解释来确保实质性有效性。
Apr, 2020
本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解,并且是人工验证和隐藏测试集的大规模训练数据。同时,还举办了首届中文机器阅读理解评估(CMRC-2017),成功吸引了数十名参与者。
Sep, 2017
本篇研究提出了一种半自动化的消融实验方法,通过检查即使除去与语言理解相关的特征后是否仍然能回答问题,来评估语言理解能力挑战数据集的性能,实验结果表明,很多问题并不需要语法复杂的推理,为了精准评估 MRC 数据集,需要在设计时额外注意。
Nov, 2019
该研究提出了一项新的任务,以鼓励模型跨多个文档进行文本理解并探究现有方法的限制。 该任务要求模型学习查找和组合证据,从而实现多跳(别名为多步)推理,但两个先前的竞争性模型都在选择相关信息方面遇到了困难。
Oct, 2017
本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在,这些都可能降低阅读理解的复杂性和质量。
Mar, 2020
该研究提出了一个新的多方面的科学机器阅读理解数据集 SciMRC,由 741 篇科学论文和 6,057 个问题答案对构成,并利用预训练模型进行了广泛的实验,表明了考虑不同阅读角度的重要性,并证明了其机器理解的挑战性。
Jun, 2023
提出了一种两阶段知识蒸馏方法,通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档,实验结果表明,使用该方法装备的学生模型具有显著的改进,证明了该方法的有效性。
Jul, 2023