多跳机器阅读理解数据集和评估指标综述

Dec, 2022

多跳机器阅读理解数据集和评估指标综述

A Comprehensive Survey on Multi-hop Machine Reading Comprehension Datasets and Metrics

Azade Mohammadi, Reza Ramezani, Ahmad Baraani

TL;DR本文综述了多跳阅读理解的评估度量和数据集，包括问题定义、多跳度量和 15 个多跳数据集的综合分析，最后讨论了该领域的未解决问题。

Abstract

multi-hop machine reading comprehension is a challenging task with aim of answering a question based on disjoint pieces of information across the different passages. The evaluation metrics and →

multi-hop machine reading comprehension evaluation metrics datasets problem definition open issues

发现论文，激发创造

多跳机器阅读理解方法全面调查

本文综述了近年来一系列关于基于 31 项研究的多段式机器阅读理解方法的探索和研究成果，着重介绍了问题定义、模型技术，以及模型和技术之间的优缺点比较。

Dec, 2022

机器阅读理解：任务、评价指标和基准数据集综述

本篇论文主要对机器阅读理解（MRC）领域中的任务、数据集、评估指标等方面进行综合调研和分析，发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现，但与真实的人类阅读理解能力仍存在很大差距，因此提出了一些未来的研究方向和关键问题。

Jun, 2020

机器阅读理解的基准评测：心理学视角

该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础，要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力，并通过防止捷径的问题和解释来确保实质性有效性。

Apr, 2020

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

神经机器阅读理解：方法与趋势

本文综述了深度学习在机器阅读理解 (MRC) 中的应用，包括典型的 MRC 任务、神经网络 MRC 的体系结构和新兴领域。文章指出了未来需要解决的问题。

Jul, 2019

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

构建跨文档多跳阅读理解数据集

该研究提出了一项新的任务，以鼓励模型跨多个文档进行文本理解并探究现有方法的限制。该任务要求模型学习查找和组合证据，从而实现多跳（别名为多步）推理，但两个先前的竞争性模型都在选择相关信息方面遇到了困难。

Oct, 2017

机器阅读理解 Gold 标准评估框架

本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在，这些都可能降低阅读理解的复杂性和质量。

Mar, 2020

SciMRC：多角度科学机器阅读理解

该研究提出了一个新的多方面的科学机器阅读理解数据集 SciMRC，由 741 篇科学论文和 6,057 个问题答案对构成，并利用预训练模型进行了广泛的实验，表明了考虑不同阅读角度的重要性，并证明了其机器理解的挑战性。

Jun, 2023

教模型在理解文档后回答问题

提出了一种两阶段知识蒸馏方法，通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档，实验结果表明，使用该方法装备的学生模型具有显著的改进，证明了该方法的有效性。

Jul, 2023