R4C: 评估 RC 系统以获得正确答案的基准

ACLOct, 2019

R4C: 评估 RC 系统以获得正确答案的基准

R4C: A Benchmark for Evaluating RC Systems to Get the Right Answer for the Right Reason

Naoya Inoue, Pontus Stenetorp, Kentaro Inui

TL;DR该研究介绍了一种新的阅读理解测试方法 R4C，其通过要求 RC 系统能够给出不仅是答案还包括对答案进行解释的推导，解决了当前数据集中的注释偏差和其他偏差可以影响数据集的问题。研究人员使用可靠的众包框架对 RC 数据集进行批量注释，创建并公开了 R4C 数据集，该数据集包含 4.6k 个问题，每个问题有 3 个参考推导（即 13.8k 个推导）。实验证明，使用多个参考推导的自动评估指标是可靠的，并且 R4C 可以评估不同于现有基准测试的技能。

Abstract

Recent studies have revealed that reading comprehension (RC) systems learn to exploit annotation artifacts and other biases in current datasets. This prevents the community from reliably measuring the progress of

reading comprehension annotation artifacts r4c internal reasoning crowdsourced framework

发现论文，激发创造

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

阅读理解中多轮推理策略的经验分析

通过使用最先进的 RC 模型，我们对单回合和多回合推理在 SQuAD 和 MS MARCO 数据集上的表现进行了实证研究，发现多回合推理优于单回合推理，启用灵活的回合次数通常优于固定的多回合策略，并且特别有助于具有冗长描述性答案的问题。

Nov, 2017

机器阅读理解 Gold 标准评估框架

本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在，这些都可能降低阅读理解的复杂性和质量。

Mar, 2020

ARC 数据集中知识、推理和语境的系统分类

本文提出了一套完整的科学问题解答所需的知识和推理类型定义方法，回答 ARC 数据集中的问题需要的标注信息分布和相关统计的分析，证明了人工选取的相关句子能够提高神经机器理解模型的 42 个百分点的性能。

Jun, 2018

使用组合性解释来教授机器理解

本文提出了一种使用少量半结构化解释 “教” 机器阅读理解的方法，同时提取结构化变量和规则，并组成神经模块作为下游 MRC 模型的训练实例的注释，使用可学习的神经模块和软逻辑来处理语言变化并克服模型覆盖率不足。在 SQuAD 数据集上，使用 26 个解释进行监督训练，该方法实现了 70.14% 的 F1 得分，与使用 1100 个标记实例的普通监督学习相比，速度提高了 12 倍。

May, 2020

问题回答系统中检测检索复杂度

该研究通过提出检索复杂度（RC）指标以及一个无监督的测量 RC 的流程，较准确地衡量了检索式问答任务中问题的难度，并发现 RC 与问答系统性能和专家判断之间有很强的相关性，可以对复杂问题进行分类。这一系统还可以通过确定现有数据集中的更具挑战性的问题，对检索式系统产生重大影响。

Jun, 2024

CJRC: 一个可靠的人工标注中文司法阅读理解基准数据集

本研究介绍了一个含有近 10K 文档和近 50K 个问题及其答案的中国司法阅读理解 (CJRC) 数据集，基于 Bert 和 BiDAF 构建了两个强基准模型，实验结果显示与人工标注员的表现相比仍有进步的空间。该数据集可用于司法领域中元素提取的机器阅读理解技术研究。

Dec, 2019

从识别到认知：视觉常识推理

该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Nov, 2018

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

机器阅读理解的基准评测：心理学视角

该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础，要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力，并通过防止捷径的问题和解释来确保实质性有效性。

Apr, 2020