ACLOct, 2019

R4C: 评估 RC 系统以获得正确答案的基准

TL;DR该研究介绍了一种新的阅读理解测试方法 R4C,其通过要求 RC 系统能够给出不仅是答案还包括对答案进行解释的推导,解决了当前数据集中的注释偏差和其他偏差可以影响数据集的问题。研究人员使用可靠的众包框架对 RC 数据集进行批量注释,创建并公开了 R4C 数据集,该数据集包含 4.6k 个问题,每个问题有 3 个参考推导(即 13.8k 个推导)。实验证明,使用多个参考推导的自动评估指标是可靠的,并且 R4C 可以评估不同于现有基准测试的技能。