May, 2023

EMBRACE: 评估和修改以提升 RACE

TL;DR本文针对英语的机器阅读理解中的 RACE 数据集进行了详细的测试和分析,评估了数据集中多项选择问题的难度,并对基准文本做了注释。研究发现多数多项选择问题未能满足阅读理解任务的基本要求,同时发现基准文本的位置分布存在偏差,这可能对多项选择问题的回答和生成模型的评估造成不利影响。