May, 2020
朝向与问题格式无关的数值推理:一套必备任务
Towards Question Format Independent Numerical Reasoning: A Set of Prerequisite Tasks
Swaroop Mishra, Arindam Mitra, Neeraj Varshney, Bhavdeep Sachdeva, Chitta Baral
TL;DR介绍了一个多方面的基准测试 NUMBERGAME 来评估八种不同形式的数值推理任务的模型绩效,并需具有探测数据中的问题格式,查找中间常见格式,加入常识知识和解决不同格式数据不平衡的能力。同时,构建了多个基线模型,包括一个基于作弊纸的知识狩猎模型。但所有基线模型都表现较差,说明了该基准测试的难度。