May, 2020

朝向与问题格式无关的数值推理:一套必备任务

TL;DR介绍了一个多方面的基准测试 NUMBERGAME 来评估八种不同形式的数值推理任务的模型绩效,并需具有探测数据中的问题格式,查找中间常见格式,加入常识知识和解决不同格式数据不平衡的能力。同时,构建了多个基线模型,包括一个基于作弊纸的知识狩猎模型。但所有基线模型都表现较差,说明了该基准测试的难度。