ICLRSep, 2020

测量大规模多任务语言理解

TL;DR论文提出了一种新的测试方法,以测量文本模型的多任务准确性,涵盖了包括数学、历史、计算机科学、法律等 57 项任务,为了达到高准确性,模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度,我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。