Apr, 2023

测量大规模多任务中文理解

TL;DR本文提出了一个测试大规模中文语言模型多任务准确性的方法,测试涵盖医学、法律、心理学和教育等四个主要领域,在医学和教育领域共包含 15 个子任务和 8 个子任务。测试表明,在零样本情况下,表现最好的模型平均优于表现最差的模型近 22 个百分点。此外,本测试可以跨多个领域全面评估知识的广度和深度,更准确地识别模型的缺陷。