May, 2023

C-Eval: 一种基于多级多学科的中文评估套件,用于基础模型

TL;DR通过 C-Eval 对基础模型的评估,结果表明,只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度,这暗示着当前的大语言模型仍有很大的提升空间。