Sep, 2023

推进传统中文语言模型的评估:朝着综合基准套件迈进

TL;DR评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试,利用现有的英文数据集,并专门针对评估传统汉语语言模型进行调整,包括问答、摘要、分类和表格理解等任务。评估结果表明,我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究,我们已经开源了我们的基准测试并开放了模型供试用。