May, 2023

M3KE: 一种用于中文大型语言模型的庞大多级多主题知识评估基准

TL;DR这篇论文介绍了 M3KE 评估标准,它是一个用于测试中文大型语言模型在各种学科和教育级别下零样本和少样本的多任务准确性的基准。通过在该基准上对比,研究人员发现 GPT-3.5 在 M3KE 上达到了约 48% 的准确率,比其他中文语言模型表现更为优异。