Apr, 2024

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

TL;DR本研究介绍了 FoundaBench,这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估,结果表明在中文语料库上预训练的模型性能更优,同时发现模型的推理和记忆能力存在显著差异。FoundaBench 评估得出的见解为理解大型语言模型的基础知识奠定了新的标准,为未来领域的进展提供了一个强大的框架。