Dec, 2023
LLMEval:大型语言模型评估初探
LLMEval: A Preliminary Study on How to Evaluate Large Language Models
Yue Zhang, Ming Zhang, Haipeng Yuan, Shichun Liu, Yongyao Shi...
TL;DR最近,大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法,比较了各种标准和评分系统,在多个任务和测试中使用了不同的评估者和评分方法,提出了一个新的数据集 LLMEval,并对 20 个大型语言模型进行了评估,得出了 10 个结论,为将来的语言模型评估提供了一些启示。