Jan, 2024

F-Eval: 使用精细评估方法评估基本能力

TL;DR我们提出了 F-Eval,这是一个双语评估基准,旨在评估大型语言模型的基本能力,包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估,结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别,并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。