Nov, 2023

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

TL;DR这篇论文介绍了 FollowEval 基准测试,通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现,测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度,并发现这些模型在指令跟随能力方面明显落后于人类,指出了这些模型在这方面还有很大的改进空间。