BriefGPT.xyz
大模型
Ask
alpha
关键词
test examples
搜索结果 - 1
FollowEval: 评估大型语言模型指令遵循能力的多维度基准
这篇论文介绍了 FollowEval 基准测试,通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现,测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度,并发现这些模型在指令跟随能力方面明显落后于人类
→
PDF
8 months ago
Prev
Next