大型语言模型的指令跟随评估
这篇论文介绍了 FollowEval 基准测试,通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现,测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度,并发现这些模型在指令跟随能力方面明显落后于人类,指出了这些模型在这方面还有很大的改进空间。
Nov, 2023
这篇研究通过引入一个具有挑战性的元评估基准 LMMBar,调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力,发现不同评估器对 LMMBar 的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF,能够显著提高大型语言模型的指示遵循能力,有效应用于 SFT、Offline DPO 和 Online DPO 训练算法,可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。
Jun, 2024
现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR,其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令,只是简单地使用关键词,并且难以理解长篇信息。然而,我们展示了信息检索模型学习遵循复杂指令的可能性:我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进(超过 13%)。
Mar, 2024
通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估,分析评估方法与人工判断之间的一致性,并提出基于 LLM 的无参考评估方法,改进了传统基准,并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。
Oct, 2023
通过自动评估流程,本文提出的评估度量与人工评估结果吻合,验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。
Jun, 2024
通过广泛的实验证明,我们提出了 CELLO—— 一个评估大型语言模型理解复杂指令能力的基准,包括八个复杂指令特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法,以比较代表性的面向中文和面向英文模型在跟随复杂指令方面的表现。
Sep, 2023
通过实验,我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性,并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。
Aug, 2023
我们提出了 F-Eval,这是一个双语评估基准,旨在评估大型语言模型的基本能力,包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估,结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别,并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。
Jan, 2024