超越指令跟随：评估大型语言模型的规则跟随能力

Jul, 2024

超越指令跟随：评估大型语言模型的规则跟随能力

Beyond Instruction Following: Evaluating Rule Following of Large Language Models

Wangtao Sun, Chenxiang Zhang, Xueyou Zhang, Ziyang Huang, Haotian Xu...

TL;DR本文通过澄清规则遵循概念，并创建全方位评估规则遵循能力的综合基准RuleBench，对多样化的大型语言模型进行了实验。结果表明，目前大型语言模型在规则遵循方面仍存在限制，并提供了对大型语言模型在成为更好的规则遵循智能代理方面的改进见解。

Abstract

Although large language models (LLMs) have demonstrated strong instruction-following ability to be helpful, they are further supposed to be controlled and guided by rules in real-world scenarios to be safe, and accurate in responses. This demands the possession of →

发现论文，激发创造

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准LMMBar，调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力，发现不同评估器对LMMBar的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于LLM的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023

FollowBench：用于大型语言模型的多级细粒度约束追踪基准

本文提出了FollowBench，这是一个用于大型语言模型（LLMs）的多级细粒度约束遵循基准，通过评估LLMs在遵循不同类型的细粒度约束方面的表现，揭示了LLMs在遵循指令方面的不足之处，并指出了未来研究的潜在方向。

Oct, 2023

LLM能否遵循简单规则？

大型语言模型在现实世界中的部署责任越来越重，为了能够可靠地指定和约束这些系统的行为，需要评估模型遵循开发者提供的规则的能力以及其面对对抗性输入的脆弱性。为此，我们提出了一种评估大型语言模型规则遵循能力的编程框架，并通过对模型行为的手动探索和对攻击策略的归纳，发现了各种攻击类型和模型的漏洞，从而为研究人员提供了一个挑战性的新环境来探索和防御对大型语言模型的手动和自动攻击。

Nov, 2023

大型语言模型的指令跟随评估

通过引入Instruction-Following Eval (IFEval)作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组“可验证指令”，并构建了约500个提示，每个提示包含一个或多个可验证指令。

Nov, 2023

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了FollowEval基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023

基于多样化指令的可控生成大型语言模型的基准测试

我们提出了一个新的基准测试CoDI-Eval，系统和全面评估LLMs对带有各种约束的指令的响应，揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。

Jan, 2024

忽略不计：大型语言模型中的指令覆盖和调控

最近的大型语言模型在指令遵循的冲突情况下进行了调查和基准测试，对比了最流行的专有模型和不同大小的开源模型。实验表明，较大的模型在遵循指令方面表现最佳，并且对内部和上下文指令具有覆盖能力。然而，在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区，以保持指令遵循能力。此外，提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突，因此我们认为处理安全可信人工智能的最有效方法应该是在语言模型之外进行。

Feb, 2024

评估大型语言模型在故事结局生成中的指令遵循能力

通过自动评估流程，本文提出的评估度量与人工评估结果吻合，验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于GPT-3.5。

Jun, 2024

SIFo基准测试：探索大型语言模型的顺序指令跟随能力

评估大型语言模型（LLMs）遵循多个指令的能力面临诸多挑战，为解决这些问题，我们引入了一个基准测试，通过顺序指令跟踪任务评估模型的遵循多个指令的能力。

Jun, 2024