RefuteBench：评估大型语言模型的反驳指令跟随

Feb, 2024

RefuteBench：评估大型语言模型的反驳指令跟随

RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models

Jianhao Yan, Yun Luo, Yue Zhang

TL;DR该研究论文介绍了大型语言模型在接受用户反馈方面的问题，并提出了一个包括问答、机器翻译和电子邮件写作等任务的综合评估基准 RefuteBench。研究发现，大型语言模型倾向于自身内部知识，并且在对话过程中逐渐遗忘用户的反馈，而回归到自己的回复，通过召回和重复提示的方式可以提高模型响应用户反馈的能力。

Abstract

The application scope of large language models (LLMs) is increasingly expanding. In practical use, users might provide feedback based on the model's output, hoping for a responsive model that can complete respons

large language models feedback refutebench responsiveness recall-and-repeat prompts

发现论文，激发创造

你真的跟随我吗？评估大型语言模型的稳健性的对抗性指令

通过实验，我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性，并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。

Aug, 2023

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准 LMMBar，调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力，发现不同评估器对 LMMBar 的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

利用大型语言模型的自我批判提示用于归纳教学

本文提出了一种名为 INDust（Inductive Instructions）的挑战基准来评估大型语言模型（LLMs）是否能够抵抗用户提供的带误导性的指令，并提出了一种名为 Self-Critique prompting 的方法来防范 LLMs 误导用户。实验证明该方法在零样本和小样本环境下都能有效提升 LLMs 的对归纳指令的处理能力。

May, 2023

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了 FollowEval 基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023

E-Bench: 大型语言模型易用性评估

通过系统分析大型语言模型（LLMs）抵抗提示扰动的稳定性，本研究构建 E-Bench 模拟真实人类使用情况，并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因，实验证明即便随着模型规模的增加，易用性显著提升，但仍需努力建立足够用户友好的模型。

Jun, 2024

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

大型语言模型的指令跟随评估

通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”，并构建了约 500 个提示，每个提示包含一个或多个可验证指令。

Nov, 2023

FollowIR: 评估和教授信息检索模型遵循指导

现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR，其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令，只是简单地使用关键词，并且难以理解长篇信息。然而，我们展示了信息检索模型学习遵循复杂指令的可能性：我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进（超过 13%）。

Mar, 2024

OR-Bench：大型语言模型的拒绝过度基准

通过自动生成大规模的看似有害的提示，该研究提出了 OR-Bench，首个大规模的拒绝基准，用于度量 25 个热门 LLM 模型的过度拒绝。

May, 2024