大型语言模型的指令跟随评估

Nov, 2023

Instruction-Following Evaluation for Large Language Models

Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu...

TL;DR通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”，并构建了约 500 个提示，每个提示包含一个或多个可验证指令。

Abstract

One core capability of large language models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while →

large language models instruction-following eval evaluation benchmark verifiable instructions llm-based auto-evaluation

发现论文，激发创造

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了 FollowEval 基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准 LMMBar，调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力，发现不同评估器对 LMMBar 的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

自我对弈并结合执行反馈：提升大型语言模型的指令执行能力

首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF，能够显著提高大型语言模型的指示遵循能力，有效应用于 SFT、Offline DPO 和 Online DPO 训练算法，可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。

Jun, 2024

FollowIR: 评估和教授信息检索模型遵循指导

现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR，其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令，只是简单地使用关键词，并且难以理解长篇信息。然而，我们展示了信息检索模型学习遵循复杂指令的可能性：我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进（超过 13%）。

Mar, 2024

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023

评估大型语言模型在故事结局生成中的指令遵循能力

通过自动评估流程，本文提出的评估度量与人工评估结果吻合，验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。

Jun, 2024

大型语言模型是否能理解真实世界的复杂指令？

通过广泛的实验证明，我们提出了 CELLO—— 一个评估大型语言模型理解复杂指令能力的基准，包括八个复杂指令特征，并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法，以比较代表性的面向中文和面向英文模型在跟随复杂指令方面的表现。

Sep, 2023

你真的跟随我吗？评估大型语言模型的稳健性的对抗性指令

通过实验，我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性，并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。

Aug, 2023

F-Eval: 使用精细评估方法评估基本能力

我们提出了 F-Eval，这是一个双语评估基准，旨在评估大型语言模型的基本能力，包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估，结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别，并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。

Jan, 2024

InstructEval: 指令选择方法的系统评估

通过实验和评估，我们发现手写的命令和简单的命令通常比自动命令诱导方法更适用于 ICL，指出后者的缺乏泛化性。

Jul, 2023