多约束复杂指令跟踪的基准测试

Jul, 2024

Benchmarking Complex Instruction-Following with Multiple Constraints Composition

Bosi Wen, Pei Ke, Xiaotao Gu, Lindong Wu, Hao Huang...

TL;DRLLMs' ability to follow complex instructions composed of multiple constraints is evaluated using ComplexBench, a new benchmark that exposes deficiencies in existing models.

Abstract

Instruction following is one of the fundamental capabilities of large language models (LLMs). As the ability of LLMs is constantly improving, they have been increasingly applied to deal with complex human instructions in real-world scenarios. Therefore, how to evaluate the ability of c

发现论文，激发创造

大型语言模型是否能理解真实世界的复杂指令？

通过广泛的实验证明，我们提出了CELLO——一个评估大型语言模型理解复杂指令能力的基准，包括八个复杂指令特征，并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法，以比较代表性的面向中文和面向英文模型在跟随复杂指令方面的表现。

Sep, 2023

FollowBench：用于大型语言模型的多级细粒度约束追踪基准

本文提出了FollowBench，这是一个用于大型语言模型（LLMs）的多级细粒度约束遵循基准，通过评估LLMs在遵循不同类型的细粒度约束方面的表现，揭示了LLMs在遵循指令方面的不足之处，并指出了未来研究的潜在方向。

Oct, 2023

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了FollowEval基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023

基于多样化指令的可控生成大型语言模型的基准测试

我们提出了一个新的基准测试CoDI-Eval，系统和全面评估LLMs对带有各种约束的指令的响应，揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。

Jan, 2024

InFoBench：评估大型语言模型的指令遵循能力

介绍了Decomposed Requirements Following Ratio (DRFR)这一新的指标，用于评估大型语言模型（LLMs）遵循指示的能力；配合该指标的InFoBench基准，包含500个不同指令和2250个分解问题，通过与传统评分方法和注释来源的比较，证明了DRFR的可靠性和GPT-4作为一种经济高效的注释工具的有效性；该研究揭示了多个先进LLM的优势和需要改进的区域，特别是在复杂指示遵循方面；为未来LLM的开发和评估提供了有益的见解。

Jan, 2024

从复杂到简单：增强大型语言模型的多约束复合指令跟随能力

使用包含多个约束条件的指令来训练大型语言模型，能提高其理解复杂指令，特别是对于低复杂性水平的指令，甚至可以推广到超出领域约束的组合，同时提出了获取和利用有效训练数据的方法，并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。

Apr, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。

Jun, 2024

SIFo基准测试：探索大型语言模型的顺序指令跟随能力

评估大型语言模型（LLMs）遵循多个指令的能力面临诸多挑战，为解决这些问题，我们引入了一个基准测试，通过顺序指令跟踪任务评估模型的遵循多个指令的能力。

Jun, 2024

塔式评估：复杂指令评估的树形组织加权方法

本研究针对当前评估大语言模型（LLMs）遵循复杂人类指令的方式存在时间和资源消耗大的问题，提出了一种新颖的评估标准“TOWER”。该方法整合了人类评审的重要性判断，研究发现人类注释者对复杂指令的树状表示与其他人类注释者的共识度几乎相同，从而提升了评估的准确性和效率。

Oct, 2024

约束反向翻译改善大型语言模型对复杂指令的遵循能力

本研究针对大型语言模型（LLMs）在遵循复杂指令时的困难，提出了一种新的数据生成技术——约束反向翻译。研究结果表明，在CRAB数据集上进行后训练，显著提升了多个LLMs对复杂指令的遵循能力，且约束反向翻译也可作为有效的辅助训练目标。

Oct, 2024