自我对弈并结合执行反馈：提升大型语言模型的指令执行能力

Jun, 2024

自我对弈并结合执行反馈：提升大型语言模型的指令执行能力

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu...

TL;DR首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF，能够显著提高大型语言模型的指示遵循能力，有效应用于 SFT、Offline DPO 和 Online DPO 训练算法，可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。

Abstract

One core capability of large language models (LLMs) is to follow natural language instructions. However, the issue of automatically constructing high-quality training data to enhance the complex →

large language models instruction-following training data autoif rejection sampling

发现论文，激发创造

大型语言模型的指令跟随评估

通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”，并构建了约 500 个提示，每个提示包含一个或多个可验证指令。

Nov, 2023

从数量到质量：通过自导数据选择提高 LLM 性能以进行指令调整

大型语言模型的自主选择优化方法以及通过 IFD 指标识别差异以提高模型训练效率的研究对于提高 LLM 的效率和资源利用具有重要意义。

Aug, 2023

通过自然语言反馈训练，改进代码生成

本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性，ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现，并且比仅仅基于演示训练的方法更有效和更节省样本。

Mar, 2023

自动生成和排序黑盒语言模型的自动指导

LLMs 可以通过遵循自然语言指令来完成各种任务，但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法，通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序，自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明，Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外，我们的方法还具有显著的泛化能力，即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。

Oct, 2023

大规模语言反馈训练语言模型

利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Mar, 2023

对大型语言模型对齐的 AI 反馈的关键评估

强化学习与 AI 反馈（RLAIF）是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题，即对于 AI 反馈来说，这个 RL 步骤的复杂性是否真的有必要。我们发现，RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论者模型较弱的教师模型进行 SFT 数据收集的普遍做法。此外，我们发现 RLAIF 的收益在基础模型系列、测试时评估协议和评论者模型之间存在显著差异。最后，我们针对何时 SFT 可能优于完整的两步 RLAIF 流程以及如何使 RLAIF 在实践中最大化使用提供了一个机制解释和建议。

Feb, 2024

利用语言反馈模型进行政策改进

我们引入了语言反馈模型（LFMs），用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习，我们改善了在三个不同的语言基础环境（Touchdown、ScienceWorld 和 ALFWorld）上强大的行为克隆基线的任务完成率。同时，与使用 LLMs 直接预测动作相比，LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力，通过一轮适应提高了 3.5-12.0% 的任务完成率。最后，LFM 可以进行修改以提供具有人类可解释性的反馈，而不会损失性能，从而允许人类验证模仿学习中的理想行为。

Feb, 2024

自我学习方法：引入最小指导调整的提前停止准则

本文引入了指令追踪评分（IFS）这一度量标准，用于检测语言模型遵循指令的能力。我们通过基准测试公开可用的基础模型和指令模型，并展示了格式良好回应与部分和完整句子之间的比例可以作为这两类模型之间有效的衡量指标。此外，我们还利用 IFS 作为指令调整的早停准则，在 7B 和 13B LLaMA 模型的监督微调中计算 IFS，结果表明模型在训练过程中相对早期就学会了遵循指令，并且进一步微调可以导致基础模型语义的变化。我们通过一个辅助标准 ObjecQA 来展示模型预测的客观性的变化。我们展示了在这种情况下 IFS 趋于平稳时语义变化最为显著。我们希望将指令调整分解为 IFS，以便更好地处理和理解。

Jul, 2023

开源 LLM 指令调整的自动指令优化

通过自动修订样本来增强指令数据集的质量，CoachLM 训练自人工专家修订过的样本，并将数据集中高质量样本的比例从 17.7％提高到 78.9％。CoachLM 通过平均 29.9％的提升改善了指令调优的语言学习模型的指令跟随能力，并在华为的 LLM 数据管理系统中实现了高达 20％的效率提升。

Nov, 2023

大型语言模型中的指导位置在序列生成中的作用

通过改变任务指令在输入句子之后的位置，我们提出了一种增强大型语言模型的指令遵循功能的方法，该方法可以显著改善条件序列生成的零样本性能。

Aug, 2023