自我对弈并结合执行反馈:提升大型语言模型的指令执行能力
通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”,并构建了约 500 个提示,每个提示包含一个或多个可验证指令。
Nov, 2023
大型语言模型的自主选择优化方法以及通过 IFD 指标识别差异以提高模型训练效率的研究对于提高 LLM 的效率和资源利用具有重要意义。
Aug, 2023
本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性,ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现,并且比仅仅基于演示训练的方法更有效和更节省样本。
Mar, 2023
LLMs 可以通过遵循自然语言指令来完成各种任务,但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法,通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序,自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明,Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外,我们的方法还具有显著的泛化能力,即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。
Oct, 2023
强化学习与 AI 反馈(RLAIF)是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题,即对于 AI 反馈来说,这个 RL 步骤的复杂性是否真的有必要。我们发现,RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论者模型较弱的教师模型进行 SFT 数据收集的普遍做法。此外,我们发现 RLAIF 的收益在基础模型系列、测试时评估协议和评论者模型之间存在显著差异。最后,我们针对何时 SFT 可能优于完整的两步 RLAIF 流程以及如何使 RLAIF 在实践中最大化使用提供了一个机制解释和建议。
Feb, 2024
我们引入了语言反馈模型(LFMs),用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习,我们改善了在三个不同的语言基础环境(Touchdown、ScienceWorld 和 ALFWorld)上强大的行为克隆基线的任务完成率。同时,与使用 LLMs 直接预测动作相比,LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力,通过一轮适应提高了 3.5-12.0% 的任务完成率。最后,LFM 可以进行修改以提供具有人类可解释性的反馈,而不会损失性能,从而允许人类验证模仿学习中的理想行为。
Feb, 2024
本文引入了指令追踪评分(IFS)这一度量标准,用于检测语言模型遵循指令的能力。我们通过基准测试公开可用的基础模型和指令模型,并展示了格式良好回应与部分和完整句子之间的比例可以作为这两类模型之间有效的衡量指标。此外,我们还利用 IFS 作为指令调整的早停准则,在 7B 和 13B LLaMA 模型的监督微调中计算 IFS,结果表明模型在训练过程中相对早期就学会了遵循指令,并且进一步微调可以导致基础模型语义的变化。我们通过一个辅助标准 ObjecQA 来展示模型预测的客观性的变化。我们展示了在这种情况下 IFS 趋于平稳时语义变化最为显著。我们希望将指令调整分解为 IFS,以便更好地处理和理解。
Jul, 2023
通过自动修订样本来增强指令数据集的质量,CoachLM 训练自人工专家修订过的样本,并将数据集中高质量样本的比例从 17.7%提高到 78.9%。CoachLM 通过平均 29.9%的提升改善了指令调优的语言学习模型的指令跟随能力,并在华为的 LLM 数据管理系统中实现了高达 20%的效率提升。
Nov, 2023