大规模语言反馈训练语言模型

Mar, 2023

Training Language Models with Language Feedback at Scale

Jérémy Scheurer, Jon Ander Campos, Tomasz Korbak, Jun Shern Chan, Angelica Chen...

TL;DR利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Abstract

pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated o

pretrained language models imitation learning language feedback refinement summarization

发现论文，激发创造

通过自然语言反馈训练，改进代码生成

本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性，ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现，并且比仅仅基于演示训练的方法更有效和更节省样本。

Mar, 2023

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

利用语言反馈模型进行政策改进

我们引入了语言反馈模型（LFMs），用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习，我们改善了在三个不同的语言基础环境（Touchdown、ScienceWorld 和 ALFWorld）上强大的行为克隆基线的任务完成率。同时，与使用 LLMs 直接预测动作相比，LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力，通过一轮适应提高了 3.5-12.0% 的任务完成率。最后，LFM 可以进行修改以提供具有人类可解释性的反馈，而不会损失性能，从而允许人类验证模仿学习中的理想行为。

Feb, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

RLAIF：以 AI 反馈为基础的强化学习扩展

强化学习从人的反馈中能够很好地对齐大型语言模型，但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback（RLAIF）与强化学习从人的反馈（RLHF）的头对头比较，发现它们具有相似的改进效果。在摘要任务中，人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果，而不是基准的监督微调模型。此外，当被要求对 RLAIF 和 RLHF 的摘要进行评分时，人类选择它们的比例相等。这些结果表明，RLAIF 可以取得与人类水平相当的性能，从而解决 RLHF 的可扩展性限制。

Sep, 2023

对大型语言模型对齐的 AI 反馈的关键评估

强化学习与 AI 反馈（RLAIF）是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题，即对于 AI 反馈来说，这个 RL 步骤的复杂性是否真的有必要。我们发现，RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论者模型较弱的教师模型进行 SFT 数据收集的普遍做法。此外，我们发现 RLAIF 的收益在基础模型系列、测试时评估协议和评论者模型之间存在显著差异。最后，我们针对何时 SFT 可能优于完整的两步 RLAIF 流程以及如何使 RLAIF 在实践中最大化使用提供了一个机制解释和建议。

Feb, 2024

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

LLF-Bench：交互学习语言反馈的基准测试

LLF-Bench 是一个用于评估 AI 代理从自然语言反馈和指导中进行交互学习能力的新基准，包括用户推荐、写诗、导航和机器人控制等任务，拥有随机化技术和统一的 OpenAI Gym 接口，可用于开发和测试 LLF 代理。

Dec, 2023

自我对弈并结合执行反馈：提升大型语言模型的指令执行能力

首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF，能够显著提高大型语言模型的指示遵循能力，有效应用于 SFT、Offline DPO 和 Online DPO 训练算法，可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。

Jun, 2024

超级反馈：通过高质量反馈提升语言模型

通过创建大规模、高质量、多样化的偏好数据集 ULTRAFEEDBACK，我们训练各种模型来展示其有效性，并在多个基准测试中取得最佳表现。

Oct, 2023