多目标强化学习从 AI 反馈

Jun, 2024

Multi-objective Reinforcement learning from AI Feedback

Marcus Williams

TL;DR多目标强化学习（MORLAIF）通过使用 AI 反馈强化学习来改善语言模型的对齐和性能，将这一任务分解为多个简单的原则，如毒性、客观性和谄媚，并使用 GPT-3.5-Turbo 的反馈进行各原则的偏好模型训练，然后利用不同的标量化函数将这些偏好模型分数组合，为目标语言模型的 PPO（Proximal Policy Optimization）训练提供奖励信号。实验证明 MORLAIF 优于标准 RLAIF 基线，并且 MORLAIF 可用于使用较小的语言模型对齐更大的语言模型。令人惊讶的是，标量化函数的选择似乎没有对结果产生显著影响。

Abstract

This paper presents multi-objective reinforcement learning from ai feedback (MORLAIF), a novel approach to improving the alignment and performance of →

multi-objective reinforcement learning ai feedback language models preference models proximal policy optimization

发现论文，激发创造

对大型语言模型对齐的 AI 反馈的关键评估

强化学习与 AI 反馈（RLAIF）是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题，即对于 AI 反馈来说，这个 RL 步骤的复杂性是否真的有必要。我们发现，RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论者模型较弱的教师模型进行 SFT 数据收集的普遍做法。此外，我们发现 RLAIF 的收益在基础模型系列、测试时评估协议和评论者模型之间存在显著差异。最后，我们针对何时 SFT 可能优于完整的两步 RLAIF 流程以及如何使 RLAIF 在实践中最大化使用提供了一个机制解释和建议。

Feb, 2024

HRLAIF：通过 AI 反馈在开放域强化学习中的有用性和无害性改进

通过使用 AI 反馈进行增强学习（RLAIF）在大型语言模型（LLM）训练的快速策略迭代阶段比通过人类反馈进行增强学习（RLHF）具有更短的注释周期和更低的成本，使其效率更高。本文提出了混合增强学习来自 AI 反馈（HRLAIF）方法，通过增强 AI 注释的准确性，使模型在训练过程中的帮助更可靠，并且通过 AI 进行红队行动，进一步提高模型的无害性。与 RL 之前的策略模型相比，HRLAIF 方法在满意率上实现了 2.08% 的增加，有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。

Mar, 2024

MORAL：通过多目标强化主动学习将人工智能与人类规范对齐

我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法，通过维护标量化权重的分布，交互式地调整深度强化学习代理向各种偏好的方向发展，从而将社会规范的不同展示组合成帕累托最优策略，并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证，并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步，弥合了当前奖励学习和机器伦理文献之间的差距。

Dec, 2021

RLAIF：以 AI 反馈为基础的强化学习扩展

强化学习从人的反馈中能够很好地对齐大型语言模型，但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback（RLAIF）与强化学习从人的反馈（RLHF）的头对头比较，发现它们具有相似的改进效果。在摘要任务中，人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果，而不是基准的监督微调模型。此外，当被要求对 RLAIF 和 RLHF 的摘要进行评分时，人类选择它们的比例相等。这些结果表明，RLAIF 可以取得与人类水平相当的性能，从而解决 RLHF 的可扩展性限制。

Sep, 2023

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

个性化汤：通过事后参数合并实现个性化大型语言模型对齐

通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF)，通过多目标强化学习问题的建模，可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解，并在分布式环境中独立有效地进行训练，最后通过参数合并有效地实现多维度的个性化对齐。

Oct, 2023

应用 RLAIF 用于轻量级 LLMs 中的 API 使用的代码生成

使用 AI 反馈的强化学习（RLAIF）已在多个领域展示了巨大的潜力，包括减少 LLM 输出中的伤害、提升文本摘要以及数学推理等。本文引入了一个 RLAIF 框架，用于提高轻量级（小于 1B 参数）LLMs 的代码生成能力，特别关注需要编写适当 API 调用的代码生成任务，并通过专门的提示策略从更大的 LLM（例如 GPT-3.5）中提取 AI 反馈数据，用于训练更小 LLMs 的奖励模型以实现更好的对齐。我们在 Gorilla 数据集上运行实验，并通过 AST、ROUGE 和 Code-BLEU 等多个指标精确评估模型生成的代码的质量，并开发一个能够准确计算其可执行性率的流程。我们的方法显著提升了微调 LLM 基线的性能，使可执行性率提高了 4.5%。值得注意的是，使用 RLAIF 训练的一个更小的 LLM 模型（780M 参数）超过了一个具有 7B 参数的更大的微调基线，使得代码的可执行性率提高了 1.0%。

Jun, 2024