多目标强化学习从 AI 反馈
强化学习与 AI 反馈(RLAIF)是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题,即对于 AI 反馈来说,这个 RL 步骤的复杂性是否真的有必要。我们发现,RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论者模型较弱的教师模型进行 SFT 数据收集的普遍做法。此外,我们发现 RLAIF 的收益在基础模型系列、测试时评估协议和评论者模型之间存在显著差异。最后,我们针对何时 SFT 可能优于完整的两步 RLAIF 流程以及如何使 RLAIF 在实践中最大化使用提供了一个机制解释和建议。
Feb, 2024
通过使用 AI 反馈进行增强学习(RLAIF)在大型语言模型(LLM)训练的快速策略迭代阶段比通过人类反馈进行增强学习(RLHF)具有更短的注释周期和更低的成本,使其效率更高。本文提出了混合增强学习来自 AI 反馈(HRLAIF)方法,通过增强 AI 注释的准确性,使模型在训练过程中的帮助更可靠,并且通过 AI 进行红队行动,进一步提高模型的无害性。与 RL 之前的策略模型相比,HRLAIF 方法在满意率上实现了 2.08% 的增加,有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。
Mar, 2024
我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法,通过维护标量化权重的分布,交互式地调整深度强化学习代理向各种偏好的方向发展,从而将社会规范的不同展示组合成帕累托最优策略,并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证,并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步,弥合了当前奖励学习和机器伦理文献之间的差距。
Dec, 2021
强化学习从人的反馈中能够很好地对齐大型语言模型,但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback(RLAIF)与强化学习从人的反馈(RLHF)的头对头比较,发现它们具有相似的改进效果。在摘要任务中,人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果,而不是基准的监督微调模型。此外,当被要求对 RLAIF 和 RLHF 的摘要进行评分时,人类选择它们的比例相等。这些结果表明,RLAIF 可以取得与人类水平相当的性能,从而解决 RLHF 的可扩展性限制。
Sep, 2023
本研究提出了一种新型的多目标强化学习算法 PD-MORL,该算法利用偏好作为指导来更新网络参数,并采用一种新的并行化方法来提高采样效率,可覆盖整个偏好空间,适用于连续机器人任务的可伸缩性更强,相较于以往方法具有更高曲线下面积并且可训练参数量更少。
Aug, 2022
本文介绍了将多目标强化学习应用到连续控制问题中,通过元学习的方法探索可能的最优策略,以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。
Nov, 2018
利用先前示范、角重支持、自我演进机制和样本复杂度,我们引入了一种新型方法,即示范引导的多目标强化学习(DG-MORL),以解决多目标强化学习中从头开始训练策略的困难,并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性,同时提供了算法的样本复杂度上界。
Apr, 2024
通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF),通过多目标强化学习问题的建模,可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解,并在分布式环境中独立有效地进行训练,最后通过参数合并有效地实现多维度的个性化对齐。
Oct, 2023
使用 AI 反馈的强化学习(RLAIF)已在多个领域展示了巨大的潜力,包括减少 LLM 输出中的伤害、提升文本摘要以及数学推理等。本文引入了一个 RLAIF 框架,用于提高轻量级(小于 1B 参数)LLMs 的代码生成能力,特别关注需要编写适当 API 调用的代码生成任务,并通过专门的提示策略从更大的 LLM(例如 GPT-3.5)中提取 AI 反馈数据,用于训练更小 LLMs 的奖励模型以实现更好的对齐。我们在 Gorilla 数据集上运行实验,并通过 AST、ROUGE 和 Code-BLEU 等多个指标精确评估模型生成的代码的质量,并开发一个能够准确计算其可执行性率的流程。我们的方法显著提升了微调 LLM 基线的性能,使可执行性率提高了 4.5%。值得注意的是,使用 RLAIF 训练的一个更小的 LLM 模型(780M 参数)超过了一个具有 7B 参数的更大的微调基线,使得代码的可执行性率提高了 1.0%。
Jun, 2024