通过轻量级不确定性估计的对抗策略优化克服奖励过度优化

Mar, 2024

通过轻量级不确定性估计的对抗策略优化克服奖励过度优化

Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation

Xiaoying Zhang, Jean-Francois Ton, Wei Shen, Hongning Wang, Yang Liu

TL;DR引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法，通过对奖励模型的不确定性进行量化，并通过分布鲁棒优化处理奖励模型的置信区间，从而增强性能。

Abstract

We introduce adversarial policy optimization (AdvPO), a novel solution to the pervasive issue of reward over-optimization in Reinforcement Learning from Human Feedback (RLHF) for →

adversarial policy optimization reward over-optimization reinforcement learning from human feedback large language models enhanced performance

发现论文，激发创造

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

奖励模型合集有助于缓解过度优化

使用集合基的保守优化目标，能够在强化学习中有效抑制频繁优化，提高性能。

Oct, 2023

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

成对近邻策略优化：利用相对反馈进行 LLM 对齐

通过相对反馈，本文介绍了一种更简单而有效的方法，以相对反馈将大型语言模型对齐到人类的偏好。

Sep, 2023

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

深度强化学习中的对抗策略优化

本文提出了一种新的强化学习算法 APO，该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题，提高了学习策略的效率，并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明，我们的方法 APO 在性能上始终优于最先进的基于策略的 PPO 代理，并且与最先进的数据增强，RAD 和基于正式的 DRAC 等方法进行了比较。

Apr, 2023

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

价值激励偏好优化：在线和离线 RLHF 的统一方法

人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

May, 2024

基于探索驱动的强化学习策略优化在 RLHF 中的理论洞察：高效数据利用

基于人类反馈的强化学习 (RLHF) 在仅依赖少量人类反馈的情况下取得了令人瞩目的实证成功。本文提出了一种基于策略优化的 RLHF 算法 (PO-RLHF)，该算法不假设对奖励函数有先验知识，并通过基于轨迹的比较反馈来推断奖励函数。我们提供了具有低查询复杂度的 PO-RLHF 的性能界限，从而揭示了为什么少量人类反馈可能足以获得良好的 RLHF 性能。我们的工作的一个重要创新是采用轨迹级椭圆势分析技术来推断比较查询下的奖励函数参数，而非使用奖励观测。我们在线性和神经函数逼近两种情景下提供和分析了算法：PG-RLHF 和 NN-PG-RLHF。

Feb, 2024