基于原则的惩罚方法在双层强化学习和 RLHF 中的应用

Feb, 2024

基于原则的惩罚方法在双层强化学习和 RLHF 中的应用

Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF

Han Shen, Zhuoran Yang, Tianyi Chen

TL;DR通过惩罚的形式引入首个系统的算法框架，解决了新的双层强化学习问题，包括激励设计、逆向强化学习和人类反馈强化学习，通过在 Stackelberg Markov 游戏、人类反馈强化学习和激励设计中的模拟验证了算法的有效性。

Abstract

bilevel optimization has been recently applied to many machine learning tasks. However, their applications have been restricted to the supervised learning setting, where static objective functions with benign str

bilevel optimization machine learning incentive design inverse reinforcement learning rl from human feedback

发现论文，激发创造

基于超梯度的双层强化学习方法并避免较低级别的凸性

通过使用与规则化 RL 相关的固定点方程，我们以全一阶信息表征超梯度，从而回避了对低级凸性的假设，并提出了基于模型和无模型的双层强化学习算法，都被证明具有收敛速度 O (ε^(-1))。

May, 2024

通过双层强化学习实现代理策略与外部性的对齐：奖励设计

以双层强化学习为基础的主体 - 代理框架，在不同方面的目标对齐下，通过寻找合适的奖励参数化，有效地使代理的策略与主体的目标保持一致。

Aug, 2023

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024

无反演深度双层优化的罚函数方法

本文提出了一种新颖的基于罚函数方法的二层优化问题算法，避免了计算 Hessian 逆矩阵的过程，并可轻松处理限制性二层问题。本方法证明收敛性并在大规模深度神经网络二层问题中表现优异，应用于数据去噪、few-shot 学习和训练数据污染问题，结果表明在准确性、运行时间和收敛速度方面均优于基于自动微分和近似求逆的以前提出的方法。

Nov, 2019

基于成对或 K 个比较的人类反馈的有原则强化学习

我们提供了一个针对具有人类反馈的强化学习 (RLHF) 的理论框架。通过分析我们发现当真实奖励函数是线性的时候，最大似然估计器 (MLE) 在 Bradley-Terry-Luce (BTL) 模型和 Plackett-Luce (PL) 模型下都能收敛。然而，我们表明，在基于学习的奖赏模型的策略时，MLE 失败，而一种悲观的 MLE 在某些涵盖假设下提供了改进的性能策略。此外，我们证明在 PL 模型下，真实 MLE 和一个将 K 路比较分成两两比较的替代 MLE 都会收敛。此外，真实 MLE 渐近地更有效。我们的结果验证了现有 RLHF 算法在 InstructGPT 上的实证成功，并为算法设计提供了新的见解。此外，我们的结果统一了 RLHF 问题和 max-entropy Inverse Reinforcement Learning (IRL) 问题，并为 max-entropy IRL 提供了第一个样本复杂度上界。

Jan, 2023

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024

基于原始 - 对偶辅助罚函数的耦合约束双层优化方法

我们的论文研究了具有耦合约束的双层优化问题，并开发了一种名为 BLOCC 的（完全）一阶算法，实现对这一具有挑战性但较少被探索的场景的解决。我们为所提算法建立了严格的收敛理论，并通过使用塞维利亚城市的真实数据，对 SVM 中的超参数选择和交通网络的基础设施规划这两个知名的实际应用进行了有效性验证。

Jun, 2024

基于探索驱动的强化学习策略优化在 RLHF 中的理论洞察：高效数据利用

基于人类反馈的强化学习 (RLHF) 在仅依赖少量人类反馈的情况下取得了令人瞩目的实证成功。本文提出了一种基于策略优化的 RLHF 算法 (PO-RLHF)，该算法不假设对奖励函数有先验知识，并通过基于轨迹的比较反馈来推断奖励函数。我们提供了具有低查询复杂度的 PO-RLHF 的性能界限，从而揭示了为什么少量人类反馈可能足以获得良好的 RLHF 性能。我们的工作的一个重要创新是采用轨迹级椭圆势分析技术来推断比较查询下的奖励函数参数，而非使用奖励观测。我们在线性和神经函数逼近两种情景下提供和分析了算法：PG-RLHF 和 NN-PG-RLHF。

Feb, 2024

探索层次感知逆强化学习

介绍了一种新的生成模型，可以准确预测符合人类规划特点的目标，并使用 BIHRL 算法推导出了规划者的值，其中包含了分级策略。该算法在 `Wikispeedia' 游戏玩家的目标预测中极大提高了准确性。

Jul, 2018