基于 Fenchel-Rockafellar 对偶的强化学习

Jan, 2020

基于 Fenchel-Rockafellar 对偶的强化学习

Reinforcement Learning via Fenchel-Rockafellar Duality

Ofir Nachum, Bo Dai

TL;DR本论文主要探讨凸对偶性的基本概念，重点关注最通用且超级有用的 Fenchel-Rockafellar 对偶性，总结了如何将此对偶性应用于各种强化学习（RL）场景中，包括策略评估或优化、在线或离线学习，以及折现或未折现奖励。

Abstract

We review basic concepts of convex duality, focusing on the very general and supremely useful fenchel-rockafellar duality. We summarize how this duality may be applied to a variety of →

convex duality fenchel-rockafellar duality reinforcement learning policy evaluation policy optimization

发现论文，激发创造

任意经验的模仿：强化学习和模仿学习方法的双重统一

该研究论文旨在通过对强化学习，凸优化和无偏学习方法进行研究，提出了一种新方法，即对偶 RL 方法，可以用于从离线偏置数据中进行无偏学习。

Feb, 2023

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

受约束强化学习具有零对偶间隙

本文针对自主制约智能方面存在的困境进行研究，主要研究如何应用 Primal-Dual 方法使其具有收敛性。通过探究多目标收益函数，多目标学习和多目标值函数相结合等方法的局限性，提出 Primal-Dual 算法。与其他算法不同，本方法可以在把冲突目标转化为受限制 RL 问题后得到实际的最优解，具有收敛性，并且可以扩展到一些神经网络模型上。

Oct, 2019

强化学习的双重视角对政策约束的施加

通过使用一种通用的原始对偶框架，将经典优化和控制理论与基于值和演员 - 评论家强化学习方法结合，本研究旨在统一和整合现有技术，并为学习的策略施加附加约束。构建出的 $ exttt {DualCRL}$ 算法支持各种策略约束的组合，在训练过程中使用可训练的奖励修改实现自动处理，实验证明了该方法的有效性，并为系统设计者提供了多种策略约束的工具箱。

Apr, 2024

双重二元性：用变分原对偶策略优化进行受约束强化学习

在这项研究中，我们通过实施 Lagrangian 和 Fenchel 对偶性，将原始约束问题重构为无约束原始 - 对偶优化问题，以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题，其中访问度量是凸约束。同时，通过将访问度量嵌入到有限维空间中，我们可以通过结合函数逼近来处理较大的状态空间。

Feb, 2024

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024

近端强化学习：原始对偶空间中序贯决策的新理论

本文提出了一种新的加强学习算法，使用似然变换、原始 - 对偶空间以及近端算子等技术，解决了关于如何设计可靠、收敛、稳健的加强学习算法、如何保证算法具有预设的安全保证、如何稳定地设计离线 - 在线学习算法、如何将加强学习与随机优化理论相结合等问题，为相关理论做出了丰富的探索和创新。

May, 2014

基于 Fenchel 二次对偶的多样化离线模仿

我们提出了一种离线技能发现算法，该算法基于互信息目标的最大化，通过 KL 散度进行约束，确保每种技能的状态占用率保持在离线数据集的支持范围内的专家状态占用率附近，从而学习与专家相一致的多样化技能。

Jul, 2023

深度原始 - 对偶强化学习：利用贝尔曼对偶加速演员 - 评论家算法

基于深度神经网络的参数 Primal-Dual pi 学习方法，旨在解决马尔可夫决策过程中状态空间大和策略离线学习问题，通过基本线性 Bellman 方法对价值和策略函数进行原始对偶更新，从而更加有效地进行价值和策略更新，在与同类方法比较的测试中表现明显优于最相关的基准方法

Dec, 2017

离轨原始 - 对偶安全强化学习

通过考虑成本估计的不确定性，我们提出了一种保守的策略优化方法，学习一个在满足限制条件的区域内的策略；并引入局部策略凸化方法逐渐减小估计的不确定性，以消除次优性。通过理论解释和实验证明，我们的方法在基准任务上不仅具有与最先进的同策略方法相媲美的渐近性能，而且在训练过程中显著减少了限制违规。

Jan, 2024