离轨原始 - 对偶安全强化学习 | BriefGPT

ICLRJan, 2024

离轨原始 - 对偶安全强化学习

Off-Policy Primal-Dual Safe Reinforcement Learning

Zifan Wu, Bo Tang, Qian Lin, Chao Yu, Shangqin Mao...

TL;DR通过考虑成本估计的不确定性，我们提出了一种保守的策略优化方法，学习一个在满足限制条件的区域内的策略；并引入局部策略凸化方法逐渐减小估计的不确定性，以消除次优性。通过理论解释和实验证明，我们的方法在基准任务上不仅具有与最先进的同策略方法相媲美的渐近性能，而且在训练过程中显著减少了限制违规。

Abstract

primal-dual safe rl methods commonly perform iterations between the primal update of the policy and the dual update of the Lagrange Multiplier. Such a training paradigm is highly susceptible to the error in cumulative cost estimation since this estimation serves as the key bond connect

primal-dual safe rl methods cumulative cost estimation off-policy methods conservative policy optimization local policy convexification

发现论文，激发创造

通过原始 - 对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题，使用一种约束的 Markov 决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

自适应原始对偶方法的安全强化学习

在这篇论文中，我们提出了自适应原始 - 对偶（APD）方法用于安全强化学习（SRL），并分析和评估了该算法在实际环境中的性能。结果表明，与常数学习率情况相比，实际 APD 算法在训练过程中具有更好的性能和更稳定的训练结果。

Feb, 2024

基于原始对偶策略优化的可证明高效安全探索

该论文使用 CMDP 公式研究了安全强化学习（SRL）问题，在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION（OPDOP）算法，利用最小二乘策略估计和安全探索额外奖励项来估计值函数。

Mar, 2020

强化学习的双重视角对政策约束的施加

通过使用一种通用的原始对偶框架，将经典优化和控制理论与基于值和演员 - 评论家强化学习方法结合，本研究旨在统一和整合现有技术，并为学习的策略施加附加约束。构建出的 $ exttt {DualCRL}$ 算法支持各种策略约束的组合，在训练过程中使用可训练的奖励修改实现自动处理，实验证明了该方法的有效性，并为系统设计者提供了多种策略约束的工具箱。

Apr, 2024

带安全约束的保守分布式强化学习

本文提出了一种名为约束保守分布最大后验策略优化（CDMPO）的离线强化学习算法用于安全探索中的约束决策问题，其中利用分布式强化学习方法准确估计 Q 函数和 C 函数，并利用保守的价值函数损失来减少违反约束的次数，同时使用加权平均比例积分微分（WAPID）来稳定更新拉格朗日乘子，在实验中表现出更好的风险控制能力。

Jan, 2022

面向安全多智体强化学习的可证明高效广义拉格朗日策略优化

本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法，经更新的 minimax 决策原始变量和双重变量，达到亚线性后悔率和约束违规率，实现对马尔可夫博弈的高效学习。

May, 2023

大语言模型的单次安全对准

将安全限制与人类偏好对齐的计算方法，通过预优化光滑凸函数，消除了原始 - 对偶策略迭代的繁琐过程，大大降低了计算负担和提高了训练稳定性。

May, 2024

双重二元性：用变分原对偶策略优化进行受约束强化学习

在这项研究中，我们通过实施 Lagrangian 和 Fenchel 对偶性，将原始约束问题重构为无约束原始 - 对偶优化问题，以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题，其中访问度量是凸约束。同时，通过将访问度量嵌入到有限维空间中，我们可以通过结合函数逼近来处理较大的状态空间。

Feb, 2024

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023