带安全约束的保守分布式强化学习

Jan, 2022

带安全约束的保守分布式强化学习

Conservative Distributional Reinforcement Learning with Safety Constraints

Hengrui Zhang, Youfang Lin, Sheng Han, Shuo Wang, Kai Lv

TL;DR本文提出了一种名为约束保守分布最大后验策略优化（CDMPO）的离线强化学习算法用于安全探索中的约束决策问题，其中利用分布式强化学习方法准确估计 Q 函数和 C 函数，并利用保守的价值函数损失来减少违反约束的次数，同时使用加权平均比例积分微分（WAPID）来稳定更新拉格朗日乘子，在实验中表现出更好的风险控制能力。

Abstract

safety exploration can be regarded as a constrained markov decision problem where the expected long-term cost is constrained. Previous off-policy algorithms convert the constrained optimization problem into the c

safety exploration constrained markov decision problem off-policy reinforcement learning lagrangian relaxation technique risk control

发现论文，激发创造

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

SCPO: 带安全评论家策略优化的安全强化学习

本研究介绍了一种新的安全强化学习算法（Safety Critic Policy Optimization，SCPO），通过引入安全评判机制，该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡，并在实证验证中证明了其有效性。

Nov, 2023

基于原始对偶策略优化的可证明高效安全探索

该论文使用 CMDP 公式研究了安全强化学习（SRL）问题，在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION（OPDOP）算法，利用最小二乘策略估计和安全探索额外奖励项来估计值函数。

Mar, 2020

约束型近端策略优化

本文提出了一种名为 CPPO 的新型一阶可行方法，将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布，并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略，解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证，该方法的有效性至少与其他基线方法一样。

May, 2023

约束策略优化

提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

通过反向价值函数的约束马尔可夫决策过程

本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题，该算法将成本累加约束转化为基于状态的约束，并确保代理在训练过程中满足这些约束，同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版 MuJoCo 环境中表现出色。

Aug, 2020

基于 Lyapunov 的连续控制安全策略优化

本研究利用 Lyapunov 方法，构建了基于约束的马尔可夫决策过程（CMDP）模型，并使用深度确定性策略梯度（DDPG）或近端策略优化（PPO）等标准策略梯度方法进行训练，通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上，以实现策略的近似约束满足，并且实现了较少保守的策略更新，针对数个模拟（MuJoCo）任务以及实际室内机器人导航问题的评估表明了我们算法的有效性，同时具有较高的数据利用效率。

Jan, 2019

各州受限制的政策优化

State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法，通过引入最大马尔科夫决策过程的框架，证明在期望下满足状态限制，并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。

Jun, 2023

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023