具收敛保证的谱风险安全强化学习
提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法,使用自然策略梯度方法,并以全局优化策略为目标,最终达到 1 / 根号 T 的收敛速率和错误边界。
Nov, 2020
我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块,在训练效率和零 - shot 适应能力方面超过基准,同时在安全性和任务性能方面保持一个高水平。
Oct, 2023
本论文研究风险敏感强化学习,在已有 RSRL 方法存在优化偏差的理论下,提出新的 Trajectory Q-Learning 算法,能够有效地实现不同风险度量的风险敏感策略。
Jul, 2023
该研究通过引入新的期望最大化方法,并从概率推理的角度解决问题,将安全增强学习问题分解为凸优化和监督学习两个阶段,实现了更稳定和更高效的学习表现,并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。
Jan, 2022
该研究论文介绍了一种用于风险敏感分布式强化学习的策略梯度方法,以及一种基于分布式策略评估和轨迹梯度估计的分类分布式策略梯度算法(CDPG)。通过在随机悬崖环境上进行实验,展示了在分布式强化学习中考虑风险敏感性的益处。
May, 2024
本研究介绍了一种新的安全强化学习算法(Safety Critic Policy Optimization,SCPO),通过引入安全评判机制,该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡,并在实证验证中证明了其有效性。
Nov, 2023
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024
本文探讨了在概率受限制的强化学习中学习安全策略的问题,并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验,验证了这些方法的有效性和优越性。
Jun, 2023
本研究通过基于强对偶性的算法框架,在环境不确定性的一个类别中提出了第一个高效且可证明的解决方法,来解决分布鲁棒受限强化学习(DRC-RL)问题,该问题旨在最大化预期奖励,同时受制于环境分布变化和约束条件。
Jun, 2024