强化学习中的安全探索：广义形式与算法

Oct, 2023

强化学习中的安全探索：广义形式与算法

Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms

Akifumi Wachi, Wataru Hashimoto, Xun Shen, Kazumune Hashimoto

TL;DR在本篇论文中，我们提出了一个名为广义安全探索（GSE）的问题，并使用元算法MASE解决了这个问题，该算法结合了无限制的强化学习算法和不确定性量化器，以确保当前回合的安全性，同时在实际安全违规之前对不安全的探索进行适当的惩罚，以防止它们在未来回合中发生。MASE算法的优势在于我们可以在合理假设下优化策略，同时以很高的概率保证不违反任何安全约束。最后，我们演示了我们提出的算法在方格世界和Safety Gym基准测试上取得了比现有算法更好的性能，且即使在训练过程中也没有违反任何安全约束。

Abstract

safe exploration is essential for the practical use of reinforcement learning (RL) in many real-world scenarios. In this paper, we present a generalized →

发现论文，激发创造

强化学习中状态和动作空间的安全探索

本篇论文针对强化学习中的安全探索这一问题，提出 PI-SRL 算法在解决复杂任务，包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。

Feb, 2014

基于原始对偶策略优化的可证明高效安全探索

该论文使用CMDP公式研究了安全强化学习（SRL）问题，在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法-OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION（OPDOP）算法，利用最小二乘策略估计和安全探索额外奖励项来估计值函数。

Mar, 2020

勘探的保守安全批评家

本文介绍了一种基于保守安全估计的强化学习安全探索方法，通过批判学习环境状态的保守安全估计，从理论上上界限制了灾难性失败概率，实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能，同步显著降低了灾难性失败率。

Oct, 2020

安全状态增强对安全探索的影响

在模型无关强化学习中，通过引入安全状态来解决安全成本稀疏和未知的问题，其价值也作为违约距离，初始值反映了可用的安全预算。该方法有助于制定安全预算调度策略，称为Simmer，可提高两种安全强化学习问题的安全性，提高平均约束下安全强化学习的性能。

Jun, 2022

安全强化学习的概率反例指导

本文提出了一个针对安全探索的方法，通过与安全需求反例指导训练，将连续和离散状态空间系统抽象成紧凑的抽象模型，并利用概率反例生成构造出最小化安全需求违规的模拟子模型，从而使代理人能够有效地训练其策略，以在随后的在线探索过程中尽量减少安全违规风险。

Jul, 2023

强化学习中的保护进展：用于控制策略合成的安全贝叶斯探索

这篇论文研究了在强化学习过程中如何保证训练的安全性，通过提出一种新的架构处理效率和安全性之间的权衡，并利用贝叶斯推理和马尔可夫决策过程来近似风险，并通过实验结果展示了整体架构的性能。

Dec, 2023

安全强化学习中的约束形式调查

基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用，本研究综述了代表性约束形式以及专为每种形式设计的算法，并揭示了常见问题形式之间的数学相互关系，最后讨论了安全强化学习研究的现状和未来方向。

Feb, 2024

安全强化学习中平衡奖励与安全性优化：梯度操控视角

利用梯度操作理论解决强化学习中奖励和安全之间的冲突，通过提出一种软切换策略优化方法实现奖励和安全的平衡，进而提供一个安全强化学习框架。

May, 2024

使用贝叶斯世界模型和对数障碍优化的安全探索

一种用于处理约束马尔可夫决策过程的安全强化学习方法CERL被提出，该方法通过利用贝叶斯世界模型并建议对模型的认知不确定性持悲观态度的策略，确保了安全性和学习过程中的安全探索，实验结果显示CERL在处理基于图像观察的CMDP的安全性和最优性方面优于现有最先进方法。

May, 2024

重新审视安全探索中的安全强化学习

本研究着眼于安全强化学习中的一个关键问题，即现有安全指标未能有效区分成本的累积方式。我们提出了一种新的指标——预期最大连续成本步数（EMCC），能够更准确评估不安全步骤的严重性，从而提高训练过程中的安全性。研究表明，该指标在区分延续性和偶然性安全违规方面表现出色，并通过一系列基准测试验证了其有效性。

Sep, 2024