- 自适应屏蔽在黑盒环境中的安全强化学习
在训练过程中,通过使用一种名为 ADVICE 的自适应屏蔽技术,可以识别出状态 - 动作对的安全和不安全特征,从而保护强化学习代理避免执行可能产生危险结果的动作,有效降低安全违规风险。
- 仿真机器人臂的安全强化学习
通过在 Panda 机械臂创建自定义环境,扩展安全强化学习算法的适用性,并通过与基准版本的比较表明,在满足安全约束条件的同时,受限版本能够学习到同样好的策略,但需要更长的训练时间。
- 基于像素观测的逐州安全强化学习
本文提出了一种新的像素观测安全强化学习算法,通过引入潜在障碍函数学习机制,高效地编码未知危险区域的状态安全约束,并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架,从而在提高安全性和总预期收益方面取得显著的结果。在 - 强化学习中的安全探索:广义形式与算法
在本篇论文中,我们提出了一个名为广义安全探索(GSE)的问题,并使用元算法 MASE 解决了这个问题,该算法结合了无限制的强化学习算法和不确定性量化器,以确保当前回合的安全性,同时在实际安全违规之前对不安全的探索进行适当的惩罚,以防止它们在 - 安全强化学习的概率反例指导
本文提出了一个针对安全探索的方法,通过与安全需求反例指导训练,将连续和离散状态空间系统抽象成紧凑的抽象模型,并利用概率反例生成构造出最小化安全需求违规的模拟子模型,从而使代理人能够有效地训练其策略,以在随后的在线探索过程中尽量减少安全违规风 - 有限制马尔可夫潜在博弈中可证明学习纳什策略
本文提出了一种名为 CA-CMPG 的算法,它可以通过 Coordinate-Ascent 方式收敛到表格型、有限时间段的 CMPGs 的 Nash 策略,并提供了第一个适用于 CMPGs 的样本复杂度边界和安全探索的额外假设。
- System III: 使用领域知识进行学习以满足安全限制
提出了一种新颖的框架,在强化学习代理中引入领域知识以促进安全探索和提高样本效率,该方法在 OpenAI 的 Gym 和 Safety-Gym 环境中的任务中均表现出了更安全的探索和更高的样本效率。
- 安全探索的 Atari 代理人的近似屏蔽
研究探讨如何在强化学习中实现安全探索,提出了一种基于 latent shielding 的算法,能有效减少安全违规率并提高最终代理的收敛速度和质量。
- KDD存在干扰下的强化学习安全探索方法
提出了一种安全探索方法,该方法利用受控对象和干扰的部分先前知识,以确保满足特定的状态约束条件,即使受控对象暴露于遵循正常分布的随机干扰下。
- 对比风险预测下的安全强化学习
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现 - ICLR安全探索对无回报强化学习几乎没有额外的样本复杂度负担
本研究提出了一种统一的安全奖励免费探索 (SWEET) 框架,包括 Tabular 和 Low-rank MDP 两个算法,并证明安全约束几乎不会增加 RF-RL 的样本复杂度。
- 安全状态增强对安全探索的影响
在模型无关强化学习中,通过引入安全状态来解决安全成本稀疏和未知的问题,其价值也作为违约距离,初始值反映了可用的安全预算。该方法有助于制定安全预算调度策略,称为 Simmer,可提高两种安全强化学习问题的安全性,提高平均约束下安全强化学习的性 - 部分可观测情况下的屏蔽防护强化学习
研究了强化学习中的安全探索问题,提出了一种叫做 shield 的方法来确保代理人只进行安全的操作,并深度结合使用 state-of-the-art deep RL 来提高 RL 代理人的性能,实验证明这种方法可以提高收敛速度和最终表现,并可 - AAAI非平稳目标和约束的可证明高效原始 - 对偶强化学习在 CMDPs 中的应用
本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始 - 对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的 RL 算法,同时建立了动态遗憾界和约束违规界。
- ICLR勘探的保守安全批评家
本文介绍了一种基于保守安全估计的强化学习安全探索方法,通过批判学习环境状态的保守安全估计,从理论上上界限制了灾难性失败概率,实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能,同步显著降低了灾难性失败率。
- 强化学习中状态和动作空间的安全探索
本篇论文针对强化学习中的安全探索这一问题,提出 PI-SRL 算法在解决复杂任务,包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。
- 马尔可夫决策过程中的安全探索
本文提出了一种基于安全的强化学习探索方法,通过限制注意力在一组安全的最小子集中,实现安全探索策略的优化,该方法在以前提出的大多数探索方法中可兼容,并在火星地形探索问题中得到了验证。