- 引导式在线蒸馏:通过离线演示提升安全强化学习
安全增强学习旨在找到在满足成本约束的同时实现高回报的策略。本研究提出了一种离线到在线的安全增强学习框架,通过引导在线安全增强学习训练,将离线决策变压器策略提炼为轻量级策略网络,在挑战性的安全关键场景中成功解决决策问题。
- 面向离散和连续强化学习的安全任务组合
本文基于布尔组合的模式,探究了学习任务的组成安全约束方面,在间格世界中运用价值迭代、在图像观察的网络中应用 Deep Q-Network (DQN),在连续 - 观察与连续 - 行动的子弹物理环境下应用 Twin Delayed DDPG - 有约束马尔可夫决策过程中拉格朗日方法的无撤销后悔界限
本文提出了一种基于 Lagrangian 方法的新型模型双重算法 OptAug-CMDP,针对标签化的有限路径 CMDP,证明了该算法在探索 CMDP 的 K 个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
- OmniSafe:用于加速安全强化学习研究的基础设施
本篇论文给出一个基础性安全强化学习框架,拥有不同领域跨越的一系列算法和重要的安全元素,以便更有效地研究 AI 安全和 SafeRL 算法实现。
- 可行策略迭代
本文研究安全强化学习问题,提出了一种名为可行策略迭代算法的间接安全强化学习方法,该算法通过使用一个称为约束衰减函数的可行性函数表示可行域,实现了保证策略的约束和可行性并达到优化目标。实验表明,可行策略迭代算法在经典控制任务和安全场景中能够取 - 多能源管理系统的自我完善硬约束条件下安全的强化学习
本文介绍了两项新的安全强化学习方法,OptLayerPolicy 和 self-improving hard constraints,将约束函数与 RL 形式解耦,以提高初始效用和准确性,提供了在模拟的多能源系统案例研究中实现 92.4%( - 通过概率逻辑屏障实现安全的强化学习
本文介绍了一种新的模型基础的安全增强学习技术 Probabilistic Logic Policy Gradient (PLPG),该技术使用概率逻辑编程将逻辑安全约束建模为可微分函数,可以与任何策略梯度算法无缝集成,同时提供相同的收敛保证 - 离线安全强化学习的约束决策 Transformer
该论文研究了如何从离线数据集中学习到一个安全政策,提出了一种多目标优化的方法,并通过 “ε- 可减” 向量量化了问题难度,发现在安全性和任务性能之间存在平衡,于是提出了一种 “受限决策 Transformer” 方法并进行了实验,结果表明我 - AAAI评估基于模型无关的强化学习在安全关键任务中的应用
本研究提出了一种新的安全强化学习技术,即 Unrolling Safety Layer 方法,它通过结合安全优化和安全投影的方式来显式地强制实施硬性约束条件,该技术在学习零成本回报政策上具有良好的鲁棒性和适用性,并且实现了与算法评估的有机结 - 可证明安全的二进制反馈强化学习
提出了一种名为 SABRE 的元算法,可以用于任何 MDP 环境中,并接收提供二进制状态 / 动作对 safety feedback 的离线 oracle, 通过主动学习在训练过程中控制查询 oracle 的数量,并且在合适的技术假设下能保 - 利用随机潜在表示从像素学习安全强化学习
本文提出了一种基于像素观察安全的强化学习方法,在部分可观察的马尔可夫决策过程框架下,使用一种新颖的安全评估方法来训练安全策略,使用基准数据证明了其相对于现有方法具有竞争性的性能和满足安全约束条件。
- 安全策略优化的约束更新投影方法
提出了一种基于限制更新投影框架的新型策略优化方法 CUP,其安全性得到了保证,并通过对代理人探索危险区域的限制来进一步确保安全;实验结果表明 CUP 具有较强的实际表现和安全性能。
- RASR: 带有 EVaR 和熵风险的风险规避型软鲁棒 MDPs
提出一种新的框架,称为 Risk-Averse and Soft-Robust methods (RASR),用于联合建模有限和无限时域 rMarkov 决策过程(MDP)中的认识不确定性和 aleatory 不确定性与刻画风险。在 RAS - ICMLSafeRL-Kit:用于安全自主驾驶的高效强化学习方法评估
本文提供 SafeRL-Kit 工具套件,其中包括最新的针对零违约任务的算法,详细比较 SafeRL-Kit 中的算法在安全自主驾驶方面的实用性,其中包括一个新的一阶方法 Exact Penalty Optimization (EPO)。
- 通过限制条件风险价值实现安全的强化学习
本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO),该算法利用条件风险价值 (CVaR) 进行评估,同时保持其 CVaR 在给定阈值以下,实现了在连续控制任务中对观测和转移扰 - ICLR关于在观测扰动下安全强化学习的鲁棒性
本文研究了安全强化学习中观测对抗攻击的安全性和鲁棒性,并提出了两种新方法以最大化代价或奖励来攻击目标,同时提出了一种鲁棒性训练框架。
- IJCAI带惩罚项的近端优化安全强化学习
本论文提出惩罚近端策略优化 (P3O) 算法,通过一个等效的无约束问题的单次极小化来解决繁琐的受约束策略迭代,同时可以扩展至多约束和多智能体场景,实验表明该算法在一组有约束的机车任务上具有先进性能。
- 从灾难性行动效应中学习防护措施:不要重复同样的错误
本文提出一种新型的部分可观测马尔可夫决策过程类别 -- 带有灾难性行动(POMDP-CA),通过引入一个叫做 shield 的概念,该方法可以避免智能体在学习时重复犯错、并在长期的、复杂的环境中实现习得控制策略的目标。
- 通过想象近未来来实现安全强化学习
本研究关注应用于现实世界问题中的强化学习算法,提出了一种基于模型的算法可以规避不安全状态并降低安全违规,在连续控制任务中取得相当的回报.
- 一种保守的更新策略算法,用于安全强化学习
本文提出了一种基于保守策略更新和理论安全保障的 CUP 算法,并将其与新提出的性能上限和替代函数相结合。在此基础上,文章扩展了替代函数的理论分析,提供了更紧的性能上限,同时基于 GAE 设计了实现更高效的 CUP,最终实验证明了该算法的有效